Her Token Eşit Değildir: Mixture-of-Depths (MoD) ve Dinamik Hesaplama Tahsisi

Giriş: Statik Hesaplama Savurganlığı

Geleneksel bir "Dense" Transformer modelinde (örneğin Llama-3 veya GPT-4), modelin mimarisi statiktir. Model, "ve" bağlacını işlerken de, "Kuantum Dolanıklığı" kavramını işlerken de tam olarak aynı sayıda katmanı (layer) ve aynı miktarda FLOPs (Floating Point Operations) gücünü kullanır.

Bu durum, devasa bir hesaplama israfıdır. Bir cümledeki tokenların büyük çoğunluğu dilbilgisel dolgu malzemesidir ve derinlemesine muhakeme gerektirmez.

2024'te Google DeepMind tarafından teorize edilen ve 2025'te açık kaynaklı modellere entegre edilen Mixture-of-Depths (MoD) mimarisi, bu paradigmaya son verir. MoD, modelin genişliğini değiştiren Mixture-of-Experts (MoE)'den farklı olarak, modelin derinliğini dinamik olarak değiştirir.

MoD Mimarisi ve Yönlendirici (Router) Mekanizması

MoD mimarisinin temel prensibi şudur: Modelin belirli katmanlarında, tokenların sadece küçük bir kısmı (örneğin %12.5'i) Self-Attention ve MLP bloklarından geçer. Geri kalan tokenlar, bu katmanı "pas geçer" (skip connection üzerinden akar).

Bu seçimi yapan mekanizmaya Yönlendirici (Router) adı verilir.

Matematiksel Karar Mekanizması

Her bir token ( $x_t$ ) için yönlendirici, skaler bir ağırlık değeri ( $r_t$ ) hesaplar. Bu değer, tokenın o katmandaki işlemeye ne kadar "ihtiyacı olduğunu" gösterir.

$r_t = x_t^T \cdot w_r$

Burada $w_r$ , yönlendiricinin öğrenilebilir ağırlık vektörüdür. Sistem daha sonra, o batch içindeki tüm tokenları $r_t$ puanlarına göre sıralar ve sadece en yüksek puana sahip olan Top-k tokenı işleme alır.

Seçilen tokenlar ( $P$ kümesi) bloğun içinden geçerken, seçilmeyenler ( $S$ kümesi) doğrudan çıkışa yönlendirilir:

$y_t = \begin{cases} f(x_t) + x_t & \text{eğer } t \in P \text{ (İşlendi)} \\ x_t & \text{eğer } t \in S \text{ (Pas Geçildi)} \end{cases}$

Bu sayede, zor bir kavramı temsil eden token 80 katmanın tamamından geçerken, basit bir noktalama işareti sadece 10 katmandan geçerek çıkışa ulaşabilir.

Kapasite Kısıtlaması ve "Iso-FLOP" Performansı

MoD'nin en büyük mühendislik zorluğu, donanım verimliliğini korumaktır. Rastgele sayıda tokenı işlemek, GPU'nun paralel işlem yapısını bozar (Dynamic Shape Problem).

Bunu çözmek için MoD, sabit kapasite (Capacity Cap) kullanır. Her blokta işlenecek token sayısı önceden belirlenmiştir (örn: toplam tokenların %12.5'i).

Iso-FLOP Analizi

Akademik araştırmalar, aynı eğitim bütçesi (Iso-FLOP) ve aynı çıkarım maliyeti ile karşılaştırıldığında, MoD modellerinin standart modellerden sürekli olarak daha düşük hata oranına (Lower Loss) sahip olduğunu göstermiştir. Yani model, "daha az işlem yaparak daha zeki" olmayı öğrenir; çünkü enerjisini sadece gerekli yerlere odaklar.

Yerel AI ve Donanım Üzerindeki Etkisi

Local LLM kullanıcıları (RTX 3090/4090/5090 sahipleri) için MoD, Throughput (Saniye başına token) artışı anlamına gelir.

Standart bir 70B modelde tüm katmanlar aktifken saniyede 15 token alıyorsanız, MoD mimarisine sahip bir modelde ortalama aktif parametre sayısı düştüğü için bu hız 30-40 token/saniye seviyelerine çıkabilir.

VRAM vs. Compute

MoE (Mixture of Experts): VRAM kullanımını artırır (tüm uzmanları belleğe yüklemek gerekir), hesaplamayı azaltır.
MoD (Mixture of Depths): VRAM kullanımı sabittir (standart modelle aynı), ancak hesaplama yükünü dramatik şekilde azaltır.

Bu nedenle MoD, bellek bant genişliğinden ziyade, işlemci (Compute) darboğazı yaşayan sistemler için ideal bir optimizasyondur.

Gelecek Vizyonu: MoE + MoD Hibrit Yapılar

2026 yılına yönelik projeksiyonlar, MoD (Derinlik Seçimi) ve MoE (Uzman Seçimi) mimarilerinin birleşeceğini göstermektedir.

Bir token düşünün ki;

Önce MoD yönlendiricisi "Bu tokenın işlenmeye ihtiyacı var mı?" diye sorar.
Eğer cevap "Evet" ise, MoE yönlendiricisi "Hangi uzman (Kodlama, Tarih, Mantık) bunu işlemeli?" diye sorar.

Bu "iki aşamalı seyrelme" (Double Sparsity), trilyon parametreli modellerin, bugünün 7B modelleri kadar az enerji harcayarak çalışmasını sağlayacak olan nihai mimaridir.

Sonuç: Akıllı Tembellik

Mixture-of-Depths, yapay zeka mühendisliğinde "akıllı tembellik" prensibinin zaferidir. Her veriyi aynı ciddiyetle işlemek yerine, modelin neyin önemli neyin önemsiz olduğuna karar verme yeteneği kazanması, biyolojik beyinlerin çalışma prensibine (Enerji Minimizasyonu) bir adım daha yaklaşmamızı sağlamıştır.

On-premise sistemlerde bu, aynı donanımla %50 daha fazla kullanıcıya hizmet verebilmek veya yanıt sürelerini yarıya indirmek anlamına gelir.

Giriş: Statik Hesaplama Savurganlığı

MoD Mimarisi ve Yönlendirici (Router) Mekanizması

Matematiksel Karar Mekanizması

Kapasite Kısıtlaması ve "Iso-FLOP" Performansı

Iso-FLOP Analizi

Yerel AI ve Donanım Üzerindeki Etkisi

VRAM vs. Compute

Gelecek Vizyonu: MoE + MoD Hibrit Yapılar

Sonuç: Akıllı Tembellik

Hız ve Zekayı Dengeleyin

Diğer Araştırmalar

KV Cache'in Sonu: Test-Time Training (TTT) ve Ephemeral Weight Mimarisi

Next-Token Prediction'ın Ötesi: World Models ve JEPA Mimarisi