Giriş: Statik Hesaplama Savurganlığı
Geleneksel bir "Dense" Transformer modelinde (örneğin Llama-3 veya GPT-4), modelin mimarisi statiktir. Model, "ve" bağlacını işlerken de, "Kuantum Dolanıklığı" kavramını işlerken de tam olarak aynı sayıda katmanı (layer) ve aynı miktarda FLOPs (Floating Point Operations) gücünü kullanır.
Bu durum, devasa bir hesaplama israfıdır. Bir cümledeki tokenların büyük çoğunluğu dilbilgisel dolgu malzemesidir ve derinlemesine muhakeme gerektirmez.
2024'te Google DeepMind tarafından teorize edilen ve 2025'te açık kaynaklı modellere entegre edilen Mixture-of-Depths (MoD) mimarisi, bu paradigmaya son verir. MoD, modelin genişliğini değiştiren Mixture-of-Experts (MoE)'den farklı olarak, modelin derinliğini dinamik olarak değiştirir.
MoD Mimarisi ve Yönlendirici (Router) Mekanizması
MoD mimarisinin temel prensibi şudur: Modelin belirli katmanlarında, tokenların sadece küçük bir kısmı (örneğin %12.5'i) Self-Attention ve MLP bloklarından geçer. Geri kalan tokenlar, bu katmanı "pas geçer" (skip connection üzerinden akar).
Bu seçimi yapan mekanizmaya Yönlendirici (Router) adı verilir.
Matematiksel Karar Mekanizması
Her bir token () için yönlendirici, skaler bir ağırlık değeri () hesaplar. Bu değer, tokenın o katmandaki işlemeye ne kadar "ihtiyacı olduğunu" gösterir.
Burada , yönlendiricinin öğrenilebilir ağırlık vektörüdür. Sistem daha sonra, o batch içindeki tüm tokenları puanlarına göre sıralar ve sadece en yüksek puana sahip olan Top-k tokenı işleme alır.
Seçilen tokenlar ( kümesi) bloğun içinden geçerken, seçilmeyenler ( kümesi) doğrudan çıkışa yönlendirilir:
Bu sayede, zor bir kavramı temsil eden token 80 katmanın tamamından geçerken, basit bir noktalama işareti sadece 10 katmandan geçerek çıkışa ulaşabilir.
Kapasite Kısıtlaması ve "Iso-FLOP" Performansı
MoD'nin en büyük mühendislik zorluğu, donanım verimliliğini korumaktır. Rastgele sayıda tokenı işlemek, GPU'nun paralel işlem yapısını bozar (Dynamic Shape Problem).
Bunu çözmek için MoD, sabit kapasite (Capacity Cap) kullanır. Her blokta işlenecek token sayısı önceden belirlenmiştir (örn: toplam tokenların %12.5'i).
Iso-FLOP Analizi
Akademik araştırmalar, aynı eğitim bütçesi (Iso-FLOP) ve aynı çıkarım maliyeti ile karşılaştırıldığında, MoD modellerinin standart modellerden sürekli olarak daha düşük hata oranına (Lower Loss) sahip olduğunu göstermiştir. Yani model, "daha az işlem yaparak daha zeki" olmayı öğrenir; çünkü enerjisini sadece gerekli yerlere odaklar.
Yerel AI ve Donanım Üzerindeki Etkisi
Local LLM kullanıcıları (RTX 3090/4090/5090 sahipleri) için MoD, Throughput (Saniye başına token) artışı anlamına gelir.
Standart bir 70B modelde tüm katmanlar aktifken saniyede 15 token alıyorsanız, MoD mimarisine sahip bir modelde ortalama aktif parametre sayısı düştüğü için bu hız 30-40 token/saniye seviyelerine çıkabilir.
VRAM vs. Compute
- MoE (Mixture of Experts): VRAM kullanımını artırır (tüm uzmanları belleğe yüklemek gerekir), hesaplamayı azaltır.
- MoD (Mixture of Depths): VRAM kullanımı sabittir (standart modelle aynı), ancak hesaplama yükünü dramatik şekilde azaltır.
Bu nedenle MoD, bellek bant genişliğinden ziyade, işlemci (Compute) darboğazı yaşayan sistemler için ideal bir optimizasyondur.
Gelecek Vizyonu: MoE + MoD Hibrit Yapılar
2026 yılına yönelik projeksiyonlar, MoD (Derinlik Seçimi) ve MoE (Uzman Seçimi) mimarilerinin birleşeceğini göstermektedir.
Bir token düşünün ki;
- Önce MoD yönlendiricisi "Bu tokenın işlenmeye ihtiyacı var mı?" diye sorar.
- Eğer cevap "Evet" ise, MoE yönlendiricisi "Hangi uzman (Kodlama, Tarih, Mantık) bunu işlemeli?" diye sorar.
Sonuç: Akıllı Tembellik
Mixture-of-Depths, yapay zeka mühendisliğinde "akıllı tembellik" prensibinin zaferidir. Her veriyi aynı ciddiyetle işlemek yerine, modelin neyin önemli neyin önemsiz olduğuna karar verme yeteneği kazanması, biyolojik beyinlerin çalışma prensibine (Enerji Minimizasyonu) bir adım daha yaklaşmamızı sağlamıştır.
On-premise sistemlerde bu, aynı donanımla %50 daha fazla kullanıcıya hizmet verebilmek veya yanıt sürelerini yarıya indirmek anlamına gelir.