Giriş: Dikkat Mekanizmasının Bellek Bedeli
Transformer mimarisi, 2017'den bu yana yapay zekanın tartışmasız kralı olsa da, temel bir kusuru vardır: Lineer olmayan bellek artışı. Standart bir Transformer'da, modelin okuduğu her yeni kelime (token), GPU belleğinde (VRAM) saklanması gereken bir "Key-Value (KV) Cache" oluşturur.
Context uzunluğu arttıkça, KV Cache boyutu o kadar büyür ki, bir noktada modelin kendi ağırlıklarından daha fazla yer kaplamaya başlar. Örneğin, 1 milyon tokenlık bir context, bir RTX 4090'ın belleğini saniyeler içinde tüketir.
2025'te Stanford ve diğer önde gelen laboratuvarlardan çıkan Test-Time Training (TTT) katmanları, bu soruna radikal bir çözüm getirir: *"Context'i bellekte saklamak yerine, onu ağırlıkların içine öğrenelim."*
TTT Hipotezi: Çıkarım (Inference) Aslında Bir Eğitimdir
Geleneksel görüşe göre "Eğitim" (Training) ve "Çıkarım" (Inference) iki ayrı süreçtir. Ancak TTT yaklaşımı, bir token dizisini işlemenin aslında bir öğrenme problemi olduğunu savunur.
Model geçmişe bakıp "Şu an ne demeliyim?" dediğinde, aslında geçmiş veriye (context) dayalı bir "minyatür eğitim" gerçekleştirir. TTT mimarisi, Transformer'lardaki Self-Attention mekanizmasını, geçici bir ağırlık güncellemesi ile değiştirir.
Matematiksel Temel: Hidden State Olarak Ağırlıklar ()
RNN'lerde (Recurrent Neural Networks), geçmiş bilgi sabit boyutlu bir gizli durumda () saklanırdı. Transformer'larda ise bu durum, sürekli büyüyen bir liste (KV Cache) idi.
TTT, gizli durumu () bir Ağırlık Matrisi () haline getirir. Model yeni bir token okuduğunda, bu matrisi Gradyan İnişi (Gradient Descent) benzeri bir kural ile günceller.
Burada:
- : O anki bağlamı sıkıştırılmış olarak tutan geçici ağırlıklar.
- : Öğrenme oranı (Learning rate - model içinde öğrenilir).
- : O anki girdiyi en iyi temsil edecek güncelleme vektörü.
Bu işlem, bağlam ne kadar uzun olursa olsun, bellekte kaplanan yerin sabit () kalmasını sağlar. Çünkü 1 token da okusanız, 1 milyon token da okusanız, sakladığınız tek şey matrisidir.
TTT-Linear ve TTT-MLP Katmanları
Bu mimari, standart Transformer bloklarının yerini almaya başlamıştır. İki ana bileşenden oluşur:
- TTT-Linear: Self-Attention katmanının yerini alır. Girdiyi () işlerken, aynı zamanda o girdiyi "öğrenir" ve ağırlıklarını günceller. Bu, "Inner Loop" (İç Döngü) olarak adlandırılır.
- TTT-MLP: Standart Feed-Forward ağına benzer, ancak statik ağırlıklar yerine, context'e göre evrilen dinamik ağırlıklarla çalışır.
Donanım Avantajı: I/O Darboğazını Kırmak
Modern GPU'larda (H100, B200, RTX 5090) asıl darboğaz hesaplama gücü (Compute) değil, bellek bant genişliğidir (Memory Bandwidth). Standart Attention mekanizması, sürekli olarak devasa KV Cache verisini bellekten işlemciye taşıyıp durur (Memory Bound).
TTT ise Compute Bound (Hesaplama Yoğun) bir işlemdir. Veriyi taşımak yerine, veriyi kullanarak hesaplama yapar. GPU'ların Tensor Core'ları hesaplama konusunda muazzam hızlı olduğu için, TTT katmanları pratikte Attention'dan çok daha hızlı çalışır ve VRAM'i doldurmaz.
| Özellik | Standart Transformer (Attention) | TTT (Test-Time Training) |
|---|---|---|
| Context Belleği | (Lineer büyür) | (Sabit kalır) |
| İşlem Türü | Memory Bound (Hafıza darboğazı) | Compute Bound (İşlemci gücü) |
| Uzun Context Hızı | Yavaşlar (Quadratic/Linear) | Sabit Hız |
| Bilgi Saklama | KV Cache (Ham Veri) | Weights (Sıkıştırılmış Bilgi) |
Ephemeral Weights (Geçici Ağırlıklar) Kavramı
TTT ile ilgili en ilginç kavramsal değişim, ağırlıkların kalıcılığıdır. Standart bir modelde ağırlıklar sabittir (frozen). TTT modelinde ise iki tür ağırlık vardır:
- Slow Weights (Yavaş Ağırlıklar): Modelin ana eğitimi sırasında öğrenilen, dilin genel yapısını tutan kalıcı parametreler.
- Fast Weights (Hızlı Ağırlıklar): Sadece o anki prompt veya doküman okunurken oluşturulan, iş bittiğinde silinen (ephemeral) parametreler.
Sonuç: Tüketici Donanımında Milyon Token
Test-Time Training, 2026 yılına girerken "Fine-tuning" ile "Inference" arasındaki çizgiyi silmektedir. Bu teknoloji sayesinde, bir kullanıcı evindeki RTX 5090 kartında, yüzlerce kitabı (milyonlarca token) aynı anda yükleyip, sanki model bu kitaplarla eğitilmişçesine (ancak eğitim maliyeti ödemeden) anlık yanıtlar alabilmektedir.
KV Cache'in ölümü, yerel yapay zeka (Local AI) için yeni bir çağın başlangıcıdır. Artık VRAM miktarı değil, TFLOPS (İşlem gücü) belirleyici faktördür.