KV Cache'in Sonu: Test-Time Training (TTT) ve Ephemeral Weight Mimarisi

Giriş: Dikkat Mekanizmasının Bellek Bedeli

Transformer mimarisi, 2017'den bu yana yapay zekanın tartışmasız kralı olsa da, temel bir kusuru vardır: Lineer olmayan bellek artışı. Standart bir Transformer'da, modelin okuduğu her yeni kelime (token), GPU belleğinde (VRAM) saklanması gereken bir "Key-Value (KV) Cache" oluşturur.

Context uzunluğu arttıkça, KV Cache boyutu o kadar büyür ki, bir noktada modelin kendi ağırlıklarından daha fazla yer kaplamaya başlar. Örneğin, 1 milyon tokenlık bir context, bir RTX 4090'ın belleğini saniyeler içinde tüketir.

2025'te Stanford ve diğer önde gelen laboratuvarlardan çıkan Test-Time Training (TTT) katmanları, bu soruna radikal bir çözüm getirir: *"Context'i bellekte saklamak yerine, onu ağırlıkların içine öğrenelim."*

TTT Hipotezi: Çıkarım (Inference) Aslında Bir Eğitimdir

Geleneksel görüşe göre "Eğitim" (Training) ve "Çıkarım" (Inference) iki ayrı süreçtir. Ancak TTT yaklaşımı, bir token dizisini işlemenin aslında bir öğrenme problemi olduğunu savunur.

Model geçmişe bakıp "Şu an ne demeliyim?" dediğinde, aslında geçmiş veriye (context) dayalı bir "minyatür eğitim" gerçekleştirir. TTT mimarisi, Transformer'lardaki Self-Attention mekanizmasını, geçici bir ağırlık güncellemesi ile değiştirir.

Matematiksel Temel: Hidden State Olarak Ağırlıklar ( $W$ )

RNN'lerde (Recurrent Neural Networks), geçmiş bilgi sabit boyutlu bir gizli durumda ( $h_t$ ) saklanırdı. Transformer'larda ise bu durum, sürekli büyüyen bir liste (KV Cache) idi.

TTT, gizli durumu ( $h_t$ ) bir Ağırlık Matrisi ( $W_t$ ) haline getirir. Model yeni bir token okuduğunda, bu matrisi Gradyan İnişi (Gradient Descent) benzeri bir kural ile günceller.

$W_t = W_{t-1} - \eta \nabla \ell(x_t; W_{t-1})$

Burada:

$W_t$ : O anki bağlamı sıkıştırılmış olarak tutan geçici ağırlıklar.
$\eta$ : Öğrenme oranı (Learning rate - model içinde öğrenilir).
$\nabla \ell$ : O anki girdiyi en iyi temsil edecek güncelleme vektörü.

Bu işlem, bağlam ne kadar uzun olursa olsun, bellekte kaplanan yerin sabit ( $O(1)$ ) kalmasını sağlar. Çünkü 1 token da okusanız, 1 milyon token da okusanız, sakladığınız tek şey $W_t$ matrisidir.

TTT-Linear ve TTT-MLP Katmanları

Bu mimari, standart Transformer bloklarının yerini almaya başlamıştır. İki ana bileşenden oluşur:

TTT-Linear: Self-Attention katmanının yerini alır. Girdiyi ( $x_t$ ) işlerken, aynı zamanda o girdiyi "öğrenir" ve ağırlıklarını günceller. Bu, "Inner Loop" (İç Döngü) olarak adlandırılır.
TTT-MLP: Standart Feed-Forward ağına benzer, ancak statik ağırlıklar yerine, context'e göre evrilen dinamik ağırlıklarla çalışır.

Donanım Avantajı: I/O Darboğazını Kırmak

Modern GPU'larda (H100, B200, RTX 5090) asıl darboğaz hesaplama gücü (Compute) değil, bellek bant genişliğidir (Memory Bandwidth). Standart Attention mekanizması, sürekli olarak devasa KV Cache verisini bellekten işlemciye taşıyıp durur (Memory Bound).

TTT ise Compute Bound (Hesaplama Yoğun) bir işlemdir. Veriyi taşımak yerine, veriyi kullanarak hesaplama yapar. GPU'ların Tensor Core'ları hesaplama konusunda muazzam hızlı olduğu için, TTT katmanları pratikte Attention'dan çok daha hızlı çalışır ve VRAM'i doldurmaz.

Özellik	Standart Transformer (Attention)	TTT (Test-Time Training)
Context Belleği	$O(N)$ (Lineer büyür)	$O(1)$ (Sabit kalır)
İşlem Türü	Memory Bound (Hafıza darboğazı)	Compute Bound (İşlemci gücü)
Uzun Context Hızı	Yavaşlar (Quadratic/Linear)	Sabit Hız
Bilgi Saklama	KV Cache (Ham Veri)	Weights (Sıkıştırılmış Bilgi)

Ephemeral Weights (Geçici Ağırlıklar) Kavramı

TTT ile ilgili en ilginç kavramsal değişim, ağırlıkların kalıcılığıdır. Standart bir modelde ağırlıklar sabittir (frozen). TTT modelinde ise iki tür ağırlık vardır:

Slow Weights (Yavaş Ağırlıklar): Modelin ana eğitimi sırasında öğrenilen, dilin genel yapısını tutan kalıcı parametreler.
Fast Weights (Hızlı Ağırlıklar): Sadece o anki prompt veya doküman okunurken oluşturulan, iş bittiğinde silinen (ephemeral) parametreler.

Bu yapı, insan beynindeki "Uzun Süreli Bellek" ve "Kısa Süreli Bellek (Working Memory)" ayrımına biyolojik olarak çok daha yakındır.

Sonuç: Tüketici Donanımında Milyon Token

Test-Time Training, 2026 yılına girerken "Fine-tuning" ile "Inference" arasındaki çizgiyi silmektedir. Bu teknoloji sayesinde, bir kullanıcı evindeki RTX 5090 kartında, yüzlerce kitabı (milyonlarca token) aynı anda yükleyip, sanki model bu kitaplarla eğitilmişçesine (ancak eğitim maliyeti ödemeden) anlık yanıtlar alabilmektedir.

KV Cache'in ölümü, yerel yapay zeka (Local AI) için yeni bir çağın başlangıcıdır. Artık VRAM miktarı değil, TFLOPS (İşlem gücü) belirleyici faktördür.

Giriş: Dikkat Mekanizmasının Bellek Bedeli

TTT Hipotezi: Çıkarım (Inference) Aslında Bir Eğitimdir

Matematiksel Temel: Hidden State Olarak Ağırlıklar (WWW)

TTT-Linear ve TTT-MLP Katmanları

Donanım Avantajı: I/O Darboğazını Kırmak

Ephemeral Weights (Geçici Ağırlıklar) Kavramı

Sonuç: Tüketici Donanımında Milyon Token

1 Milyon Token Context Artık Hayal Değil

Diğer Araştırmalar

MatMul-Free Devrimi: 1-bit LLM'ler ve Ternary (Üçlü) Ağırlık Mimarisi

Her Token Eşit Değildir: Mixture-of-Depths (MoD) ve Dinamik Hesaplama Tahsisi

Matematiksel Temel: Hidden State Olarak Ağırlıklar ( $W$ )