Eğitim Bitti, Düşünme Başladı: Inference-Time Compute ve System 2 Ölçeklenmesi

Giriş: Hızlı Düşünme (System 1) vs. Yavaş Düşünme (System 2)

2023-2024 dönemindeki tüm LLM'ler (GPT-4, Claude 3, Llama 3) esasen System 1 düşünürleriydi. Daniel Kahneman'ın teorisine göre System 1; hızlı, içgüdüsel ve otomatiktir. Bir LLM'e "2+2?" diye sorduğunuzda veya "Bir şiir yaz" dediğinizde, yanıtı milisaniyeler içinde token token döker. Düşünmez, sadece *refleks* verir.

Ancak karmaşık matematik, kodlama veya strateji sorularında bu refleks yetersiz kalır. İnsanlar zor bir problemle karşılaştığında durur, kağıt kalem alır ve adımları planlar (System 2).

2025'in yeni paradigması Inference-Time Compute, yapay zekaya bu "durup düşünme" yeteneğini kazandırmıştır. Artık modellerin performansı sadece eğitimdeki veri miktarıyla değil, cevap verirken harcadıkları işlem gücüyle (compute) de artmaktadır.

1. Yeni Ölçeklenme Yasası (The New Scaling Law)

Eskiden "Model ne kadar büyükse o kadar zekidir" (Kaplan et al., 2020) kuralı geçerliydi. Şimdi ise denklem değişti:

$\text{Performance} \propto (\text{Pre-training Compute}) \times (\text{Inference-Time Compute})$

Bu, devrim niteliğinde bir sonuç doğurur: Daha küçük bir model (örn. 8B parametre), eğer üzerinde yeterince uzun süre "düşünmesine" izin verilirse, devasa bir modelden (örn. 70B) daha iyi sonuç verebilir.

Test-Time Compute Nasıl Çalışır?

Model, kullanıcıya nihai cevabı vermeden önce, arka planda binlerce "gizli düşünce zinciri" (Hidden Chain of Thought) üretir.

Problemi parçalara böler.
Çözüm yolları üretir.
Hata yaptığını fark ederse geri döner (Backtracking).
Alternatif yolları dener (Tree Search).

Kullanıcı bu süreci görmez, sadece süzülmüş, doğrulanmış "altın" cevabı görür.

2. Denetim Mekanizması: PRM vs. ORM

Modelin "doğru düşündüğünü" nasıl bileceğiz? Burada iki tür ödül modeli (Reward Model) devreye girer:

Outcome Reward Models (ORM)

Eski yöntemdir. Modelin cevabına bakar ve "Doğru" veya "Yanlış" der. Satrançta sadece maç sonucuna (Mat) bakmak gibidir. Ara adımlardaki hataları düzeltemez.

Process Reward Models (PRM) - Game Changer

Yeni standarttır. Modelin attığı her bir mantık adımını puanlar.

*Adım 1:* $x = 5$ tanımlandı. (Puan: 0.9)
*Adım 2:* Her iki taraf 2 ile çarpıldı. (Puan: 0.1 - Hata Var!)

PRM sayesinde model, düşünme zincirinin sonuna gelmeden hatasını fark eder ve o daldan (branch) vazgeçerek başka bir çözüm yoluna sapar. Bu, Monte Carlo Tree Search (MCTS) algoritmalarının LLM'lere entegre edilmesidir.

3. Arama Stratejileri: Best-of-N ve Tree of Thoughts

Inference sırasında modelin zekasını artırmak için kullanılan teknikler, donanım gücüne açtır:

Best-of-N Sampling: Model aynı soruya paralel olarak 64 farklı cevap üretir. Bir Verifier (Doğrulayıcı) en iyisini seçer. Bu, doğruluğu ciddi oranda artırır ancak maliyeti N katına çıkarır.
Tree of Thoughts (ToT): Model, satranç oynar gibi olası gelecek adımları ağaç yapısında simüle eder. Sadece "umut vaat eden" dalları genişletir.
Self-Correction: Model kendi çıktısını okur, "Burada bir mantık hatası var mı?" diye sorar ve cevabını revize eder.

4. Donanım ve RTX 5090 Etkisi

Kullanıcılarımız için en kritik nokta burasıdır. Inference-Time Compute, VRAM kapasitesinden ziyade KV Cache (Key-Value Cache) yönetimine ve Memory Bandwidth'e yüklenir.

Uzun Düşünce Zincirleri: Modelin bir soruya cevap vermeden önce ürettiği "gizli düşünceler" on binlerce token uzunluğunda olabilir. Bu tokenların KV Cache'de tutulması gerekir.
Yerel Reasoning: 24GB+ VRAM'e sahip RTX 3090/4090/5090 kartlar, 8B-14B boyutundaki "Reasoning" modellerini (örn. DeepSeek-Math, Llama-3-Reasoning) çalıştırıp, onlara yerel olarak "düşünme alanı" sağlamak için idealdir.
Gecikme (Latency) Kabulü: Bu sistemlerde anında cevap beklenmez. Kullanıcı, 10-20 saniyelik bir bekleme süresini (modelin düşünme süresi), çok daha kaliteli ve hatasız bir kod/analiz çıktısı için kabul eder.

Sonuç: Bilgiden Bilgeliğe

Yapay zeka artık sadece bir "Arama Motoru++" veya "Otomatik Tamamlayıcı" değildir. Inference-Time Compute ile birlikte, veriyi işleyip sentezleyen, olasılıkları değerlendiren ve en iyi yolu seçen bir "Akıl Yürütme Motoruna" (Reasoning Engine) dönüşmüştür.

BRIQ Mind olarak, basit chatbotlar yerine, iş problemleriniz üzerinde "kafa yoran" ve stratejik kararlar almanıza yardımcı olan System 2 tabanlı AI çözümleri geliştiriyoruz.

Giriş: Hızlı Düşünme (System 1) vs. Yavaş Düşünme (System 2)

1. Yeni Ölçeklenme Yasası (The New Scaling Law)

Test-Time Compute Nasıl Çalışır?

2. Denetim Mekanizması: PRM vs. ORM

Outcome Reward Models (ORM)

Process Reward Models (PRM) - *Game Changer*

3. Arama Stratejileri: Best-of-N ve Tree of Thoughts

4. Donanım ve RTX 5090 Etkisi

Sonuç: Bilgiden Bilgeliğe

Akıllı Ajanlar İş Başında

Diğer Araştırmalar

Veri Kıtlığı ve Model Çöküşü: Sentetik Veri Mühendisliği Çağı

Chatbot'lardan Dijital İşçilere: Large Action Models (LAM) ve Computer Use

Process Reward Models (PRM) - Game Changer