Next-Token Prediction'ın Ötesi: World Models ve JEPA Mimarisi

Giriş: Olasılıksal Papağanlardan Fiziksel Anlayışa

Son on yılı domine eden "Generative AI" (Üretken Yapay Zeka) devrimi, temelinde otoregresif (autoregressive) bir varsayıma dayanır: *Eğer yeterince veriye sahipseniz, bir sonraki token'ı (veya pikseli) tahmin etmek zeka belirtisidir.* Ancak, GPT-4 ve Llama 3 gibi "Frontier" modellerde dahi gözlemlenen halüsinasyon, mantıksal tutarsızlık ve planlama yetersizliği, bu yaklaşımın sınırlarını göstermektedir.

2025 itibarıyla yapay zeka araştırmalarındaki eksen, Olasılıksal Üretimden (Probabilistic Generation), İçsel Simülasyona (Internal Simulation) kaymıştır. Bu noktada "World Models" (Dünya Modelleri) ve özellikle Yann LeCun tarafından teorize edilen ve Meta FAIR tarafından geliştirilen JEPA (Joint Embedding Predictive Architecture), AGI (Yapay Genel Zeka) yolundaki en kritik dönemeç olarak kabul edilmektedir.

Bu makale, pikselleri yeniden oluşturmak yerine "anlamı" tahmin eden bu yeni mimariyi derinlemesine incelemektedir.


1. Otoregresif Modellerin Temel Sorunu

Mevcut LLM'ler (Large Language Models), P(xtxt1,...,x0)P(x_t | x_{t-1}, ..., x_0) formülüyle çalışır. Yani, geçmişe bakarak geleceği *üretmeye* çalışırlar. Bu yaklaşımın, özellikle otonom sistemler ve robotik için yarattığı iki büyük problem vardır:

  1. Hesaplama Verimsizliği: Bir videonun bir sonraki karesini tahmin etmek için modelin, sahnedeki ağacın her yaprağının dokusunu (piksel seviyesinde) bilmesi gerekir. Oysa zeka, yaprağın dokusunu değil, rüzgar estiğinde dalın ne yöne hareket edeceğini bilmektir.
  2. Dünya Modelinin Eksikliği: LLM'ler fizik kurallarını "içselleştirmez", sadece metinlerdeki istatistiksel yansımalarını ezberler. Bu nedenle, basit bir fiziksel bulmacada bile mantıksız cevaplar verebilirler.
JEPA mimarisi, bu sorunu Generative (Üretken) değil, Predictive (Tahminleyici) bir yaklaşımla çözer.


2. JEPA (Joint Embedding Predictive Architecture) Nedir?

JEPA, verinin kendisini (örneğin pikselleri) tahmin etmek yerine, verinin soyut temsillerini (abstract representations) tahmin etmeye odaklanan, "Energy-Based Model" (Enerji Tabanlı Model) ailesinden bir mimaridir.

Mimarinin üç ana bileşeni vardır:

  1. Encoder (Kodlayıcı): Gözlemlenen veriyi (xx) alır ve bir soyut temsil (sxs_x) çıkarır.
  2. Predictor (Tahminleyici): Mevcut temsili (sxs_x) ve bir aksiyonu/değişkeni (zz) alarak, gelecekteki veya gizlenmiş kısmın temsilini (s^y\hat{s}_y) tahmin eder.
  3. Target Encoder (Hedef Kodlayıcı): Gerçek gelecekteki veriyi (yy) alır ve hedef temsili (sys_y) oluşturur. Sistem, s^y\hat{s}_y ile sys_y arasındaki farkı minimize etmeye çalışır.

Generative vs. JEPA Farkı

Geleneksel Masked Autoencoder (MAE) veya GPT modelleri, maskelenmiş kısımları *piksel/token* düzeyinde doldurmaya çalışır. JEPA ise maskelenmiş kısmın *anlamını* (feature space) tahmin eder.

ÖzellikGenerative AI (LLM/Diffusion)JEPA (World Models)
HedefVeriyi yeniden oluşturmak (xxx \to x')Temsili tahmin etmek (xlatentsx \to \text{latents})
Eğitim KaybıPiksel/Token hatası (MSE/Cross-Entropy)Temsil uzayındaki uzaklık (L2 Distance)
Detay SeviyesiGereksiz detayları da öğrenir (gürültü)Sadece önemli özellikleri öğrenir (sinyal)
VerimlilikDüşük (Tüm detayları üretmeli)Yüksek (Sadece semantik yapıyı işler)

3. I-JEPA ve V-JEPA: Görüntü ve Videoda Devrim

Meta'nın yayınladığı I-JEPA (Image-JEPA), bilgisayarlı görü alanında "kendi kendine denetimli öğrenme" (self-supervised learning) için yeni bir standart belirlemiştir.

Nasıl Çalışır?

  1. Bir görüntüden (ImageNet vb.) bloklar maskelenir.
  2. Modelden, maskelenen pikselleri boyaması istenmez.
  3. Bunun yerine, maskelenen bölgenin "feature vector"ünü (özellik vektörünü) tahmin etmesi istenir.
Bu yöntem, modelin köpeğin kulağındaki her tüyü çizmesini değil, orada bir "kulak" olduğunu ve başın duruşuna göre nerede konumlanması gerektiğini anlamasını sağlar.

V-JEPA (Video-JEPA) ise bunu zamana yayar. Videonun sonraki saniyelerinde nesnelerin nereye gideceğini, fiziksel etkileşimleri ve "görünmezliği" (occlusion) modeller. Bu, otonom sürüş ve robotik için hayati önem taşır; çünkü model, piksellerle uğraşmadan sahnenin *fiziksel dinamiklerini* öğrenir.


4. Hiyerarşik Planlama ve H-JEPA

Yann LeCun'un "A Path Towards Autonomous Machine Intelligence" makalesinde belirttiği en önemli vizyon, Hiyerarşik JEPA (H-JEPA) yapısıdır.

İnsanlar plan yaparken kas hareketlerini tek tek düşünmezler ("Önce sol kolumu 30 derece kaldır, sonra parmaklarımı sık..."). Bunun yerine soyut hedefler koyarlar ("Masadaki bardağı al"). H-JEPA, bu soyutlamayı modellemek için tasarlanmıştır:

  • Seviye 1 (Düşük): Anlık motor kontrolleri (milisaniyeler).
  • Seviye 2 (Orta): Basit eylemler ("Kapıya yürü").
  • Seviye 3 (Yüksek): Uzun vadeli hedefler ("Marketten alışveriş yap").

JEPA mimarisi, tahminlerini farklı soyutlama katmanlarında yaparak, yapay zekanın karmaşık, çok adımlı görevleri (Reasoning over long horizons) halüsinasyon görmeden planlamasını sağlar.


5. Donanım ve Ölçeklenebilirlik Etkileri

Kullanıcılarımız için en önemli kısımlardan biri de donanım etkisidir. JEPA tarzı modeller, Generative modellerden farklı bir hesaplama profili sunar:

  • Daha Düşük Inference Maliyeti: Output uzayı (temsil uzayı), piksel uzayından çok daha düşük boyutludur. Bu, NVIDIA RTX 4090 gibi kartlarda bile çok daha karmaşık dünya simülasyonlarının çalıştırılabilmesi anlamına gelir.
  • Daha Hızlı Eğitim (Sample Efficiency): JEPA, veriden öğrenme konusunda LLM'lerden çok daha verimlidir. Aynı fiziksel anlayışı kazanmak için gereken veri miktarı, üretken modellere göre logaritmik olarak daha azdır.

Sonuç: AGI'ye Giden Yol

2025 ve sonrası, sadece konuşan chatbot'ların değil, dünyayı anlayan, plan yapan ve fiziksel gerçekliğe uygun hareket eden sistemlerin dönemi olacaktır.

World Model ve JEPA mimarileri, yapay zekayı "istatistiksel taklitçilikten", "nedensel akıl yürütmeye" (causal reasoning) taşıyan köprüdür. BRIQ Mind olarak, on-premise sistemlerinizde bu yeni nesil, verimli ve güvenilir mimarileri kullanmanız için AR-GE çalışmalarımızı sürdürüyoruz.



Geleceğin Mimarisine Hazır Mısınız?

BRIQ Labs, en yeni yapay zeka mimarilerini ve otonom ajan yapılarını iş süreçlerinize entegre eder. Sadece metin üreten değil, "düşünebilen" sistemler için bizimle tanışın.

İletişime Geçin