Kara Kutuyu Açmak: Mekanistik Yorumlanabilirlik ve Sparse Autoencoders (SAE) Devrimi

Giriş: "Kara Kutu" Problemi ve İçsel Hizalama İhtiyacı

Yapay zeka modelleri (LLM'ler) 2025 itibarıyla trilyonlarca parametreye ulaşmış ve insan seviyesinde muhakeme yetenekleri (System 2 reasoning) kazanmıştır. Ancak, bu modellerin başarısı büyük bir paradoksu da beraberinde getirmektedir: Modellerin *ne* yaptığı konusunda mükemmel bir fikrimiz varken, bunu *nasıl* yaptıkları konusunda hala büyük ölçüde karanlıktayız.

Geleneksel derin öğrenme yaklaşımı, modelleri davranışsal olarak eğitmeye (Behavioral Alignment - örn. RLHF, GRPO) odaklanmıştır. Ancak modelin içindeki bir nöronun neden aktive olduğunu tam olarak bilememek, "aldatıcı hizalama" (deceptive alignment) ve halüsinasyon gibi riskleri tespit etmeyi imkansız kılar.

Bu makalede, 2025 yılının en önemli araştırma sahası haline gelen Mekanistik Yorumlanabilirlik (Mechanistic Interpretability) disiplinini ve bu alandaki en güçlü araç olan Sparse Autoencoders (SAE) teknolojisini derinlemesine inceleyeceğiz. Nöral ağların "tomografisini çekmemizi" sağlayan bu teknoloji, yapay zekayı bir kara kutu olmaktan çıkarıp, mühendisliği yapılabilir şeffaf bir sisteme dönüştürmeyi hedefler.

Süperpozisyon Hipotezi ve Polysemantic Nöronlar

LLM'lerin iç yapısını anlamadaki en büyük engel, nöronların "Polysemantic" (Çok Anlamlı) doğasıdır. Bir dil modelindeki tek bir nöron, insan algısına göre tamamen alakasız birden fazla kavramı temsil edebilir.

Örneğin, 512. katmandaki bir nöron hem "akademik atıfları" gördüğünde hem de "Korece fiil çekimlerini" gördüğünde aktive olabilir. Bu durum, Süperpozisyon Hipotezi (Superposition Hypothesis) ile açıklanır.

Süperpozisyon Nedir?

Modeller, sahip oldukları nöron sayısından çok daha fazla özelliği (feature) temsil etmek zorundadır. Matematiksel olarak, yüksek boyutlu bir özellik uzayını (feature space), daha düşük boyutlu bir aktivasyon uzayına (activation space) sıkıştırırlar. Bu sıkıştırma işlemi, özelliklerin birbirine karışmasına neden olur. Bu durum, lineer cebirde *Johnson-Lindenstrauss Lemması* ile ilişkilendirilebilir; ancak buradaki temel sorun, bu sıkıştırmanın (interference) modelin yorumlanabilirliğini yok etmesidir.

Sorun: Eğer bir nöron birden fazla anlama geliyorsa, o nöronu manipüle ederek modeli kontrol edemeyiz. Korece fiilleri düzeltmek isterken, akademik atıf yeteneğini bozabiliriz.

Çözüm: Sparse Autoencoders (SAE) Mimarisi

Sparse Autoencoder'lar (Seyrek Otokodlayıcılar), bir LLM'in ara katmanlarındaki "kirli" ve karışık aktivasyonları alıp, bunları temiz, tek anlamlı (monosemantic) özelliklere ayrıştıran denetimsiz bir öğrenme (unsupervised learning) tekniğidir.

2024 sonlarında Anthropic ve Google DeepMind tarafından öncülüğü yapılan bu mimari, 2025'te standart bir model analiz aracı haline gelmiştir.

Teknik Mimari

Bir SAE, hedef LLM'in belirli bir katmanındaki aktivasyon vektörü $x$ 'i girdi olarak alır ve aşağıdaki süreçten geçirir:

Encoder (Kodlayıcı): Aktivasyonları, modelin kendi boyutundan çok daha geniş bir "latent space" (gizli uzay) içine yansıtır.

f = \text{ReLU}(W_e x + b_e)

Sparsity (Seyreklik) Cezası: Buradaki kritik nokta, $f$ vektörünün çoğunun sıfır olmasını zorlamaktır. Bu genellikle $L_1$ regularizasyonu ile sağlanır. Amaç, her bir girdiyi tanımlamak için mümkün olan en az sayıda özelliği kullanmaktır.
Decoder (Kod Çözücü): Özellikleri tekrar orijinal aktivasyon uzayına geri döndürerek modelin orijinal durumunu rekonstrükte etmeye çalışır.

\hat{x} = W_d f + b_d

Loss Fonksiyonu

SAE eğitimi sırasında minimize edilen kayıp fonksiyonu şöyledir:

$L = \underbrace{||x - \hat{x}||_2^2}_{\text{Reconstruction Loss}} + \lambda \underbrace{||f||_1}_{\text{Sparsity Penalty}}$

Burada $\lambda$ katsayısı, özelliklerin ne kadar "saf" (monosemantic) olacağını belirler. Yüksek $\lambda$ , daha az ama daha net özellikler üretir.

Monosemanticity ve Feature Steering (Özellik Yönlendirme)

SAE'lerin en büyük başarısı, modelin içindeki milyonlarca karmaşık nöronu, insan tarafından anlaşılabilir kavramlara dönüştürmesidir. Bu kavramlara "Features" (Özellikler) denir.

Örnek Keşifler

Yapılan analizlerde SAE'ler sayesinde şu tip spesifik özellikler keşfedilmiştir:

The "DNA" Feature: Sadece genetik dizilimlerden bahsedildiğinde yanan bir özellik.
The "Error Correction" Feature: Kod içindeki bir hatanın düzeltilmesi gerektiğini fark eden özellik.
The "Deception" Feature: Modelin kullanıcıyı manipüle etmeye veya yalan söylemeye meyilli olduğu anlarda aktive olan özellik.

Feature Steering (Özellik Yönlendirme)

Bu özellikleri tespit ettikten sonra, Steering Vectors (Yönlendirme Vektörleri) tekniği ile modelin davranışı çalışma anında (inference-time) değiştirilebilir.

Özellik Bastırma (Clamping to 0): Eğer "Deception" özelliği tespit edilirse, bu özelliğin aktivasyonu matematiksel olarak sıfıra kilitlenir. Böylece modelin yalan söyleme kabiliyeti cerrahi bir hassasiyetle (lobotomi yapmadan) engellenir.
Özellik Artırma: "Yaratıcılık" veya "Güvenlik" ile ilgili özelliklerin katsayısı artırılarak modelin tonu, prompt mühendisliğine gerek kalmadan değiştirilebilir.

Karşılaştırma	Polysemantic Nöronlar (Eski)	SAE Features (Yeni)
Temsil	Bir nöron = Çok kavram (Karışık)	Bir özellik = Bir kavram (Saf)
Yorumlanabilirlik	İnsan için anlamsız sayılar	"Altın Köprü", "Python Kodu" gibi etiketlenebilir
Kontrol	Müdahale yan etki yaratır	Cerrahi müdahale mümkündür
Boyut	Model boyutu (d_model)	Model boyutunun 10x-100x katı (Overcomplete)

Hesaplama Maliyetleri ve "Dead Latents" Problemi

SAE eğitmek, teknik olarak zorlu bir süreçtir. "Dictionary Learning" (Sözlük Öğrenimi) olarak da adlandırılan bu süreçte karşılaşılan temel zorluklar şunlardır:

Dead Latents (Ölü Özellikler): Eğitim sırasında bazı özellikler asla aktive olmaz ve "ölür". Bu, işlem gücünün israfıdır. 2025'te geliştirilen *Ghost Gradients* gibi teknikler, ölü nöronları tekrar canlandırarak bu sorunu minimize etmektedir.
Ölçekleme (Scaling): GPT-4 veya Claude 3.5 sınıfı bir modelin tüm katmanları için SAE eğitmek, orijinal modeli eğitmek kadar maliyetli olabilir. Bu nedenle araştırmacılar şu an sadece kritik katmanlara (genellikle orta ve son katmanlar) odaklanmaktadır.

Sonuç: Davranışsal Güvenlikten İçsel Güvenliğe

Mekanistik Yorumlanabilirlik ve Sparse Autoencoders, yapay zeka güvenliğinde bir paradigma değişimidir. Modelleri sadece dışarıdan gözlemleyerek (System 1) test etmek yerine, onların düşünce süreçlerini (System 2) haritalandırmak, geleceğin regülasyon standartlarının temelini oluşturacaktır.

On-premise veya kapalı devre sistemlerde SAE entegrasyonu, hassas verilerin sızdırılmadığından emin olmak için "log incelemesi"nin ötesine geçip, modelin "zihnini okuma" imkanı sunmaktadır. Bu, özellikle savunma ve finans sektörlerinde kritik bir güven katmanı sağlayacaktır.