Modern Hizalama Algoritmaları Karşılaştırması: RLHF (PPO) vs. GRPO

Giriş: Hizalama (Alignment) Paradigmasının Evrimi

Büyük Dil Modellerinin (LLM) gelişim sürecinde, "pre-training" (ön eğitim) aşaması bilgi edinimi için kritikken, modelin insan niyetlerine uygun hareket etmesini sağlayan "post-training" veya "alignment" (hizalama) aşaması, modelin kullanılabilirliğini belirleyen asıl faktördür.

Uzun süredir endüstri standardı, insan geri bildirimli pekiştirmeli öğrenme (RLHF) ve onun temel algoritması olan PPO (Proximal Policy Optimization) idi. Ancak PPO, hesaplama karmaşıklığı ve yüksek VRAM gereksinimleri (özellikle "Value Network" ihtiyacı) nedeniyle on-premise sistemlerde ciddi darboğazlar yaratmaktadır.

2024 ve 2025 dönemecinde, özellikle DeepSeek-R1 gibi modellerle popülerleşen GRPO (Group Relative Policy Optimization), bu darboğazları aşan devrim niteliğinde bir yaklaşım olarak öne çıkmaktadır. Bu makalede, bu iki metodolojiyi matematiksel altyapıları, bellek maliyetleri ve eğitim kararlılığı açısından karşılaştıracağız.

1. Endüstri Standardı: RLHF ve PPO (Proximal Policy Optimization)

OpenAI'ın InstructGPT makalesiyle popülerleşen PPO tabanlı RLHF, modelin insan tercihlerine göre optimize edilmesini sağlar. Ancak bu süreç, hesaplama açısından son derece maliyetlidir.

Mimari Karmaşıklık

PPO tabanlı bir eğitim döngüsünde, aynı anda bellekte (VRAM) tutulması gereken dört farklı model bulunur:

Policy Model (Actor): Eğitilen model (örn. Llama-3-70B).
Reference Model: KL Divergence (sapma) cezasını hesaplamak için kullanılan dondurulmuş model.
Reward Model: Çıktının kalitesini puanlayan model.
Value Model (Critic): Beklenen ödülü (expected reward) tahmin eden model.

Donanım Darboğazı

Bu yapı, 70B parametreli bir modelin eğitimi için, modelin kendi ağırlığının yaklaşık 4 katı kadar VRAM'e ihtiyaç duyar. PPO'nun kararlılığı sağlamak için kullandığı "Value Function" yaklaşımı, özellikle on-premise GPU kümelerinde (örneğin sınırlı sayıda A100/H100 veya RTX 4090 cluster'larında) ölçeklenememe sorunu yaratır.

2. Yeni Nesil Yaklaşım: GRPO (Group Relative Policy Optimization)

GRPO, DeepSeek ekibi tarafından geliştirilen ve özellikle matematiksel akıl yürütme (reasoning) yeteneklerini artırmak için kullanılan bir yöntemdir. Temel inovasyonu, Value Model (Critic) ihtiyacını tamamen ortadan kaldırmasıdır.

Çalışma Prensibi

GRPO, her bir sorgu (prompt) için modelden bir grup (group) çıktı (örneğin 64 farklı çıktı) alır ( $O_1, O_2, ..., O_G$ ). Ardından, bu çıktıların ödüllerini ( $r_1, r_2, ..., r_G$ ) hesaplar ve bunları grup içindeki ortalama ödüle göre normalize eder.

Matematiksel olarak avantaj fonksiyonu şu şekilde basitleşir:

$A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}$

Burada $A_i$ , $i$ . çıktının avantaj değeridir.

GRPO'nun Avantajları

VRAM Verimliliği: Critic (Value) modeline ihtiyaç duyulmadığı için, eğitim sırasında bellekte tutulması gereken parametre sayısı neredeyse yarıya iner. Bu, aynı donanımda daha büyük modellerin veya daha büyük batch size'ların kullanılmasına olanak tanır.
Eğitim Kararlılığı (Stability): PPO'da Value modelinin eğitilmesi zordur ve genellikle eğitim çöküşlerine (collapse) yol açar. GRPO, grup içi (group-relative) karşılaştırma yaptığı için daha stabil bir gradyan akışı sağlar.
Reference Model Özgürlüğü: GRPO, KL cezasını hesaplarken her zaman ayrı bir referans modele ihtiyaç duymaz; grup içi dağılımı referans alarak "approximate KL" hesabı yapabilir.

3. Karşılaştırmalı Analiz: On-Premise Senaryoları

Aşağıdaki tablo, 7B ve 70B ölçeğindeki modellerin eğitimi için iki algoritmanın on-premise donanım üzerindeki etkisini özetlemektedir.

Özellik	RLHF (PPO)	GRPO (DeepSeek Style)
Model Bileşenleri	Actor, Ref, Reward, Critic	Actor, (Opsiyonel Ref), Reward
VRAM Tüketimi	Çok Yüksek (Model x 4)	Orta (Model x 2 + Buffer)
Eğitim Hızı	Yavaş (Critic update gerekli)	Hızlı (Sadece Policy update)
Uygulama Alanı	Genel Chat, Yaratıcı Yazım	Matematik, Kodlama, Reasoning
Donanım Örneği (70B)	8x H100 (80GB)	4x H100 veya 8x A100

Neden GRPO Tercih Edilmeli?

Özellikle kurumsal içgörü, finansal analiz veya kod üretimi gibi "doğru/yanlış" ayrımının net olduğu (verifiable rewards) alanlarda GRPO, PPO'ya göre çok daha üstün performans sergilemektedir. DeepSeek-R1-Zero deneylerinde görüldüğü üzere, GRPO ile eğitilen modeller, denetimli ince ayar (SFT) verisi olmadan bile, sadece kural tabanlı ödüllerle (örneğin: kod derlendi mi? sonuç doğru mu?) akıl yürütme yeteneklerini kendi kendilerine geliştirebilmektedir.

Sonuç

On-premise LLM dağıtımlarında, donanım kaynakları en değerli varlıktır. RLHF/PPO, yıllardır "altın standart" olsa da, beraberinde getirdiği donanım yükü (Critic model zorunluluğu), yerel sunucularda operasyonel maliyetleri artırmaktadır.

GRPO, sadece bir optimizasyon algoritması değil, aynı zamanda verimli yapay zekâ (Efficient AI) döneminin bir habercisidir. BRIQ Mind olarak, müşterilerimizin kendi altyapılarında (RTX 4090/A6000/H100) en yüksek performansı alabilmeleri için GRPO tabanlı iş akışlarını aktif olarak pipeline'larımıza entegre ediyoruz. Bu sayede, veri mahremiyetinden ödün vermeden, GPT-4 seviyesinde akıl yürütme yeteneklerini yerel sistemlere taşıyoruz.