Giriş: Konvolüsyonel Ağların (CNN) Tıkanma Noktası
2022-2024 yılları arasında görsel üretim dünyasına U-Net mimarisi (Stable Diffusion 1.5, XL) hakimdi. Bu mimari, görüntüleri sıkıştırmak ve gürültüden arındırmak (denoising) için Konvolüsyonel Sinir Ağları (CNN) kullanıyordu. Ancak CNN'lerin "inductive bias"ı (yerel özelliklere odaklanma eğilimi), global bağlamı ve karmaşık kompozisyonları anlamada sınırlı kalıyordu.
2025 itibarıyla, Diffusion Transformers (DiT) mimarisi bu paradigmayı yıktı. Artık pikseller, tıpkı kelimeler gibi birer "token" olarak kabul ediliyor. Bu makale, ölçeklenebilirliğin (scalability) görsel dünyaya nasıl getirildiğini ve Flow Matching matematiğini incelemektedir.
1. Mimarinin Kalbi: Diffusion Transformer (DiT)
Geleneksel Diffusion modelleri, gürültüyü (noise) tahmin etmek için U-Net kullanırken, DiT bu görevi standart bir Transformer (ViT - Vision Transformer) bloğuna devreder.
"Patchify" İşlemi ve Latent Tokenizasyon
DiT, görüntüyü doğrudan işlemez. Önce bir VAE (Variational Autoencoder) ile görüntüyü "Latent Space"e (gizli uzay) indirger. Ardından:
- Patching: Latent görüntü, örneğin boyutundaysa, bu yapı boyutunda küçük karelere bölünür.
- Linear Projection: Her kare düzleştirilir ve bir vektöre dönüştürülür. Bu artık bir "Visual Token"dır.
- Positional Embedding: Tıpkı dildeki kelime sırası gibi, bu karelerin konum bilgisi (genellikle RoPE - Rotary Positional Embeddings ile) eklenir.
Burada , condition (metin girdisi veya timestep) bilgisidir ve AdaLN (Adaptive Layer Norm) mekanizması ile ağın her katmanına enjekte edilir. Bu, modelin "kırmızı bir araba çiz" komutunu her işleme adımında hatırlamasını sağlar.
2. Gürültüden Rotaya: Flow Matching
Eski difüzyon modelleri (DDPM, DDIM), veriyi yavaş yavaş gürültüye boğup geri döndürmeye çalışırdı. Bu süreç olasılıksal (stochastic) ve yavaştı. 2025'in yeni standardı Rectified Flow Matching'dir.
Flow Matching, gürültü dağılımı () ile veri dağılımı () arasında "en düz yolu" (straight path) bulmayı hedefler.
Optimal Transport (OT) Prensibi
Matematiksel olarak, bir görseli gürültüden oluşturmak, bir diferansiyel denklemi (ODE) çözmektir:
Burada , hız vektör alanıdır (Velocity Field). Flow Matching, bu vektör alanını öyle eğitir ki, gürültüden görüntüye giden yol kavisli ve karmaşık değil, doğrusal (linear) olsun.
- Avantaj 1 (Hız): Yol düz olduğu için, çok daha az adımda (step) sonuca varılabilir (örneğin 4-8 adımda yüksek kalite).
- Avantaj 2 (Tutarlılık): Rastgelelik azalır, komutlara (prompt adherence) sadakat artar.
3. Donanım ve Ölçeklenme Yasaları (Scaling Laws)
DiT'nin en büyük avantajı, LLM'lerde gördüğümüz ölçeklenme yasalarının burada da geçerli olmasıdır. U-Net modelleri parametre sayısı arttıkça doyuma ulaşırken, DiT modelleri (Flux, SD3) parametre arttıkça (veya eğitim verisi/compute arttıkça) doğrusal olarak iyileşmeye devam eder.
On-Premise Donanım Gereksinimleri (Örn: Flux.1 Dev/Pro)
Kullanıcılarımızın yerel sistemlerinde (RTX 3090/4090/5090) bu modelleri çalıştırırken karşılaştıkları VRAM darboğazı, DiT'nin "Attention" mekanizmasından kaynaklanır ( karmaşıklığı).
- Attention Offloading: VRAM'i korumak için, hesaplanmayan katmanların sistem RAM'ine taşınması.
- Quantization (FP8/NF4): DiT modelleri, U-Net'lere kıyasla kuantizasyona (hassasiyet düşürme) çok daha dayanıklıdır. 16-bit yerine 8-bit ağırlıklarla neredeyse kayıpsız çalışabilirler.
4. Metin Kodlayıcıların (Text Encoders) Rolü: T5 vs CLIP
DiT mimarileri genellikle "Multimodal" yapıdadır. Görseli anlamak için sadece CLIP (Contrastive Language-Image Pre-training) yetmez.
Modern mimariler (örn. Flux), T5-XXL gibi devasa dil modellerini "Text Encoder" olarak kullanır. Bu sayede model, "üzerinde 'Merhaba' yazan bir tabela" gibi karmaşık, yazı içeren (typography) ve mantıksal ilişki gerektiren komutları anlayabilir. DiT, bu yoğun metin bilgisini (embedding) görsel tokenlarla *Cross-Attention* mekanizması üzerinden birleştirir.
Sonuç
Diffusion Transformers ve Flow Matching, görsel üretimi "rastgele sanattan", "kontrollü ve ölçeklenebilir mühendisliğe" dönüştürmüştür.
Bu mimari değişiklik, sadece daha güzel resimler değil; fiziksel dünyayı simüle edebilen video modelleri ve 3D varlık üretimi için de temel oluşturmaktadır. BRIQ Mind olarak, bu yeni nesil modelleri iş akışlarınıza entegre etmeye hazırız.