Görsel Üretimde U-Net'in Sonu: Diffusion Transformers (DiT) ve Flow Matching

Giriş: Konvolüsyonel Ağların (CNN) Tıkanma Noktası

2022-2024 yılları arasında görsel üretim dünyasına U-Net mimarisi (Stable Diffusion 1.5, XL) hakimdi. Bu mimari, görüntüleri sıkıştırmak ve gürültüden arındırmak (denoising) için Konvolüsyonel Sinir Ağları (CNN) kullanıyordu. Ancak CNN'lerin "inductive bias"ı (yerel özelliklere odaklanma eğilimi), global bağlamı ve karmaşık kompozisyonları anlamada sınırlı kalıyordu.

2025 itibarıyla, Diffusion Transformers (DiT) mimarisi bu paradigmayı yıktı. Artık pikseller, tıpkı kelimeler gibi birer "token" olarak kabul ediliyor. Bu makale, ölçeklenebilirliğin (scalability) görsel dünyaya nasıl getirildiğini ve Flow Matching matematiğini incelemektedir.

1. Mimarinin Kalbi: Diffusion Transformer (DiT)

Geleneksel Diffusion modelleri, gürültüyü (noise) tahmin etmek için U-Net kullanırken, DiT bu görevi standart bir Transformer (ViT - Vision Transformer) bloğuna devreder.

"Patchify" İşlemi ve Latent Tokenizasyon

DiT, görüntüyü doğrudan işlemez. Önce bir VAE (Variational Autoencoder) ile görüntüyü "Latent Space"e (gizli uzay) indirger. Ardından:

Patching: Latent görüntü, örneğin $32 \times 32 \times 4$ boyutundaysa, bu yapı $p \times p$ boyutunda küçük karelere bölünür.
Linear Projection: Her kare düzleştirilir ve bir vektöre dönüştürülür. Bu artık bir "Visual Token"dır.
Positional Embedding: Tıpkı dildeki kelime sırası gibi, bu karelerin konum bilgisi (genellikle RoPE - Rotary Positional Embeddings ile) eklenir.

Bu süreç, modelin görsel veriyi bir dil modeli (LLM) gibi işlemesini sağlar. Matematiksel olarak, bir Transformer bloğu şu işlemi yapar:

$\text{DiTBlock}(x, c) = \text{MLP}(\text{AdaLN}(\text{SelfAttention}(\text{AdaLN}(x, c))))$

Burada $c$ , condition (metin girdisi veya timestep) bilgisidir ve AdaLN (Adaptive Layer Norm) mekanizması ile ağın her katmanına enjekte edilir. Bu, modelin "kırmızı bir araba çiz" komutunu her işleme adımında hatırlamasını sağlar.

2. Gürültüden Rotaya: Flow Matching

Eski difüzyon modelleri (DDPM, DDIM), veriyi yavaş yavaş gürültüye boğup geri döndürmeye çalışırdı. Bu süreç olasılıksal (stochastic) ve yavaştı. 2025'in yeni standardı Rectified Flow Matching'dir.

Flow Matching, gürültü dağılımı ( $N(0, I)$ ) ile veri dağılımı ( $Data$ ) arasında "en düz yolu" (straight path) bulmayı hedefler.

Optimal Transport (OT) Prensibi

Matematiksel olarak, bir görseli gürültüden oluşturmak, bir diferansiyel denklemi (ODE) çözmektir:

$\frac{dX_t}{dt} = v_t(X_t)$

Burada $v_t$ , hız vektör alanıdır (Velocity Field). Flow Matching, bu vektör alanını öyle eğitir ki, gürültüden görüntüye giden yol kavisli ve karmaşık değil, doğrusal (linear) olsun.

Avantaj 1 (Hız): Yol düz olduğu için, çok daha az adımda (step) sonuca varılabilir (örneğin 4-8 adımda yüksek kalite).
Avantaj 2 (Tutarlılık): Rastgelelik azalır, komutlara (prompt adherence) sadakat artar.

3. Donanım ve Ölçeklenme Yasaları (Scaling Laws)

DiT'nin en büyük avantajı, LLM'lerde gördüğümüz ölçeklenme yasalarının burada da geçerli olmasıdır. U-Net modelleri parametre sayısı arttıkça doyuma ulaşırken, DiT modelleri (Flux, SD3) parametre arttıkça (veya eğitim verisi/compute arttıkça) doğrusal olarak iyileşmeye devam eder.

On-Premise Donanım Gereksinimleri (Örn: Flux.1 Dev/Pro)

Kullanıcılarımızın yerel sistemlerinde (RTX 3090/4090/5090) bu modelleri çalıştırırken karşılaştıkları VRAM darboğazı, DiT'nin "Attention" mekanizmasından kaynaklanır ( $O(N^2)$ karmaşıklığı).

Attention Offloading: VRAM'i korumak için, hesaplanmayan katmanların sistem RAM'ine taşınması.
Quantization (FP8/NF4): DiT modelleri, U-Net'lere kıyasla kuantizasyona (hassasiyet düşürme) çok daha dayanıklıdır. 16-bit yerine 8-bit ağırlıklarla neredeyse kayıpsız çalışabilirler.

4. Metin Kodlayıcıların (Text Encoders) Rolü: T5 vs CLIP

DiT mimarileri genellikle "Multimodal" yapıdadır. Görseli anlamak için sadece CLIP (Contrastive Language-Image Pre-training) yetmez.

Modern mimariler (örn. Flux), T5-XXL gibi devasa dil modellerini "Text Encoder" olarak kullanır. Bu sayede model, "üzerinde 'Merhaba' yazan bir tabela" gibi karmaşık, yazı içeren (typography) ve mantıksal ilişki gerektiren komutları anlayabilir. DiT, bu yoğun metin bilgisini (embedding) görsel tokenlarla *Cross-Attention* mekanizması üzerinden birleştirir.

Sonuç

Diffusion Transformers ve Flow Matching, görsel üretimi "rastgele sanattan", "kontrollü ve ölçeklenebilir mühendisliğe" dönüştürmüştür.

Bu mimari değişiklik, sadece daha güzel resimler değil; fiziksel dünyayı simüle edebilen video modelleri ve 3D varlık üretimi için de temel oluşturmaktadır. BRIQ Mind olarak, bu yeni nesil modelleri iş akışlarınıza entegre etmeye hazırız.

Giriş: Konvolüsyonel Ağların (CNN) Tıkanma Noktası

1. Mimarinin Kalbi: Diffusion Transformer (DiT)

"Patchify" İşlemi ve Latent Tokenizasyon

2. Gürültüden Rotaya: Flow Matching

Optimal Transport (OT) Prensibi

3. Donanım ve Ölçeklenme Yasaları (Scaling Laws)

On-Premise Donanım Gereksinimleri (Örn: Flux.1 Dev/Pro)

4. Metin Kodlayıcıların (Text Encoders) Rolü: T5 vs CLIP

Sonuç

Kendi Görsel Modelinizi Eğitin

Diğer Araştırmalar

Next-Token Prediction'ın Ötesi: World Models ve JEPA Mimarisi

Pipeline Devrinin Sonu: Native Multimodal (Omni) Mimariler ve Audio Tokenization