Pipeline Devrinin Sonu: Native Multimodal (Omni) Mimariler ve Audio Tokenization

Giriş: "Metin" Darboğazı ve Kayıp Duygular

Geleneksel sesli asistan mimarileri (Cascade Systems) üç aşamalı bir "boru hattı" (pipeline) kullanır:

ASR (Automatic Speech Recognition): Sesi metne çevir (örn. Whisper).
LLM: Metni işle ve cevap üret (örn. Qwen 3 1.7b).
TTS (Text-to-Speech): Cevabı sese çevir (örn. F5-TTS).

Bu yaklaşım 2025 standartları için iki kritik soruna sahiptir: Gecikme (Latency) ve Bilgi Kaybı. Sesi metne çevirdiğinizde; ses tonunu, alaycılığı, duyguyu, nefes alışverişini ve arka plan gürültüsünü kaybedersiniz. Model sadece "ne" söylendiğini anlar, "nasıl" söylendiğini değil.

Native Multimodal (Omni) modeller, sesi metne çevirmeden, doğrudan ses dalgalarını (veya bunların sıkıştırılmış temsillerini) işleyerek bu aracıları ortadan kaldırır.

1. Mimarinin Temeli: Her Şey Bir "Token"dır

GPT-5 ve Gemini 2.5 Pro gibi "Omni" modellerin arkasındaki temel felsefe, Unified Vocabulary (Birleşik Kelime Dağarcığı) yapısıdır.

Geleneksel bir LLM'in sözlüğü sadece metin parçalarından (subwords) oluşurken, Native Multimodal bir modelin sözlüğü şunları içerir:

Text Tokens (Metin)
Audio Tokens (Ses)
Image Tokens (Görüntü)

Model mimarisi açısından, `[MERHABA]` token'ı ile `[SES_DALGASI_PARÇASI_245]` token'ı arasında bir fark yoktur. Transformer, bu tokenlar arasındaki olasılıksal ilişkileri öğrenir. Bu sayede model, bir kahkaha sesini duyduğunda (Audio Token), buna metinle "Hahaha" yazmak yerine, doğrudan bir kahkaha sesiyle (Audio Token) karşılık verebilir.

2. Sesi Tokenlaştırmak: VQ-VAE ve RVQ

Bir ses dosyasını (örneğin 1 saniyelik 24kHz ses) doğrudan Transformer'a vermek imkansızdır (saniyede 24.000 veri noktası). Bu nedenle, sesi ayrık (discrete) tokenlara dönüştürmek için Neural Audio Codec teknolojileri kullanılır.

Residual Vector Quantization (RVQ)

En yaygın teknik, sesi katmanlı bir şekilde sıkıştırmaktır. Model sesi alır ve bir Encoder aracılığıyla "Latent Space"e indirger. Burada Vector Quantization (VQ) devreye girer:

$z_q = Q(E(x))$

Sürekli ses sinyali, en yakın "kod defteri" (codebook) elemanına yuvarlanır. Kaliteyi artırmak için bu işlem Residual (Artık) olarak yapılır:

Seviye 1: Sesin ana hatlarını (içerik) kodlar. Geriye kalan hata (residual) hesaplanır.
Seviye 2: Hatayı (akustik detaylar, tını) kodlar.
Seviye 3-8: İnce detayları kodlar.

Native model, genellikle ilk 1-2 seviyeyi (semantik içerik) tahmin ederken, bir Decoder bu tokenları tekrar yüksek kaliteli sese dönüştürür.

3. Cross-Modality Alignment (Modlar Arası Hizalama)

Bu modellerin eğitimindeki en büyük zorluk, metin uzayı ile ses uzayını aynı hizaya getirmektir.

Interleaved Training Data: Model, metin ve sesin iç içe geçtiği verilerle eğitilir. (Örn: `User: [Audio: Köpek havlaması] bu nedir? Assistant: Bu bir köpektir.`)
Modality Gap: Ses encoder'ından gelen embeddingler ile metin embeddingleri, uzayda farklı yerlerde kümelenebilir. Bunu çözmek için Projector katmanları (genellikle MLP veya Q-Former) kullanılır. Bu katmanlar, ses verisini LLM'in anlayabileceği "vektör lehçesine" çevirir.

4. Performans ve Donanım: 300ms Altı Gecikme

Senin de ilgilendiğin RTX 5090 gibi kartlar, bu modellerin yerel dağıtımı (Local Deployment) için kritik öneme sahiptir.

Geleneksel vs Native Hız Karşılaştırması

Geleneksel Pipeline: STT (500ms) + LLM (500ms) + TTS (1000ms) + Network = ~2.5 saniye. (İnsanlar için konuşma akıcılığı sınırı ~500ms'dir).
Native Model: Audio In -> Transformer -> Audio Out = ~300ms.

Streaming ve VRAM

Native modellerde "Audio Token" üretimi, metin token üretiminden daha maliyetlidir çünkü saniyede üretilmesi gereken token sayısı fazladır (örneğin 25-50 Hz). Bu durum, bellek bant genişliğine (Memory Bandwidth) aşırı yük bindirir. RTX 5090'ın yüksek bant genişliği, bu "streaming generation" darboğazını aşmak için gereklidir.

5. Uygulama Alanları: Duygusal Zeka

Native modellerin en büyük farkı "Duygu Transferi"dir.

Kullanıcı fısıldarsa, model fısıldayarak cevap verir.
Kullanıcı heyecanlıysa, model ses tonunu yükseltir.
Şarkı söyleme, aksan taklidi ve arka plan seslerini anlama yeteneği "Zero-Shot" olarak gelir.

Bu, özellikle müşteri hizmetleri (öfkeli müşteriyi ses tonundan anlama) ve terapötik AI uygulamaları için devrim niteliğindedir.

Sonuç

Native Multimodal mimariler, yapay zekayı bir "metin işleme motoru" olmaktan çıkarıp, insanlar gibi duyan, gören ve konuşan organik bir iletişimciye dönüştürür. Pipeline mimarilerinin hantallığı, yerini tek bir sinir ağının akıcılığına bırakmaktadır.

BRIQ Labs olarak, kendi donanımınızda çalışacak, gizlilik odaklı Native Voice modellerinin ince ayarı (fine-tuning) üzerine çalışıyoruz.