Chatbot'lardan Dijital İşçilere: Large Action Models (LAM) ve Computer Use

Giriş: API Kısıtlamasının Sonu

Geleneksel otomasyon (RPA veya n8n/Zapier gibi araçlar), sistemlerin birbiriyle konuşması için API'lara (Uygulama Programlama Arayüzleri) bağımlıdır. Eğer bir web sitesinin API'si yoksa veya çok karmaşıksa, otomasyon tıkanır.

2025'te yükselen "Computer Use" paradigması ve Large Action Models (LAM), bu engeli "insan taklidi" yaparak aşar. Bu modeller, bir API'ye ihtiyaç duymaz; tıpkı bir insan gibi ekrana bakar, "Satın Al" butonunu görür ve fare imlecini oraya götürüp tıklar. Bu, otomasyonun sınırlarını "kodlanabilir olandan", "görülebilir olana" genişletir.


1. Large Action Model (LAM) Nedir?

LLM'ler (Large Language Models) metin token'ları üretmek için eğitilmiştir. LAM'ler ise Aksiyon üretmek için eğitilir.

Bir LAM'in çıktı uzayı (output space) şunları içerir:

  • `CLICK(x=450, y=300)`
  • `TYPE("Merhaba Dünya")`
  • `SCROLL(down)`
  • `DRAG_AND_DROP(source, target)`

Bu modeller, işletim sistemi (OS) düzeyinde bir arayüzle konuşarak, bir insanın klavye ve fare ile yapabileceği her şeyi simüle edebilir.

Neuro-Symbolic Yaklaşım

Saf bir LLM, bir web sitesindeki butonun koordinatını bilemez. LAM'ler bu yüzden Vision Encoder (Ekranı gören göz) ve Symbolic Planner (DOM ağacını veya erişilebilirlik etiketlerini okuyan mantık) bileşenlerinin birleşimidir.


2. Görme ve Tıklama: "Grounding" Problemi

Bir modelin ekrandaki "Gönder" butonuna tıklaması için, o butonun piksellerini anlamlandırması gerekir. Buna Visual Grounding denir. İki ana teknik kullanılır:

A. Set-of-Mark (SoM) Prompting

Model ekran görüntüsünü almadan önce, bir ara katman ekrandaki tüm etkileşimli öğelerin (butonlar, linkler) üzerine numaralı etiketler (bounding box) yapıştırır.

  • Model ekranı görür: "3 numaralı kutu 'Ayarlar' butonu."
  • Aksiyon üretir: `CLICK(box_id=3)`

B. Pixel-Based Navigation (Fovea Vision)

Model, insan gözü gibi ekranın belirli bir bölgesine odaklanarak (High-Res Crop) koordinat tahmini yapar. Bu yöntem daha hassastır ancak daha fazla işlem gücü gerektirir. RTX 5090 gibi kartlar, yüksek çözünürlüklü (4K) ekran görüntülerini milisaniyeler içinde işleyerek bu gecikmeyi (latency) minimuma indirir.


3. UI Navigation ve DOM Ağacı

Sadece görüntü işleme (Vision) bazen yetersiz kalır (örneğin birbirine çok benzeyen iki ikon). Bu noktada LAM'ler, web tarayıcısının Accessibility Tree (Erişilebilirlik Ağacı) veya sadeleştirilmiş HTML DOM yapısından faydalanır.

Model, görsel veri ile kod yapısını (HTML) eşleştirerek "Dual-Modality" çalışır:

"Görselde sağ üstte kırmızı bir buton görüyorum. HTML kodunda da `class='delete-btn'` etiketli bir element var. Demek ki bu silme butonu."

Bu hibrit yapı, halüsinasyon riskini azaltır ve ajanın yanlış yere tıklamasını engeller.


4. Güvenlik ve "Sandbox" Zorunluluğu

Bir yapay zekaya bilgisayarınızın tam kontrolünü vermek (dosya silme, mail atma, banka hesabına girme yetkisi) büyük bir güvenlik riskidir. Bu nedenle Computer Use ajanları asla ana işletim sisteminde (Host OS) çalıştırılmaz.

  • Dockerized Environments: Ajan, izole edilmiş bir Docker konteyneri içinde, sanal bir masaüstünde çalışır.
  • Human-in-the-Loop: Kritik işlemler (para transferi, e-posta gönderimi) öncesinde ajan durur ve kullanıcıdan onay ister ("Bu işlemi onaylıyor musunuz?").
  • Action Whitelisting: Ajana sadece belirli alan adlarına (örn. `linkedin.com`, `crm.sirketim.com`) girme izni verilir.

Sonuç: RPA 2.0 ve Otonom İş Akışları

Large Action Models, kural tabanlı RPA (Robotic Process Automation) botlarını emekliye ayırmaktadır. Bir RPA botu, web sitesinin tasarımı değiştiğinde bozulur. Bir LAM ise web sitesi değişse bile "Giriş Yap" butonunu yeni yerinde görüp bulabilir ve iş akışını sürdürür.

BRIQ Mind olarak, n8n gibi modern araçları bu görsel ajanlarla birleştirerek, API'si olmayan "Legacy" sistemlerinizi bile modern otomasyon dünyasına taşıyoruz.



Operasyonel Yükü Sıfırlayın

BRIQ Labs, API desteği olmayan eski yazılımlarınızı bile yönetebilen, ekranı okuyup işlem yapan güvenli "Computer Use" ajanlarını iş süreçlerinize entegre eder.

İletişime Geçin