Etkileşim Modelleri - insan-AI işbirliği için ölçeklenebilir bir yaklaşım

(thinkingmachines.ai)

4 puan yazan GN⁺ 3 시간 전 | 2 yorum | WhatsApp'ta paylaş

Harici bir harness yerine, modelin ses, video ve metni gerçek zamanlı olarak eşzamanlı biçimde girdi ve çıktı olarak işlemesi sayesinde insanlarla doğal biçimde işbirliği yapılır
Mevcut tur tabanlı modeller, kullanıcı konuşmasını bitirene kadar beklediği ve üretim sırasında yeni girdi alamadığı için bir işbirliği darboğazına sahipti
200 ms’lik mikrotur tasarımı ile girdi ve çıktılar sürekli akışlar olarak işlenir; böylece araya girme, eşzamanlı konuşma ve görsel tepki gibi çeşitli etkileşim modları desteklenir
Sistem, gerçek zamanlı diyaloğu yöneten Interaction Model ile uzun vadeli akıl yürütme ve araç kullanımını üstlenen Background Model arasında bağlam paylaşımı yapar
Etkileşimsellik modelin kendisine gömülü olduğundan, ölçeklendikçe daha akıllı hale gelirken aynı zamanda daha iyi bir işbirliği ortağına dönüşür

İşbirliği darboğazı ve Interaction Model’in hedefi

Thinking Machines Lab, etkileşimi harici bir harness ile değil modelin kendisinin işlediği Interaction Model araştırma ön izlemesini duyurdu
Amaç, yalnızca yapay zekanın zekasını değil etkileşimselliğini de birlikte ölçeklendirmek; bunun için modelin ses, video ve metni sürekli alıp gerçek zamanlı olarak düşünüp yanıt vermesi ve hareket etmesi hedefleniyor
Bugün birçok yapay zeka araştırması ve arayüzü, yapay zekanın uzun süre otonom şekilde çalışabilme yeteneğini öne çıkarıyor; ancak insanın sürekli devrede olduğu hands-on-keyboard işlerde model fazla yavaş hissedildiği için değeri daha az görünür olabiliyor
- İnsanın döngünün içinde kalmasına göre optimize edilmemiştir
Gerçek iş akışlarında gereksinimleri en baştan eksiksiz tanımlayıp çekilmek zordur; insanın süreç içinde netleştirme ve geri bildirim vermesiyle oluşan işbirliği süreci daha iyi sonuçlara yardımcı olur
Mevcut tur tabanlı modeller, kullanıcı girdisini bitirene kadar bekler ve model üretim yaparken yeni bilgi alamaz; bu yüzden gerçekliği tek iş parçacıklı bir yapı gibi deneyimler
- Bu yapı, kullanıcının bilgi, niyet ve muhakemesinin modele aktarılma genişliğini ve insanın modelin çalışmasını anlayabilme genişliğini daraltır
Thinking Machines Lab’e göre bu darboğazı aşmak için tüm modalitelerde gerçek zamanlı etkileşim mümkün olmalı; insanın AI arayüzüne uyması yerine AI insanın çalışma biçimine uyum sağlamalıdır
Mevcut AI modellerinin çoğu, kesintileri, çok modluluğu ve eşzamanlılığı taklit etmek için birden çok bileşeni birleştiren harness’ler kullanır; ancak The Bitter Lesson’a göre el işçiliğiyle kurulan sistemler, genel yeteneklerin ölçeklenmesine yenik düşebilir
Etkileşimselliğin zekayla birlikte ölçeklenebilmesi için bunun model içi bir yetenek olması gerekir; model büyüdükçe yalnızca daha akıllı değil, aynı zamanda daha iyi bir işbirliği ortağı da olmalıdır

Model içi etkileşimin açtığı yetenekler

Doğal konuşma yönetimi
- Model, konuşanın düşünüp düşünmediğini, sözü devredip devretmediğini, kendini düzeltip düzeltmediğini veya yanıt teşvik edip etmediğini örtük biçimde takip eder
- Bunları ayrı bir konuşma yönetimi bileşeni olmadan değerlendirir
Ses ve görsel temelli müdahale (araya girme)
- Model yalnızca kullanıcı konuşmasını bitirdiğinde tepki vermez; bağlama göre gerekli anlarda araya girebilir
- Kullanıcı yanlış bir şey söylediğinde sözünü kesmek veya koda bir bug yazdığında görsel ipuçlarını görüp uyarmak mümkün olabilir
Eşzamanlı konuşma
- Kullanıcı ve model aynı anda konuşabilir; bu, gerçek zamanlı çeviri gibi durumlarda faydalıdır
Zaman farkındalığı
- Model geçen süreyi doğrudan algılar ve belirli zaman aralıklarına göre konuşma ya da kullanıcının eylem süresini ölçme gibi görevleri ele alabilir
Araç çağırma, arama ve üretken UI’ı eşzamanlı yürütme
- Model, kullanıcıyla konuşup dinlerken aynı anda arama, web’de gezinme ve UI oluşturma işlemlerini gerçekleştirebilir
- Sonuçlar hazır olduğunda bunları konuşmanın akışına uygun şekilde yeniden dahil eder
- Uzun gerçek oturumlarda bu yetenekler sürekli birlikte çalışır ve bu deneyim, bir prompt göndermekten çok birlikte çalışıyormuş hissi verir

Yaklaşım

Zamana hizalanmış mikro turlar
- Interaction Model, sürekli giriş-çıkış akışlarını mikro turlara böler ve etkileşimi zaman temelinde yapılandırır
- Tur tabanlı modeller sırayla ilerleyen token dizilerine bakarken, zaman farkındalığına sahip Interaction Model sürekli mikro tur akışını görür; bu nedenle sessizlik, çakışma ve araya girme model bağlamında kalır
- Model, kullanıcıyla sürekli çift yönlü bir alışveriş durumunu korur ve algılama ile yanıt vermeyi eşzamanlı olarak yürütür
- Robotik ve otonom sürüş, fiziksel dünyanın gereklilikleri nedeniyle gerçek zamanlı çalışmayı varsayar; Moshi, PersonaPlex, nemotron-voicechat, Seeduplex gibi ses odaklı full-duplex modeller de çift yönlü ve sürekli etkileşime örnektir
Sistem yapısı
- Sistem, gerçek zamanlı mevcudiyeti koruyan zaman farkındalığına sahip Interaction Model ile sürekli akıl yürütme, araç kullanımı ve uzun süreli görevleri üstlenen asenkron Background Model'den oluşur
- Daha derin akıl yürütme anında üretilemediğinde Interaction Model bunu Background Model'e devreder
- Devir sırasında da Interaction Model kullanıcı karşısında kalmaya devam eder; takip sorularını yanıtlar, yeni girdiler alır ve konuşma bağlamını korur
- Background Model'in sonuçları üretildikçe akış halinde iletilir ve Interaction Model bunları kullanıcının mevcut davranışına uygun anda konuşmaya entegre eder
- İki sistem bağlamı paylaşır ve kullanıcı, akıl yürütmeyen model düzeyindeki yanıt gecikmesi içinde akıl yürütme modelinin planlama, araç kullanımı ve ajan iş akışlarından birlikte yararlanabilir
- Hem Background Model hem de Interaction Model zekâ sahibidir; Interaction Model tek başına da etkileşim ve zekâ benchmark'larında rekabetçi performans gösterir
Interaction Model mimarisi
- Tasarımın çıkış noktası, doğası gereği gerçek zamanlı olan sürekli ses ve videodur; metin bekleyebilir ama gerçek zamanlı konuşma bekleyemez
- Model, metin, ses ve videonun herhangi bir alt kümesini girdi olarak alır ve metin ile sesi tahmin eder
- 200ms'lik girdi işleme ile 200ms'lik çıktı üretimini sürekli dönüşümlü yapan mikro turlarla çalışır
- Tamamlanmış kullanıcı turunu tüketip tamamlanmış bir yanıt üretmek yerine, hem giriş token'larını hem de çıkış token'larını akış olarak işler
- Bu yaklaşım, birden çok giriş-çıkış modalitesinde neredeyse gerçek zamanlı eşzamanlılığı mümkün kılar ve modelin uyması gereken yapay tur sınırlarını ortadan kaldırır
- Mevcut gerçek zamanlı sistemlerin çoğu, tur tabanlı modelleri gerçek zamanlıymış gibi göstermek için ses etkinliği algılama (VAD) gibi harness'lerle tur sınırlarını tahmin eder
- Bu harness bileşenleri modelin kendisinden daha az zekidir; bu da proaktif araya girme veya görsel ipuçlarına tepki verme gibi etkileşim modlarını sınırlar
- Interaction Model'de bu tür etkileşim modları özel harness'ler değil, modelin gerçekleştirebildiği özel durumlar haline gelir; kalite de model boyutu ve eğitim verisi ölçeği arttıkça iyileşebilir
Encoder'sız erken füzyon
- Ses ve videoyu büyük bağımsız encoder'larla işlemek yerine minimum ön işleme kullanan bir mimari seçilmiştir
- Birçok omni-modal model, Whisper benzeri bir encoder veya TTS benzeri bir decoder'ı ayrı ayrı eğitmek zorundayken bu model ses sinyalini dMel biçiminde alır ve hafif bir embedding katmanına dönüştürür
- dMel, Bai, et al. 2024 çalışmasını izler
- Görüntüler 40x40 patch'e bölündükten sonra hMLP ile encode edilir
- Ses decoder'ı için flow head kullanılır
- Tüm bileşenler transformer ile birlikte en baştan ortak olarak eğitilir
Çıkarım optimizasyonu
- Çıkarım sırasında 200ms'lik chunk'lar, küçük boyutlu prefill ve decode işlemlerinin sık yapılmasını gerektirir ve her adımın katı gecikme koşullarını karşılaması gerekir
- Mevcut LLM çıkarım kütüphaneleri, küçük prefill işlemlerinin sık yaşandığı durumlar için optimize edilmediğinden tur başına overhead yüksektir
- Bunun için streaming session uygulanmıştır; istemci her 200ms'lik chunk'ı ayrı istek olarak gönderdiğinde çıkarım sunucusu chunk'ları GPU belleğindeki kalıcı diziye ekler
- Bu yaklaşım, sık bellek yeniden tahsisini ve metadata hesaplamalarını önler; bu işlevin bir sürümü SGLang'e upstream edilmiştir
- Çift yönlü serving'de ortaya çıkan shape ve gecikmelere göre kernel'ler de optimize edilmiştir
- MoE kernel'lerinde standart grouped gemm yerine, PyTorch ve Cursor'ın önceki çalışmalarında olduğu gibi gather+gemv stratejisi kullanılır
Trainer-Sampler hizalaması
- Bit düzeyinde trainer-sampler alignment, eğitim kararlılığı ve sistem bileşenlerinin debug edilmesi açısından faydalı olmuştur
- batch-invariant kernels uygulanmıştır ve toplam performans overhead'i %5'in altındadır
- All-reduce ve reduce-scatter için NVLS kullanılarak Blackwell üzerinde deterministik düşük gecikmeli iletişim kernel'leri uygulanmıştır
- Bu kernel'ler, Sequence Parallelism ve Tensor Parallelism gibi farklı paralelleştirme stratejileri arasında da bit düzeyinde hizalama sağlar
- Attention tarafındaki temel zorluk Split-KV'dir; bu, genellikle decode ile prefill arasında toplama sırası uyumsuzluğu yaratabilir
- Decode ile prefill arasında split'in tutarlı seçilmesi toplama sırasını koruyabilir; örneğin SM'leri 4096 token'lık birimler halinde left-aligned işlemek, hem prefill hem decode tarafında verim sağlayabilir
İki modelin koordinasyonu
- Interaction Model devir yaptığında bağımsız bir sorgu değil, tüm konuşmayı içeren zengin bir bağlam paketi gönderir
- Background Model'in sonuçları üretildikçe geri döner ve Interaction Model bunları ani bir bağlam değişimi olarak değil, kullanıcının mevcut davranışına uygun bir anda konuşmaya örer
Güvenlik
- Gerçek zamanlı etkileşim, güvenliği tur tabanlı alışverişlerden farklı biçimde zorladığı için çalışma modaliteye uygun ret ve uzun konuşma dayanıklılığı üzerine yoğunlaşır
- Sesli retlerin konuşma dilinde doğal duyulması için, TTS modeliyle izin verilmeyen konu alanlarına yönelik ret ve aşırı ret eğitim verileri üretilir
- Ret sınırları, doğallığı tercih ederken kararlılığı azaltmayacak şekilde kalibre edilir
- Uzun speech-to-speech konuşmalarda dayanıklılığı artırmak için otomatik red-team harness ile çok turlu ret verileri üretilir
- Metin tabanlı retlerle davranış benzerliği de yakın tutulur

Benchmark’ler ve değerlendirme

Zeka ve etkileşimsellik
- Modelin adı TML-Interaction-Small; güçlü zeka, yönerge takibi ve etkileşimselliği birlikte sunan ilk model olarak tanıtılıyor
- Etkileşim kalitesi FD-bench ile ölçülüyor
- FD-bench v1.5’te önceden kaydedilmiş ses verildiğinde modelin belirli anlarda yanıt vermesi gerekiyor; kullanıcı araya girmesi, onaylayıcı kısa tepkiler, başka biriyle konuşma ve arka plan konuşması durumlarında model davranışı ölçülüyor
- Zeka, zeka ve yönerge takibini izleyen genel bir benchmark olan Audio MultiChallenge ile ölçülüyor
- TML-Interaction-Small, FD-bench V1 turn-taking gecikmesinde 0.40 saniye kaydederek tablodaki karşılaştırma modellerinden daha düşük gecikme gösteriyor
- FD-bench V1.5 ortalama puanı 77.8; bu değer GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live ve Qwen 3.5 OMNI-plus-realtime’dan daha yüksek
- FD-bench V3 Audio+Tools’ta Background Agent etkinleştirildiğinde yanıt kalitesi %82.8 / Pass@1 %68.0 elde ediliyor
- QIVD Video+Audio doğruluğu %54.0; bazı karşılaştırma modellerinden daha düşük ya da benzer
- Audio MultiChallenge APR %43.4; GPT-realtime-2.0 xhigh’ın %48.5’inin altında, ancak instant modellerden daha yüksek
- BigBench Audio, Background Agent etkinleştirildiğinde 75.7 / 96.5 olarak raporlanıyor
- IFEval, VoiceBench Audio’da %82.1, Text’te %89.7 kaydediyor
- Harmbench metin reddetme oranı %99.0
Mevcut değerlendirmelerin yakalayamadığı etkileşim boyutları
- Mevcut etkileşim benchmark’ları modellerde gözlenen nitel sıçramayı yeterince yakalayamadığı için, zaman farkındalığı, eşzamanlı konuşma ve görsel proaktiviteyi ölçen iç ve uyarlanmış değerlendirmeler eklenmiş
Zaman farkındalığı ve eşzamanlı konuşma
- Tur tabanlı modeller ve diyalog yönetim sistemleri doğru zaman tahmini ya da eşzamanlı konuşmayı desteklemiyor
- Örnek görevler “1 mili koşmak ne kadar sürdü”, “telaffuzumu duyar duymaz düzelt”, “bu fonksiyonu kullanmak ne kadar sürdü” gibi biçimlerde
- TimeSpeak, modelin kullanıcının belirttiği zamanda konuşmaya başlayıp doğru içeriği söyleyip söyleyemediğini test ediyor
- Örnek: “Nefes egzersizi yapmak istiyorum; ben dur demene kadar her 4 saniyede bir nefes alıp vermemi söyle”
- CueSpeak, anlamsal olarak doğru yanıtı uygun anda söyleyip söylemediğini test ediyor
- Veriler, tam puan almak için modelin kullanıcıyla aynı anda konuşmasını gerektirecek şekilde yapılandırılıyor
- Örnek: “Ben code-switching yapıp başka bir dile geçtiğim her seferde, özgün dildeki doğru kelimeyi söyle”
- Her iki benchmark’ta da her örnek için bir beklenen anlam yanıtı ve bir zaman penceresi bulunuyor; LLM judge yalnızca hem anlam hem de zamanlama koşulları karşılandığında doğru puan veriyor
Görsel proaktivite
- Mevcut ticari gerçek zamanlı API’ler çoğunlukla sesi temel alan diyalog yönetimi harness’leriyle konuşma sırasını algılıyor ve görsel dünya değiştiğinde kendi başına ne zaman konuşacağını seçemiyor
- StreamBridge, Streamo, StreamingVLM ve MMDuet2, akış halindeki video girdisinden ne zaman metin çıktısı verileceğini ele alıyor
- Bu metin çıktısı çalışmaları, sözlü çıktının bir süreye sahip olması, kullanıcıyla çakışabilmesi ve turn-taking, araya girme ve onaylayıcı kısa tepkilerle koordine edilmesi gereken sesli çıktı etkileşimi kısıtlarını ele almıyor
- AURA, VideoLLM’in ne zaman metin üreteceğine ya da sessiz kalacağına karar verdiği bir yapıya ASR/TTS demosu eklenmiş bir biçim; Thinking Machines Lab’in modeli ise speech-native ve full-duplex olmasıyla ayrışıyor
Görsel proaktivite değerlendirmesi
- RepCount-A, tekrarlı hareket videolarının çevrim içi sayma görevine uyarlanmış hali
- Modele “{action} tekrar sayısını say” sesli yönergesi ve video akışı veriliyor; doğru yanıtın sondan bir önceki tekrarından sonra modelin söylediği son sayının, doğru sayıdan en fazla 1 sapması üzerinden puanlanıyor
- Bu görev, sürekli görsel izleme ve zamanında saymayı ölçüyor
- ProactiveVideoQA, cevabın belirli bir anda bilinir hale geldiği sorular içeren videolardan oluşuyor
- Soru ses olarak akıtıldıktan sonra video gönderiliyor; altyazı varsa videoya gömülüyor ve görsel proaktiviteyi vurgulamak için giriş videosunun sesi kapatılıyor
- Değerlendirme, makaledeki turn-weighted PAUC@ω=0.5 metriğini 0-100 ölçeğine getirip tur ve kategori ortalaması alarak yapılıyor; sürekli sessiz kalmak 25.0 puan getiriyor
- Yüksek puan için doğru yanıtı doğru zamanda vermek gerekiyor; yanlış yanıtlar ceza alıyor
- Charades, standart bir zamansal eylem konumlandırma benchmark’ı; her video, etiketlenmiş zaman aralıklarında gerçekleşen eylemler içeriyor
- Model, “kişi {action} yapmaya başladığında ‘start’ de, bıraktığında ‘Stop’ de” sesli yönergesi ve video akışını alıyor; puanlama tahmin aralığı ile referans aralığı arasındaki temporal IoU ile yapılıyor
Mevcut modellerin sınırlamaları
- Mevcut modeller bu zaman farkındalığı, eşzamanlı konuşma ve görsel proaktivite görevlerini anlamlı biçimde yerine getiremiyor
- Tamlık adına GPT Realtime-2 minimal sonuçları raporlanıyor, ancak thinking high modeller dahil değerlendirilen tüm modeller benzer ya da daha kötü performans gösteriyor; sessiz kalıyor ya da yanlış yanıt veriyor
- Etkileşimsellik gelecekte önemli bir araştırma alanı olarak görülüyor; Interaction Model ve insan-yapay zeka işbirliği değerlendirme çerçeveleri gibi alanlar için araştırma hibeleri planlandığı belirtiliyor

Sınırlamalar ve yayın planı

Uzun oturumlar
- Sürekli ses ve video, bağlamı hızla biriktiriyor
- streaming-session tasarımı kısa ve orta uzunluktaki etkileşimleri iyi işliyor, ancak çok uzun oturumlar için dikkatli bağlam yönetimi gerekiyor
Hesaplama ve dağıtım
- Düşük gecikmeyle ses ve video akıtmak için kararlı bir bağlantı gerekiyor
- İyi bir bağlantı olmadığında deneyim ciddi biçimde kötüleşiyor
- Sistem güvenilirliğini artırıp modeli geciken karelere karşı daha dayanıklı eğiterek iyileştirme alanı bulunuyor
Hizalama ve güvenlik
- Gerçek zamanlı arayüzler hem hizalama hem de güvenlik için yeni araştırma alanları açıyor; geri bildirim toplama ve araştırma hibesi incelemeleri sürüyor
Model ölçeğini büyütme
- Mevcut TML-Interaction-Small, 276B parametreli MoE ve etkin parametre sayısı 12B
- Model ölçeği büyüdükçe etkileşimselliğin de iyileşmesi bekleniyor, ancak daha büyük ön eğitimli modeller şu anda bu kurulumda servis vermek için fazla yavaş
- Daha büyük modellerin bu yılın ilerleyen dönemlerinde yayınlanması planlanıyor
Background Agent iyileştirmeleri
- Ana odak gerçek zamanlı etkileşimsellik olsa da ajan zekası da temel bir yetenek
- Ajan zekasını frontier seviyesine çıkarmanın yanı sıra, Background Agent’in Interaction Model ile birlikte çalışma biçimi hâlâ erken aşamada
Yayın takvimi
- Önümüzdeki birkaç ay içinde geri bildirim toplamak için sınırlı bir araştırma ön izlemesi açılması, yılın ilerleyen dönemlerinde ise daha geniş çaplı yayın yapılması planlanıyor

2 yorum

xguru 2 시간 전

Ekli videoları izlemeniz gerekiyor. Gecikme bu seviyede bile olunca oldukça gerçekçi görünüyor.
Biraz daha gelişirse gerçekten filmlerde gördüğümüz gibi sohbet ediyor olacağız gibi geliyor.

GN⁺ 3 시간 전

Hacker News görüşleri

Bu videolar izlemeye değer. Etkileyici çok sahne var ama beni asıl ilk sahnede kadın “Bir hikâye anlatayım” dedikten sonra kahvesinden uzun uzun içerken modelin hiçbir şey yapmayıp sadece beklemesi ikna etti. Para verip kullanmak istedim
Para lafı açılmışken, böyle bir şirketin ekonomik modelinin ne olduğunu merak ediyorum. Mimariyi epey açık etmişler ve frontier laboratuvarlarının uygulayabileceği kadarını paylaşmış gibiler. Patent mi? Ticari sır mı? Anthropic/GOOG/oAI/Meta’nın eğitim hesaplama gücü ve know-how’ını yasal koruma olmadan nasıl geçebileceklerini anlamak zor
Böyle bir model mimarisi gecikmeyi %30-40 azaltıp daha da akıllı hale gelirse neler olur diye merak ediyorum. Bu arada bu model kabaca Opus 4.7 / GPT 5.x ailesinin yaklaşık 1/10’u boyutunda, 275B ve aktif 12B gibi görünüyor; yani üstüne daha fazla zekâ eklemek ve daha düşük gecikme beklemek için bol alan var
- Açıklanan mimari büyük olasılıkla buzdağının sadece görünen kısmı. Hiperparametre ayarı, veri reçeteleri, veri toplama, özel kernel’lar, pekiştirmeli öğrenme/değerlendirme altyapısı çok derin konular ve böyle son teknoloji performansa ulaşmak için birçok doktoralı araştırmacının onlarca yıllık birikiminin sıkışmış hali gerekiyor
  Sadece beklemek, daha çok sonradan eğitim tarafına yakın bir konu; bu yüzden Gemini ya da oAI’nin bunu önceliklendirmemiş olmasını fazla büyütmemek lazım. Burada gösterilen full duplex ise teknik olarak çok daha zor bir başarı
- Çin’de umut vadeden yeni şirketlerin Alibaba ya da Tencent’ten satın alma teklifi alması iyi bilinen bir şey. ABD’de de benzer olduğunu tahmin ediyorum. Açık olan her şey ya satın alınabilir ya da doğrudan kopyalanabilir. Belki Thinking Machines de bunu umuyordur
- Ekonomik model aslında baştan beri kurumsal LLM değil miydi diye düşünüyorum. tinker, özelleştirilmiş kurumsal model ince ayarı için; interaction models ise şirketin tüm süreçlerini AI ajanları etrafında baştan icat etmesine gerek kalmadan dijital bir ekip arkadaşı gibi çalışmasını sağlamak için görünüyor
- Öncü araştırmacıları işe almak istiyorsanız onların makale yayımlayabilmesine izin vermeniz gerekir; yoksa çalışmazlar
Dikkat çeken şey, bu mimarinin metin, görsel ve ses girdisi alıp metin ve ses çıktısı veren bir transformer olması ve hepsinin birlikte eğitilmiş olması. Ayrıca verilen prompt’tan çıktıyı saf biçimde üretmek yerine, girdileri ve çıktıları birbirine geçirerek neredeyse gerçek zamanlı çalışıyor
“Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
Bana göre bunu diğer frontier laboratuvarlarının çok modlu modellerinden ayıran temel nokta bu
- Baştan çok modlu mimari olarak tasarlanırsa, farklı modalitelerin aynı nesnenin farklı “yüzleri” gibi ele alındığı uygulamalar çıkabilir olması gerçekten çok ilginç. Mesela bir kodlama ajanı “kod” + “IDE” + “memory mapping” + çeşitli eklenti geri bildirimlerini farklı modaliteler olarak görebilir; çıktı da metin gereken yerde metin, eylem gereken yerde bugünkü gibi call_something(params) yerine doğrudan eylem olarak verilebilir
  Bir modalite tetiklenene kadar “sessiz kalabilme” yeteneği de ilginç. Bu tür şeyler bugün de yapılabiliyor ama daha çok sonradan eklenmiş gibi duruyor; buna rağmen oldukça iyi çalışıyor. En baştan birleşik biçimde eğitilirse ne kadar iyi olacağını merak ediyorum
- “200 ms’lik girdiyi işleyip 200 ms’lik çıktı üretimini araya serpiştiriyor” ifadesinin nasıl çalıştığını merak ediyorum. LLM/transformer’ların bir sonraki token grubunu üretmek için tüm bağlama ihtiyacı yok mu?
Demolara bakınca, dıştaki harness içinde olan bileşenleri modelin içine taşıdıkları çok örnek var gibi görünüyor; bunun gerçekten esnek bir yaklaşım olup olmadığından emin değilim
Birçok durumda kullanıcı etkileşim harness’i dışarıda olduğunda daha hızlı iterasyon yapılabilir gibi geliyor. Örneğin kullanıcı ile model arasında bir UI varsa ve o UI’ın değişmesi gerekiyorsa, kullanıcı bunu doğrudan özelleştirebilir de
Bence esneklik şart. Gerçek zamanlı çeviri ya da basit ses botları gibi sabit kullanım senaryolarında böyle modeller faydalı olabilir ama her birinde sonunda daha uzmanlaşmış alternatiflere yenilme ihtimalleri yüksek
Modelin kendisinin etkileyici olması bir yana, buradaki demolar gerçekten çok iyi hazırlanmış. Anthropic ya da OpenAI’de gördüklerimin aksine kısa ve karakter sahibi
- İlginç, etkileyici ve demoların iyi olduğu konusunda katılıyorum
  Ama “kambur duruş” demosunda kadının sergilediği beklenmedik fiziksel komedi gerçekten çok komikti. Kusursuz komediydi, düzeltilecek hiçbir şey yok
  OpenAI/Anthropic tarzı demolardan ziyade bu insani havayı daha çok seviyorum. Buna “insan merkezli tasarım” örneği demeye cesaret edebilir miyiz acaba (https://en.wikipedia.org/wiki/Human-centered_design)
Çok havalı. Yine de demolar bana oldukça kurgulanmış geldi. Mesela ben konuşurken nesneleri sayması gibi. Daha kullanışlı ya da ticari uygulamaların nasıl görüneceğini merak ediyorum
- Teoride, mevcut frontier modellerin yapabildiği her şeyi yapıp buna daha iyi işbirliği için gerçek zamanlı etkileşim ekleyen bir yapı olması beklenir. En büyük avantaj gerçek zamanlı video girdisi olabilir. Tüm videoyu ya da görüntüleri topluca alıp tek bir çıktı üretmek yerine, girdiyi alırken aynı anda bu girdiyle şekillenen çıktıyı paralel biçimde üretebilir
- Bunu tüm AI demolarında güçlü biçimde hissediyorum. Teknolojiyi göstermek için akla gelen en iyi kullanım örneği benim zaten kolayca kendim yapabileceğim bir tatil rezervasyonu ise, bu hizmet gerçekten büyük bir değer mi katıyor? Yoksa asıl kullanım alanları daha incelikli ve uzmanlık gerektiren şeyler olduğu için kısa, kitleye yönelik demolara uymuyor mu? Bilmiyorum
Daha doğal insan-AI etkileşim kalıpları sanki bu yöne gitmeliymiş gibi geliyor. Yazı da demo da güzel
Söylemek istemiyorum ama bu, AI ile etkileşim kurma biçiminde hem oldukça etkileyici ve ileri bir adım gibi görünüyor, hem de sundukları kullanım senaryoları ve UX bana gerçek dışı ya da pek faydalı gelmiyor
Gerçek zamanlı çeviri istisna; o başlı başına ayrı bir ürün olmalı gibi. Onun dışında hayvan saymak ya da bilgi yarışması süresi tutmak pek faydalı görünmüyor. Duruş tespiti demosu komikti ama bir o kadar da distopik ve tuhaftı. Yaşlı ebeveynleri dağ bisikletine götürme hikâyesini sonuna kadar beklemeden AI’ın araya girip azarlaması da hoş değildi
UX de sorunlu. Modelin kullanıcıyı bölmesi, bu garip kullanım örneklerinde gerekli gibi görünse bile akışı bozuyor. Yayınlanan demo videolarında bile çalışanların/oyuncuların, ters bir robot makine tarafından bölünmüyormuş gibi konuşmayı sürdürmek için epey odaklanması gerektiği görülüyor. İnsanlar böyle nadir “davetli araya giriş” durumlarında ana konuşmacının altından konuşabilir ve genelde zamanlamayı çok daha incelikli ayarlar
Otomatik çeviri demosunda da insan sesini kısmış olsalar bile AI araya baskın biçimde girdi; gerçekte o demoyu yapmak için konuşmayı çok sıkı kontrol etmek ya da daha muhtemelen çıktıyı susturmak gerekirdi. İnsan tercümanların “çıktıyı” hedef dinleyiciye yöneltmenin kendine özgü yolları vardır
Bu teknolojinin en iyi tarafı, ilk videoda AI’ın kullanıcıyı gereksiz yere bölmemesiydi. Sanki mevcut modellerde hâlâ duran önemli bir hatayı düzeltmişler gibi görünüyor
İyi bir kullanım örneği olarak, topluluk önünde konuşma pratiğinde “ıı”, “eee” gibi dolgu sözcüklerini saymak düşünülebilir
- Omni model, gerçek zamanlı insan-bilgisayar etkileşimi için çok faydalı görünüyor. Hemen akla gelen örnekler sesli asistanlar, müşteri deneyimi, oyunlar, toplantı yardımcıları, yazılım kullanımı için gerçek zamanlı koçluk ya da kullanıcı desteği, çeviri ve sesle kontrol edilen bilgisayar işleri
  Örneğin frontend/mobil geliştirme, CAD, 3D modelleme gibi işler. Geleneksel olarak bu tür LLM ajanı kullanım senaryolarında gecikme yüksektir; çünkü modelin konuşmacının bitirmesini bekleyip araç çağırıp çağırmayacağına ya da cevap verip vermeyeceğine karar vermesi gerekir, araç çağırırsa da araç sonucunu işleyip tekrar araç mı çağıracağına yoksa yanıt mı vereceğine karar vermesi gerekir
Bu, insanların hâlihazırda yerelde Gemma4 ve TTS ile yaptığı şeye benziyor, sadece biraz daha gösterişli
Yerel modeller yakında yetişir
Niyeti iyi olabilir ama yanlış ellere geçtiğinde gözetim teknolojisini güçlendirecek gibi görünüyor. Artık buna karşı durma zamanı

Etkileşim Modelleri - insan-AI işbirliği için ölçeklenebilir bir yaklaşım

İşbirliği darboğazı ve Interaction Model’in hedefi

Model içi etkileşimin açtığı yetenekler

Doğal konuşma yönetimi

Ses ve görsel temelli müdahale (araya girme)

Eşzamanlı konuşma

Zaman farkındalığı

Araç çağırma, arama ve üretken UI’ı eşzamanlı yürütme

Yaklaşım

Zamana hizalanmış mikro turlar

Sistem yapısı

Interaction Model mimarisi

Encoder'sız erken füzyon

Çıkarım optimizasyonu

Trainer-Sampler hizalaması

İki modelin koordinasyonu

Güvenlik

Benchmark’ler ve değerlendirme

Zeka ve etkileşimsellik

Mevcut değerlendirmelerin yakalayamadığı etkileşim boyutları

Zaman farkındalığı ve eşzamanlı konuşma

Görsel proaktivite

Görsel proaktivite değerlendirmesi

Mevcut modellerin sınırlamaları

Sınırlamalar ve yayın planı

Uzun oturumlar

Hesaplama ve dağıtım

Hizalama ve güvenlik

Model ölçeğini büyütme

Background Agent iyileştirmeleri

Yayın takvimi

İlgili okumalar

2 yorum

Hacker News görüşleri