Merhaba, Seul Ulusal Üniversitesi AIDAS Laboratuvarı'nın (https://aidas.snu.ac.kr/) duyurduğu omnimodal foundation model Dynin-Omni’yi (https://dynin.ai/omni/) tanıtmak istiyoruz. Metin, görsel, ses ve videoyu tek bir model içinde hem anlayan hem de üreten birleşik bir yapıya sahip.
Son dönemdeki multimodal birleşik modellere bakıldığında, çoğunda LLM’e bir görsel üretici veya TTS modeli eklenmiş bir yapı görülüyor. Ancak pratikte kullanıldığında bu pipeline karmaşık olabiliyor, yavaş çalışabiliyor ve bazen orkestrasyonun aksadığı durumlar yaşanabiliyor.
Ayrıca model dış üreticiler olmadan yerel olarak anlama ve üretimi desteklese bile, çoğu Autoregressive (AR) tabanlı olduğu için token’ları sırayla üretmek gerekiyor. Oysa görsel veya video aslında sıralı veri olmadığından, bu yaklaşım biraz yapay kalabiliyor.
Bu yüzden yaklaşımı baştan değiştirdik.
Token’ları tek tek üretmek yerine, maskelenmiş halde bırakıp tek seferde geri yükleyen masked diffusion yaklaşımını benimsedik. Böylece tüm görevler “hangi token’lar maskelenecek ve geri yüklenecek” sorusu etrafında birleşiyor.
Örneğin:
- Görsele bakıp açıklama yazma → yalnızca metni doldurmak
- Metinden görsel üretme → görsel token’larını doldurmak
- Ses üretimi → ses token’larını doldurmak
Mantık bu şekilde işliyor.
Böylece ayrıca bir görsel üretim modeli veya TTS modeli eklemeden, tek bir model içinde hem anlama hem de üretim birlikte gerçekleştirilebiliyor. Performans da tek model ölçeğinde oldukça iyi görünüyor.
Metin çıkarımı son dönem LLM’lerle kıyaslanabilecek düzeyde; görsel ve video anlama ise InternVL ve Qwen2.5-VL gibi vision modellerle rekabet edebilecek seviyede. Görsel üretimi FLUX gibi uzman modellere, ses tarafı ise Qwen-TTS ailesi gibi uzman modellere yakın bir düzeye ulaşmış durumda.
Hız tarafında da verimlilik sağlandı. Metin üretim hızı, Qwen2.5-Omni ve MiniCPM-o4.5’e kıyasla yaklaşık 4 ila 5 kat daha hızlı; vLLM üzerinde optimize edilmiş bir dil modeli olan Qwen3-8B ile karşılaştırıldığında bile yaklaşık 2,5 kat daha hızlı. Görsel üretiminde de mevcut uzman üretim modellerine göre yaklaşık 2 kat daha az step ile benzer kalite elde ediliyor.
Yakın zamanda ortaya çıkan Qwen3.5-Omni gibi AR tabanlı, biliş odaklı omnimodal modeller çoğunlukla anlama tarafına odaklanırken, Dynin-Omni anlama ve üretimi tek bir yapıda birleştiriyor. Token’ları sırayla üretmek yerine tümünü bir kerede geri yükleyen bir yöntem kullandığı için, görsel ve video gibi sıralı olmayan verilere daha hızlı ve daha doğal şekilde uyum sağlayabiliyor.
Bu yapı, ajanlar veya robotik gibi aynı anda çeşitli girdileri anlayıp gerçek eylem ya da sonuç üretmesi gereken alanlarda daha da önem kazanıyor. Birden fazla modeli birleştiren yöntemlerin aksine, tek bir modelin doğrudan işlem yapması sistem karmaşıklığını azaltıyor ve maliyet ile hız açısından avantaj sağlıyor.
Ayrıca anlama ve üretimi tek bir çerçevede birleştiren bu yapı sayesinde, yeni modality veya görevler eklense bile ayrı modelleri bağlamaya gerek kalmadan aynı mimari içinde farklı alanlara doğal biçimde genişlemek mümkün.
Bu yapının gerçek servis ortamlarında da kullanılabilmesi için, vLLM ile dInfer ve SGLang tabanlı serving altyapılarına entegrasyon üzerinde çalışıyoruz. Multimodal girdi ve üretimi tek bir modelle işlediği için, verimli çıkarım altyapısının da önemli bir unsur olduğunu düşünüyoruz.
Bunun ötesinde, bu modeli temel alarak robotik ve ajan ortamlarını da kapsayan bir physical AI modeline genişleyen Dynin-Robotics üzerinde de araştırmalar sürüyor. Amaç, çeşitli sensör girdilerini birleşik biçimde anlayıp gerçek eyleme bağlanan end-to-end bir yapı kurmak.
Bundan sonra da Çin’deki Tsinghua Üniversitesi’nin GLM serisi ve Şanghay Yapay Zeka Laboratuvarı’nın InternLM’i gibi, sürekli araştırma ve geliştirmeyle bunu ilerletmeyi planlıyoruz. Bakıp geliştirme fikirleriniz olursa lütfen rahatça paylaşın 👍
4 yorum
Teşekkürler. Elbette Koreceyi iyi destekliyordur, değil mi?
Sanırım sorun huggingface.co tarafında; bir hata oluşuyor. Sanırım yerelde çalıştırmayı denemem gerekecek.
Türkçe özelliği şu anki sürümde desteklenmiyor. Yakında Türkçe de dahil olmak üzere eğitilmiş bir sürümü yayınlamayı planlıyoruz. Teşekkürler!
Ne kadar ölçeklendirme planı var?
Somut ölçek büyütme planı şu anda ekip içinde tasarlanıyor. Modeli sürekli geliştirmeyi planlıyoruz. Teşekkür ederiz.