Qwen VLo - Dünyayı 'anlamaktan' 'tasvir etmeye'

(qwenlm.github.io)

1 puan yazan GN⁺ 2025-06-29 | 1 yorum | WhatsApp'ta paylaş

Qwen VLo, yalnızca görüntü anlamanın ötesine geçerek yüksek kaliteli görüntü üretimi de sunan birleşik bir çok modlu anlama ve üretim modelidir
Kullanıcılar doğal dille yaratıcı komutlar verebilir; stil dönüştürme, arka plan değiştirme gibi çeşitli görselleri doğrudan üretebilir ve düzenleyebilir
Birden fazla dili desteklediği için dünyanın her yerinden kullanıcılar bunu dil engeli olmadan kolayca kullanabilir
Görselleri sürekli iyileştiren ve optimize eden kademeli üretim yaklaşımını benimseyerek daha iyi görsel kalite ve daha yüksek denetim sunar
Hâlâ önizleme aşamasında olduğundan bazı özelliklerde kararsızlık olabilir, ancak sürekli olarak geliştirilmektedir

Giriş

Çok modlu büyük modellerdeki ilerleme, teknolojinin sınırlarını durmadan genişletiyor
QwenVL ile başlayıp Qwen2.5 VL'ye kadar görüntü içeriğini anlama yeteneğini güçlendirdiler; şimdi ise Qwen VLo, hem anlama hem de üretimi kapsayan yeni bir çok modlu model olarak ortaya çıkıyor
Qwen VLo, dünyayı yalnızca "anlamak"la kalmayıp, bu anlayışa dayanarak detaylı görselleri "üretebiliyor"
Bu model, algı ile yaratım arasındaki sınırı fiilen birbirine bağlıyor
Şu anda önizleme sürümüyle Qwen Chat üzerinden kullanılabiliyor; "sevimli bir kedi resmi üret" gibi komutlarla görsel oluşturabiliyor ve bir görsel yüklendikten sonra "kediye şapka tak" gibi düzenlemeler de yapabiliyor.

Yaratıcı üretim süreci

Qwen VLo'nun görsel üretimini gösteren videoda da görüldüğü gibi, bu model kademeli üretim yöntemi kullanıyor
Görseli sol üstten sağ alta doğru aşamalı olarak inşa ediyor ve tahminlerini sürekli rafine ederek tutarlı ve uyumlu sonuçlar elde ediyor
Bu üretim mekanizması görsel kaliteyi artırıyor ve kullanıcıların yaratıcı süreci daha esnek ve ayrıntılı biçimde kontrol etmesine yardımcı oluyor.

Anlamadan yaratıcılığa: gelişmiş çok modlu üretim yetenekleri

Qwen VLo'nun başlıca güçlendirmeleri

İçeriği hassas biçimde anlama ve yeniden üretme
- Mevcut çok modlu modeller, üretim sürecinde anlam uyuşmazlığı yaşayabiliyordu (ör. bir arabayı yanlış tanıma ya da yapısını kaybetme)
- Qwen VLo'nun ayrıntı yakalama kabiliyeti arttı ve yüksek anlamsal tutarlılığı koruyor
- Örneğin, bir araba fotoğrafında renk değişikliği istendiğinde gerçek araç tipi ve yapısını korurken yalnızca rengi doğal biçimde değiştirerek gerçekçi sonuçlar üretiyor
Açık uçlu komut tabanlı düzenleme desteği
- Kullanıcılar serbest yaratıcı komutları doğal dille girebiliyor; örneğin "bu resmi Van Gogh stiline dönüştür", "19. yüzyıl fotoğrafı gibi yap", "açık bir gökyüzü ekle"
- Stil dönüşümü, sahne yeniden kurgulama ve ayrıntı düzenlemenin yanı sıra, derin öğrenmede geleneksel görsel görevler olan depth map, segmentation, edge estimation bile basit komutlarla yapılabiliyor
- Bileşik komutlar da (ör. nesne düzenleme + metin düzenleme + arka plan değiştirme) tek seferde gerçekleştirilebiliyor
Çok dilli komut desteği
- Qwen VLo, Çince, İngilizce ve diğer dillerde işlemleri destekliyor
- Böylece dünya çapında, dil engeli olmadan kullanım kolaylığı sağlıyor

Demo kullanım örnekleri

Qwen VLo, tıpkı bir insan sanatçı gibi anlayışa dayalı hayal gücünü gerçeğe dönüştürüyor. Arka plan değiştirme, özne ekleme, stil geçişi, açık uçlu komutlarla geniş kapsamlı düzenleme ve tespit/segmentasyon karşılığı işlemler yapılabiliyor.

Özellikle, anlama tabanlı yeniden üretim özelliği sayesinde çizgi roman → gerçek fotoğraf, belirli bir kişi → balon gibi geniş bir yaratıcı stil dönüşümü yelpazesini destekliyor.

Modelin gelişmiş görsel ve komut çözümleme yeteneği, karmaşık komutları tek seferde yerine getirebiliyor; örneğin poster oluşturma, birden fazla nesneyi birleştirme gibi çok aşamalı işleri tek seferde tamamlayabiliyor

Ayrıca Qwen VLo, tespit, segmentasyon, edge detection gibi mevcut bilginin üzerine açıklama/işaret ekleme işlevlerini de destekliyor.

Çoklu görsel girişi işleme yeteneği de hazırlanıyor (ileride resmî olarak yayınlanacak)
Yalnızca metin + görsel girdisini değil, metinden görsele üretimi de (genel görseller, Çince-İngilizce karışık posterler vb.) destekliyor
Çok uzun yatay/dikey en-boy oranlarında (en fazla 4:1, 1:3 vb.) görsel üretimini destekliyor (resmî sürümde yayınlanacak)
Model, kendi ürettiği görselleri yeniden anlayıp analiz ederek köpek ve kedi ırklarını ayırt etme gibi görevleri de yapabiliyor

Nasıl kullanılır

Qwen VLo, dinamik çözünürlükte eğitim ve üretim sayesinde girdi ve çıktı görsel çözünürlüğünü ve oranlarını serbestçe kullanabiliyor. Böylece sabit biçimlerin dışına çıkarak istenen boyutta görseller (poster, illüstrasyon, web banner'ı, sosyal medya kapağı vb.) üretmek mümkün oluyor.

Üretim mekanizması: sol üst → sağ alt kademeli üretim (Progressive generation)
Uzun metin içeren reklamlar veya çizgi roman panelleri gibi ayrıntılı denetim gerektiren işlerde süreç gerçek zamanlı olarak ince ayarlanabiliyor

Sınırlamalar

Qwen VLo önizleme aşamasında olduğundan bazı eksikleri bulunuyor. Üretim sırasında doğruluk eksikliği, orijinalle uyuşmama, komuta uymama, görsel anlama kararsızlığı gibi durumlar yaşanabiliyor. Sürekli iyileştirme ve kararlılık güncellemeleri sürüyor.

Sonraki adımlar

Çok modlu büyük modeller iki yönlü metin-görsel girdi/çıktı kazandıkça, yeni ifade ve etkileşim biçimleri açılıyor
İleride modeller yalnızca metin yanıtları değil, diyagramlar, yardımcı çizgiler, vurgu işaretleri gibi görsel içeriklerle de fikir iletebilecek.

Gelişmiş üretim yetenekleri, modelin kendi anlama düzeyini doğrulamak ve iyileştirmek için de kullanılacak
Örneğin segmentation map, detection map gibi ara sonuçları doğrudan üreterek kendi anlayışını kanıtlayıp tamamlayabilecek
Bu araştırma yönü sürekli olarak keşfediliyor

1 yorum

GN⁺ 2025-06-29

Hacker News görüşleri

Qwen'in open weight yayımlamamış olması hayal kırıklığı yaratıyor. Şimdiye kadar Qwen'in en büyük güçlü yanlarından biri open weight stratejisiydi. 4o'nun otomatik görsel üretimiyle rekabet edebilecek gerçekten open weight bir model olmasını isterdim. Weight'lere doğrudan erişim gerektiren pek çok ilginç araştırma yönü var. Geliştirme maliyetini geri kazanmak sorun olacaksa, BFL'nin Flux Kontext Dev sürüm modeline bakılmasını öneririm. Araştırmacılar ve bireyler için weight'ler ücretsiz açılır, startup'lar ise ticari lisansı makul bir ücretle satın alır
- Qwen'in görsellerinin OpenAI çıktılarıyla eğitildiği oldukça belli oluyor. Görsellerdeki turuncu tonlu ışıktan bile bunu anlayabiliyorsunuz (örnek1, örnek2, örnek3). Kendi verisini toplamayı denedi mi diye bile merak ediyorum. Sonuçta OAI'yi aynen takip edip her şeyi API'nin arkasına saklamış. OAI kadar kapalı, üstelik performansı da daha düşük. Böyle bir stratejiyi anlamak zor
- Open weight'i vurgulayıp bir yandan da araştırmacılarla bireylere ayrı weight, startup'lara ticari lisans satın alma modeli öneriliyorsa, bu gerçek open weight'e pek benzemiyor. Tıpkı "open source"ta olduğu gibi, istediğin gibi kullanma özgürlüğü olmalı ki gerçekten açık sayılsın. Yoksa "open" kelimesi anlamını yitirebilir
- On milyonlarca dolarlık yatırımın, GPU maliyetlerinin ve mühendis maaşlarının yalnızca görsel üretim ücretleriyle geri kazanılabileceğini sanmıyorum
- Çin kaynaklı open weight dönemi sanki bir anda sona ermiş gibi. Alibaba Qwen'i açık yayımlamayı bıraktı, Tencent de Hunyuan'ı yayımlamayı durdurdu, Bytedance de Seedream'i kapattı. Hâlâ Batılı modellerle eğitildikleri çok açık. Bence asıl daha akıllıca strateji, her şeyi %100 açık yapıp altyapı ve hizmetlerden gelir elde etmek olurdu
Görsel, dil modeline verilmeden önce 256 token'a sıkıştırılıyor. Mesela şapka ekleme isteğinde yüzün tamamını yeniden çiziyor. Tek tek nesneler ayrı saklanmıyor; ayı karakteri de geçici olarak var oluyor. Her şey tek bir birleşik latent uzayda tutuluyor ve yeni koşullarda yeniden örnekleniyor. Prompt'u biraz değiştirseniz bile tüm görsel değişiyor. Yani her seferinde sahneyi baştan kuran bir yaklaşım; bu yüzden çeşitli kullanım alanları için iyi görünüyor
- Flux Kontext'te multimodal model gibi ayrıntıların daha iyi korunduğunu seviyorum. GPT-Image-1 ise "Ghibli stiline çevir" gibi tüm stile yönelik değişimlerde fena değil, ama fotogerçekçi bir görsele gözlük ekleme gibi ince düzenlemelerde detayları pek koruyamıyor
Ayı görseli düzenleme örneklerine bakarken, istenenden daha fazla şeyin değiştiğini fark ettim. Sadece arka planı değiştir denmiş ama ayı da ciddi biçimde değişmiş; ayıyı balona çevir denince de arka planın kaldırım taşı kısmı yok olmuş ya da karpuz çekirdekleri kaybolmuş gibi alakasız değişiklikler çıkmış. Bunun daha iyi prompt yazarak çözülebilecek bir sorun mu, yoksa model mimarisinin sınırı mı olduğunu merak ediyorum
- İkisi de. Prompt optimizasyonu yapılırsa sonuç biraz iyileşebilir, ama temel neden modelin yapısı ve eğitim biçimi; yani mimari ve metodoloji sınırları
Bisiklete binen bir pelikan görseli denedim, ayrıca bir akordeon görseli de ürettim. Parmaklar ya da tuşlardaki siyah renk gibi ince ayrıntılarda zayıf kalıyor. Üretim hızı ise oldukça iyi örnek bağlantı
- Simon testinin kilit noktasının SVG formatı olduğunu kaçırmış gibisiniz. Bisiklete binen pelikan görseli, Stable Diffusion 2/3'ten beri kolay çözülen bir görev. Zorluk piksel görselde değil; SVG içinde mantıksal akıl yürütme ve doğruluk gerektirmesinde
Düzenleme, stil dönüşümü gibi görsel değişiklik örneklerinde hafif sarımsı bir ton fark ediliyor. Bu GPT Image 1'de de var ama Flux Kontext'te yoktu. Nedenini merak ediyorum
Tüm görsellerde uncanny valley hissi var. Renkler ve gölgelerin hepsi tuhaf duruyor
- Çıktılar genel olarak epey özensiz. Araştırma dışında bu tür görsellerin gerçek kullanım senaryosunu düşünmek zor
Bir makine öğrenimi araştırmacısı ve fizik diplomasına sahip biri olarak, bu tür modeller için "anlama" ve "açıklama" gibi kelimelerin kullanılmasından rahatsız oluyorum. Pratikte yardımcı olmuyor, tam tersine kafa karıştırıyor. Fizikte matematiği kullanmamızın sebebi kesinlik; kodlama da aynı şekilde son derece somut. Hayatta sayısız ayrıntıdan etkileniyoruz ama modeller bu incelikleri taşıyamıyor. Asimov'un "Relativity of Wrong"(bağlantı) yazısını mutlaka okuyun derim. Gerçekten "anladı" demek istiyorsak, modelin keşif/çıkarım/kavramı yeniden tanımlama gibi daha önce duyulmamış sonuçlar üretmesi gerekir. İnsanlar karşıolgusal düşünmeyi (bağlantı) doğal biçimde yapabiliyor, ama modern ML modelleri yapamıyor. OP görselindeki parmak sayısı hataları ya da klavyedeki tuş dizilimi hataları bunun tipik örnekleri. İlk bakışta ikna edici görünse de, baktıkça tuhaflığın ortaya çıktığı klasik bir uncanny valley durumu
- Gerçekten bir şeyler üreten tarafta olunca bu tür tartışmalar yorucu geliyor. Girdi ve çıktı kavramlarını anlaşılır biçimde anlatmış olmaları bile yeterince değerli. Sürüm notlarını okuyunca Qwen'in başlangıçta VLM olarak "anlama/tanımlama/algılama" rolünde olduğu, şimdi ise yeteneklerinin "üretme/tasvir etme/çizme" gibi alanlara genişlediği görülüyor. Bunun ötesinde felaket senaryolarına ya da aşırı anlam yüklemeye gerek yok
Otomatik sesli okuma özelliği nasıl kapatılıyor merak ediyorum. Siteye girince kendi kendine beklesin, ancak ben doğrudan etkileşime geçince çalışsın isterdim. Firefox'ta videoyu tam ekranda otomatik oynattı, sonra da bir anda okumaya başladı (iOS ortamında)
- Ayarlar > Site ayarları > Ses ve video otomatik oynatmayı engelle. Android Firefox'ta bu özellik var. iOS ya da masaüstünde de benzer seçenekler bulunuyor; bildirim izin istemlerini tamamen engellemek de mümkün
4o tarzı görsel üretim mimarisi hakkında teknik bir rapor olup olmadığını merak ediyorum. Benzer şekilde görsel üreten başka modelleri de daha ayrıntılı öğrenmek isterim
Bana kalırsa makine öğrenimi, "anlama"dan çok "tasvir etme" tarafında daha fazla ilerleme kaydetti
- İnsanların dünyayı daha iyi anladığını düşünmenin dayanağı nedir merak ediyorum. İnsanlar dünyaya çoğu zaman duygusal tepkiler veriyor, ama duygular tek başına anlayış sağlamıyor. "Anlıyor" demek de aslında son derece öznel bir ölçüt değil mi?