Qwen3-VL modeli duyuruldu - Daha keskin görüş, daha derin düşünme, daha geniş yürütme

(qwen.ai)

6 puan yazan GN⁺ 2025-09-26 | 2 yorum | WhatsApp'ta paylaş

Qwen3-VL, görsel-dil çok modlu model ailesinin en yeni nesli olarak; metin anlama ve üretimi, video algılama, mekânsal akıl yürütme ve uzun bağlam anlama dahil tüm alanlarda geliştirilmiş performans sunuyor
Amiral gemisi model Qwen3-VL-235B-A22B, Instruct ve Thinking sürümleriyle yayımlandı; her biri sırasıyla görsel algı ve çok modlu akıl yürütmede son teknoloji düzeyinde sonuçlar ortaya koyuyor
Model; ajan yetenekleri, görsel kodlama, 2D/3D mekânsal akıl yürütme, uzun metin ve uzun süreli video anlama gibi çeşitli gerçek kullanım kabiliyetlerini güçlendiriyor
32 dilde OCR, karmaşık belge anlama, çoklu görüntü ve video işleme desteğine kadar kapsamını genişleterek hem günlük yaşam hem de profesyonel kullanım için uygun hale geliyor
Bu gelişme, açık kaynak topluluğuna en üst düzeyde çok modlu bir temel sunuyor ve gelecekte gerçek dünya problemlerinin çözümünü ve AI ajanlarının gelişimini hızlandırması bekleniyor

Qwen3-VL'e giriş

Qwen3-VL, QwenTeam tarafından geliştirilen en yeni çok modlu yapay zeka modeli olup; görüntü, metin, tablo, belge, formül ve grafik gibi çeşitli veri biçimlerini kapsamlı şekilde işleyip anlayabiliyor

Başlıca özellikler

Görsel ajan yetenekleri: GUI algılama, düğme tıklama, araç çağırma gibi işlemleri yerine getirerek bilgisayar ve mobil ortamlarda otomasyon görevleri yapabiliyor
Güçlendirilmiş metin performansı: Erken aşamadan itibaren metin ve görselin birlikte eğitilmesi sayesinde, tek başına dil modelleri düzeyinde güçlü metin işleme yeteneği sağlıyor
Görsel kodlama: Tasarım görsellerini HTML, CSS, JavaScript koduna dönüştürerek “gördüğünü kodlama” deneyimini mümkün kılıyor
Mekânsal anlama: 2D mutlak koordinatlardan göreli koordinatlara genişliyor, 3D grounding desteği sunarak robotik ve otonom sürüş için temel oluşturuyor
Uzun bağlam ve uzun süreli video işleme: Varsayılan olarak 256K token destekliyor, 1 milyon tokena kadar genişletilebiliyor; 2 saatlik videolarda da doğru hatırlama ve arama yapabiliyor
Akıl yürütme optimizasyonu (Thinking sürümü): Matematik ve STEM problem çözümünde güçlü; MathVision, MMMU, MathVista gibi benchmark'larda en yüksek sonuçları elde ediyor

Performans değerlendirmesi

Instruct sürümü: Gemini 2.5 Pro, GPT-5 gibi önde gelen kapalı modelleri aşan görsel algı performansı sunuyor
Thinking sürümü: Matematik ve bilim odaklı çok modlu akıl yürütmede dünya çapında en üst düzey sonuçlara ulaşıyor; özellikle MathVision'da Gemini 2.5 Pro'yu geride bırakıyor
Metin merkezli görevler: Qwen3-235B-A22B-2507 ile eşdeğer performans
Uzun süreli video testi: 1 milyon token girdisinde %99,5 doğrulukla yüksek kararlılık gösteriyor
Çok dilli OCR: 39 dilin 32'sinde %70'in üzerinde doğruluk elde ediyor

Mimari iyileştirmeler

Interleaved-MRoPE: Zaman, yükseklik ve genişlik boyutlarını dönüşümlü dağıtarak uzun süreli video anlama performansını güçlendiriyor
DeepStack: ViT çok katmanlı özellik füzyonuyla hassas metin-görüntü hizalama performansını artırıyor
Metin-zaman damgası hizalaması: Kare düzeyindeki zaman bilgisi ile görsel içeriği hassas biçimde eşleştirerek olay ve eylem tespiti doğruluğunu iyileştiriyor

Model yetenekleri

Akıllı telefon ve PC kontrol ajanı: Uygulama açma, düğme tıklama, form doldurma otomasyonu
Görüntü tabanlı akıl yürütme: Araç çağırma ile birleştirilmiş karmaşık analizler yapabiliyor
Frontend geliştirme desteği: Eskizden web sayfasına dönüşüm, UI debugging
2D/3D nesne tespiti: Yüzlerce bounding box üretimi ve derinlik tahmini
Genel tanıma: Ünlüler, markalar, bitkiler, hayvanlar ve anime karakterlerini tanıma
Yaratıcı destek: Görüntü tabanlı hikâye anlatımı, metin yazarlığı, video senaryosu üretimi
STEM problem çözümü: Adım adım akıl yürütme, nedensel analiz, bilimsel problem çözümü
Karmaşık talimatları takip etme: Çok aşamalı koşulları ve yapılandırılmış istekleri de işleyebiliyor
Belge anlama: Uzun PDF'leri, web yerleşimlerini yorumlama ve QwenVL Markdown formatı desteği
Çoklu görüntü diyaloğu: Birden fazla görüntüyü karşılaştırıp ilişkilendirirken bağlamı koruyor
Video anlama: Uzun videolarda olay tespiti ve hatta kod üretimine kadar destek sunuyor

Sonuç

Qwen3-VL, kapalı modelleri aşan açık kaynaklı çok modlu bir model olarak; algılamadan akıl yürütmeye ve yürütmeye kadar kapsamlı bir ilerleme gösteriyor
Sadece görsel algılama ile sınırlı kalmayıp dünyayı anlama, akıl yürütme ve eyleme geçme yönünde genişleyen bir model olarak konumlanıyor ve gerçek ortamlarda ajan kullanımının temelini sağlıyor

2 yorum

crawler 2025-09-26

Henüz yarım yıl bile olmadan yayınlanan gemini tanıtım videosunda, yalnızca atletizm yarışının kazananının kim olduğunu ve kimi geçtiğini bilmesinin bile etkileyici olduğunu düşünmüştüm

> 2 saatlik videoyu bile doğru şekilde hatırlayıp arayabiliyor

Bunun tam olarak neyi hatırladığı gerçekten çok merak uyandırıyor

GN⁺ 2025-09-26

Hacker News görüşleri

Dün de bahsetmiştim; yakın zamanda inşaat projelerine ait yüzlerce düşük kaliteli fatura görselini işlemek zorunda kaldım. Başta PIL/opencv, pytesseract ve OpenAI kullanan bir script çalıştırıyordum ama başarısızlık oranı çok yüksekti. Bugün gerçekten berbat kalitedeki birkaç faturayı Qwen ile denedim ve ihtiyaç duyduğum tüm bilgileri sorunsuz çıkardı. Daha da etkileyici olanı, tesseract iyileştirmede kullanabileceğim bounding box bilgilerini de vermesi oldu
- Benzer bir iş gerekiyorsa Microsoft'un Printed Text Recognition API çözümünü de tavsiye ederim
- Neden Qwen'i seçtiğini merak ettim. Mistral tarafında OCR için özel olarak pazarlanan ayrı bir uzman model var ve test ettiğimde İngilizce eski kitaplarda (80'ler, 90'lar) oldukça iyi çalışmıştı
- Bu tür modelleri 80'lerin Apple ][ oyun ekran görüntülerini okumada test etmeyi seviyorum. Çok düşük çözünürlük ve yüksek yoğunluk olduğu için çoğu açık kaynak modelin zorlandığı bir alan
- Ben de uydu harita görüntülerinde bir VLLM modeliyle arazi sınırlarının bounding box'larını tahmin etmeyi denemiştim ama sonuç alamadım. Daha iyi sonuçlar için önerin var mı diye merak ediyorum
- Ben de tarama yerleşimini tespit edip OCR performansını artırmaya çalıştım ama sonunda fine-tune edilmiş Qwen 2.5 VLM 7B daha iyi çıktı. Cevabın fine-tuning olduğunu düşünüyorum
Çin, üretimde yaptığı gibi temel teknolojiyi alıp maliyet/verimlilik tarafında 10 kat optimizasyonu tekrar tekrar yapıyor. Gerçekten hayranlık uyandırıcı. Zaten benchmark'larda adı geçen bir model ama bugün açık kaynak SOTA adayı gibi hissettirdi. Hatta bugün kapalı 1 trilyon parametreli bir modeli de duyurdular; lm arena'da 3. sıraya çıktı, 80GB model 17. sırada, gpt-oss 120b ise 52. sırada
İlgili bağlantı
- Açıklamalar, ürün adları ve sürüm ayrımları hâlâ belirsiz. Qwen3-VL Plus'ın (yeni model) ve Qwen3-VL 235B'nin (başka bir model) tamamen farklı modeller olduğunu isimler benzer olsa da anlıyorum, ama hangisinin daha iyi olduğunu anlamayı zorlaştıracak kadar bilgi muğlak. Qwen-Plus-2025-09-11 ile qwen3-235b-a22b-instruct-2507 arasındaki fark da sadece isimlere bakınca anlaşılmıyor. İsimleri net anlatma konusunda OpenAI'den bile gerideler
  Qwen3-VL Plus
  Qwen3-VL-235B
  qwen-plus-2025-09-11
  qwen3-235b-a22b-instruct-2507
- “Sadece optimizasyon yapıyorlar” ifadesi doğru değil. Qwen ekibi DeepStack gibi yeni fikirler de ortaya koyuyor
  DeepStack makalesi
  Ayrıca “Çinliler” diye genellemek yerine krediyi doğrudan Qwen ekibine vermenin daha doğru olduğunu düşünüyorum. Dünyanın her ülkesinde çok iyi laboratuvarlar da var, sıradan laboratuvarlar da
- İlginç şekilde Kimi K2 gibi modeller, Amerikan menşeli modellere göre çok daha doğal metin üretiyormuş gibi hissettiriyor. Benchmark sonuçları SOTA seviyesinde olmasa da gerçek kullanım deneyimi farklı
- ABD de eskiden bu tür optimizasyona odaklanıyordu ama son 10-15 yılda yaklaşım giderek sadece daha fazla kaynak ekleyip optimizasyonu ihmal etme yönüne kaydı. Örneğin ilerici web uygulamaları için daha fazla RAM eklemek, CPU'yu daha güçlü bir modelle değiştirmek ya da daha fazla elektrik sağlamak gibi. Temelde sorun, üniversitedeki algoritma derslerinde öğrenilen şeylerin pratikte uygulanmaması gibi geliyor. Çin ise bunu gerçekten yapıyor ve ABD'yi daha da gülünç gösteriyor
San Francisco'daysanız, Qwen ekibinin ABD'deki ilk resmî etkinliğine katılma fırsatını kaçırmayın. Qwen Lab'in başkan yardımcısı SF teach week'te bizzat sunum yapacak
Etkinlik bağlantısı
Qwen ekibi üyeleriyle doğrudan iletişim kurmak için nadir bir fırsat
- Kayıtlar şimdiden dolmuş ;-(
- Bu dönemde vize işleri yüzünden ABD'ye girişin kendisi bile 50:50 olabilir; umarım sorunsuz gelirler
Bu Qwen duyurusunun asıl olayı, kapalı modellere üstün gelen multimodal performansla SOTA seviyesine çıkıp yine de model ağırlıklarını açmış olmaları. İlk testlerimde bunun doğru olduğunu gördüm, denemeye devam edeceğim. Etkileyici
- Multimodal girdi uygulamalarının çoğu genelde düşük performanslı oluyor. Qwen'in de mevcut bilinen ticari çözümlerin çok ilerisinde olduğunu söylemek zor, ama en azından bu sonuçları açıkça paylaşmaları sevindirici. Bu seviyede iyi çalışan multimodal girişli bir model yapmak hiç kolay değil
- Açık kaynak modellerin, boyuttan bağımsız olarak, her zaman “ticari SOTA ile aynı seviyede” olduklarını iddia etme eğiliminde olduğunu düşünüyorum
Gerçekçi olarak, Qwen3-VL 235B parametreli modelin (FP16) en az 512GB RAM gerektirdiği görülüyor. Makul bir context window için daha da fazlası gerekebilir diye tahmin ediyorum. CPU'da çalıştırmayacağımı varsayarsak, evde bunu 10 bin dolar bütçeyle çalıştırmanın bir yolu var mı merak ediyorum. Eğer tek seçenek CPU ise, en iyi yaklaşım vLLM + birden çok sistemi ağ üzerinden bağlamak mı (10/25/100Gbit), yoksa daha iyi bir seçenek var mı öğrenmek isterim
- 512GB unified memory'ye sahip Apple Mac Studio yaklaşık 10 bin dolar. Evde bu kadar güce ihtiyacınız varsa ve bütçeniz uygunsa en basit çözüm bu.
  Mutlaka FP16 çalıştırmanız gerekmiyor. Çoğu zaman q8'e kadar quantization ile kalite neredeyse hiç düşmüyor; q4 ve altına inse bile performans kaybı düşük kalabiliyor. Yine de q8 için bile 235GB RAM gerekiyor; yani RTX 5090 (32GB VRAM) üzerinden hesaplayınca 8 kart gerekir ve maliyeti de düşük olmaz. Anakart, CPU ve 8 GPU için PCIe bölüşümü de ayrıca düşünülmeli. Eski RTX 3090 ya da P40'larla ikinci el mining sunucusu kovalanabilir ama tüketici GPU'larıyla 10 bin doların altında kurmak pratikte zor.
  NVLink olmadan modeli birden fazla bilgisayara dağıtırsanız hız çok ciddi düşer; bu yüzden pratikte tek makine öneririm. CPU performansı da fena değil. Burada önemli olan bellek bant genişliği; bu nedenle çok sayıda DDR5 bellek kanalı olan sunucu ya da workstation sınıfı CPU'lar uygun olur (ör. AMD Ryzen Threadripper 7965WX, 8 kanallı DDR5, 5200 MT/s desteği, yaklaşık 2500 dolar).
  Son olarak, gerçekten bunu evde çalıştırmanız gerekip gerekmediğini bir daha düşünmenizi öneririm. Amaç ne olursa olsun, donanıma yatırılan 10 bin dolar birkaç yıl içinde değerini ciddi biçimde kaybedebilir. Aynı parayla bulutta uzun süre yetecek kredi alınabilir
- CPU dışındaki çözümler genelde elektrik altyapısını büyütmeyi gerektiriyor; makineleri farklı elektrik devrelerine dağıtıp her biri 2-3kW tüketen birkaç sistemi çalıştırmak çok ciddi ek maliyet çıkarıyor
Qwen'in açık ağırlıklı multimodal SOTA modeli sayesinde geliştirici olarak gönlüm Qwen'e kayıyor. En azından benimki çoktan kaydı
- Artık yarışın bittiğini söylemek bile mümkün. Bu aralar ABD çıkışlı makalelerin üst düzey yazar listelerine bakınca Çin kökenli isimler dolup taşıyor
- Bir de kâr amacı gütmedikleri için aynı kurallarla değil, başka bir oyunda oynuyorlar
- Bu kadar sempati kazanmaya neden bu kadar uğraştıklarını ben de merak ediyorum
Qwen ekibinin cömertliğine minnettarım. Zaten “Thinking” modeliyle şirket içindeki sıkıcı işleri otomatikleştiren harika iş akışları kurup kullanıyordum
Qwen thinking modeli
Şimdi bu sürümle birlikte yemek fotoğrafları, kullanıcı fotoğrafları vb. içerikleri sınıflandırma ve açıklama yazma gibi yeni iş akışları da eklemeyi planlıyorum. Çok güzel
Qwen ekibiyle ilgili modeller için referans
- Qwen3-VL-235B-A22B-Thinking
- Qwen3-VL-235B-A22B-Instruct
Bu duyuruda şimdiye kadar gördüğüm en fazla benchmark sayısının yer aldığına neredeyse eminim. Sadece gösterişli birkaç metrik seçip sunmamış olmaları takdiri hak ediyor
- Benchmark'ların zaten doygunluğa ulaştığı alanlarda artık sayı öne çıkarmanın çok da anlamı kalmamış gibi görünüyor
Ne yazık ki Qwen3-VL de hâlâ “ekstra uzuv” testinde başarısız oluyor. Photoshop'la bacakları fazladan eklenmiş hayvan görselleri yerleştirdim (ör. karnında bacak olan köpek, iki çift ön bacaklı kedi) ama diğer tüm modeller gibi hayvanın uzuv sayısının normal olduğunu savunup duruyor. “Sanki karnında bacak var” desem bile benim yanıldığımı söyleyip normal olduğunu iddia etmeye devam ediyor. Qwen, görselin düzenlendiğini açıkça söylese bile sayının 4 olduğunu cevaplıyor
- Tüm VLM'lerde olduğu gibi istisna vakalarda zayıf kalıyor. Analog saat okuma görevi de geçmişte ancak 1 milyon düzenlenmiş sentetik veriyle özel olarak eğitildiğinde geçilebilmişti
  saat veri kümesi
  D20 zar örneği
  Sonuç olarak, ekstra uzuv gibi örneklerde de 1 milyon örnek veri üretmeden doğru sonuca ulaşamıyorlar; bu da her yeni problem için yeniden veri kümesi üretme sorununun devam ettiği anlamına geliyor
- Garip türlerin uzuv sayılarını saymak için kesinlikle uygun bir model değil. Buna karşılık eğitim verisinde bolca bulunan konularda yetersiz kalmayabilir
- Acaba Qwen modelinin görsel düzenleme komut özelliğini kullanıp uzuv sayısına dokunmadan başka bir şeyi değiştirmesini isteseniz, sonuçta yine uzuv sayısını “normal” hâle getirmeye çalışır mı diye merak ediyorum