- Qwen3-VL, görsel-dil çok modlu model ailesinin en yeni nesli olarak; metin anlama ve üretimi, video algılama, mekânsal akıl yürütme ve uzun bağlam anlama dahil tüm alanlarda geliştirilmiş performans sunuyor
- Amiral gemisi model Qwen3-VL-235B-A22B, Instruct ve Thinking sürümleriyle yayımlandı; her biri sırasıyla görsel algı ve çok modlu akıl yürütmede son teknoloji düzeyinde sonuçlar ortaya koyuyor
- Model; ajan yetenekleri, görsel kodlama, 2D/3D mekânsal akıl yürütme, uzun metin ve uzun süreli video anlama gibi çeşitli gerçek kullanım kabiliyetlerini güçlendiriyor
- 32 dilde OCR, karmaşık belge anlama, çoklu görüntü ve video işleme desteğine kadar kapsamını genişleterek hem günlük yaşam hem de profesyonel kullanım için uygun hale geliyor
- Bu gelişme, açık kaynak topluluğuna en üst düzeyde çok modlu bir temel sunuyor ve gelecekte gerçek dünya problemlerinin çözümünü ve AI ajanlarının gelişimini hızlandırması bekleniyor
Qwen3-VL'e giriş
- Qwen3-VL, QwenTeam tarafından geliştirilen en yeni çok modlu yapay zeka modeli olup; görüntü, metin, tablo, belge, formül ve grafik gibi çeşitli veri biçimlerini kapsamlı şekilde işleyip anlayabiliyor
Başlıca özellikler
- Görsel ajan yetenekleri: GUI algılama, düğme tıklama, araç çağırma gibi işlemleri yerine getirerek bilgisayar ve mobil ortamlarda otomasyon görevleri yapabiliyor
- Güçlendirilmiş metin performansı: Erken aşamadan itibaren metin ve görselin birlikte eğitilmesi sayesinde, tek başına dil modelleri düzeyinde güçlü metin işleme yeteneği sağlıyor
- Görsel kodlama: Tasarım görsellerini HTML, CSS, JavaScript koduna dönüştürerek “gördüğünü kodlama” deneyimini mümkün kılıyor
- Mekânsal anlama: 2D mutlak koordinatlardan göreli koordinatlara genişliyor, 3D grounding desteği sunarak robotik ve otonom sürüş için temel oluşturuyor
- Uzun bağlam ve uzun süreli video işleme: Varsayılan olarak 256K token destekliyor, 1 milyon tokena kadar genişletilebiliyor; 2 saatlik videolarda da doğru hatırlama ve arama yapabiliyor
- Akıl yürütme optimizasyonu (Thinking sürümü): Matematik ve STEM problem çözümünde güçlü; MathVision, MMMU, MathVista gibi benchmark'larda en yüksek sonuçları elde ediyor
Performans değerlendirmesi
- Instruct sürümü: Gemini 2.5 Pro, GPT-5 gibi önde gelen kapalı modelleri aşan görsel algı performansı sunuyor
- Thinking sürümü: Matematik ve bilim odaklı çok modlu akıl yürütmede dünya çapında en üst düzey sonuçlara ulaşıyor; özellikle MathVision'da Gemini 2.5 Pro'yu geride bırakıyor
- Metin merkezli görevler: Qwen3-235B-A22B-2507 ile eşdeğer performans
- Uzun süreli video testi: 1 milyon token girdisinde %99,5 doğrulukla yüksek kararlılık gösteriyor
- Çok dilli OCR: 39 dilin 32'sinde %70'in üzerinde doğruluk elde ediyor
Mimari iyileştirmeler
- Interleaved-MRoPE: Zaman, yükseklik ve genişlik boyutlarını dönüşümlü dağıtarak uzun süreli video anlama performansını güçlendiriyor
- DeepStack: ViT çok katmanlı özellik füzyonuyla hassas metin-görüntü hizalama performansını artırıyor
- Metin-zaman damgası hizalaması: Kare düzeyindeki zaman bilgisi ile görsel içeriği hassas biçimde eşleştirerek olay ve eylem tespiti doğruluğunu iyileştiriyor
Model yetenekleri
- Akıllı telefon ve PC kontrol ajanı: Uygulama açma, düğme tıklama, form doldurma otomasyonu
- Görüntü tabanlı akıl yürütme: Araç çağırma ile birleştirilmiş karmaşık analizler yapabiliyor
- Frontend geliştirme desteği: Eskizden web sayfasına dönüşüm, UI debugging
- 2D/3D nesne tespiti: Yüzlerce bounding box üretimi ve derinlik tahmini
- Genel tanıma: Ünlüler, markalar, bitkiler, hayvanlar ve anime karakterlerini tanıma
- Yaratıcı destek: Görüntü tabanlı hikâye anlatımı, metin yazarlığı, video senaryosu üretimi
- STEM problem çözümü: Adım adım akıl yürütme, nedensel analiz, bilimsel problem çözümü
- Karmaşık talimatları takip etme: Çok aşamalı koşulları ve yapılandırılmış istekleri de işleyebiliyor
- Belge anlama: Uzun PDF'leri, web yerleşimlerini yorumlama ve QwenVL Markdown formatı desteği
- Çoklu görüntü diyaloğu: Birden fazla görüntüyü karşılaştırıp ilişkilendirirken bağlamı koruyor
- Video anlama: Uzun videolarda olay tespiti ve hatta kod üretimine kadar destek sunuyor
Sonuç
- Qwen3-VL, kapalı modelleri aşan açık kaynaklı çok modlu bir model olarak; algılamadan akıl yürütmeye ve yürütmeye kadar kapsamlı bir ilerleme gösteriyor
- Sadece görsel algılama ile sınırlı kalmayıp dünyayı anlama, akıl yürütme ve eyleme geçme yönünde genişleyen bir model olarak konumlanıyor ve gerçek ortamlarda ajan kullanımının temelini sağlıyor
2 yorum
Henüz yarım yıl bile olmadan yayınlanan gemini tanıtım videosunda, yalnızca atletizm yarışının kazananının kim olduğunu ve kimi geçtiğini bilmesinin bile etkileyici olduğunu düşünmüştüm
> 2 saatlik videoyu bile doğru şekilde hatırlayıp arayabiliyor
Bunun tam olarak neyi hatırladığı gerçekten çok merak uyandırıyor
Hacker News görüşleri
Dün de bahsetmiştim; yakın zamanda inşaat projelerine ait yüzlerce düşük kaliteli fatura görselini işlemek zorunda kaldım. Başta PIL/opencv, pytesseract ve OpenAI kullanan bir script çalıştırıyordum ama başarısızlık oranı çok yüksekti. Bugün gerçekten berbat kalitedeki birkaç faturayı Qwen ile denedim ve ihtiyaç duyduğum tüm bilgileri sorunsuz çıkardı. Daha da etkileyici olanı, tesseract iyileştirmede kullanabileceğim bounding box bilgilerini de vermesi oldu
Çin, üretimde yaptığı gibi temel teknolojiyi alıp maliyet/verimlilik tarafında 10 kat optimizasyonu tekrar tekrar yapıyor. Gerçekten hayranlık uyandırıcı. Zaten benchmark'larda adı geçen bir model ama bugün açık kaynak SOTA adayı gibi hissettirdi. Hatta bugün kapalı 1 trilyon parametreli bir modeli de duyurdular; lm arena'da 3. sıraya çıktı, 80GB model 17. sırada, gpt-oss 120b ise 52. sırada
İlgili bağlantı
Qwen3-VL Plus
Qwen3-VL-235B
qwen-plus-2025-09-11
qwen3-235b-a22b-instruct-2507
DeepStack makalesi
Ayrıca “Çinliler” diye genellemek yerine krediyi doğrudan Qwen ekibine vermenin daha doğru olduğunu düşünüyorum. Dünyanın her ülkesinde çok iyi laboratuvarlar da var, sıradan laboratuvarlar da
San Francisco'daysanız, Qwen ekibinin ABD'deki ilk resmî etkinliğine katılma fırsatını kaçırmayın. Qwen Lab'in başkan yardımcısı SF teach week'te bizzat sunum yapacak
Etkinlik bağlantısı
Qwen ekibi üyeleriyle doğrudan iletişim kurmak için nadir bir fırsat
Bu Qwen duyurusunun asıl olayı, kapalı modellere üstün gelen multimodal performansla SOTA seviyesine çıkıp yine de model ağırlıklarını açmış olmaları. İlk testlerimde bunun doğru olduğunu gördüm, denemeye devam edeceğim. Etkileyici
Gerçekçi olarak, Qwen3-VL 235B parametreli modelin (FP16) en az 512GB RAM gerektirdiği görülüyor. Makul bir context window için daha da fazlası gerekebilir diye tahmin ediyorum. CPU'da çalıştırmayacağımı varsayarsak, evde bunu 10 bin dolar bütçeyle çalıştırmanın bir yolu var mı merak ediyorum. Eğer tek seçenek CPU ise, en iyi yaklaşım vLLM + birden çok sistemi ağ üzerinden bağlamak mı (10/25/100Gbit), yoksa daha iyi bir seçenek var mı öğrenmek isterim
Mutlaka FP16 çalıştırmanız gerekmiyor. Çoğu zaman q8'e kadar quantization ile kalite neredeyse hiç düşmüyor; q4 ve altına inse bile performans kaybı düşük kalabiliyor. Yine de q8 için bile 235GB RAM gerekiyor; yani RTX 5090 (32GB VRAM) üzerinden hesaplayınca 8 kart gerekir ve maliyeti de düşük olmaz. Anakart, CPU ve 8 GPU için PCIe bölüşümü de ayrıca düşünülmeli. Eski RTX 3090 ya da P40'larla ikinci el mining sunucusu kovalanabilir ama tüketici GPU'larıyla 10 bin doların altında kurmak pratikte zor.
NVLink olmadan modeli birden fazla bilgisayara dağıtırsanız hız çok ciddi düşer; bu yüzden pratikte tek makine öneririm. CPU performansı da fena değil. Burada önemli olan bellek bant genişliği; bu nedenle çok sayıda DDR5 bellek kanalı olan sunucu ya da workstation sınıfı CPU'lar uygun olur (ör. AMD Ryzen Threadripper 7965WX, 8 kanallı DDR5, 5200 MT/s desteği, yaklaşık 2500 dolar).
Son olarak, gerçekten bunu evde çalıştırmanız gerekip gerekmediğini bir daha düşünmenizi öneririm. Amaç ne olursa olsun, donanıma yatırılan 10 bin dolar birkaç yıl içinde değerini ciddi biçimde kaybedebilir. Aynı parayla bulutta uzun süre yetecek kredi alınabilir
Qwen'in açık ağırlıklı multimodal SOTA modeli sayesinde geliştirici olarak gönlüm Qwen'e kayıyor. En azından benimki çoktan kaydı
Qwen ekibinin cömertliğine minnettarım. Zaten “Thinking” modeliyle şirket içindeki sıkıcı işleri otomatikleştiren harika iş akışları kurup kullanıyordum
Qwen thinking modeli
Şimdi bu sürümle birlikte yemek fotoğrafları, kullanıcı fotoğrafları vb. içerikleri sınıflandırma ve açıklama yazma gibi yeni iş akışları da eklemeyi planlıyorum. Çok güzel
Qwen ekibiyle ilgili modeller için referans
Bu duyuruda şimdiye kadar gördüğüm en fazla benchmark sayısının yer aldığına neredeyse eminim. Sadece gösterişli birkaç metrik seçip sunmamış olmaları takdiri hak ediyor
Ne yazık ki Qwen3-VL de hâlâ “ekstra uzuv” testinde başarısız oluyor. Photoshop'la bacakları fazladan eklenmiş hayvan görselleri yerleştirdim (ör. karnında bacak olan köpek, iki çift ön bacaklı kedi) ama diğer tüm modeller gibi hayvanın uzuv sayısının normal olduğunu savunup duruyor. “Sanki karnında bacak var” desem bile benim yanıldığımı söyleyip normal olduğunu iddia etmeye devam ediyor. Qwen, görselin düzenlendiğini açıkça söylese bile sayının 4 olduğunu cevaplıyor
saat veri kümesi
D20 zar örneği
Sonuç olarak, ekstra uzuv gibi örneklerde de 1 milyon örnek veri üretmeden doğru sonuca ulaşamıyorlar; bu da her yeni problem için yeniden veri kümesi üretme sorununun devam ettiği anlamına geliyor