Qwen3.6-35B-A3B, Claude Opus 4.7’den daha iyi pelikan görseli üretiyor
(simonwillison.net)- Qwen3.6-35B-A3B ile Claude Opus 4.7 karşılaştırılarak ‘bisiklete binen pelikan’ görseli üretildi ve sonuçta Qwen daha yüksek tamamlanmışlıkta bir çizim verdi
- Qwen modeli, Alibaba’nın en yeni sürümü olarak, Unsloth tarafından dağıtılan 20.9GB’lık kuantize model ile MacBook Pro M5 üzerinde LM Studio kullanılarak yerelde çalıştırıldı
- Claude Opus 4.7’de bisiklet kadrosunun ifade edilmesinde hata vardı ve
thinking_level: maxseçeneği kullanılsa da kalitede neredeyse hiç iyileşme olmadı - ‘Pelikan benchmark’ı başlangıçta model karşılaştırmalarının hicivli bir testi olsa da, bu sonuç yerel LLM’lerin ticari modelleri aşabileceğini gösteriyor
- Qwen3.6-35B-A3B, yerel ortamda çalıştırılabilen büyük modellerin rekabet gücünü kanıtlayan bir örnek oldu
Qwen3.6-35B-A3B ile Claude Opus 4.7 karşılaştırma deneyi
- Qwen3.6-35B-A3B ve Claude Opus 4.7 olmak üzere iki model üzerinde ‘bisiklete binen pelikan’ görseli üretme karşılaştırma deneyi yapıldı
- Qwen modeli, Alibaba’nın yayımladığı en yeni sürüm olup Unsloth tarafından sağlanan 20.9GB’lık kuantize (quantized) model kullanıldı
- MacBook Pro M5 üzerinde LM Studio ve llm-lmstudio eklentisi aracılığıyla yerelde çalıştırıldı
- Claude Opus 4.7 için Anthropic’in en yeni bulut modeli kullanıldı
- Sonuç olarak Qwen3.6-35B-A3B, daha yüksek tamamlanmışlıkta bir pelikan görseli üretti
- Claude Opus 4.7, bisiklet kadrosunu yanlış ifade etme hatası yaptı
thinking_level: maxseçeneği eklenerek yeniden denendi ancak kalite artışı neredeyse hiç olmadı
- Bazıları, modellerin bu ‘pelikan benchmark’ına göre eğitildiği şüphesini dile getirdi
- Yazar bunu reddederken, sonucun güvenilirliğini doğrulamak için ‘tek tekerlekli bisiklete binen flamingo’ şeklinde yeni bir test daha yaptı
- Qwen3.6-35B-A3B yine daha iyi sonuç verdi ve SVG kodundaki “” yorumunun etkileyici olduğu değerlendirildi
Pelikan benchmark’ının anlamı ve sınırları
- ‘Bisiklete binen pelikan benchmark’ı, başlangıçta model karşılaştırmanın absürtlüğünü hicvetmek için yapılan şakacı bir test olarak ortaya çıktı
- Ancak pratikte pelikan çiziminin kalitesi ile modelin genel performansı arasında belirli bir korelasyon bulunuyordu
- 2024 Ekim ayındaki ilk sonuçlar kaba saba olsa da, modeller zamanla gerçek kullanımda işe yarayacak düzeyde illüstrasyonlar üretmeye başladı
- Bu deneyde söz konusu korelasyon ilk kez bozuldu
- Qwen modeli üstün sonuç vermiş olsa da, 21GB’lık kuantize sürümün Anthropic’in en yeni ticari modelinden daha güçlü olduğunu söylemek zor değerlendirmesi yapıldı
- Yine de ‘bisiklete binen pelikanın SVG’si’ üretilmesi gerekiyorsa, şu anda yerelde çalıştırılabilen Qwen3.6-35B-A3B daha iyi bir seçim
- Genel olarak bu karşılaştırma, yerel LLM’lerin ulaştığı gelişim düzeyini ve büyük ticari modellerle aradaki farkın daraldığını gösteren bir örnek olarak değerlendiriliyor
- Özellikle LM Studio ortamında büyük modellerin çalıştırılabilmesinin kanıtlanmış olması dikkat çekiyor
1 yorum
Hacker News görüşleri
Geriye dönük test konusunda ikna olmak zor. Opus flamingo gerçek bir bisikletin pedallarını, seleyi, jant tellerini, hatta gagayı bile işlevsel biçimde betimliyor. Gerçekçilik açısından bakınca Qwen tamamen çizginin dışına çıkıyor. Birinin Qwen’in sonucunu daha çok tercih etmesi biraz şaşırtıcı. Hatta Qwen sanki pelikan verisine aşırı uyum sağlamış (overfitting) gibi görünüyor
Kodlama performansı açısından bakınca Qwen 3.6 35b a3b, Power Ranking görevlerinden 98 tanenin 11’ini çözdü. Aynı boyuttaki Qwen 3.5 10 tanesini, Qwen 3.5 27b dense 26 tanesini, Opus ise 95 tanesini çözdü. Yani Qwen 3.6’da sadece çok küçük bir iyileşme var
‘Pelikan testi’nin eğlenceli tarafını anlıyorum ama artık bu testin neyi kanıtladığını bilmiyorum. Modelin dağılım dışı durumlara ne kadar iyi uyum sağladığını görmek istiyorsak, başka hayvanlar ve başka aktiviteler kombinasyonlarıyla (örneğin kaykay süren bir balina) denemek daha anlamlı olurdu
Bugün Gemini ile slayt diyagramlarını düzeltmeye çalışırken zaman kaybettim ve sonunda vazgeçtim. Tek seferde komik bir şey üretmede iyi ama “şu kısmı biraz düzelt” gibi ince düzenlemeler neredeyse imkânsız. Oyuncakla araç arasındaki uçurumu çok net hissettim
HN’de “benim dizüstüm” dendiğinde sanki her zaman yüksek performanslı bir MacBook kastediliyor. Çoğu bilgisayardan daha güçlü
Opus’a doğrudan “görsel üretmede iyi misin” diye sorarsanız “hayır” diyor. Zaten baştan beri görsel üretim için pazarlanmış bir ürün değildi
Dilde doğası gereği mekânsal metaforlar (spatial metaphor) çok zengin biçimde bulunur. Örneğin para “artar” demek yerine “yukarı çıkar” gibi ifadeler kullanırız. Böyle metaforik yapılar modelin ağırlık uzayı yapısına da yansıyor olabilir. Bu yüzden model ne kadar karmaşık stratejiler öğrenirse bu kalıplar da o kadar derinleşebilir. İleride eski ve yeni modellerin aktivasyon geometrisini karşılaştıran bir proje yapmak isterim
Opus ve Sonnet’te 4.1 sürümünden sonra kodlama dışı görev performansı giderek düşüyor
Bu tür demoların neyi kanıtladığını bilmiyorum. LLM’ler yalnızca eğitildikleri görevlerde ya da benzerlerinde güçlü. SVG üretimi aslında böyle bir görev değildi. Eskiden eğitim verisinde örnek az olduğu için yapamıyorlardı; sonra tanıtım amacıyla örnekler eklenince bir dereceye kadar yapabilir oldular. Ama hâlâ pratik değil. Bu tür iyileşmeler başka yetenek artışlarına dönüşmüyor. Model boyutundaki büyüme durmuşken artık odak belirli görev optimizasyonunda. Eğer eğitime dahil edilmemiş gizli görevler olsaydı, onlarla gerçek genelleme performansı ölçülebilirdi ama bu öyle bir test değil
Ben bir iguanayım ve bisikletimi yıkatmak için oto yıkamaya götürmem gerekiyor. Yürüyeyim mi, otobüse mi bineyim diye düşünüyorum