6 puan yazan GN⁺ 13 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Qwen3.6-35B-A3B ile Claude Opus 4.7 karşılaştırılarak ‘bisiklete binen pelikan’ görseli üretildi ve sonuçta Qwen daha yüksek tamamlanmışlıkta bir çizim verdi
  • Qwen modeli, Alibaba’nın en yeni sürümü olarak, Unsloth tarafından dağıtılan 20.9GB’lık kuantize model ile MacBook Pro M5 üzerinde LM Studio kullanılarak yerelde çalıştırıldı
  • Claude Opus 4.7’de bisiklet kadrosunun ifade edilmesinde hata vardı ve thinking_level: max seçeneği kullanılsa da kalitede neredeyse hiç iyileşme olmadı
  • ‘Pelikan benchmark’ı başlangıçta model karşılaştırmalarının hicivli bir testi olsa da, bu sonuç yerel LLM’lerin ticari modelleri aşabileceğini gösteriyor
  • Qwen3.6-35B-A3B, yerel ortamda çalıştırılabilen büyük modellerin rekabet gücünü kanıtlayan bir örnek oldu

Qwen3.6-35B-A3B ile Claude Opus 4.7 karşılaştırma deneyi

  • Qwen3.6-35B-A3B ve Claude Opus 4.7 olmak üzere iki model üzerinde ‘bisiklete binen pelikan’ görseli üretme karşılaştırma deneyi yapıldı
    • Qwen modeli, Alibaba’nın yayımladığı en yeni sürüm olup Unsloth tarafından sağlanan 20.9GB’lık kuantize (quantized) model kullanıldı
    • MacBook Pro M5 üzerinde LM Studio ve llm-lmstudio eklentisi aracılığıyla yerelde çalıştırıldı
    • Claude Opus 4.7 için Anthropic’in en yeni bulut modeli kullanıldı
  • Sonuç olarak Qwen3.6-35B-A3B, daha yüksek tamamlanmışlıkta bir pelikan görseli üretti
    • Claude Opus 4.7, bisiklet kadrosunu yanlış ifade etme hatası yaptı
    • thinking_level: max seçeneği eklenerek yeniden denendi ancak kalite artışı neredeyse hiç olmadı
  • Bazıları, modellerin bu ‘pelikan benchmark’ına göre eğitildiği şüphesini dile getirdi
    • Yazar bunu reddederken, sonucun güvenilirliğini doğrulamak için ‘tek tekerlekli bisiklete binen flamingo’ şeklinde yeni bir test daha yaptı
    • Qwen3.6-35B-A3B yine daha iyi sonuç verdi ve SVG kodundaki “” yorumunun etkileyici olduğu değerlendirildi

Pelikan benchmark’ının anlamı ve sınırları

  • ‘Bisiklete binen pelikan benchmark’ı, başlangıçta model karşılaştırmanın absürtlüğünü hicvetmek için yapılan şakacı bir test olarak ortaya çıktı
    • Ancak pratikte pelikan çiziminin kalitesi ile modelin genel performansı arasında belirli bir korelasyon bulunuyordu
    • 2024 Ekim ayındaki ilk sonuçlar kaba saba olsa da, modeller zamanla gerçek kullanımda işe yarayacak düzeyde illüstrasyonlar üretmeye başladı
  • Bu deneyde söz konusu korelasyon ilk kez bozuldu
    • Qwen modeli üstün sonuç vermiş olsa da, 21GB’lık kuantize sürümün Anthropic’in en yeni ticari modelinden daha güçlü olduğunu söylemek zor değerlendirmesi yapıldı
    • Yine de ‘bisiklete binen pelikanın SVG’si’ üretilmesi gerekiyorsa, şu anda yerelde çalıştırılabilen Qwen3.6-35B-A3B daha iyi bir seçim
  • Genel olarak bu karşılaştırma, yerel LLM’lerin ulaştığı gelişim düzeyini ve büyük ticari modellerle aradaki farkın daraldığını gösteren bir örnek olarak değerlendiriliyor
    • Özellikle LM Studio ortamında büyük modellerin çalıştırılabilmesinin kanıtlanmış olması dikkat çekiyor

1 yorum

 
GN⁺ 13 일 전
Hacker News görüşleri
  • Geriye dönük test konusunda ikna olmak zor. Opus flamingo gerçek bir bisikletin pedallarını, seleyi, jant tellerini, hatta gagayı bile işlevsel biçimde betimliyor. Gerçekçilik açısından bakınca Qwen tamamen çizginin dışına çıkıyor. Birinin Qwen’in sonucunu daha çok tercih etmesi biraz şaşırtıcı. Hatta Qwen sanki pelikan verisine aşırı uyum sağlamış (overfitting) gibi görünüyor

    • Qwen’in flamingosu sanatsal olarak çok daha ilgi çekici. Güneş gözlüğü ve papyon takan tek gözlü bir flamingo sigara içiyor. Buna karşılık Opus sıkıcı ve biraz da tuhaf bir flamingo çiziyor. Arka plandaki gökyüzü ve zemin de Qwen tarafında daha ilginç. Ama fiziksel olarak inandırıcı sonuç Opus’a çok daha yakın
    • Qwen en azından tam bir bisiklet kadrosu çiziyor. Opus’un kadrosu ikiye kırılacakmış gibi duruyor ve yönlendirilmesi de imkânsız görünüyor
    • Qwen arka plana ayrıntılar eklemiş ama pelikanın kendisi eğri gagalı bir leyleğe benziyor ve bacakları da kesilmiş. Yerel bir model için etkileyici ama kazanan değil
    • Bu bir 3B model. Bu kadar yakın bir sonuç çıkması bile başlı başına şaşırtıcı. Sanatsallık tartışması asıl mesele değil
  • Kodlama performansı açısından bakınca Qwen 3.6 35b a3b, Power Ranking görevlerinden 98 tanenin 11’ini çözdü. Aynı boyuttaki Qwen 3.5 10 tanesini, Qwen 3.5 27b dense 26 tanesini, Opus ise 95 tanesini çözdü. Yani Qwen 3.6’da sadece çok küçük bir iyileşme var

    • Bu benchmark’ta da Brokk Power Ranking örneğinde olduğu gibi eğitim verisiyle benchmark verisinin çakışması sorunu var
    • Hız ise kesin olarak artmış. M1 Max üzerinde görsel açıklamada Qwen 3.6 35b a3b saniyede 34 token, Qwen 3.5 27b ise 10 token üretiyor; Qwen 3.5 35b a3b ise görsel girdiyi desteklemiyor
    • Yerelde çıkarım için kullanılan küçük bir modelle pahalı frontier modelleri karşılaştırmak adil değil. Benzer fiyat aralığındaki modellerle ya da Haiku, Flash, GPT Nano gibi küçük frontier modellerle kıyaslamak gerekir
  • ‘Pelikan testi’nin eğlenceli tarafını anlıyorum ama artık bu testin neyi kanıtladığını bilmiyorum. Modelin dağılım dışı durumlara ne kadar iyi uyum sağladığını görmek istiyorsak, başka hayvanlar ve başka aktiviteler kombinasyonlarıyla (örneğin kaykay süren bir balina) denemek daha anlamlı olurdu

    • Bu yüzden ben de tek tekerlekli bisiklete binen bir flamingo denedim. Bir an için model sağlayıcısının pelikana özel eğitim verdiğinden şüphelendim ama flamingo sonucunu görünce öyle olmadığına emin oldum
    • Bir benchmark ne kadar popülerse, model eğitiminde özel olarak ele alınma ihtimali de o kadar yüksek olur. “Araba süren fil” ya da “yatakta uyuyan aslan” gibi prompt’larla test etmek isterim
    • Yazıyı okursanız bu testin mizahi bir niyetle oluşturulduğunun açıkça belirtildiğini görürsünüz. Sadece model performansı eğilimlerini gevşek biçimde takip ediyordu; bu sonucun gösterdiği şey de bu eğilimin bozulmuş olması
    • Modeller testin farkında olabilir ama “kaykay üstünde kickflip yapan kaplumbağa” gibi şeylerle eğitilmemişlerdir. Jeff Dean’in tweet’inden de görülebileceği gibi, hatta Opus 4.7’nin pelikan başarısızlığı bunun kanıtı sayılabilir
    • Bu şaka artık ömrünü tamamladı. Ama AI sektöründeki aşırı hype içinde bunu hâlâ ciddiye alan insanlar var. İyi bir pelikan çizimi çıktığında bunu modelin üstün olduğunun kanıtı diye sunmaları tekrar tekrar görülüyor
  • Bugün Gemini ile slayt diyagramlarını düzeltmeye çalışırken zaman kaybettim ve sonunda vazgeçtim. Tek seferde komik bir şey üretmede iyi ama “şu kısmı biraz düzelt” gibi ince düzenlemeler neredeyse imkânsız. Oyuncakla araç arasındaki uçurumu çok net hissettim

  • HN’de “benim dizüstüm” dendiğinde sanki her zaman yüksek performanslı bir MacBook kastediliyor. Çoğu bilgisayardan daha güçlü

  • Opus’a doğrudan “görsel üretmede iyi misin” diye sorarsanız “hayır” diyor. Zaten baştan beri görsel üretim için pazarlanmış bir ürün değildi

    • Son zamanlarda OpenAI’nin HN yorumlarını manipüle edip tartışmanın yönünü değiştirmeye çalıştığından şüpheleniyorum. Bazı konularda sadece OpenAI’yi savunan ya da diğer modelleri aşırı eleştiren yorumlar tekrar tekrar görünüyor
    • Claude SVG üretiminde çok yetenekli. Küçük ikonlar yapmak için Claude’u sık kullanıyorum. Ama bisiklete binen pelikan gibi SVG illüstrasyonlar pratikte kullanışlı değil. Çünkü pelikanlar bisiklete binemez
  • Dilde doğası gereği mekânsal metaforlar (spatial metaphor) çok zengin biçimde bulunur. Örneğin para “artar” demek yerine “yukarı çıkar” gibi ifadeler kullanırız. Böyle metaforik yapılar modelin ağırlık uzayı yapısına da yansıyor olabilir. Bu yüzden model ne kadar karmaşık stratejiler öğrenirse bu kalıplar da o kadar derinleşebilir. İleride eski ve yeni modellerin aktivasyon geometrisini karşılaştıran bir proje yapmak isterim

  • Opus ve Sonnet’te 4.1 sürümünden sonra kodlama dışı görev performansı giderek düşüyor

  • Bu tür demoların neyi kanıtladığını bilmiyorum. LLM’ler yalnızca eğitildikleri görevlerde ya da benzerlerinde güçlü. SVG üretimi aslında böyle bir görev değildi. Eskiden eğitim verisinde örnek az olduğu için yapamıyorlardı; sonra tanıtım amacıyla örnekler eklenince bir dereceye kadar yapabilir oldular. Ama hâlâ pratik değil. Bu tür iyileşmeler başka yetenek artışlarına dönüşmüyor. Model boyutundaki büyüme durmuşken artık odak belirli görev optimizasyonunda. Eğer eğitime dahil edilmemiş gizli görevler olsaydı, onlarla gerçek genelleme performansı ölçülebilirdi ama bu öyle bir test değil

  • Ben bir iguanayım ve bisikletimi yıkatmak için oto yıkamaya götürmem gerekiyor. Yürüyeyim mi, otobüse mi bineyim diye düşünüyorum

    • Pelikana bisikleti verip senin yerine yıkatman önerildi
    • “O mesafe çok uzak. $PartnerRideshareCo üzerinden araç çağır” tavsiyesi de geldi