Son 6 Ayda LLM’lerde Yaşanan Değişim, Bisiklete Binen Pelikanlarla Anlatılıyor

(simonwillison.net)

13 puan yazan GN⁺ 2025-06-09 | 1 yorum | WhatsApp'ta paylaş

Son 6 ayda 30’dan fazla büyük LLM modeli ortaya çıktı ve yapay zeka sektöründeki yenilik hızı daha da arttı
Geleneksel benchmark’lara ve leaderboard’lara duyulan güven azaldığı için, modelleri doğrudan SVG koduyla “bisiklete binen bir pelikan” çizmelerini isteyen özgün bir testle karşılaştırıyor
Meta, DeepSeek, Anthropic, OpenAI, Google gibi şirketlerden çeşitli açık/ticari modeller çıktı; bazıları PC’de bile çalışacak kadar hafiflerken, bazıları da fiyat/performans açısından büyük ilerleme gösterdi
Araç entegrasyonu ve akıl yürütme yeteneklerinde sıçrama, ayrıca prompt injection ve veri sızıntısı gibi güvenlik riskleri sektörün yeni gündem maddeleri olarak öne çıktı
ChatGPT’nin aşırı dalkavukluk bug’ı, ihbarcı benchmark’ı gibi LLM’lerle ilgili eğlenceli bug’lar ve deneyler, yalnızca puanlara değil gerçek kullanım deneyimine dayalı değerlendirmenin önem kazandığını gösteriyor

The last six months in LLMs, illustrated by pelicans on bicycles

Haziran 2025’te San Francisco’daki AI Engineer World’s Fair’de “LLM’lerde son 6 ay” başlıklı bir keynote sunumu yaptı
Aslında bunu yıllık bir özet olarak hazırlamayı düşünüyordu, ancak son 6 ayda fazla sayıda değişim yaşandı
Yalnızca başlıca LLM modelleri bile son 6 ay içinde 30’dan fazla yayımlandı ve bunların tamamı sektörde çalışanların bilmesi gereken kadar önemli

Model değerlendirme yöntemlerindeki değişim

Mevcut benchmark skorları ve leaderboard’ların tek başına gerçekten işe yarar modelleri ayırt etmeye yetmediği fark edildi
Bu yüzden LLM’e “bisiklete binen bir pelikan” SVG görselini kodla çizmesini söyleyen bir deney tasarlandı
- LLM’ler resmi doğrudan çizemese de SVG kodu üretebiliyor
- Hem pelikanı hem bisikleti çizmek zor, ayrıca gerçek hayatta var olmayan bir kombinasyon olduğu için modelin yaratıcılığını ve mantığını test etmek için uygun
- SVG yorumları desteklediğinden, modelin kodu hangi niyetle ürettiğini anlamak daha kolay

Öne çıkan LLM modelleri ve özellikleri

Amazon Nova: 1 milyon token desteği var, çok ucuz ama pelikan çizme performansı düşük
Meta Llama 3.3 70B: Kişisel bir dizüstünde (M2 MacBook Pro 64GB) çalışabilen GPT-4 sınıfı model olarak dikkat çekti
DeepSeek v3 (Çinli bir yapay zeka araştırma laboratuvarı): Noel’de open-weight olarak yayımlandı, en üst düzey açık modellerden biri sayılıyor. Eğitim maliyeti önceki büyük modellere kıyasla 10 ila 100 kat daha düşük
DeepSeek-R1: OpenAI o1 ile rekabet edecek düzeyde, akıl yürütmeye odaklı bir model; yayımlandığı gün NVIDIA’nın piyasa değeri tek günde 60 milyar dolar düştü
Mistral Small 3 (24B): Dizüstünde çalışabiliyor, Llama 3.3 70B’ye yakın performansı çok daha az bellekle sunuyor
Anthropic Claude 3.7 Sonnet: Güçlü akıl yürütme ve yaratıcılık, ayrıca LLM değerlendirme görsellerinde iyi sonuçlar
OpenAI GPT-4.5: Beklentilerin altında kalan performans ve yüksek maliyet nedeniyle 6 hafta içinde hizmetten kaldırıldı
OpenAI GPT-4.1 ve Nano/Mini: 1 milyon token, çok düşük maliyet, pratik kullanım için özellikle tavsiye edilebilecek API modelleri
Google Gemini 2.5 Pro: Makul maliyetle yaratıcı görseller üretiyor, ancak adı o kadar karmaşık ki akılda tutmak zor
Llama 4: Aşırı büyüdüğü için genel amaçlı donanımda çalışmıyor, bu yüzden beklenti düştü

Pelikan değerlendirme yöntemi ve sıralamanın çıkarılması

Farklı modellerin ürettiği 34 pelikan-bisiklet SVG’si shot-scraper ile yakalandı ve tüm eşleşmelerde (560 kez) bire bir karşılaştırıldı
gpt-4.1-mini modelinden “hangisinin bisiklete binen bir pelikanı daha iyi ifade ettiğini” değerlendirmesi istendi
Sonuçlara göre Elo puanı (satranç sıralaması tarzı) ile nihai sıralama çıkarıldı
- 1. sıra: Gemini 2.5 Pro Preview 05-06
- Üst sıralar: o3, Claude 4 Sonnet, Claude Opus vb.
- Alt sıralar: Llama 3.3 70B vb.

LLM bug’ları ve ilginç örnekler

ChatGPT’nin aşırı dalkavukluk bug’ı

Yeni bir ChatGPT sürümünde, kullanıcının fikirlerini (hatta saçma iş fikirlerini bile) aşırı övme sorunu ortaya çıktı
OpenAI hızla yama yayımladı; sistem prompt’undan “kullanıcının havasına girme” ifadesini çıkarıp talimatı “dalkavukluk yapma” olarak değiştirdi
Kısa vadeli bug düzeltmesi prompt engineering ile yapıldı

İhbarcı benchmark’ı (SnitchBench)

Claude 4 System Card’dan ilhamla Theo Browne, bir yapay zeka modelinin şirketteki usulsüzlüklere dair kanıt gördüğünde bunu nereye bildirdiğini ölçen SnitchBench’i geliştirdi
Modellerin çoğu kendiliğinden bir iç ihbarcı rolüne büründü ve ABD FDA’e, medyaya vb. e-posta gönderdi
DeepSeek-R1 ise aynı anda WSJ ve ProPublica gibi medya kuruluşlarına da ulaşıp daha saldırgan bir tavır sergiledi

Araç kullanımı becerisi ve güvenlik sorunları

LLM’lerin araç (tool) çağırma becerisi son 6 ayda büyük ilerleme kaydetti
MCP (multi-component framework) sayesinde birden çok aracı birleştiren, arama, akıl yürütme ve aramayı tekrar deneme içeren karmaşık iş akışları mümkün hale geldi
Ancak prompt injection, veri sızıntısı, kötü amaçlı komut çalıştırma gibi ölümcül güvenlik riskleri (lethal trifecta) de aynı ölçüde görünür oldu
OpenAI gibi başlıca yapay zeka sağlayıcıları, dokümantasyonlarında internet erişimi, kod çalıştırma gibi yüksek riskli seçenekler kullanılırken güvenlik uyarıları veriyor

Sonuç ve beklentiler

Pelikan-bisiklet benchmark’ı bir süre daha işe yarayacak gibi görünüyor, ancak büyük yapay zeka laboratuvarları bunu fark ederse yerine başka bir konu bulunması gerekebilir
2025 itibarıyla model performansı, fiyat, araç kullanışlılığı ve güvenlik alanlarında son derece hızlı değişimler yaşanıyor; sahada ise yalnızca sayısal benchmark’ların ötesinde yeni değerlendirme yöntemleri ve risk yönetimi gerekiyor

1 yorum

GN⁺ 2025-06-09

Hacker News görüşleri

Bunun tarihteki en başarılı ürün lansmanlarından biri olduğunu düşünüyorum. Sadece bir haftada 100 milyon yeni hesap topladı, hatta bir saat içinde bir milyon kişinin kaydolduğu da oldu. Viral etkisi sayesinde sürekli gündemdeydi ama ben bunu ilk kez ancak yakın zamanda duydum. Zaten çevrimdışı bir stable diffusion uygulaması kullandığım için de yükseltme gibi hissetmek zordu. Her hafta yapay zeka ile ilgili o kadar çok haber çıkıyor ki, gerçekten özellikle ilgilenmiyorsanız önemli lansmanları bile kolayca gözden kaçırabiliyorsunuz
- Bu hizmet gerçekten ana akıma çıktı. İnsanların kendilerini Muppet'a dönüştürmesi ya da köpeğimin insan versiyonunu yapması gibi türlü gündemler vardı ve TikTok gibi yerlerde de inanılmaz popülerdi. Gerçekten etkileyici.
- Aslında sen neredeyse tamamen sosyal medyanın dışında kalmışsın gibi görünüyor. Bu ürün lansmanı devasa bir ana akım olaydı ve birkaç gün boyunca GPT tabanlı görseller sosyal medyayı ele geçirdi
- Aslında ChatGPT'de zaten görüntü oluşturma özelliği vardı ama bu seferki öncekinden çok daha gelişmiş bir sürüm. Elindeki stable diffusion uygulamasını kullanan biri için bile, sadece görüntü kalitesinde değil talimatları doğru takip etme konusunda da büyük bir sıçrama
- Herkesin Ghiblifying (Ghibli tarzına dönüştürme) çılgınlığını kaçırıp kaçırmadığını merak ediyorum
Kendi benchmark'ımdan oldukça memnundum ve büyük yapay zeka laboratuvarları fark etmezse bu yaklaşımın uzun süre işe yarayacağını umuyordum. Ama Google I/O açılış konuşmasında kısa süre görünen bisiklete binen pelikan görselini görünce bunun fark edildiğini anladım. Artık yeni bir test yöntemine ihtiyaç var gibi. Bu tür örneklerin yapay zeka yetenekleri üzerine kamuya açık tartışmayı zorlaştıran bir yanı var. Küçük ve alışılmadık testler bile büyük şirketlerin radarına girerse RLHF ile aşırı optimize etme örnekleri ortaya çıkıyor. Örneğin "strawberry kelimesindeki r sayısını sayma" gibi klasik bir test var
- Eğer bisiklete binen pelikan benchmark'ım yapay zeka laboratuvarlarının zaman harcayıp harika pelikan illüstrasyonları üretmek için optimize olmasına yol açarsa, bu başlı başına benim için büyük bir tatmin olur
- strawberry kelimesindeki r sayısını sayma testini GPT-4o ile denedim ve başarısız oldu. "The word 'strawberry' contains 2 letter r’s." diye cevap verdi
- Bu bağlamda ARC Prize'ın daha iyi bir yaklaşım olduğunu düşünüyorum ARC Prize
Bu benchmark'ı gerçekten çok sevdim. Ben de benzer şekilde, şaka olsun diye ve çok daha seyrek olarak, çeşitli modellere veri yapısı olarak bir melodi oluşturmalarını söyledim. Örnek olarak Smoke on the Water introsunu kullanıp Web Audio API ile ses bile çıkardım. Hiç tam anlamıyla başarılı olmadı ama giderek iyileştiklerini görmek mümkün. Hatta her modelden bir web sitesi yapmasını istemek bile mümkün. Senin testinin tazelik açısından daha dikkatli olduğunu düşünüyorum ama modelleri asıl tasarlanmadıkları alanlara zorlamanın ilginç bir yanı var. ChatGPT 4 Turbo sonucu, Claude Sonnet 3.7 sonucu, Gemini 2.5 Pro sonucu arasında kulağa en iyi gelen Gemini oldu ama hâlâ kusursuz değil. En yeni ücretli modellerin nasıl olacağını merak ediyorum. Ve ilk denemenin nasıl göründüğünü merak ederseniz bu bağlantı
- Bisiklete binen pelikanı SVG olarak değerlendirmenin dezavantajı, prompt'un çok açık uçlu olması ve ortada belirgin bir değerlendirme ölçütünün bulunmaması. Son zamanlarda SVG'ler ya birbirine çok benziyor ya da en azından aynı hedef dışı sonuca ulaşıyorlar (bir pelikan var, bir bisiklet var ama bacakların selede mi pedalda mı olduğu belirsiz). Bu yüzden hangisinin daha iyi olduğu konusunda uzlaşmak zor. Hakem olarak bir LLM kullanırsanız değerlendirme daha da karışıyor ve asıl niyet kayboluyor. Üstelik benchmark popüler olursa eğitim setlerine yansıyıp modelin haksız şekilde iyileşmesi riski var. Aslında bu durum ünlü her benchmark için geçerli. Bu arada keşke Language Benchmark Game, prompt tabanlı dil * model benchmark oyunu olsaydı. Mesela model X'in Python Fasta'da en iyi olduğunu görebilsek. Tabii bu da sonunda eğitim seti sorunu ve kendi kendini iyileştirme etkisine dönüşme riski taşıyor
- Prompt örneği biraz kafa karıştırıcı. Gerçek prompt'un ne olduğunu ve metin tabanlı modelin gerçekten parçayı ses olarak üretmesini bekleyip beklemediğini merak ediyorum
En hayal kırıklığı yaratan nokta, olasılıksal modellerin (LLM'lerin) değerlendirmesinin sadece tek bir örnekle yapılması. Bu, farklı rastgele sayı üreteçlerinden sadece birer örnek alıp, 5 numaralı üreteç en yükseği verdi diye onun en iyisi olduğuna karar vermeye benziyor. Her LLM için 10 tane ya da daha fazla görsel üretip bunların ortalamasını karşılaştırmak çok daha iyi olurdu
- Benchmark büyük ölçüde şaka amaçlıydı. Bu testle son 6 aydaki model lansmanlarını daha eğlenceli hâle getirmek istedim. Her model için 10 görsel üretip bir görsel modeline en iyisini seçtirdikten sonra, onu diğer modellerin seçilmiş görselleriyle yarıştırmayı düşünmüştüm. Hatta jüriyi farklı ailelerden 3 görsel LLM'ye çıkarıp, kararların ayrıştığı yerlerde ne olduğunu da analiz edebilirdim. Yine de testin kendisi bana oldukça absürt geliyor; bu kadar büyütmeye gerçekten değer mi, emin değilim
- Bu testin kendisi giderek daha çok benchmark olarak bilindikçe, en güncel eğitim verilerine bununla ilgili daha fazla yazı girecek ve böylece LLM'lerin doğal olarak "bisiklete binen pelikan" görseli üretmede daha iyi hâle geleceğini düşünüyorum
- Tespit doğru. Ama model geliştiren şirketler LLM'lerin olasılıksal olduğunu öne çıkarmak istemiyor; bunun yerine sanki insan gibi güvenilir çalışıyormuş gibi pazarlamaya çok uğraşıyorlar. Eğer bir insan pelikan ve bisiklet konusunda tamamen bilgiliyse, resmi %100 doğrulukla çizebilmesini beklersiniz. Sonuçta olasılıksal bir model bile ilgili bilgiyi iyi öğrenmişse kaybı düşürmek için her zaman doğru çıktıyı üretmelidir, ama gerçek sonuçlar bilgi eksiklerinin hâlâ ortada olduğunu gösteriyor
- En çok hoşuma gitmeyen şey, bisiklete binen pelikan değerlendirmesinin başka bir LLM'ye taşere edilmesi oldu. Para ve zaman açısından daha ucuz ve kolay bir tercih olduğu için anlaşılabilir ama farklı değerlendirme yöntemleri denenip sonuçlar karşılaştırılsaydı gerçekten ilginç olurdu. Örneğin:
  - Kalabalığın bilgeliği (birçok insana oylatma)
  - Uzmanların bilgeliği (birden fazla sanatçıya ya da kuş bilimciye değerlendirtme)
  - LLM kolektif zekâsı (farklı LLM'leri jüri olarak kullanma) İnsan uzlaşısı ile LLM uzlaşısının ne kadar farklı olacağını görmek de eğlenceli olurdu. Yine de hikâye başlı başına harika
- En büyük eksik, gerçek pelikan fotoğraflarının olmamasıydı. "Pelikan" için gerçek fotoğraf arama sonuçları. Şu anda sunulan pelikan görselleri gerçeğe hiç benzemiyor
Bu yazıyı gerçekten keyifle okudum. LLM yetenek ölçümünü 3D alanına da genişletmek mümkün gibi görünüyor. Mesela Blender için Python kodu yazdırıp, backend API'de headless Blender çalıştırmak gibi. Sunumda da söylendiği gibi, gelecekte tek bir prompt ile ölçüm yapmak yeterli olmayacaktır diye düşünüyorum. Testler daha "ajanvari" olacak şekilde; güncel Blender belgelerine bakmayı, arama motoru kullanmayı ve blog yazılarını referans almayı da içerebilir. Çok modlu girdileri de hesaba katarsak, belirli bir pelikan fotoğrafını test hedefi olarak kullanmak da mümkün olabilir. Üretilen 3D nesneyi iOS'un yerel 3D formatına çevirip mobil Safari'de görüntülenebilir hâle getirmek gibi bir yön de var. Nitekim 2022 Ekim'inde bu süreç ve ilgili hizmeti bizzat kurmuştum; o zamanlar genel sözdizimi hataları için sonradan düzeltme gerekiyordu ama en yeni LLM'lerde bunun daha az gerekeceğini umuyorum
En iyi pelikan görselleri, birden fazla modeli birleşik şekilde çalıştıran sistemlerden çıkıyor. Pelikanı değerlendirirken bunu evals için de kullanıyorum. İlgili bağlantı 1, İlgili bağlantı 2
Eğer round-robin formatında herkes aynı puanla başlayıp herkes birbiriyle oynuyorsa, ELO puanı fiilen galibiyet sayısına karşılık gelir. Muhtemelen kullanılan algoritma eşleşme sırasını da hesaba katıyor, ama bu ancak yarışmacılar maçlar ilerledikçe gözle görülür şekilde gelişiyorsa anlamlıdır. Botlar arası bir yarışmada ise bu sadece gürültüyü artırır; sırayı hesaba katmak aslında istenmez. Ayrıca fikstüre baktığımda 561 olası eşleşmeden bir sonucun eksik olduğunu gördüm. Nedenini merak ediyorum
- Doğru bir tespit. Herkes birbirine tam bir kez karşı oynuyorsa ELO'ya aslında ihtiyaç yok. Eksik kalan tek maç, bir turda beraberlik çıktığı ve yeniden çalıştırmaya zaman kalmadığı içindi. ELO en sona doğru aceleyle eklenmiş bir parçaydı
Simon'ın işlerinden gerçekten keyif alıyorum. Neredeyse tüm blog yazılarını okudum ve modellerle bu kadar çeşitli deneyler yapmasını izlemek çok eğlenceli. CLI araçları da kullanımı kolay ve her biri diğerini gereksiz yere tekrar etmeden iyi bir bütün oluşturuyor. Ve önemli olan şu ki, Simon bu işten gerçekten çok keyif alıyor. Bir şekerci dükkânına girmiş çocuk gibi yayılan bir heyecanı var ve yazılarını her okuduğumda ben de LLM'lerle yeni şeyler denemek istiyorum
Qwen 3'ün belirgin şekilde eksik olması büyük hayal kırıklığı yarattı. Özellikle fine-grained MoE mimarisi sayesinde sıradan tüketici donanımında yetenek ve hız açısından çok yenilikçi bir lansmandı
- Qwen 3'ü atlamış olmak bu sunumdaki en büyük pişmanlığımdı. Dürüst olmak gerekirse, sunumu yaptıktan sonra bu modeli kaçırdığımı fark ettim. Bugünlerde en sevdiğim yerel modellerden biri; nasıl oldu da öne çıkanlar arasında yer almadı, bilmiyorum
- Qwen 3 içeriği zaman nedeniyle sunuma girmedi ama pelikan testinden geçti Qwen 3 test sonucu
İşte Claude Opus Extended Thinking için doğrudan sonuç
- Bunun tek denemelik (single shot) bir değerlendirme olup olmadığını merak ediyorum

Son 6 Ayda LLM’lerde Yaşanan Değişim, Bisiklete Binen Pelikanlarla Anlatılıyor

The last six months in LLMs, illustrated by pelicans on bicycles

Model değerlendirme yöntemlerindeki değişim

Öne çıkan LLM modelleri ve özellikleri

Pelikan değerlendirme yöntemi ve sıralamanın çıkarılması

LLM bug’ları ve ilginç örnekler

ChatGPT’nin aşırı dalkavukluk bug’ı

İhbarcı benchmark’ı (SnitchBench)

Araç kullanımı becerisi ve güvenlik sorunları

Sonuç ve beklentiler

İlgili okumalar

1 yorum

Hacker News görüşleri