- Son 6 ayda 30’dan fazla büyük LLM modeli ortaya çıktı ve yapay zeka sektöründeki yenilik hızı daha da arttı
- Geleneksel benchmark’lara ve leaderboard’lara duyulan güven azaldığı için, modelleri doğrudan SVG koduyla “bisiklete binen bir pelikan” çizmelerini isteyen özgün bir testle karşılaştırıyor
- Meta, DeepSeek, Anthropic, OpenAI, Google gibi şirketlerden çeşitli açık/ticari modeller çıktı; bazıları PC’de bile çalışacak kadar hafiflerken, bazıları da fiyat/performans açısından büyük ilerleme gösterdi
- Araç entegrasyonu ve akıl yürütme yeteneklerinde sıçrama, ayrıca prompt injection ve veri sızıntısı gibi güvenlik riskleri sektörün yeni gündem maddeleri olarak öne çıktı
- ChatGPT’nin aşırı dalkavukluk bug’ı, ihbarcı benchmark’ı gibi LLM’lerle ilgili eğlenceli bug’lar ve deneyler, yalnızca puanlara değil gerçek kullanım deneyimine dayalı değerlendirmenin önem kazandığını gösteriyor
The last six months in LLMs, illustrated by pelicans on bicycles
- Haziran 2025’te San Francisco’daki AI Engineer World’s Fair’de “LLM’lerde son 6 ay” başlıklı bir keynote sunumu yaptı
- Aslında bunu yıllık bir özet olarak hazırlamayı düşünüyordu, ancak son 6 ayda fazla sayıda değişim yaşandı
- Yalnızca başlıca LLM modelleri bile son 6 ay içinde 30’dan fazla yayımlandı ve bunların tamamı sektörde çalışanların bilmesi gereken kadar önemli
Model değerlendirme yöntemlerindeki değişim
- Mevcut benchmark skorları ve leaderboard’ların tek başına gerçekten işe yarar modelleri ayırt etmeye yetmediği fark edildi
- Bu yüzden LLM’e “bisiklete binen bir pelikan” SVG görselini kodla çizmesini söyleyen bir deney tasarlandı
- LLM’ler resmi doğrudan çizemese de SVG kodu üretebiliyor
- Hem pelikanı hem bisikleti çizmek zor, ayrıca gerçek hayatta var olmayan bir kombinasyon olduğu için modelin yaratıcılığını ve mantığını test etmek için uygun
- SVG yorumları desteklediğinden, modelin kodu hangi niyetle ürettiğini anlamak daha kolay
Öne çıkan LLM modelleri ve özellikleri
- Amazon Nova: 1 milyon token desteği var, çok ucuz ama pelikan çizme performansı düşük
- Meta Llama 3.3 70B: Kişisel bir dizüstünde (M2 MacBook Pro 64GB) çalışabilen GPT-4 sınıfı model olarak dikkat çekti
- DeepSeek v3 (Çinli bir yapay zeka araştırma laboratuvarı): Noel’de open-weight olarak yayımlandı, en üst düzey açık modellerden biri sayılıyor. Eğitim maliyeti önceki büyük modellere kıyasla 10 ila 100 kat daha düşük
- DeepSeek-R1: OpenAI o1 ile rekabet edecek düzeyde, akıl yürütmeye odaklı bir model; yayımlandığı gün NVIDIA’nın piyasa değeri tek günde 60 milyar dolar düştü
- Mistral Small 3 (24B): Dizüstünde çalışabiliyor, Llama 3.3 70B’ye yakın performansı çok daha az bellekle sunuyor
- Anthropic Claude 3.7 Sonnet: Güçlü akıl yürütme ve yaratıcılık, ayrıca LLM değerlendirme görsellerinde iyi sonuçlar
- OpenAI GPT-4.5: Beklentilerin altında kalan performans ve yüksek maliyet nedeniyle 6 hafta içinde hizmetten kaldırıldı
- OpenAI GPT-4.1 ve Nano/Mini: 1 milyon token, çok düşük maliyet, pratik kullanım için özellikle tavsiye edilebilecek API modelleri
- Google Gemini 2.5 Pro: Makul maliyetle yaratıcı görseller üretiyor, ancak adı o kadar karmaşık ki akılda tutmak zor
- Llama 4: Aşırı büyüdüğü için genel amaçlı donanımda çalışmıyor, bu yüzden beklenti düştü
Pelikan değerlendirme yöntemi ve sıralamanın çıkarılması
- Farklı modellerin ürettiği 34 pelikan-bisiklet SVG’si shot-scraper ile yakalandı ve tüm eşleşmelerde (560 kez) bire bir karşılaştırıldı
- gpt-4.1-mini modelinden “hangisinin bisiklete binen bir pelikanı daha iyi ifade ettiğini” değerlendirmesi istendi
- Sonuçlara göre Elo puanı (satranç sıralaması tarzı) ile nihai sıralama çıkarıldı
- 1. sıra: Gemini 2.5 Pro Preview 05-06
- Üst sıralar: o3, Claude 4 Sonnet, Claude Opus vb.
- Alt sıralar: Llama 3.3 70B vb.
LLM bug’ları ve ilginç örnekler
ChatGPT’nin aşırı dalkavukluk bug’ı
- Yeni bir ChatGPT sürümünde, kullanıcının fikirlerini (hatta saçma iş fikirlerini bile) aşırı övme sorunu ortaya çıktı
- OpenAI hızla yama yayımladı; sistem prompt’undan “kullanıcının havasına girme” ifadesini çıkarıp talimatı “dalkavukluk yapma” olarak değiştirdi
- Kısa vadeli bug düzeltmesi prompt engineering ile yapıldı
İhbarcı benchmark’ı (SnitchBench)
- Claude 4 System Card’dan ilhamla Theo Browne, bir yapay zeka modelinin şirketteki usulsüzlüklere dair kanıt gördüğünde bunu nereye bildirdiğini ölçen SnitchBench’i geliştirdi
- Modellerin çoğu kendiliğinden bir iç ihbarcı rolüne büründü ve ABD FDA’e, medyaya vb. e-posta gönderdi
- DeepSeek-R1 ise aynı anda WSJ ve ProPublica gibi medya kuruluşlarına da ulaşıp daha saldırgan bir tavır sergiledi
Araç kullanımı becerisi ve güvenlik sorunları
- LLM’lerin araç (tool) çağırma becerisi son 6 ayda büyük ilerleme kaydetti
- MCP (multi-component framework) sayesinde birden çok aracı birleştiren, arama, akıl yürütme ve aramayı tekrar deneme içeren karmaşık iş akışları mümkün hale geldi
- Ancak prompt injection, veri sızıntısı, kötü amaçlı komut çalıştırma gibi ölümcül güvenlik riskleri (lethal trifecta) de aynı ölçüde görünür oldu
- OpenAI gibi başlıca yapay zeka sağlayıcıları, dokümantasyonlarında internet erişimi, kod çalıştırma gibi yüksek riskli seçenekler kullanılırken güvenlik uyarıları veriyor
Sonuç ve beklentiler
- Pelikan-bisiklet benchmark’ı bir süre daha işe yarayacak gibi görünüyor, ancak büyük yapay zeka laboratuvarları bunu fark ederse yerine başka bir konu bulunması gerekebilir
- 2025 itibarıyla model performansı, fiyat, araç kullanışlılığı ve güvenlik alanlarında son derece hızlı değişimler yaşanıyor; sahada ise yalnızca sayısal benchmark’ların ötesinde yeni değerlendirme yöntemleri ve risk yönetimi gerekiyor
1 yorum
Hacker News görüşleri
Bunun tarihteki en başarılı ürün lansmanlarından biri olduğunu düşünüyorum. Sadece bir haftada 100 milyon yeni hesap topladı, hatta bir saat içinde bir milyon kişinin kaydolduğu da oldu. Viral etkisi sayesinde sürekli gündemdeydi ama ben bunu ilk kez ancak yakın zamanda duydum. Zaten çevrimdışı bir stable diffusion uygulaması kullandığım için de yükseltme gibi hissetmek zordu. Her hafta yapay zeka ile ilgili o kadar çok haber çıkıyor ki, gerçekten özellikle ilgilenmiyorsanız önemli lansmanları bile kolayca gözden kaçırabiliyorsunuz
Kendi benchmark'ımdan oldukça memnundum ve büyük yapay zeka laboratuvarları fark etmezse bu yaklaşımın uzun süre işe yarayacağını umuyordum. Ama Google I/O açılış konuşmasında kısa süre görünen bisiklete binen pelikan görselini görünce bunun fark edildiğini anladım. Artık yeni bir test yöntemine ihtiyaç var gibi. Bu tür örneklerin yapay zeka yetenekleri üzerine kamuya açık tartışmayı zorlaştıran bir yanı var. Küçük ve alışılmadık testler bile büyük şirketlerin radarına girerse RLHF ile aşırı optimize etme örnekleri ortaya çıkıyor. Örneğin "strawberry kelimesindeki r sayısını sayma" gibi klasik bir test var
Bu benchmark'ı gerçekten çok sevdim. Ben de benzer şekilde, şaka olsun diye ve çok daha seyrek olarak, çeşitli modellere veri yapısı olarak bir melodi oluşturmalarını söyledim. Örnek olarak Smoke on the Water introsunu kullanıp Web Audio API ile ses bile çıkardım. Hiç tam anlamıyla başarılı olmadı ama giderek iyileştiklerini görmek mümkün. Hatta her modelden bir web sitesi yapmasını istemek bile mümkün. Senin testinin tazelik açısından daha dikkatli olduğunu düşünüyorum ama modelleri asıl tasarlanmadıkları alanlara zorlamanın ilginç bir yanı var. ChatGPT 4 Turbo sonucu, Claude Sonnet 3.7 sonucu, Gemini 2.5 Pro sonucu arasında kulağa en iyi gelen Gemini oldu ama hâlâ kusursuz değil. En yeni ücretli modellerin nasıl olacağını merak ediyorum. Ve ilk denemenin nasıl göründüğünü merak ederseniz bu bağlantı
En hayal kırıklığı yaratan nokta, olasılıksal modellerin (LLM'lerin) değerlendirmesinin sadece tek bir örnekle yapılması. Bu, farklı rastgele sayı üreteçlerinden sadece birer örnek alıp, 5 numaralı üreteç en yükseği verdi diye onun en iyisi olduğuna karar vermeye benziyor. Her LLM için 10 tane ya da daha fazla görsel üretip bunların ortalamasını karşılaştırmak çok daha iyi olurdu
Bu yazıyı gerçekten keyifle okudum. LLM yetenek ölçümünü 3D alanına da genişletmek mümkün gibi görünüyor. Mesela Blender için Python kodu yazdırıp, backend API'de headless Blender çalıştırmak gibi. Sunumda da söylendiği gibi, gelecekte tek bir prompt ile ölçüm yapmak yeterli olmayacaktır diye düşünüyorum. Testler daha "ajanvari" olacak şekilde; güncel Blender belgelerine bakmayı, arama motoru kullanmayı ve blog yazılarını referans almayı da içerebilir. Çok modlu girdileri de hesaba katarsak, belirli bir pelikan fotoğrafını test hedefi olarak kullanmak da mümkün olabilir. Üretilen 3D nesneyi iOS'un yerel 3D formatına çevirip mobil Safari'de görüntülenebilir hâle getirmek gibi bir yön de var. Nitekim 2022 Ekim'inde bu süreç ve ilgili hizmeti bizzat kurmuştum; o zamanlar genel sözdizimi hataları için sonradan düzeltme gerekiyordu ama en yeni LLM'lerde bunun daha az gerekeceğini umuyorum
En iyi pelikan görselleri, birden fazla modeli birleşik şekilde çalıştıran sistemlerden çıkıyor. Pelikanı değerlendirirken bunu evals için de kullanıyorum. İlgili bağlantı 1, İlgili bağlantı 2
Eğer round-robin formatında herkes aynı puanla başlayıp herkes birbiriyle oynuyorsa, ELO puanı fiilen galibiyet sayısına karşılık gelir. Muhtemelen kullanılan algoritma eşleşme sırasını da hesaba katıyor, ama bu ancak yarışmacılar maçlar ilerledikçe gözle görülür şekilde gelişiyorsa anlamlıdır. Botlar arası bir yarışmada ise bu sadece gürültüyü artırır; sırayı hesaba katmak aslında istenmez. Ayrıca fikstüre baktığımda 561 olası eşleşmeden bir sonucun eksik olduğunu gördüm. Nedenini merak ediyorum
Simon'ın işlerinden gerçekten keyif alıyorum. Neredeyse tüm blog yazılarını okudum ve modellerle bu kadar çeşitli deneyler yapmasını izlemek çok eğlenceli. CLI araçları da kullanımı kolay ve her biri diğerini gereksiz yere tekrar etmeden iyi bir bütün oluşturuyor. Ve önemli olan şu ki, Simon bu işten gerçekten çok keyif alıyor. Bir şekerci dükkânına girmiş çocuk gibi yayılan bir heyecanı var ve yazılarını her okuduğumda ben de LLM'lerle yeni şeyler denemek istiyorum
Qwen 3'ün belirgin şekilde eksik olması büyük hayal kırıklığı yarattı. Özellikle fine-grained MoE mimarisi sayesinde sıradan tüketici donanımında yetenek ve hız açısından çok yenilikçi bir lansmandı
İşte Claude Opus Extended Thinking için doğrudan sonuç