- 9 ay önce, yapay zekanın gerçekten insanın yerini alabilecek kadar iyi kod güvenliği analizi yapabildiğine kanaat getirerek bir startup kurdum
- Başlangıçta GPT-4o'dan Claude 3.5 Sonnet'e geçince, güvenlik açıklarını açıklama ve ciddiyet derecesini belirleme konusunda niteliksel olarak büyük bir iyileşme oldu
- Ancak sonrasında Claude 3.6, 3.7 dahil çoğu model, dahili benchmark'larda ya da hata tespit yeteneğinde kayda değer bir gerçek iyileşme göstermedi
- Performans artışı çoğunlukla yapay zeka modelinin kendisinden değil, genel mühendislik iyileştirmelerinden kaynaklandı
- Diğer startup'lar da benzer deneyimler yaşadı; çoğu, yeni model duyurusu → benchmark'larda iyi performans → gerçek performansta çok az fark döngüsünü yaşadı
- Yazar, bugünkü yapay zeka model ilerlemesinin ekonomik fayda ya da genelleme yeteneği açısından anlamlı bir düzeyde olmadığını düşünüyor
Yapay zeka benchmark'ları ile gerçek performans arasındaki uçurum
- Yapay zeka modelleri sınavlarda iyi notlar alıyor ama bu, gerçek iş yapma becerisine neredeyse hiç yansımıyor
- Benchmark'lar çoğunlukla kısa ve izole problemlere odaklanıyor; bu yüzden gerçek uygulamalar için uygun değiller
- Örneğin Claude modeli, Pokémon oyununu bitiremeyecek kadar uzun süreli hafızayı korumakta zorlanıyor
- 'Humanity’s Last Exam' gibi benchmark'lar ilk bakışta önemli görünüyor ama gerçek faydayı düzgün biçimde ölçemiyor
- Yazar bundan sonra yapay zeka performansını değerlendirirken yalnızca Claude Plays Pokemon gibi gerçek kullanıma dayalı benchmark'lara güveneceğini söylüyor
Yapay zeka laboratuvarlarının güvenilirlik sorunu
- Yapay zeka laboratuvarları medeniyet ölçeğinde bir rekabet içinde ve bazılarının performansı abartma ya da yalnızca iyi sonuçları seçerek açıklama motivasyonu var
- Nitekim OpenAI, Anthropic vb. kurumların kullandığı benchmark'ların çoğu herkese açık test setlerine dayanıyor ve manipülasyona açık olabilir
- ARC-AGI gibi yarı gizli değerlendirmeler dışında, neredeyse tüm sonuçların eğitim verisine dahil edilmiş veri setlerine dayanıyor olması mümkün
- En iyimser yorum, sorunun teknik sınırlar değil insan kaynaklı hile olması
Benchmark'ların gerçek faydayı yansıtamamasının yapısal nedenleri
- İnsan IQ testleri çeşitli gerçek dünya başarılarıyla korelasyon gösterirken, yapay zeka benchmark'ları bunu göstermiyor
- Yapay zeka benchmark'ları çoğunlukla bağımsız bulmacalar ya da kısa vadeli problem çözme odaklı hazırlanıyor
- Yapay zeka, gerçek problemlerin gerektirdiği hafıza, durumsal farkındalık, hedef takibi gibi alanlarda çok zayıf
- Benchmark'lar geliştirme ve değerlendirme için kullanışlı olsa da, gerçek dünyadaki bütüncül yetenekle ilişkileri zayıf
Yapay zeka modelleri zeki olabilir ama alignment sorunu performansı sınırlıyor olabilir
- Yazarın şirketi gerçek kod güvenliği incelemelerinde yapay zeka kullanıyor ama model iş bağlamını iyi anlayamıyor
- Model, yalnızca gerçek hizmeti etkileyen sorunları raporlaması yönündeki talimata uymuyor ve sık sık gereksiz uyarılar üretiyor
- Bunun nedeni, modelin "zeki görünən" yanıtları tercih edecek şekilde eğitilmiş olması
- Sohbet kullanımında bu sorun tolere edilebilir, ancak sistemlere entegre edildiğinde hatalar birikerek probleme dönüşüyor
- Yalnızca dış belirtileri düzeltmeye yönelik girişimler uzun vadede riskli; daha temel bir alignment sorununun çözülmesi gerekiyor
Son düşünceler ve toplumsal sonuçlar
- Bugünkü yapay zeka, abartılı beklentilere kıyasla pratikte yetersiz kalıyor; bu da birçok kullanıcının "yaşanmış deneyimiyle" örtüşüyor
- Hizalanmamış yapay zeka sistemleri toplumun geneline etki etmeden önce, daha temel bir anlayış ve tasarıma ihtiyaç var
- Sadece sonuç odaklı benchmark'lar yerine, gerçek kullanım senaryolarını yansıtan nitel değerlendirmeler daha önemli
5 yorum
Katılıyorum. Perplexity'de Claude 3.7 modelini iyi şekilde kullanıyorum, ancak son zamanlarda Gemini 2.5'i de kullanıyorum ve performansının gerçekten iyi olduğunu hissederek kullanıyorum.
Bu aralar neden sadece ekonomi gazetesi gibi haberler paylaşılıyor?
Bence çok güzel ama...
Bugünlerde galiba ancak böyle başlıklar atılınca dikkat çekiyor.
Hacker News görüşü
Annem, Paul Newman'ın alkol problemi yaşadığını söyledi. ChatGPT'ye sorduğumda, Paul Newman'ın alkol problemiyle tanınmadığını söyledi
Yakın zamanda USAMO'da SOTA modeller ortalama %5 puan aldı. Bu da AI modellerinin gerçekten problem çözmek yerine geçmiş sonuçları ezberlediğini düşündürüyor
LLM'ler bir şeyi rapor etme eğiliminde oldukları için sık sık abartıyor
Bu yazıya verilen tepkileri okumak ilginç. Toplu tepkimizin ne kadar çeşitli ve anekdot temelli olduğunu gösteriyor
Kişisel deneyimim, yazarın görüşüyle örtüşüyor
Benchmark sonuçlarındaki iyileşme ile gerçek görevlerdeki iyileşme eksikliği, LLM'lerin doğasını yansıtıyor
Hafta sonu gemini 2.5 kullandım ve çok etkileyiciydi
LLM geliştirme bugün dursa bile, önümüzdeki 10 yıl boyunca yeni kullanım alanları bulmaya devam edeceğiz
LLM ve kodlama yardımcı eklentileri kullanan biri olarak, GPT/Claude'un son 12 ayda kötüleştiğini hissediyorum