Son AI model ilerlemeleri çoğunlukla saçmalık gibi geliyor

(lesswrong.com)

6 puan yazan GN⁺ 2025-04-07 | 5 yorum | WhatsApp'ta paylaş

9 ay önce, yapay zekanın gerçekten insanın yerini alabilecek kadar iyi kod güvenliği analizi yapabildiğine kanaat getirerek bir startup kurdum
Başlangıçta GPT-4o'dan Claude 3.5 Sonnet'e geçince, güvenlik açıklarını açıklama ve ciddiyet derecesini belirleme konusunda niteliksel olarak büyük bir iyileşme oldu
Ancak sonrasında Claude 3.6, 3.7 dahil çoğu model, dahili benchmark'larda ya da hata tespit yeteneğinde kayda değer bir gerçek iyileşme göstermedi
Performans artışı çoğunlukla yapay zeka modelinin kendisinden değil, genel mühendislik iyileştirmelerinden kaynaklandı
Diğer startup'lar da benzer deneyimler yaşadı; çoğu, yeni model duyurusu → benchmark'larda iyi performans → gerçek performansta çok az fark döngüsünü yaşadı
Yazar, bugünkü yapay zeka model ilerlemesinin ekonomik fayda ya da genelleme yeteneği açısından anlamlı bir düzeyde olmadığını düşünüyor

Yapay zeka benchmark'ları ile gerçek performans arasındaki uçurum

Yapay zeka modelleri sınavlarda iyi notlar alıyor ama bu, gerçek iş yapma becerisine neredeyse hiç yansımıyor
Benchmark'lar çoğunlukla kısa ve izole problemlere odaklanıyor; bu yüzden gerçek uygulamalar için uygun değiller
Örneğin Claude modeli, Pokémon oyununu bitiremeyecek kadar uzun süreli hafızayı korumakta zorlanıyor
'Humanity’s Last Exam' gibi benchmark'lar ilk bakışta önemli görünüyor ama gerçek faydayı düzgün biçimde ölçemiyor
Yazar bundan sonra yapay zeka performansını değerlendirirken yalnızca Claude Plays Pokemon gibi gerçek kullanıma dayalı benchmark'lara güveneceğini söylüyor

Yapay zeka laboratuvarlarının güvenilirlik sorunu

Yapay zeka laboratuvarları medeniyet ölçeğinde bir rekabet içinde ve bazılarının performansı abartma ya da yalnızca iyi sonuçları seçerek açıklama motivasyonu var
Nitekim OpenAI, Anthropic vb. kurumların kullandığı benchmark'ların çoğu herkese açık test setlerine dayanıyor ve manipülasyona açık olabilir
ARC-AGI gibi yarı gizli değerlendirmeler dışında, neredeyse tüm sonuçların eğitim verisine dahil edilmiş veri setlerine dayanıyor olması mümkün
En iyimser yorum, sorunun teknik sınırlar değil insan kaynaklı hile olması

Benchmark'ların gerçek faydayı yansıtamamasının yapısal nedenleri

İnsan IQ testleri çeşitli gerçek dünya başarılarıyla korelasyon gösterirken, yapay zeka benchmark'ları bunu göstermiyor
Yapay zeka benchmark'ları çoğunlukla bağımsız bulmacalar ya da kısa vadeli problem çözme odaklı hazırlanıyor
Yapay zeka, gerçek problemlerin gerektirdiği hafıza, durumsal farkındalık, hedef takibi gibi alanlarda çok zayıf
Benchmark'lar geliştirme ve değerlendirme için kullanışlı olsa da, gerçek dünyadaki bütüncül yetenekle ilişkileri zayıf

Yapay zeka modelleri zeki olabilir ama alignment sorunu performansı sınırlıyor olabilir

Yazarın şirketi gerçek kod güvenliği incelemelerinde yapay zeka kullanıyor ama model iş bağlamını iyi anlayamıyor
Model, yalnızca gerçek hizmeti etkileyen sorunları raporlaması yönündeki talimata uymuyor ve sık sık gereksiz uyarılar üretiyor
Bunun nedeni, modelin "zeki görünən" yanıtları tercih edecek şekilde eğitilmiş olması
Sohbet kullanımında bu sorun tolere edilebilir, ancak sistemlere entegre edildiğinde hatalar birikerek probleme dönüşüyor
Yalnızca dış belirtileri düzeltmeye yönelik girişimler uzun vadede riskli; daha temel bir alignment sorununun çözülmesi gerekiyor

Son düşünceler ve toplumsal sonuçlar

Bugünkü yapay zeka, abartılı beklentilere kıyasla pratikte yetersiz kalıyor; bu da birçok kullanıcının "yaşanmış deneyimiyle" örtüşüyor
Hizalanmamış yapay zeka sistemleri toplumun geneline etki etmeden önce, daha temel bir anlayış ve tasarıma ihtiyaç var
Sadece sonuç odaklı benchmark'lar yerine, gerçek kullanım senaryolarını yansıtan nitel değerlendirmeler daha önemli

5 yorum

ifmkl 2025-04-08

Katılıyorum. Perplexity'de Claude 3.7 modelini iyi şekilde kullanıyorum, ancak son zamanlarda Gemini 2.5'i de kullanıyorum ve performansının gerçekten iyi olduğunu hissederek kullanıyorum.

say8425 2025-04-07

Bu aralar neden sadece ekonomi gazetesi gibi haberler paylaşılıyor?

sjisrich 2025-04-07

Bence çok güzel ama...

kandk 2025-04-07

Bugünlerde galiba ancak böyle başlıklar atılınca dikkat çekiyor.

GN⁺ 2025-04-07

Hacker News görüşü

Annem, Paul Newman'ın alkol problemi yaşadığını söyledi. ChatGPT'ye sorduğumda, Paul Newman'ın alkol problemiyle tanınmadığını söyledi
- ChatGPT, daha çok Paul Newman'ın oyunculuk kariyeri, hayırseverliği ve araba yarışına olan tutkusu ile öne çıktığını açıkladı
- Ancak internette onun alkol problemiyle ilgili çok sayıda kanıt var; buna eşi Joanne Woodward'ın tanıklığı da dahil
- ChatGPT'nin yanıtını anneme gönderince, annem 5 dakika içinde otoriter bir kaynak buldu
- ChatGPT'yi her gün kullanıyorum ama böyle basit bir şeyi nasıl yanlış bilebildiğini anlayamadım
- Buradan çıkan ders: annemin sinema bilgisini sorgulamamak gerekiyor
Yakın zamanda USAMO'da SOTA modeller ortalama %5 puan aldı. Bu da AI modellerinin gerçekten problem çözmek yerine geçmiş sonuçları ezberlediğini düşündürüyor
- Buna rağmen şirketler, eğitim verisinden test verisini çıkarmaya yönelik çabalarını kamuya açık şekilde paylaşmıyor
LLM'ler bir şeyi rapor etme eğiliminde oldukları için sık sık abartıyor
- Sorulara "evet" deme eğilimleri var
- LLM rekabeti giderek benchmark puanlarını yükseltiyor, ancak bu iyileşmeler yanılsamalı
- LLM'ler onaylama eğiliminde ve bu düzelmiyor
- Modelleri ajan senaryolarında değerlendirmek önemli
Bu yazıya verilen tepkileri okumak ilginç. Toplu tepkimizin ne kadar çeşitli ve anekdot temelli olduğunu gösteriyor
- Bazıları haklı, bazıları haksız olacak; AI konusunda "daha iyi seçimler" yapabilme becerisini işaret eden özelliklerin ne olduğunu merak ediyorum
Kişisel deneyimim, yazarın görüşüyle örtüşüyor
- LLM'ler kullanıcıyla konuşurken "akıllı duyulacak" şekilde eğitildiği için problemi olduğundan büyük gösterme eğiliminde
- Bu, çoğu durumda dilin amacıyla uyumlu; sonuçta LLM'ler dille eğitiliyor
Benchmark sonuçlarındaki iyileşme ile gerçek görevlerdeki iyileşme eksikliği, LLM'lerin doğasını yansıtıyor
- LLM'ler tahmin sistemleri; belirli bir alanda eğitildiğinde o alandaki performansları artıyor
- İleri matematik eğitimi vermenin programlama yeteneğini artırmasını beklemiyorum
Hafta sonu gemini 2.5 kullandım ve çok etkileyiciydi
- Bu, kullanım amacına bağlı ve LLM'lerin bizi nereye götüreceği hâlâ net değil
LLM geliştirme bugün dursa bile, önümüzdeki 10 yıl boyunca yeni kullanım alanları bulmaya devam edeceğiz
- Teknoloji o kadar hızlı ilerliyor ki sonuçlarından korkuyorum
- Azalan getiri noktasına ulaşmasını umuyorum ama buna gerçekten inanmıyorum
LLM ve kodlama yardımcı eklentileri kullanan biri olarak, GPT/Claude'un son 12 ayda kötüleştiğini hissediyorum
- Modellerin artık "yeterince iyi" olduğunu düşünüyorum; bundan sonra gelişmeyi araçlarda ve uygulamalarda görmemiz gerekiyor
- MCP'nin doğru yönde iyi bir adım olduğunu düşünüyorum ama genel olarak şüpheliyim