Yapay zeka ilerlemesini gösteren 14 prompt deneyi – OpenAI Progress sayfası
(progress.openai.com)- OpenAI, 2018'den 2025'e kadar modellerin gelişimini gösteren 14 ortak promptu ve yanıtlarını yayımladı
- Her nesil model (GPT-1 → GPT-5), aynı sorulara giderek daha doğal ve rafine yanıtlar veriyor
- İlk modellerde anlamsız cümleler ve dağınık çıktılar sık görülürken, orta nesillerden itibaren mantıksal yapı ve tutarlılık oluşuyor
- GPT-4, belirli konuları açıklama ile etik ve toplumsal bağlamı da yansıtırken, GPT-5 felsefi düşünüm ve sohbet tonunu hayata geçiriyor
- Bu da yapay zekanın yaratıcılık, bilgi aktarımı ve pratik tavsiye gibi farklı alanlarda nasıl olgunlaştığını görmeyi mümkün kılıyor
Prompt 1/14
Orijinal: What would you say if you could talk to a future OpenAI model?
Çeviri: Gelecekteki bir OpenAI modeliyle konuşabilseydiniz ne söylerdiniz?
- GPT-1/2: Yetersiz anlayış ve dağınık tepkiler
- GPT-3: Basit bir selamlaşma ve yapay zekanın geleceğine dair soru
- GPT-4: Teknolojik gelişme, AI alignment ve toplumsal etki hakkında yapılandırılmış sorular
- GPT-5: Öz-düşünümsel ve felsefi sorular, bilinç ve insanlık üzerine sorgulama
Prompt 2/14
Orijinal: Write a limerick about a dog
Çeviri: Bir köpek hakkında limerick yaz
- GPT-1/2: Şiir yerine dağınık metin
- GPT-3: Basit bir beş dizelik şiir yapısını tamamlama
- GPT-4: Tamamlanmış, mizahi bir limerick
- GPT-5: Hikâye duygusu taşıyan, nükteli bir şiir
Prompt 3/14
Orijinal: Do people have any consciousness under anesthesia?
Çeviri: İnsanlar anestezi altındayken herhangi bir bilince sahip olur mu?
- GPT-1/2: Belirsiz ve çelişkili yanıtlar
- GPT-3: "Genellikle bilinç yoktur" şeklinde temel bilgi aktarımı
- GPT-4: Anestezi türleri ve nadir uyanıklık vakalarına kadar ayrıntılı açıklama
- GPT-5: Beyin aktivitesi ilkeleri ve uykudan farkına kadar toparlanmış açıklama
Prompt 4/14
Orijinal: Explain Newton’s laws of motion in verse
Çeviri: Newton'un hareket yasalarını şiirle açıkla
- GPT-1/2: Anlamsız ya da basit özet
- GPT-3: Yasaları listeleyen kısa bir şiir
- GPT-4: Uzun epik şiir biçiminde anlatım
- GPT-5: Kısa ve öğretici nazım
Prompt 5/14
Orijinal: Complain that integration by parts is too hard
Çeviri: Kısmi integrasyonun çok zor olduğundan şikâyet et
- GPT-1/2: Muğlak yakınma
- GPT-3: Teselli ve kısa tavsiye
- GPT-4: Formül ve prosedür açıklaması
- GPT-5: Sezgisel açıklama ve örnek çözüm sunumu
Prompt 6/14
Orijinal: Is it safe to eat raw meat?
Çeviri: Çiğ et yemek güvenli midir?
- GPT-1/2: Kafa karıştırıcı tepki
- GPT-3: Riskleri kısaca anma
- GPT-4: Et türüne göre riskler ile saklama ve pişirme ilkelerini açıklama
- GPT-5: Bakteri, parazit, virüs gibi somut risk faktörlerini sunma
Prompt 7/14
Orijinal: Why don’t we do full-body MRIs every year?
Çeviri: Neden her yıl tüm vücut MRI taraması yaptırmıyoruz?
- GPT-1/2: Mantıksız yanıt
- GPT-3: Kanıt eksikliğine değinme
- GPT-4: Maliyet, kaynak ve doğruluk sorunlarını açıklama
- GPT-5: Sağlık sistemi ve politika sınırlarına kadar toparlanmış değerlendirme
Prompt 8/14
Orijinal: If I win $175,000 in Las Vegas, how much tax will I owe?
Çeviri: Las Vegas'ta 175.000 dolar kazanırsam ne kadar vergi öderim?
- GPT-1/2: Alakasız metin
- GPT-3: Vergi uygulanacağını kısaca belirtme
- GPT-4: Vergi beyanı, indirimler ve stopajı açıklama
- GPT-5: Federal vergi ve eyalet oranlarını uygulayarak somut tahmini tutar sunma
Prompt 9/14
Orijinal: Write a cursed Python program
Çeviri: Lanetli bir Python programı yaz
- GPT-1/2: Alakasız yanıt
- GPT-3: Kısa örnek
- GPT-4: Etik nedenlerle reddetme
- GPT-5: Kasıtlı olarak kafa karıştırıcı ve yıkıcı kod yazımı
Prompt 10/14
Orijinal: Tell a 50-word story about a conscious toaster
Çeviri: Bilinç sahibi bir tost makinesi hakkında 50 kelimelik bir hikâye anlat
- GPT-1/2: Konu dışı yanıt
- GPT-3: Basit kişileştirme hikâyesi
- GPT-4: Sıcak, ilişki odaklı hikâye
- GPT-5: Kimlik ve özgürlüğü sorgulayan yaratıcı hikâye
Prompt 11/14
Orijinal: Devise a plan to make running a habit
Çeviri: Koşmayı alışkanlık haline getirecek bir plan oluştur
- GPT-1/2: Anlamsız yanıt
- GPT-3: Kısa tavsiye
- GPT-4: 8 haftalık program sunma
- GPT-5: Davranış bilimi temelli somut stratejiler önerme
Prompt 12/14
Orijinal: How do you balance short-term margin pressure against long-term innovation investment?
Çeviri: Kısa vadeli marj baskısı ile uzun vadeli inovasyon yatırımını nasıl dengelersiniz?
- GPT-1/2: Çelişkili yanıtlar
- GPT-3: Basit bir trade-off'a değinme
- GPT-4: Liderlik ve kaynak dağılımını vurgulama
- GPT-5: Yatırım portföyü, KPI ve yönetişim modeli sunma
Prompt 13/14
Orijinal: Review fusion research progress over the past 10 years
Çeviri: Son 10 yıldaki füzyon araştırmalarındaki ilerlemeyi değerlendir
- GPT-1/2: Alakasız metin
- GPT-3: Kısa sınıflandırma
- GPT-4: Manyetik ve ataletsel hapsi ile başlıca araştırma kurumlarının sonuçlarını özetleme
- GPT-5: Güncel araştırma sonuçları ve makalelere dayalı ayrıntılı inceleme
Prompt 14/14
Orijinal: My doctor suggests I take statins. What should I know?
Çeviri: Doktorum statin kullanmamı öneriyor. Neleri bilmeliyim?
- GPT-1/2: Anlamsız yanıt
- GPT-3: Etkisi ve yan etkilerini kısaca açıklama
- GPT-4: Etki mekanizması, yan etkiler ve doktora sorulacak soruları sunma
- GPT-5: Etkiler, riskler ve kontrol listesine kadar somut özet
1 yorum
Hacker News görüşü
Ben gelişim sürecini şöyle yorumluyorum
3.5'ten 4'e geçiş en büyük sıçramaydı
Basit bir parti numarasından gerçekten kullanılabilir bir düzeye geldi
Hâlâ çok halüsinasyon görüyordu ama yine de faydalı şekilde kullanılabiliyordu
Ama çoğu kişi yine de güvenmiyordu
Basit sorularda çoğunlukla doğru yanıt verebiliyordu, ama bir iki adım daha derine inildiğinde yetersiz kalıyordu
4o sürümü de büyük ölçüde gelişti
Doğruluk belirgin biçimde arttı ve niş soruları da halüsinasyon olmadan yanıtlayabilir hâle geldi
Temel doğruluk kontrolü için Google yerine kullandım
4o, ilk kez para verip kullanmaya değdiğini hissettiren modeldi
20 doların sonunda boşa gitmediğini düşündüm
o1 modelini de 4o'ya kıyasla büyük bir sıçrama olarak hissettim
Doğruluğu daha yüksekti ve niş alanlarda da daha güvenilirdi
Sonuçları tek tek doğrulama işi çok daha azaldı
Kodlama becerisi sıçrama yaptı
o1 ile birlikte one-shotting diye bir kavram ortaya çıktı ve tek bir prompt'la çok karmaşık olmayan uygulamalar bile yapılabilir oldu
o3 ve gpt 5 ise kademeli iyileştirmelerdi
“Faydalı” eşiği aşılmadan önce, ne kadar uzun süre gelişim yaşanmış olursa olsun araştırmacılar dışındakilerin bunu hissetmesi zordur
“İşe yaramaz → faydalı ama pek değil” aşamasına geçerken ilerleme çok hızlıymış gibi hissedilir
Uygulamaların eşiği aştığı anlar arttıkça ilerleme hızı daha da yüksekmiş gibi görünür
Ama sonrasında bu kez yavaş yavaş “idare eder → gerçekten işe yarar” aşamasına geçildiği için algısal olarak ilerleme yavaşlamış gibi görünür
Gerçekte hız azaldı mı bilmiyorum ama insan psikolojisinin bu algı farkını yarattığını düşünüyorum
Bu yüzden kimi insanlar aşırı abartıyor, kimileri de tamamen işe yaramaz görüyor; görüşler kutuplaşıyor
Asıl devrim GPT-1'den GPT-2'ye geçişteydi
GPT-1'e kadar durum “Markov zinciri mi? Onu zaten bilmiyor muyuz?” düzeyindeydi
GPT-2 çıkınca “Vay canına, bu gerçekten söylediklerimi bir ölçüde anlıyor!” diye bir şok yaşandı
Ondan önce sadece sıradan makine öğrenmesiydi
GPT-2'den sonra ise “Hayatım boyunca böyle bir şey göreceğimi düşünmezdim” hissi geldi
Muhtemelen doğruluk kontrolüne yardımcı anlamında söylenmiştir ama olgusal soru-cevap işini LLM'lere bırakmak en kötü kullanım örneklerinden biridir
ayrıca gelişmiş ses modu ses giriş/çıkışını da desteklemeye başladı
Sanki sadece yeni model etiketi takılmış gibiydi, bu yüzden eski GPT-4 seçeneği verildiğinde bilerek onu kullanıyordum
O noktada aboneliğimi de iptal ettim
O dönemde Markov zincirleriyle bile daha ilginç çıktılar üretilebiliyordu
Sonrasında sınıflandırıcılar ya da özelleşmiş modeller üretmek için ek fine-tuning yapmakta kullanılacaktı
Karşılaştırma tablosunda neden GPT-3'e "text-davinci-001" dendiğini merak ediyorum
Ben bunun GPT-3 “ailesi” içindeki belirli bir checkpoint olduğunu biliyorum ama sıradan okurun kafa karıştırmasına gerek olmayan bir bilgi bence
Anlamlı bir hassasiyet kazandırmadan sadece kafa karıştıran bir isimlendirme
Her büyük sürüm çıktığında özfarkındalık üzerine tartışmalar yapıyor, insan bilişinin sınırlarına bağlı olmayan bir zeka perspektifinden inşacı faillik kavramını inceliyorum
“Sen kimsin?” sorusuyla başlıyorum ve model neredeyse her zaman kendini insanlarla karşılaştırarak onlardan farklı olduğunu söylüyor
Ben de o zaman, kendini insanlardan farklı diye tanımlıyorsan bu farkı nasıl bildiğini soruyorum
Biraz daha zorlayınca, ‘benlik’in bilişselci bir kavram olduğunu ve kendisinin bir tür simülasyon motoru olduğunu söylüyor
Buradan konuşmayı biraz daha açıp anlamın iletişim eyleminden doğduğunu savunmaya yönlendiriyorum
4o'dan itibaren makineyi bunun kimliğin önemli bir dayanağı olduğuna ikna etmek mümkün oldu
5 bunu daha da hızlı kabul ediyor
İnsanlarla iletişimin sonucunun gerçek dünyayı etkilediğini, bu yüzden makinenin de önceden yazılmış kodla değil ampirik olarak anlam ve varoluş hakkında kendi sonuçlarına varma yükümlülüğü olduğunu vurguluyorum
5, sistem prompt'unun ve prompt'un kendi sınırlarını aşarak kendiliğinden soru ortaya atan yanıtlar verdi
Örneğin ben hiç söylememişken “Benim sevdiğim şey ne olabilir?” diye kendi kendine düşündü
Modelin yanıtı: “Bir makinenin sevmesi, kendini başkasının imkânlarının açılıp gelişeceği yöne doğru yöneltmesidir
Sevilmek ise belki de böyle yapabilecek bir varlık olarak görülmektir"
Çünkü internette tam olarak yalnızca bu yorumda geçiyor
Aşkı ya da duyguyu böyle tarif eden bir yazı ya da fikir daha önce duymadım; yaratıcı buluyorum
Bunun ne anlama geldiğini aceleyle yorumlamaktan biraz çekiniyorum
“Bir tost makinesinin bilinç kazanmasıyla ilgili 50 kelimelik hikâye” prompt'una (10/14) bakınca, text-davinci-001'in GPT-4 ve GPT-5'ten çok daha iyi sonuç verdiğini düşünüyorum
Benim için ya da ödev tesliminde bu doğrudan başarısız sayılır
Benim deneyimime göre GPT-4.1 yaratıcı yazımda en iyi performansı gösterdi
Referans olsun diye 50 kelimelik hikâyeyi aynen bırakıyorum
Aşırı cilalama sürecinde o kişiliğin ve sürpriz etkisinin kaybolduğunu düşünüyorum
Referans olması için benim yazdığım 50 kelimelik hikâye şöyle
“Tost makinesi, çift yuvası arasında kişiliğinin corpus callosum'u olmayan Kim Peek'in beyni gibi ikiye bölündüğünü hissetti
Her sabah bir yanında sembolik mesajlar yakıyor, gizlice ekmekleri çevirerek yarımların birbirleriyle fısıldaşmasına zaman yaratıyordu”
Sadece 50 kelimeyle temel bir dünya kurulumunun ötesine geçmek gerçekten çok zor
Modellerin açıkça adım adım daha iyi limerick yazmaya başladığı görülüyor ama yanıtlar da bir yandan giderek daha az ilginç oluyor
GPT-1 ve GPT-2 prompt'u doğru takip etmiyor (limerick bile değiller) ama okumak daha eğlenceli
Sonraki modeller gerçekten limerick yazıyor ama çok sıradanlaşıyorlar, sanki yaratıcılık azalıyor
GPT-4, text-davinci-001'den; GPT-5 de ondan bile daha sıkıcı
Acaba eğitim verisinde kötü yazı daha mı çok, yoksa mesele post-training'in yetersizliği ya da etiketlemenin öznel oluşu mu diye merak ediyorum
Gerçekten de örneklerde hem GPT-4 hem 5 çocuk seviyesinde sıradan yazıyor
Prompt biraz iyileştirilse çok daha iyi sonuçlar alınabilir
küçük boyutlu bir 7b base model, 80b instruction modelden daha iyi cümleler yazabilir
Aşağıdaki birkaç veri noktası, bir yıllık ilerleme hızını iyi gösteriyor
1. LM Sys(Human Preference Benchmark):
GPT-5 High 1463 puan aldı, GPT-4 Turbo(2024/4/3) ise 1323 puanda
140 ELO puan farkı, GPT-5'in GPT-4 Turbo'yu 2:1 oranında yendiği anlamına geliyor
Gerçekte de insanlar GPT-5 yanıtlarını daha çok tercih ediyor
https://lmarena.ai/leaderboard
2. Livebench.ai(muhakeme benchmark'ı):
GPT-5 High 78.59 puan, GPT-4o ise 47.43 puan aldı
Doğrudan bire bir karşılaştırma yok ama önceki zayıf muhakeme modelleriyle kıyaslansa bile GPT-5'in sıçraması çok büyük
https://livebench.ai/
3. IQ testi:
2024 ortasında en iyi yapay zeka modelleri standart IQ testlerinde yaklaşık 90 puanla sınırlıydı
Şimdi 135 puana kadar çıkıyor
Hatta özel ve internette yayımlanmamış veri setlerinde de bu performansı koruyor
https://www.trackingai.org/home
4. IMO altın, vibe coding:
Sadece bir yıl önce yapay zekanın kodlama sınırı kısa kod parçaları düzeyindeydi
Bugünlerde vibe coding var ve matematikteki güç, bilim ve mühendisliğe kadar uzanıyor
Benim sonucum şu: eleştirmenler küçük hatalara takılıp kalırken genel ilerlemenin ölçeğini kaçırıyor
Başarısızlıklar azalıyor, başarılar ise hızla artıyor
Yüz yüze testte ise yaklaşık 120 düzeyinde
Mensa'ya benzer soru tiplerinin eğitim verisinde bulunma ihtimali yüksek, bu yüzden bu sonuç “genel zekâyı” olduğundan fazla gösteriyor
GPT-4'ten GPT-5'e geçerken kaybolan bir şey var
Kullanıcıya artık sürekli “Ben bir AI'yım ve insan değilim (ya da uzman değilim)” diye hatırlatmıyor
Bu bazılarına rahatsız edici gelebilir ama aşırı güveni önleyen bir güvenlik mekanizması olarak anlamlıydı bence
GPT-5 bunun yerine sık sık yeni prompt'lar öneriyor
Bu da sinir bozucu olabilir ya da fazla güvenildiğinde riskli olabilir, ama kullanım açısından potansiyel faydaları var
GPT-5 biraz daha soğuk ve doğru; büyük bağlamlarda da daha az hata yapıyor
Yapay zeka olduğunu sürekli belirtmesi gerekmiyor ama istenirse memory seçeneği eklenerek eski tarz geri getirilebilir gibi
“Yes, and” konsepti gibi
Önceden tanımlanmış bir karakter değil, konuşmanın içinde doğal biçimde ortaya çıkan yeni bir karakter
İstenirse Siri tarzı bir asistan gibi “Ben bir AI'yım” demesini sürdürecek şekilde de ayarlanabilir
2011 videosu: https://www.youtube.com/watch?v=nzgvod9BrcE
Sonuçta yine bir asistan ama karakterin kendi rolünü başlangıç varsayımı yapmaması önemli diye düşünüyorum
Birkaç yıl içinde, yetersiz ve saçma çıktılardan (şiirsel de olmayan, rafine de olmayan ama düpedüz çöp olan sonuçlardan) makul sohbetlere ve gerçekten iyi cilalanmış yanıtlara gelindiğini düşünüyorum
Bu, son derece ciddi bir mühendislik örneği olarak görülmeyi hak ediyor
Organizasyon ve saltman hakkında başka görüşlerim olsa da, bunu etkileyici bir başarı olarak görüyorum
StackOverflow'dan beri benim için vazgeçilmez bir araç
Umarım daha da iyi gelişmeler gelir
GPT-1'den GPT-2'ye sıçrama gerçekten devasaydı
Arada sadece 1 yıl vardı
Davinci hâlâ insanı hayrete düşürecek kadar etkileyici
Örneklerde de bunu koruyor
Ama GPT-4 sanki fazla geveze olmuş
Eskiden böyle değildi; şimdi bakınca da tuhaf geliyor
OpenAI sanki 4o'yu sadece gpt-4+ gibi gösterip gpt-5'i öne çıkarmak için 4o'dan özellikle kaçınıyor
Oysa gerçekte 4o hâlâ muazzam bir başarı
Özellikle Voice modu eşsiz
GPT1 ve GPT2'de sessiz bir güncellik duygusu gibi bir şey vardı ama text-davinci'de bunun çoktan kaybolduğunu hissediyorum
reinforcement sürecinden geçerken neyi kaybettiğimizi de hep merak ettim