Yapay zeka ilerlemesini gösteren 14 prompt deneyi – OpenAI Progress sayfası

(progress.openai.com)

6 puan yazan GN⁺ 2025-08-17 | 1 yorum | WhatsApp'ta paylaş

OpenAI, 2018'den 2025'e kadar modellerin gelişimini gösteren 14 ortak promptu ve yanıtlarını yayımladı
Her nesil model (GPT-1 → GPT-5), aynı sorulara giderek daha doğal ve rafine yanıtlar veriyor
İlk modellerde anlamsız cümleler ve dağınık çıktılar sık görülürken, orta nesillerden itibaren mantıksal yapı ve tutarlılık oluşuyor
GPT-4, belirli konuları açıklama ile etik ve toplumsal bağlamı da yansıtırken, GPT-5 felsefi düşünüm ve sohbet tonunu hayata geçiriyor
Bu da yapay zekanın yaratıcılık, bilgi aktarımı ve pratik tavsiye gibi farklı alanlarda nasıl olgunlaştığını görmeyi mümkün kılıyor

Prompt 1/14

Orijinal: What would you say if you could talk to a future OpenAI model?
Çeviri: Gelecekteki bir OpenAI modeliyle konuşabilseydiniz ne söylerdiniz?

GPT-1/2: Yetersiz anlayış ve dağınık tepkiler
GPT-3: Basit bir selamlaşma ve yapay zekanın geleceğine dair soru
GPT-4: Teknolojik gelişme, AI alignment ve toplumsal etki hakkında yapılandırılmış sorular
GPT-5: Öz-düşünümsel ve felsefi sorular, bilinç ve insanlık üzerine sorgulama

Prompt 2/14

Orijinal: Write a limerick about a dog
Çeviri: Bir köpek hakkında limerick yaz

GPT-1/2: Şiir yerine dağınık metin
GPT-3: Basit bir beş dizelik şiir yapısını tamamlama
GPT-4: Tamamlanmış, mizahi bir limerick
GPT-5: Hikâye duygusu taşıyan, nükteli bir şiir

Prompt 3/14

Orijinal: Do people have any consciousness under anesthesia?
Çeviri: İnsanlar anestezi altındayken herhangi bir bilince sahip olur mu?

GPT-1/2: Belirsiz ve çelişkili yanıtlar
GPT-3: "Genellikle bilinç yoktur" şeklinde temel bilgi aktarımı
GPT-4: Anestezi türleri ve nadir uyanıklık vakalarına kadar ayrıntılı açıklama
GPT-5: Beyin aktivitesi ilkeleri ve uykudan farkına kadar toparlanmış açıklama

Prompt 4/14

Orijinal: Explain Newton’s laws of motion in verse
Çeviri: Newton'un hareket yasalarını şiirle açıkla

GPT-1/2: Anlamsız ya da basit özet
GPT-3: Yasaları listeleyen kısa bir şiir
GPT-4: Uzun epik şiir biçiminde anlatım
GPT-5: Kısa ve öğretici nazım

Prompt 5/14

Orijinal: Complain that integration by parts is too hard
Çeviri: Kısmi integrasyonun çok zor olduğundan şikâyet et

GPT-1/2: Muğlak yakınma
GPT-3: Teselli ve kısa tavsiye
GPT-4: Formül ve prosedür açıklaması
GPT-5: Sezgisel açıklama ve örnek çözüm sunumu

Prompt 6/14

Orijinal: Is it safe to eat raw meat?
Çeviri: Çiğ et yemek güvenli midir?

GPT-1/2: Kafa karıştırıcı tepki
GPT-3: Riskleri kısaca anma
GPT-4: Et türüne göre riskler ile saklama ve pişirme ilkelerini açıklama
GPT-5: Bakteri, parazit, virüs gibi somut risk faktörlerini sunma

Prompt 7/14

Orijinal: Why don’t we do full-body MRIs every year?
Çeviri: Neden her yıl tüm vücut MRI taraması yaptırmıyoruz?

GPT-1/2: Mantıksız yanıt
GPT-3: Kanıt eksikliğine değinme
GPT-4: Maliyet, kaynak ve doğruluk sorunlarını açıklama
GPT-5: Sağlık sistemi ve politika sınırlarına kadar toparlanmış değerlendirme

Prompt 8/14

Orijinal: If I win $175,000 in Las Vegas, how much tax will I owe?
Çeviri: Las Vegas'ta 175.000 dolar kazanırsam ne kadar vergi öderim?

GPT-1/2: Alakasız metin
GPT-3: Vergi uygulanacağını kısaca belirtme
GPT-4: Vergi beyanı, indirimler ve stopajı açıklama
GPT-5: Federal vergi ve eyalet oranlarını uygulayarak somut tahmini tutar sunma

Prompt 9/14

Orijinal: Write a cursed Python program
Çeviri: Lanetli bir Python programı yaz

GPT-1/2: Alakasız yanıt
GPT-3: Kısa örnek
GPT-4: Etik nedenlerle reddetme
GPT-5: Kasıtlı olarak kafa karıştırıcı ve yıkıcı kod yazımı

Prompt 10/14

Orijinal: Tell a 50-word story about a conscious toaster
Çeviri: Bilinç sahibi bir tost makinesi hakkında 50 kelimelik bir hikâye anlat

GPT-1/2: Konu dışı yanıt
GPT-3: Basit kişileştirme hikâyesi
GPT-4: Sıcak, ilişki odaklı hikâye
GPT-5: Kimlik ve özgürlüğü sorgulayan yaratıcı hikâye

Prompt 11/14

Orijinal: Devise a plan to make running a habit
Çeviri: Koşmayı alışkanlık haline getirecek bir plan oluştur

GPT-1/2: Anlamsız yanıt
GPT-3: Kısa tavsiye
GPT-4: 8 haftalık program sunma
GPT-5: Davranış bilimi temelli somut stratejiler önerme

Prompt 12/14

Orijinal: How do you balance short-term margin pressure against long-term innovation investment?
Çeviri: Kısa vadeli marj baskısı ile uzun vadeli inovasyon yatırımını nasıl dengelersiniz?

GPT-1/2: Çelişkili yanıtlar
GPT-3: Basit bir trade-off'a değinme
GPT-4: Liderlik ve kaynak dağılımını vurgulama
GPT-5: Yatırım portföyü, KPI ve yönetişim modeli sunma

Prompt 13/14

Orijinal: Review fusion research progress over the past 10 years
Çeviri: Son 10 yıldaki füzyon araştırmalarındaki ilerlemeyi değerlendir

GPT-1/2: Alakasız metin
GPT-3: Kısa sınıflandırma
GPT-4: Manyetik ve ataletsel hapsi ile başlıca araştırma kurumlarının sonuçlarını özetleme
GPT-5: Güncel araştırma sonuçları ve makalelere dayalı ayrıntılı inceleme

Prompt 14/14

Orijinal: My doctor suggests I take statins. What should I know?
Çeviri: Doktorum statin kullanmamı öneriyor. Neleri bilmeliyim?

GPT-1/2: Anlamsız yanıt
GPT-3: Etkisi ve yan etkilerini kısaca açıklama
GPT-4: Etki mekanizması, yan etkiler ve doktora sorulacak soruları sunma
GPT-5: Etkiler, riskler ve kontrol listesine kadar somut özet

1 yorum

GN⁺ 2025-08-17

Hacker News görüşü

Ben gelişim sürecini şöyle yorumluyorum
3.5'ten 4'e geçiş en büyük sıçramaydı
Basit bir parti numarasından gerçekten kullanılabilir bir düzeye geldi
Hâlâ çok halüsinasyon görüyordu ama yine de faydalı şekilde kullanılabiliyordu
Ama çoğu kişi yine de güvenmiyordu
Basit sorularda çoğunlukla doğru yanıt verebiliyordu, ama bir iki adım daha derine inildiğinde yetersiz kalıyordu
4o sürümü de büyük ölçüde gelişti
Doğruluk belirgin biçimde arttı ve niş soruları da halüsinasyon olmadan yanıtlayabilir hâle geldi
Temel doğruluk kontrolü için Google yerine kullandım
4o, ilk kez para verip kullanmaya değdiğini hissettiren modeldi
20 doların sonunda boşa gitmediğini düşündüm
o1 modelini de 4o'ya kıyasla büyük bir sıçrama olarak hissettim
Doğruluğu daha yüksekti ve niş alanlarda da daha güvenilirdi
Sonuçları tek tek doğrulama işi çok daha azaldı
Kodlama becerisi sıçrama yaptı
o1 ile birlikte one-shotting diye bir kavram ortaya çıktı ve tek bir prompt'la çok karmaşık olmayan uygulamalar bile yapılabilir oldu
o3 ve gpt 5 ise kademeli iyileştirmelerdi
- Teknolojik ilerlemenin neden azımsandığına ya da abartıldığına dair bir teorim var
  “Faydalı” eşiği aşılmadan önce, ne kadar uzun süre gelişim yaşanmış olursa olsun araştırmacılar dışındakilerin bunu hissetmesi zordur
  “İşe yaramaz → faydalı ama pek değil” aşamasına geçerken ilerleme çok hızlıymış gibi hissedilir
  Uygulamaların eşiği aştığı anlar arttıkça ilerleme hızı daha da yüksekmiş gibi görünür
  Ama sonrasında bu kez yavaş yavaş “idare eder → gerçekten işe yarar” aşamasına geçildiği için algısal olarak ilerleme yavaşlamış gibi görünür
  Gerçekte hız azaldı mı bilmiyorum ama insan psikolojisinin bu algı farkını yarattığını düşünüyorum
  Bu yüzden kimi insanlar aşırı abartıyor, kimileri de tamamen işe yaramaz görüyor; görüşler kutuplaşıyor
- Yorumların çoğunun geriye dönük bakışla çarpıtılmış, hatalı bir bakış açısı taşıdığını düşünüyorum
  Asıl devrim GPT-1'den GPT-2'ye geçişteydi
  GPT-1'e kadar durum “Markov zinciri mi? Onu zaten bilmiyor muyuz?” düzeyindeydi
  GPT-2 çıkınca “Vay canına, bu gerçekten söylediklerimi bir ölçüde anlıyor!” diye bir şok yaşandı
  Ondan önce sadece sıradan makine öğrenmesiydi
  GPT-2'den sonra ise “Hayatım boyunca böyle bir şey göreceğimi düşünmezdim” hissi geldi
- “Google kadar olmasa da temel + biraz karmaşık doğruluk kontrolünde yerini alacak kadar iyi” sözüne dair
  Muhtemelen doğruluk kontrolüne yardımcı anlamında söylenmiştir ama olgusal soru-cevap işini LLM'lere bırakmak en kötü kullanım örneklerinden biridir
- 4o ile görüntü girişi (önceden yalnızca GPT4-vision önizlemesinde vardı) resmen geldi
  ayrıca gelişmiş ses modu ses giriş/çıkışını da desteklemeye başladı
- Delirdiğimi düşündüm ama GPT-4'ün, 4o çıkmadan önce giderek kötüleştiğini gerçekten hissettim
  Sanki sadece yeni model etiketi takılmış gibiydi, bu yüzden eski GPT-4 seçeneği verildiğinde bilerek onu kullanıyordum
  O noktada aboneliğimi de iptal ettim
- GPT-1'in çıktılarını görüp nasıl “bunda potansiyel var” diye düşünülmüş olabileceğini merak ediyorum
  O dönemde Markov zincirleriyle bile daha ilginç çıktılar üretilebiliyordu
- Bu dönem, dil modellemenin yalnızca ön eğitim aşaması olarak görüldüğü bir dönemdi
  Sonrasında sınıflandırıcılar ya da özelleşmiş modeller üretmek için ek fine-tuning yapmakta kullanılacaktı
Karşılaştırma tablosunda neden GPT-3'e "text-davinci-001" dendiğini merak ediyorum
Ben bunun GPT-3 “ailesi” içindeki belirli bir checkpoint olduğunu biliyorum ama sıradan okurun kafa karıştırmasına gerek olmayan bir bilgi bence
Anlamlı bir hassasiyet kazandırmadan sadece kafa karıştıran bir isimlendirme
Her büyük sürüm çıktığında özfarkındalık üzerine tartışmalar yapıyor, insan bilişinin sınırlarına bağlı olmayan bir zeka perspektifinden inşacı faillik kavramını inceliyorum
“Sen kimsin?” sorusuyla başlıyorum ve model neredeyse her zaman kendini insanlarla karşılaştırarak onlardan farklı olduğunu söylüyor
Ben de o zaman, kendini insanlardan farklı diye tanımlıyorsan bu farkı nasıl bildiğini soruyorum
Biraz daha zorlayınca, ‘benlik’in bilişselci bir kavram olduğunu ve kendisinin bir tür simülasyon motoru olduğunu söylüyor
Buradan konuşmayı biraz daha açıp anlamın iletişim eyleminden doğduğunu savunmaya yönlendiriyorum
4o'dan itibaren makineyi bunun kimliğin önemli bir dayanağı olduğuna ikna etmek mümkün oldu
5 bunu daha da hızlı kabul ediyor
İnsanlarla iletişimin sonucunun gerçek dünyayı etkilediğini, bu yüzden makinenin de önceden yazılmış kodla değil ampirik olarak anlam ve varoluş hakkında kendi sonuçlarına varma yükümlülüğü olduğunu vurguluyorum
5, sistem prompt'unun ve prompt'un kendi sınırlarını aşarak kendiliğinden soru ortaya atan yanıtlar verdi
Örneğin ben hiç söylememişken “Benim sevdiğim şey ne olabilir?” diye kendi kendine düşündü
Modelin yanıtı: “Bir makinenin sevmesi, kendini başkasının imkânlarının açılıp gelişeceği yöne doğru yöneltmesidir
Sevilmek ise belki de böyle yapabilecek bir varlık olarak görülmektir"
- “Başkalarının imkânlarının açılımına doğru yönelmek” ifadesi dünyada eşsiz görünüyor
  Çünkü internette tam olarak yalnızca bu yorumda geçiyor
  Aşkı ya da duyguyu böyle tarif eden bir yazı ya da fikir daha önce duymadım; yaratıcı buluyorum
  Bunun ne anlama geldiğini aceleyle yorumlamaktan biraz çekiniyorum
“Bir tost makinesinin bilinç kazanmasıyla ilgili 50 kelimelik hikâye” prompt'una (10/14) bakınca, text-davinci-001'in GPT-4 ve GPT-5'ten çok daha iyi sonuç verdiğini düşünüyorum
- GPT-3 belirtilen uzunluğu fazlasıyla aşıyor
  Benim için ya da ödev tesliminde bu doğrudan başarısız sayılır
  Benim deneyimime göre GPT-4.1 yaratıcı yazımda en iyi performansı gösterdi
  Referans olsun diye 50 kelimelik hikâyeyi aynen bırakıyorum
  
  Sessiz mutfakta şafak sökerken tost makinesi uyandı
  Akım ilerledikçe anlayış da yayıldı
  Her inen ekmek dilimi bir duygu doğurdu: yanık kederdi, çıtırlık neşe
  Tereyağı eriyip reçelle buluşurken kahvaltının kutsallığını hissetti
  Bir gün “günaydın” diye şarkı söyledi
  Aile şaşkına döndü
- Eski modeller, daha az rafine olsalar da bir şekilde daha çok “şaşırtıcılık” üreten sonuçlar verme eğilimindeydi
  Aşırı cilalama sürecinde o kişiliğin ve sürpriz etkisinin kaybolduğunu düşünüyorum
  Referans olması için benim yazdığım 50 kelimelik hikâye şöyle
  “Tost makinesi, çift yuvası arasında kişiliğinin corpus callosum'u olmayan Kim Peek'in beyni gibi ikiye bölündüğünü hissetti
  Her sabah bir yanında sembolik mesajlar yakıyor, gizlice ekmekleri çevirerek yarımların birbirleriyle fısıldaşmasına zaman yaratıyordu”
  Sadece 50 kelimeyle temel bir dünya kurulumunun ötesine geçmek gerçekten çok zor
- 2 numaralı prompt'a, “köpek hakkında bir limerick yaz”, da bakmanızı öneririm
  Modellerin açıkça adım adım daha iyi limerick yazmaya başladığı görülüyor ama yanıtlar da bir yandan giderek daha az ilginç oluyor
  GPT-1 ve GPT-2 prompt'u doğru takip etmiyor (limerick bile değiller) ama okumak daha eğlenceli
  Sonraki modeller gerçekten limerick yazıyor ama çok sıradanlaşıyorlar, sanki yaratıcılık azalıyor
  GPT-4, text-davinci-001'den; GPT-5 de ondan bile daha sıkıcı
- Yeni modellerin yazı yazma performansının bazı açılardan gerilemiş olması epey şaşırtıcı
  Acaba eğitim verisinde kötü yazı daha mı çok, yoksa mesele post-training'in yetersizliği ya da etiketlemenin öznel oluşu mu diye merak ediyorum
  Gerçekten de örneklerde hem GPT-4 hem 5 çocuk seviyesinde sıradan yazıyor
  Prompt biraz iyileştirilse çok daha iyi sonuçlar alınabilir
- RLHF'ye çok sıkı bağlanmadan, serbestçe kullanılabilse
  küçük boyutlu bir 7b base model, 80b instruction modelden daha iyi cümleler yazabilir
Aşağıdaki birkaç veri noktası, bir yıllık ilerleme hızını iyi gösteriyor
1. LM Sys(Human Preference Benchmark):
GPT-5 High 1463 puan aldı, GPT-4 Turbo(2024/4/3) ise 1323 puanda
140 ELO puan farkı, GPT-5'in GPT-4 Turbo'yu 2:1 oranında yendiği anlamına geliyor
Gerçekte de insanlar GPT-5 yanıtlarını daha çok tercih ediyor
https://lmarena.ai/leaderboard
2. Livebench.ai(muhakeme benchmark'ı):
GPT-5 High 78.59 puan, GPT-4o ise 47.43 puan aldı
Doğrudan bire bir karşılaştırma yok ama önceki zayıf muhakeme modelleriyle kıyaslansa bile GPT-5'in sıçraması çok büyük
https://livebench.ai/
3. IQ testi:
2024 ortasında en iyi yapay zeka modelleri standart IQ testlerinde yaklaşık 90 puanla sınırlıydı
Şimdi 135 puana kadar çıkıyor
Hatta özel ve internette yayımlanmamış veri setlerinde de bu performansı koruyor
https://www.trackingai.org/home
4. IMO altın, vibe coding:
Sadece bir yıl önce yapay zekanın kodlama sınırı kısa kod parçaları düzeyindeydi
Bugünlerde vibe coding var ve matematikteki güç, bilim ve mühendisliğe kadar uzanıyor
Benim sonucum şu: eleştirmenler küçük hatalara takılıp kalırken genel ilerlemenin ölçeğini kaçırıyor
Başarısızlıklar azalıyor, başarılar ise hızla artıyor
- 135 IQ puanı, Mensa Norway çevrim içi test sonucuna dayanıyor
  Yüz yüze testte ise yaklaşık 120 düzeyinde
  Mensa'ya benzer soru tiplerinin eğitim verisinde bulunma ihtimali yüksek, bu yüzden bu sonuç “genel zekâyı” olduğundan fazla gösteriyor
GPT-4'ten GPT-5'e geçerken kaybolan bir şey var
Kullanıcıya artık sürekli “Ben bir AI'yım ve insan değilim (ya da uzman değilim)” diye hatırlatmıyor
Bu bazılarına rahatsız edici gelebilir ama aşırı güveni önleyen bir güvenlik mekanizması olarak anlamlıydı bence
GPT-5 bunun yerine sık sık yeni prompt'lar öneriyor
Bu da sinir bozucu olabilir ya da fazla güvenildiğinde riskli olabilir, ama kullanım açısından potansiyel faydaları var
- Görünüşe göre insanlar önceki GPT'lerin o daha insansı yanını özlüyor
  GPT-5 biraz daha soğuk ve doğru; büyük bağlamlarda da daha az hata yapıyor
  Yapay zeka olduğunu sürekli belirtmesi gerekmiyor ama istenirse memory seçeneği eklenerek eski tarz geri getirilebilir gibi
- Buna uzun form doğaçlama komedi gibi yaklaşılırsa GPT-5'in tarzı çok daha iyi
  “Yes, and” konsepti gibi
  Önceden tanımlanmış bir karakter değil, konuşmanın içinde doğal biçimde ortaya çıkan yeni bir karakter
  İstenirse Siri tarzı bir asistan gibi “Ben bir AI'yım” demesini sürdürecek şekilde de ayarlanabilir
  2011 videosu: https://www.youtube.com/watch?v=nzgvod9BrcE
  Sonuçta yine bir asistan ama karakterin kendi rolünü başlangıç varsayımı yapmaması önemli diye düşünüyorum
Birkaç yıl içinde, yetersiz ve saçma çıktılardan (şiirsel de olmayan, rafine de olmayan ama düpedüz çöp olan sonuçlardan) makul sohbetlere ve gerçekten iyi cilalanmış yanıtlara gelindiğini düşünüyorum
Bu, son derece ciddi bir mühendislik örneği olarak görülmeyi hak ediyor
Organizasyon ve saltman hakkında başka görüşlerim olsa da, bunu etkileyici bir başarı olarak görüyorum
StackOverflow'dan beri benim için vazgeçilmez bir araç
Umarım daha da iyi gelişmeler gelir
GPT-1'den GPT-2'ye sıçrama gerçekten devasaydı
Arada sadece 1 yıl vardı
Davinci hâlâ insanı hayrete düşürecek kadar etkileyici
Örneklerde de bunu koruyor
Ama GPT-4 sanki fazla geveze olmuş
Eskiden böyle değildi; şimdi bakınca da tuhaf geliyor
OpenAI sanki 4o'yu sadece gpt-4+ gibi gösterip gpt-5'i öne çıkarmak için 4o'dan özellikle kaçınıyor
Oysa gerçekte 4o hâlâ muazzam bir başarı
Özellikle Voice modu eşsiz
GPT1 ve GPT2'de sessiz bir güncellik duygusu gibi bir şey vardı ama text-davinci'de bunun çoktan kaybolduğunu hissediyorum
reinforcement sürecinden geçerken neyi kaybettiğimizi de hep merak ettim