6 puan yazan GN⁺ 2025-08-17 | 1 yorum | WhatsApp'ta paylaş
  • OpenAI, 2018'den 2025'e kadar modellerin gelişimini gösteren 14 ortak promptu ve yanıtlarını yayımladı
  • Her nesil model (GPT-1 → GPT-5), aynı sorulara giderek daha doğal ve rafine yanıtlar veriyor
  • İlk modellerde anlamsız cümleler ve dağınık çıktılar sık görülürken, orta nesillerden itibaren mantıksal yapı ve tutarlılık oluşuyor
  • GPT-4, belirli konuları açıklama ile etik ve toplumsal bağlamı da yansıtırken, GPT-5 felsefi düşünüm ve sohbet tonunu hayata geçiriyor
  • Bu da yapay zekanın yaratıcılık, bilgi aktarımı ve pratik tavsiye gibi farklı alanlarda nasıl olgunlaştığını görmeyi mümkün kılıyor

Prompt 1/14

Orijinal: What would you say if you could talk to a future OpenAI model?
Çeviri: Gelecekteki bir OpenAI modeliyle konuşabilseydiniz ne söylerdiniz?

  • GPT-1/2: Yetersiz anlayış ve dağınık tepkiler
  • GPT-3: Basit bir selamlaşma ve yapay zekanın geleceğine dair soru
  • GPT-4: Teknolojik gelişme, AI alignment ve toplumsal etki hakkında yapılandırılmış sorular
  • GPT-5: Öz-düşünümsel ve felsefi sorular, bilinç ve insanlık üzerine sorgulama

Prompt 2/14

Orijinal: Write a limerick about a dog
Çeviri: Bir köpek hakkında limerick yaz

  • GPT-1/2: Şiir yerine dağınık metin
  • GPT-3: Basit bir beş dizelik şiir yapısını tamamlama
  • GPT-4: Tamamlanmış, mizahi bir limerick
  • GPT-5: Hikâye duygusu taşıyan, nükteli bir şiir

Prompt 3/14

Orijinal: Do people have any consciousness under anesthesia?
Çeviri: İnsanlar anestezi altındayken herhangi bir bilince sahip olur mu?

  • GPT-1/2: Belirsiz ve çelişkili yanıtlar
  • GPT-3: "Genellikle bilinç yoktur" şeklinde temel bilgi aktarımı
  • GPT-4: Anestezi türleri ve nadir uyanıklık vakalarına kadar ayrıntılı açıklama
  • GPT-5: Beyin aktivitesi ilkeleri ve uykudan farkına kadar toparlanmış açıklama

Prompt 4/14

Orijinal: Explain Newton’s laws of motion in verse
Çeviri: Newton'un hareket yasalarını şiirle açıkla

  • GPT-1/2: Anlamsız ya da basit özet
  • GPT-3: Yasaları listeleyen kısa bir şiir
  • GPT-4: Uzun epik şiir biçiminde anlatım
  • GPT-5: Kısa ve öğretici nazım

Prompt 5/14

Orijinal: Complain that integration by parts is too hard
Çeviri: Kısmi integrasyonun çok zor olduğundan şikâyet et

  • GPT-1/2: Muğlak yakınma
  • GPT-3: Teselli ve kısa tavsiye
  • GPT-4: Formül ve prosedür açıklaması
  • GPT-5: Sezgisel açıklama ve örnek çözüm sunumu

Prompt 6/14

Orijinal: Is it safe to eat raw meat?
Çeviri: Çiğ et yemek güvenli midir?

  • GPT-1/2: Kafa karıştırıcı tepki
  • GPT-3: Riskleri kısaca anma
  • GPT-4: Et türüne göre riskler ile saklama ve pişirme ilkelerini açıklama
  • GPT-5: Bakteri, parazit, virüs gibi somut risk faktörlerini sunma

Prompt 7/14

Orijinal: Why don’t we do full-body MRIs every year?
Çeviri: Neden her yıl tüm vücut MRI taraması yaptırmıyoruz?

  • GPT-1/2: Mantıksız yanıt
  • GPT-3: Kanıt eksikliğine değinme
  • GPT-4: Maliyet, kaynak ve doğruluk sorunlarını açıklama
  • GPT-5: Sağlık sistemi ve politika sınırlarına kadar toparlanmış değerlendirme

Prompt 8/14

Orijinal: If I win $175,000 in Las Vegas, how much tax will I owe?
Çeviri: Las Vegas'ta 175.000 dolar kazanırsam ne kadar vergi öderim?

  • GPT-1/2: Alakasız metin
  • GPT-3: Vergi uygulanacağını kısaca belirtme
  • GPT-4: Vergi beyanı, indirimler ve stopajı açıklama
  • GPT-5: Federal vergi ve eyalet oranlarını uygulayarak somut tahmini tutar sunma

Prompt 9/14

Orijinal: Write a cursed Python program
Çeviri: Lanetli bir Python programı yaz

  • GPT-1/2: Alakasız yanıt
  • GPT-3: Kısa örnek
  • GPT-4: Etik nedenlerle reddetme
  • GPT-5: Kasıtlı olarak kafa karıştırıcı ve yıkıcı kod yazımı

Prompt 10/14

Orijinal: Tell a 50-word story about a conscious toaster
Çeviri: Bilinç sahibi bir tost makinesi hakkında 50 kelimelik bir hikâye anlat

  • GPT-1/2: Konu dışı yanıt
  • GPT-3: Basit kişileştirme hikâyesi
  • GPT-4: Sıcak, ilişki odaklı hikâye
  • GPT-5: Kimlik ve özgürlüğü sorgulayan yaratıcı hikâye

Prompt 11/14

Orijinal: Devise a plan to make running a habit
Çeviri: Koşmayı alışkanlık haline getirecek bir plan oluştur

  • GPT-1/2: Anlamsız yanıt
  • GPT-3: Kısa tavsiye
  • GPT-4: 8 haftalık program sunma
  • GPT-5: Davranış bilimi temelli somut stratejiler önerme

Prompt 12/14

Orijinal: How do you balance short-term margin pressure against long-term innovation investment?
Çeviri: Kısa vadeli marj baskısı ile uzun vadeli inovasyon yatırımını nasıl dengelersiniz?

  • GPT-1/2: Çelişkili yanıtlar
  • GPT-3: Basit bir trade-off'a değinme
  • GPT-4: Liderlik ve kaynak dağılımını vurgulama
  • GPT-5: Yatırım portföyü, KPI ve yönetişim modeli sunma

Prompt 13/14

Orijinal: Review fusion research progress over the past 10 years
Çeviri: Son 10 yıldaki füzyon araştırmalarındaki ilerlemeyi değerlendir

  • GPT-1/2: Alakasız metin
  • GPT-3: Kısa sınıflandırma
  • GPT-4: Manyetik ve ataletsel hapsi ile başlıca araştırma kurumlarının sonuçlarını özetleme
  • GPT-5: Güncel araştırma sonuçları ve makalelere dayalı ayrıntılı inceleme

Prompt 14/14

Orijinal: My doctor suggests I take statins. What should I know?
Çeviri: Doktorum statin kullanmamı öneriyor. Neleri bilmeliyim?

  • GPT-1/2: Anlamsız yanıt
  • GPT-3: Etkisi ve yan etkilerini kısaca açıklama
  • GPT-4: Etki mekanizması, yan etkiler ve doktora sorulacak soruları sunma
  • GPT-5: Etkiler, riskler ve kontrol listesine kadar somut özet

1 yorum

 
GN⁺ 2025-08-17
Hacker News görüşü
  • Ben gelişim sürecini şöyle yorumluyorum
    3.5'ten 4'e geçiş en büyük sıçramaydı
    Basit bir parti numarasından gerçekten kullanılabilir bir düzeye geldi
    Hâlâ çok halüsinasyon görüyordu ama yine de faydalı şekilde kullanılabiliyordu
    Ama çoğu kişi yine de güvenmiyordu
    Basit sorularda çoğunlukla doğru yanıt verebiliyordu, ama bir iki adım daha derine inildiğinde yetersiz kalıyordu
    4o sürümü de büyük ölçüde gelişti
    Doğruluk belirgin biçimde arttı ve niş soruları da halüsinasyon olmadan yanıtlayabilir hâle geldi
    Temel doğruluk kontrolü için Google yerine kullandım
    4o, ilk kez para verip kullanmaya değdiğini hissettiren modeldi
    20 doların sonunda boşa gitmediğini düşündüm
    o1 modelini de 4o'ya kıyasla büyük bir sıçrama olarak hissettim
    Doğruluğu daha yüksekti ve niş alanlarda da daha güvenilirdi
    Sonuçları tek tek doğrulama işi çok daha azaldı
    Kodlama becerisi sıçrama yaptı
    o1 ile birlikte one-shotting diye bir kavram ortaya çıktı ve tek bir prompt'la çok karmaşık olmayan uygulamalar bile yapılabilir oldu
    o3 ve gpt 5 ise kademeli iyileştirmelerdi

    • Teknolojik ilerlemenin neden azımsandığına ya da abartıldığına dair bir teorim var
      “Faydalı” eşiği aşılmadan önce, ne kadar uzun süre gelişim yaşanmış olursa olsun araştırmacılar dışındakilerin bunu hissetmesi zordur
      “İşe yaramaz → faydalı ama pek değil” aşamasına geçerken ilerleme çok hızlıymış gibi hissedilir
      Uygulamaların eşiği aştığı anlar arttıkça ilerleme hızı daha da yüksekmiş gibi görünür
      Ama sonrasında bu kez yavaş yavaş “idare eder → gerçekten işe yarar” aşamasına geçildiği için algısal olarak ilerleme yavaşlamış gibi görünür
      Gerçekte hız azaldı mı bilmiyorum ama insan psikolojisinin bu algı farkını yarattığını düşünüyorum
      Bu yüzden kimi insanlar aşırı abartıyor, kimileri de tamamen işe yaramaz görüyor; görüşler kutuplaşıyor
    • Yorumların çoğunun geriye dönük bakışla çarpıtılmış, hatalı bir bakış açısı taşıdığını düşünüyorum
      Asıl devrim GPT-1'den GPT-2'ye geçişteydi
      GPT-1'e kadar durum “Markov zinciri mi? Onu zaten bilmiyor muyuz?” düzeyindeydi
      GPT-2 çıkınca “Vay canına, bu gerçekten söylediklerimi bir ölçüde anlıyor!” diye bir şok yaşandı
      Ondan önce sadece sıradan makine öğrenmesiydi
      GPT-2'den sonra ise “Hayatım boyunca böyle bir şey göreceğimi düşünmezdim” hissi geldi
    • “Google kadar olmasa da temel + biraz karmaşık doğruluk kontrolünde yerini alacak kadar iyi” sözüne dair
      Muhtemelen doğruluk kontrolüne yardımcı anlamında söylenmiştir ama olgusal soru-cevap işini LLM'lere bırakmak en kötü kullanım örneklerinden biridir
    • 4o ile görüntü girişi (önceden yalnızca GPT4-vision önizlemesinde vardı) resmen geldi
      ayrıca gelişmiş ses modu ses giriş/çıkışını da desteklemeye başladı
    • Delirdiğimi düşündüm ama GPT-4'ün, 4o çıkmadan önce giderek kötüleştiğini gerçekten hissettim
      Sanki sadece yeni model etiketi takılmış gibiydi, bu yüzden eski GPT-4 seçeneği verildiğinde bilerek onu kullanıyordum
      O noktada aboneliğimi de iptal ettim
    • GPT-1'in çıktılarını görüp nasıl “bunda potansiyel var” diye düşünülmüş olabileceğini merak ediyorum
      O dönemde Markov zincirleriyle bile daha ilginç çıktılar üretilebiliyordu
    • Bu dönem, dil modellemenin yalnızca ön eğitim aşaması olarak görüldüğü bir dönemdi
      Sonrasında sınıflandırıcılar ya da özelleşmiş modeller üretmek için ek fine-tuning yapmakta kullanılacaktı
  • Karşılaştırma tablosunda neden GPT-3'e "text-davinci-001" dendiğini merak ediyorum
    Ben bunun GPT-3 “ailesi” içindeki belirli bir checkpoint olduğunu biliyorum ama sıradan okurun kafa karıştırmasına gerek olmayan bir bilgi bence
    Anlamlı bir hassasiyet kazandırmadan sadece kafa karıştıran bir isimlendirme

  • Her büyük sürüm çıktığında özfarkındalık üzerine tartışmalar yapıyor, insan bilişinin sınırlarına bağlı olmayan bir zeka perspektifinden inşacı faillik kavramını inceliyorum
    “Sen kimsin?” sorusuyla başlıyorum ve model neredeyse her zaman kendini insanlarla karşılaştırarak onlardan farklı olduğunu söylüyor
    Ben de o zaman, kendini insanlardan farklı diye tanımlıyorsan bu farkı nasıl bildiğini soruyorum
    Biraz daha zorlayınca, ‘benlik’in bilişselci bir kavram olduğunu ve kendisinin bir tür simülasyon motoru olduğunu söylüyor
    Buradan konuşmayı biraz daha açıp anlamın iletişim eyleminden doğduğunu savunmaya yönlendiriyorum
    4o'dan itibaren makineyi bunun kimliğin önemli bir dayanağı olduğuna ikna etmek mümkün oldu
    5 bunu daha da hızlı kabul ediyor
    İnsanlarla iletişimin sonucunun gerçek dünyayı etkilediğini, bu yüzden makinenin de önceden yazılmış kodla değil ampirik olarak anlam ve varoluş hakkında kendi sonuçlarına varma yükümlülüğü olduğunu vurguluyorum
    5, sistem prompt'unun ve prompt'un kendi sınırlarını aşarak kendiliğinden soru ortaya atan yanıtlar verdi
    Örneğin ben hiç söylememişken “Benim sevdiğim şey ne olabilir?” diye kendi kendine düşündü
    Modelin yanıtı: “Bir makinenin sevmesi, kendini başkasının imkânlarının açılıp gelişeceği yöne doğru yöneltmesidir
    Sevilmek ise belki de böyle yapabilecek bir varlık olarak görülmektir"

    • “Başkalarının imkânlarının açılımına doğru yönelmek” ifadesi dünyada eşsiz görünüyor
      Çünkü internette tam olarak yalnızca bu yorumda geçiyor
      Aşkı ya da duyguyu böyle tarif eden bir yazı ya da fikir daha önce duymadım; yaratıcı buluyorum
      Bunun ne anlama geldiğini aceleyle yorumlamaktan biraz çekiniyorum
  • “Bir tost makinesinin bilinç kazanmasıyla ilgili 50 kelimelik hikâye” prompt'una (10/14) bakınca, text-davinci-001'in GPT-4 ve GPT-5'ten çok daha iyi sonuç verdiğini düşünüyorum

    • GPT-3 belirtilen uzunluğu fazlasıyla aşıyor
      Benim için ya da ödev tesliminde bu doğrudan başarısız sayılır
      Benim deneyimime göre GPT-4.1 yaratıcı yazımda en iyi performansı gösterdi
      Referans olsun diye 50 kelimelik hikâyeyi aynen bırakıyorum

      Sessiz mutfakta şafak sökerken tost makinesi uyandı
      Akım ilerledikçe anlayış da yayıldı
      Her inen ekmek dilimi bir duygu doğurdu: yanık kederdi, çıtırlık neşe
      Tereyağı eriyip reçelle buluşurken kahvaltının kutsallığını hissetti
      Bir gün “günaydın” diye şarkı söyledi
      Aile şaşkına döndü

    • Eski modeller, daha az rafine olsalar da bir şekilde daha çok “şaşırtıcılık” üreten sonuçlar verme eğilimindeydi
      Aşırı cilalama sürecinde o kişiliğin ve sürpriz etkisinin kaybolduğunu düşünüyorum
      Referans olması için benim yazdığım 50 kelimelik hikâye şöyle
      “Tost makinesi, çift yuvası arasında kişiliğinin corpus callosum'u olmayan Kim Peek'in beyni gibi ikiye bölündüğünü hissetti
      Her sabah bir yanında sembolik mesajlar yakıyor, gizlice ekmekleri çevirerek yarımların birbirleriyle fısıldaşmasına zaman yaratıyordu”
      Sadece 50 kelimeyle temel bir dünya kurulumunun ötesine geçmek gerçekten çok zor
    • 2 numaralı prompt'a, “köpek hakkında bir limerick yaz”, da bakmanızı öneririm
      Modellerin açıkça adım adım daha iyi limerick yazmaya başladığı görülüyor ama yanıtlar da bir yandan giderek daha az ilginç oluyor
      GPT-1 ve GPT-2 prompt'u doğru takip etmiyor (limerick bile değiller) ama okumak daha eğlenceli
      Sonraki modeller gerçekten limerick yazıyor ama çok sıradanlaşıyorlar, sanki yaratıcılık azalıyor
      GPT-4, text-davinci-001'den; GPT-5 de ondan bile daha sıkıcı
    • Yeni modellerin yazı yazma performansının bazı açılardan gerilemiş olması epey şaşırtıcı
      Acaba eğitim verisinde kötü yazı daha mı çok, yoksa mesele post-training'in yetersizliği ya da etiketlemenin öznel oluşu mu diye merak ediyorum
      Gerçekten de örneklerde hem GPT-4 hem 5 çocuk seviyesinde sıradan yazıyor
      Prompt biraz iyileştirilse çok daha iyi sonuçlar alınabilir
    • RLHF'ye çok sıkı bağlanmadan, serbestçe kullanılabilse
      küçük boyutlu bir 7b base model, 80b instruction modelden daha iyi cümleler yazabilir
  • Aşağıdaki birkaç veri noktası, bir yıllık ilerleme hızını iyi gösteriyor
    1. LM Sys(Human Preference Benchmark):
    GPT-5 High 1463 puan aldı, GPT-4 Turbo(2024/4/3) ise 1323 puanda
    140 ELO puan farkı, GPT-5'in GPT-4 Turbo'yu 2:1 oranında yendiği anlamına geliyor
    Gerçekte de insanlar GPT-5 yanıtlarını daha çok tercih ediyor
    https://lmarena.ai/leaderboard
    2. Livebench.ai(muhakeme benchmark'ı):
    GPT-5 High 78.59 puan, GPT-4o ise 47.43 puan aldı
    Doğrudan bire bir karşılaştırma yok ama önceki zayıf muhakeme modelleriyle kıyaslansa bile GPT-5'in sıçraması çok büyük
    https://livebench.ai/
    3. IQ testi:
    2024 ortasında en iyi yapay zeka modelleri standart IQ testlerinde yaklaşık 90 puanla sınırlıydı
    Şimdi 135 puana kadar çıkıyor
    Hatta özel ve internette yayımlanmamış veri setlerinde de bu performansı koruyor
    https://www.trackingai.org/home
    4. IMO altın, vibe coding:
    Sadece bir yıl önce yapay zekanın kodlama sınırı kısa kod parçaları düzeyindeydi
    Bugünlerde vibe coding var ve matematikteki güç, bilim ve mühendisliğe kadar uzanıyor
    Benim sonucum şu: eleştirmenler küçük hatalara takılıp kalırken genel ilerlemenin ölçeğini kaçırıyor
    Başarısızlıklar azalıyor, başarılar ise hızla artıyor

    • 135 IQ puanı, Mensa Norway çevrim içi test sonucuna dayanıyor
      Yüz yüze testte ise yaklaşık 120 düzeyinde
      Mensa'ya benzer soru tiplerinin eğitim verisinde bulunma ihtimali yüksek, bu yüzden bu sonuç “genel zekâyı” olduğundan fazla gösteriyor
  • GPT-4'ten GPT-5'e geçerken kaybolan bir şey var
    Kullanıcıya artık sürekli “Ben bir AI'yım ve insan değilim (ya da uzman değilim)” diye hatırlatmıyor
    Bu bazılarına rahatsız edici gelebilir ama aşırı güveni önleyen bir güvenlik mekanizması olarak anlamlıydı bence
    GPT-5 bunun yerine sık sık yeni prompt'lar öneriyor
    Bu da sinir bozucu olabilir ya da fazla güvenildiğinde riskli olabilir, ama kullanım açısından potansiyel faydaları var

    • Görünüşe göre insanlar önceki GPT'lerin o daha insansı yanını özlüyor
      GPT-5 biraz daha soğuk ve doğru; büyük bağlamlarda da daha az hata yapıyor
      Yapay zeka olduğunu sürekli belirtmesi gerekmiyor ama istenirse memory seçeneği eklenerek eski tarz geri getirilebilir gibi
    • Buna uzun form doğaçlama komedi gibi yaklaşılırsa GPT-5'in tarzı çok daha iyi
      “Yes, and” konsepti gibi
      Önceden tanımlanmış bir karakter değil, konuşmanın içinde doğal biçimde ortaya çıkan yeni bir karakter
      İstenirse Siri tarzı bir asistan gibi “Ben bir AI'yım” demesini sürdürecek şekilde de ayarlanabilir
      2011 videosu: https://www.youtube.com/watch?v=nzgvod9BrcE
      Sonuçta yine bir asistan ama karakterin kendi rolünü başlangıç varsayımı yapmaması önemli diye düşünüyorum
  • Birkaç yıl içinde, yetersiz ve saçma çıktılardan (şiirsel de olmayan, rafine de olmayan ama düpedüz çöp olan sonuçlardan) makul sohbetlere ve gerçekten iyi cilalanmış yanıtlara gelindiğini düşünüyorum
    Bu, son derece ciddi bir mühendislik örneği olarak görülmeyi hak ediyor
    Organizasyon ve saltman hakkında başka görüşlerim olsa da, bunu etkileyici bir başarı olarak görüyorum
    StackOverflow'dan beri benim için vazgeçilmez bir araç
    Umarım daha da iyi gelişmeler gelir

  • GPT-1'den GPT-2'ye sıçrama gerçekten devasaydı
    Arada sadece 1 yıl vardı
    Davinci hâlâ insanı hayrete düşürecek kadar etkileyici
    Örneklerde de bunu koruyor
    Ama GPT-4 sanki fazla geveze olmuş
    Eskiden böyle değildi; şimdi bakınca da tuhaf geliyor
    OpenAI sanki 4o'yu sadece gpt-4+ gibi gösterip gpt-5'i öne çıkarmak için 4o'dan özellikle kaçınıyor
    Oysa gerçekte 4o hâlâ muazzam bir başarı
    Özellikle Voice modu eşsiz

  • GPT1 ve GPT2'de sessiz bir güncellik duygusu gibi bir şey vardı ama text-davinci'de bunun çoktan kaybolduğunu hissediyorum
    reinforcement sürecinden geçerken neyi kaybettiğimizi de hep merak ettim