Vibechart

(vibechart.net)

1 puan yazan GN⁺ 2025-08-08 | 1 yorum | WhatsApp'ta paylaş

Vibechart, kullanıcıların gerçeklik, estetik değer ve kullanılabilirlik gibi geleneksel ölçütlere göre değil, görmek istedikleri şekilde grafik oluşturmasına olanak tanıyan bir görselleştirme aracıdır
GPT-5 duyurusunda kullanılan grafiklerin yorumu

GPT-5 Performans Karşılaştırması (Academic / SWE-bench) Grafiği

Test maddesi: SWE-bench Verified (Yazılım mühendisliği problem çözme doğruluğu)
Düşünmeden / Düşünerek: ‘düşünme modu’ (çıkarım süresini daha uzun harcayan yaklaşım) olup olmamasına göre performans farkı
- GPT-5: düşünmeden 52.8%, düşünme modunda 74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
Bu karşılaştırmada GPT-5, düşünme modu kullanıldığında o3'ten daha yüksek performans veriyor.

Modeller Arası Aldatma Değerlendirmeleri

Modellerin “aldatma” davranışını ne kadar gösterdiğini ölçen bir test.
Coding deception: GPT-5 (düşünme modu) 50.0%, o3 47.4%
CharXiv missing image: GPT-5 9.0%, o3 86.7%
Production traffic: GPT-5 2.1%, o3 4.8%
Kategori bazında bakıldığında GPT-5’in bazı alanlarda aldatma oranı daha yüksek, bazı alanlarda ise çok daha düşüktür

Yani, GPT-5 düşünme modunda o3’ten daha iyi ama, başka yönlerde (ör. aldatma potansiyeli) eşdeğer veya daha kötü.

1 yorum

GN⁺ 2025-08-08

Hacker News Yorumu

Daha inandırıcı sayılar ve çubuk boyutlarıyla hazırlanmış bir sürüm de OpenAI'nin GPT-5 duyuru gönderisinin "evaluation" bölümünde var (bağlantı). Bu yalnızca bir hata olabilir ama milyarlarca doları insan faaliyetinin tamamını devrimleştireceğine söz veren bir firmanın düzgün bir PowerPoint dahi hazırlayamadığını göstermesi tek başına istem dışı bir izlenim bırakıyor
- Bu, kendilerinin yiyeceği yemi direkt tatmaları gibi; eğer o yemi satıyor olsaydınız böyle bir sonuçla karşılaşabilirdiniz
- Acaba bu sefer yeni çıkan yapay zekâ grafiği mi üretti acaba
- OpenAI'deki kişiler alanın en iyilerinden, böyle bir hatayı yaptıklarına inanmak zor geliyor
Başta bunun vibe coding ile ilgili bir ölçüm olduğunu düşündüm ama değilmiş, o da WakaTime'dı
"Coding deception" grafiğinin de eklenmesi gerektiğini düşünüyorum, çünkü çok yanıltıcı (50.0 aslında 47.4'ten küçük değil) (bağlantı)
- O grafik görselini ChatGPT-5'e yapıştırıp "Bu grafikte hata var gibi görünüyor, neyin yanlış olduğunu bulabilir misin?" diye sordum. ChatGPT, "İlk 'Coding deception' grafiğinde GPT-5 (düşünen sürüm) için pembe çubuk 50.0%, OpenAI o3 için beyaz çubuk 47.4% olarak etiketlenmiş, ama görselde beyaz çubuk pembe çubuk kadar uzun değil. Yüzdeler biraz düşük görünse de görsel tutarlılık yok" dedi. Sonunda slayt incelemesinde ChatGPT'yi kullanmam gerektiğini düşündüm
- Gönderiyle ve yukarıdaki bağlantıyla sorunun ne olduğunu bulmak biraz zaman aldı. Bunu nasıl bir niyetle yaptıklarını anlamak mümkün olmadı. Şimdi de yapay zekânın grafiği çizip kimsenin buna bakmadığı bir süreç mi olduğunu merak ediyorum
- Bu çok açık bir hata, birinin grafik etiketlemeyi yanlış yaptığı izlenimi bırakıyor. Fazla iyimser miyim diye de düşünüyorum
- Grafiğe ekledim
- Bunun yarısına kadar anlıyorum. 'deception', llm'de istenmeyen bir özellik olduğu için izleyici açısından daha az olması 'daha iyi' olarak okunur. Ama 'less is more' özelliği olmayan diğer şeylerle karşılaştırırken, bunun grafikte doğru temsilini nasıl yapacağını bilmiyorum (üstelik grafiğin 0'dan başlamaması problemi de cabası). Sonuçta tamamen saçma görünüyor
Bu işin nasıl bu hale geldiğini merak ediyorum. Muhtemelen son anda üst düzey bir yöneticinin devreye girip, "yeni model eski modele göre çok küçük bir iyileşme gösteriyorsa böyle görünmesini istemeyiz; y-ekseni oynatıp çok daha büyük bir gelişme gibi gösterelim" diye geri bildirim verdiğini düşünüyorum
- Bu kadar beceriksiz insanların bu kadar para ve gücü elinde bulundurması gerçekten ürkütücü
- Belki de GPT-5'ten slaytları düzeltebileceğini istemişlerdir
- OpenAI çevresinde bir aciliyet hissi var gibi olduğu için, böylesine aşırı bir hype gösteriminin en üst kademeden gelmesi bile şaşırtıcı olmaz
- Bu endüstri standardı. Örneğin Nvidia her yeni GPU lansmanında benzer grafikler kullanır. Apple da M serisi CPU'larında aynı şeyi yapıyor. Hatta bazen birkaç nesil öncesi modellerle karşılaştırıp daha da abartıyor
Ben her zaman griyi değil pembe çubukları daha fazla olan bir grafiğe yatırım yapmayı seveceğim
OpenAI'nin "veri"nin de pazarlamanın bir parçası olduğunu çok başından beri bildiğini ve öyle ele aldığını biliyordum. Bu durumun kasıtlı olduğuna inanmıyorum ama dota 2 döneminden beri sonuçları şişirip başarısızlıkları saklayan bir şekilde veri sunma tekniğini çok iyi bildiklerini biliyorum
Cybertruck cam demosuyla aynı yaklaşım
69.1 sütununun yüksekliği, 30.8 sütunununkiyle aynı. Muhtemelen 30.8 sütununu kopyalayıp yalnızca sayıyı değiştirip yüksekliği ayarlamayı unuttular; sadece yeni modelden daha düşük olma durumunu kabaca kontrol edip geçtiler gibi. Ama 50.0 sütununun yüksekliği de böyle açıklanamıyor
- Gözle bakınca o çubuk gerçekten de yaklaşık %15 yüksekliğinde görünüyor. 50 yerine 15 yazmış olabilirler. Fakat böyle bir hata, tarihinin en iyi bilinen girişimlerin açılış sunumlarında değil, bir lisans öğrencisi sınıf sunumunda rastlayabileceğimiz kadar sıradan olur. Bu sunumdaki herkesin 1.5 milyon dolarlık bonusu garanti olduğu da ayrı bir gerçek. Düşündükçe tuhaf geliyor
- Profesyonel bir sunumda neden çubukları ve etiketleri ayrı ayrı elle hazırladıklarını anlamakta zorlanıyorum. Stil açısından tuhaf bir şey yapmak istememiş görünüyorlar ama temel bir çubuk grafikte bile bu hatanın olması niyeti yoksa zor açıklanır
Herkesi kendi kendini kandırmaya kandırmaya çalışırken görmek insana gülümsetiyor