5 puan yazan GN⁺ 4 일 전 | 2 yorum | WhatsApp'ta paylaş
  • GPT-5.5, Chat Completions API ve Responses API’de kullanıma sunuldu; ayrıca daha fazla hesaplamanın avantaj sağladığı zor problemler için GPT-5.5 pro da Responses API isteklerine eklendi
  • GPT-5.5, 1 milyon token bağlam penceresi, görüntü girdisi, yapılandırılmış çıktı, fonksiyon çağırma, prompt caching, Batch, tool search, yerleşik computer use, hosted shell, apply patch, Skills, MCP ve web aramayı destekliyor
  • Varsayılan reasoning effort değeri medium olarak ayarlandı; image_detail ayarlanmamış durumdayken veya auto iken mevcut davranış korunuyor
  • GPT-5.5 önbelleklemesi yalnızca extended prompt caching içinde çalışıyor ve in-memory prompt caching desteklenmiyor: behavioral changes
  • 21 Nisan değişiklikleri
    • GPT Image 2, görüntü üretimi ve düzenleme için en yeni görüntü oluşturma modeli olarak sunuldu
    • GPT Image 2, esnek görüntü boyutları, yüksek doğruluklu görüntü girdisi, token tabanlı görüntü ücretlendirmesi ve %50 indirimli Batch API desteği içeriyor

2 yorum

 
ragingwind 4 일 전

Artık 5.4'ten itibaren pro için Chat Completions API artık sunulmuyor gibi görünüyor.

 
GN⁺ 4 일 전
Hacker News görüşleri
  • Prodüksiyon sorunu yüzünden hemen denedim; Claude bunu böyle yapmazdı ama GPT-5.5 yaptı
    Sorun giderme sonrasında update ifadesi kullanmasını sağladım, sonra ben de "tamam, bunu bir transaction içine alalım ve rollback de ekleyelim" dedim, o da eski usul şöyle verdi:
    BEGIN TRAN;
    -- put the query here
    commit;
    sadece bunu verdi
    Uzun zamandır modele gerçekten istediğim işi yapması için yeniden iteklemem gerekmiyordu; bu epey sarsıcıydı
    Daha az token harcamaya çalıştığını anlıyorum ama en ileri seviye model için para ödüyorken böyle tembel davranması sinir bozucu
    Cursor'da model seçicide görünüyordu, ben de sadece denemiş oldum

    • gpt-5.3-codex sonrasındaki son 2-3 nesil, belirgin biçimde daha iyi olmaktan çok, bir şeyleri değiştirip farklı tradeoff'lar üretmiş gibi hissettiriyor
    • Yanlış anlamış olabilirim ama tam olarak sorunun ne olduğunu merak ettim
      Sorun, yanıtta sadece -- put the query here yazıp sorguyu tekrar etmemesiyse, bunu mutlaka sorun olarak görmüyorum
      Gerçek hedef çalıştırılacak sorguyu elde etmekti ve sen de "bunu transaction olarak yapalım" dedinse, sadece önce begin yazman gerektiğini söylemesi gayet makul
      Sorgu uzunsa daha az token harcar; permission denied alınca tüm komutu yeniden yazmak yerine başına sudo ekle demesine benziyor
      Öte yandan modelin sorguyu gerçekten çalıştırmasını bekliyordun da o "işte burada, sen çalıştır" gibi davrandıysa, bu kesinlikle tembellik olur ve şaşırtıcıdır
    • OpenAI galiba sonunda kullanıcıya iş yaptıracak düzeyde zekaya ulaşan ilk şirket oldu
      Emergent behavior'ın böyle ortaya çıkması ilginç
      Şakayı bir kenara bırakırsak, OpenAI'nin takıntılı biçimde ittiği token başına intelligence odaklı optimizasyon bana M1 öncesi Apple'ın MacBook'ları aşırı inceltmeye çalıştığı dönemi hatırlatıyor
      Sanki tek bir metriği sonuna kadar kovalayıp diğer her şeyi feda ediyorlar
      GPT-5.3+ açıkça en zeki modeller arasında ama o kadar tembel ki birlikte çalışmak çoğu zaman eziyet olabiliyor
    • Yukarıdaki örneğin iyi mi kötü mü olduğuna dair pek net bir hissim yok
    • GPT-5.5, kullanıcıya güvenme konusunda benchmark'ları paramparça edecek seviyede
  • Az önce kendi Wordpress+GravityForms benchmark'ımla denedim; performans açısından da liderlik tablosunun en altlarındaydı ve fiyat/performans olarak da berbattı: https://github.com/guilamu/llms-wordpress-plugin-benchmark
    Bunun sadece tek bir benchmark olduğunu biliyorum ama nasıl bu kadar kötü olabildiğini anlamıyorum

    • Sanki deneyimi az olduğu bir alanda garajda kurcalayan bir junior, özensiz bir test yapmış da adına benchmark demiş gibi duruyor
      Bugünlerde kelimelerin anlamı fazla kolay aşınıyor; o yüzden böyle şeyler sık oluyor
      Eskiden gerçekten teknik iş yapan insanların çok olduğu forumlar bile artık vibe researcher kitlesiyle doluyor; belli bir popülerlik eşiği aşılınca işler zaten böyle oluyor
      HN de hâlâ ciddi araştırmanın kaldığı son kalelerden biri gibi ama ana yorum bile tam bağışık olmadığını gösteriyor
    • Senin benchmark'ında gemma4-e4b, gemma4-26b'den %50 daha iyi çıkıyor; burada bir şeyler yanlış gibi
    • Senin benchmark'ında Opus 4.7, Sonnet 4.6'dan çok daha kötü çıkıyor; o benchmark özelinde doğru olsa bile bu, modelin genel performansını temsil etmez
    • Bu benchmark'ı adeta zaman yolculuğu yapıp getirmişsin
      Bu tür benchmarking hoşuma gidiyor
      judge benchmark'ı nasıl değerlendirdiğini merak ediyorum; ben de benzer bir benchmark'ı kendim kurmak isterim
    • Bu, modelin vibe coding'i ne kadar iyi yaptığını ölçen bir benchmark'a daha çok benziyor
      Prompt aşırı ince ama puanlama kalemleri inanılmaz fazla
  • Bağlam uzunluğuna göre fiyatlandırma şöyleymiş
    Girdi 272K'ya kadar $5/M, üstünde $10/M
    Çıktı 272K'ya kadar $30/M, üstünde $45/M
    Cache okuması 272K'ya kadar $0.50/M, üstünde $1/M
    272K'yı aşınca Opus 4.7'den belirgin biçimde daha pahalı oluyor ve en azından benim işlerimde token verimliliği bunu telafi edecek kadar iyi görünmedi
    Bu fiyat farkını dengeleyecek düzeyde değildi
    GPT-5.4'ün güçlü yanı 400k context ve güvenilir compaction'dı ama ikisi de bir miktar gerilemiş gibi görünüyor
    Yine de compaction güvenilirliğinin gerçekten düştüğünü kesin söylemek için erken
    Front-end çıktıları da hâlâ o göze çok batan, kartlarla dolu mavi tonlu şablona kayma eğiliminde
    Bu, GPT-5 çıkmadan önce Horizon Alpha/Beta döneminden beri şüpheli görünen bir stil; o zaman task adherence o kadar iyiydi ki o büyük kusura rağmen yine de kullanışlıydı
    Ama GPT-5.5 tamamen yeni bir foundation denirken bu kısmın hâlâ böyle sınırlı olması biraz garip

  • GPT 5.5'in genel kodlama ve akıl yürütme benchmark sonuçları https://gertlabs.com/'da yayımlandı
    Live decision ve daha ağır agentic eval sonuçları da 24 saat boyunca eklenmeye devam edecek ama artık liderlik tablosu sıralaması değişecek gibi görünmüyor
    GPT 5.5, herkese açık modeller arasında en zekisi ve önceki sürüme göre belirgin şekilde daha hızlı

  • Dün şöyle denmişti

    API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale.
    Ama bugün bir anda durum bu
    Bir gün, "very soon" sayılır elbette ama bu safeguards ve security requirements tam olarak ne demekti merak ediyorum

    • Bir şeyin safeguards yüzünden geciktiği söyleniyorsa, genelde bunun anlamı şu anda yeterli hesaplama kaynağı yok demektir
    • GPT-5.5 zaten Codex'e özel API'de vardı ve orada başka amaçlar için de kullanılabileceği açıkça söylenmişti
      https://simonwillison.net/2026/Apr/23/gpt-5-5/#the-openclaw-backdoor
      O yüzden bunun bu yayını öne çekmiş olabileceğini düşünüyorum
    • Güvenlik konusunda bu kadar açık şekilde yalan söylemiş birinin hâlâ şirketi yönetiyor olması ortadayken, bundan sonra farklı olacağını neden bekleyelim pek anlamıyorum
      Geçmişte de örnekleri vardı

      In 2023, the company was preparing to release its GPT-4 Turbo model. As Sutskever details in the memos, Altman apparently told Murati that the model didn’t need safety approval, citing the company’s general counsel, Jason Kwon. But when she asked Kwon, over Slack, he replied, “ugh . . . confused where sam got that impression.”
      Altman, OpenAI'de safety'nin ne kadar önemli olduğu konusunda birçok kez tamamen dürüst olmadı
      https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted (https://archive.is/a2vqW)

  • Sadece bana mı öyle geliyor bilmiyorum ama OpenAI sanki bu tür her haberde ücretli yorumcu ya da bot çalıştırıp Claude'u kötülemeye ve Codex'in çok daha iyi olduğunu itmeye çalışıyor gibi
    Sayıları fazla ve Claude'u her gün kullanan biri için pek mantıklı gelmeyen iddia da çok

    • Evet, tuhaf derecede öyle
      OpenAI'nin denetimsiz otonom silahlar ve ülke içi kitlesel gözetim konusunda iş birliği yaparak demokrasiyi sattığı gerçeğini de herkes unutmuş gibi bir hava var
    • Bana da oldukça açık görünüyor
      En azından dışarıdan belli olmaya başlaması Opus 4.6 hype'ından hemen sonraydı
    • Tabii ki böyle şeyler yapıyorlar
      Bugünlerde kendi ürününü pazarlayan şirketlerin hepsi aşağı yukarı aynı
  • Enterprise kullanıcısıyım ama hâlâ sadece 5.4 görünüyor
    Dünkü duyuruda herkese rollout'un birkaç saat sürebileceği söylenmişti ama OpenAI beklenti yönetimi için GTM tarafında biraz daha iyi olmalı

    • Az önce yeniledim, 5.5 göründü
      Hızlı açılmış olması güzel
      Demek ki bir dahaki sefere daha erken şikâyet etmeliyim
  • Kendi benchmark'ımda 25/25 alan ikinci model oldu
    İlki Opus 4.7'ydi; sonuçlar burada: https://sql-benchmark.nicklothian.com/?highlight=openai_gpt-5.5
    Opus'tan daha ucuz ama daha yavaş

  • API sayfasında knowledge cutoff tarihi 2025-12-01 olarak yazıyor ama modele doğrudan sorunca 2024 Haziran diye cevap veriyor
    Knowledge cutoff: 2024-06
    Current date: 2026-04-24
    You are an AI assistant accessed via an API.

    • Bu konunun neden sürekli gündeme geldiğini anlamıyorum
      Cutoff tarihini doğrulamak için modele kendisini sormak, oldum olası en düşük güvenilirliğe sahip yöntemdi
      Hatta bunun gibi yorumları bile eğitim verisinde görmüş olabilir
      Sadece 2025-12-01'den hemen önce olan bir olayı sorun yeter
      Mümkünse spor karşılaşması iyi olur
    • Modelin söylediğine gerçekten güvenilebilir mi emin değilim
      Eski model API sayfalarının çoğunda da 2024 Haziran cutoff'u yazıyordu; belki onu tekrar ediyor
    • Sistemde prompt ile söylenmedikçe model kendi cutoff date'ini bilmez
      Gerçek cutoff'u doğrulamanın doğru yolu, o tarihten önce var olmayan ya da yaşanmamış bir şeyi sormaktır
      Kabaca birkaç denemeden sonra 5.5'in genel bilgi cutoff'unun hâlâ 2025 başları civarında olduğunu düşünüyorum
    • O zaman 2024 ABD başkanlık seçimini kimin kazandığıyla test edilebilir mi
  • GPT 5.5 + Codex kombinasyonu gerçekten çok iyi
    İster soru sorayım, ister plan yapayım, ister kod uygulatayım; artık neredeyse hiç tereddütsüz emanet ediyorum
    Opus 4.7 ise sürekli ikinci kez kontrol ettiriyor
    CLAUDE.md talimatlarını iyi izlemiyor, halüsinasyon da çok yapıyor ve cevabı bulamayınca varsayılanı uydurmak oluyor; bu da büyük bir fark yaratıyor
    Geçen yıl insanlar OpenAI'nin geride kaldığını, code red durumunda olduğunu söylerken her şey gerçekten çok hızlı olmuştu ama şimdi dönüp bakınca tablo tamamen değişmiş görünüyor