GPT‑5.6 Sol önizlemesi: yeni nesil model

(openai.com)

3 puan yazan GN⁺ 5 시간 전 | 1 yorum | WhatsApp'ta paylaş

OpenAI, GPT‑5.6 serisini sınırlı bir önizleme olarak açtı; amiral gemisi Sol ile birlikte günlük işler için Terra ve düşük maliyetli Luna'yı da sundu
Sol, kodlama, biyoloji ve siber güvenlikte ajan yeteneklerini güçlendirdi; max reasoning effort ve ultra modu ile daha derin akıl yürütme ve alt ajan kullanımını destekliyor
Siber güvenlik performansı ExploitBench ve ExploitGym'de iyileşti, ancak Chromium ve Firefox değerlendirme koşullarında işlevsel full-chain exploit'i otonom olarak üretemediği için Cyber Critical eşiğini aşmıyor
Önizleme, API ve Codex'te önce bazı güvenilir iş ortakları ve kuruluşlara sunulacak; ABD hükümetinin talepleri doğrultusundaki kısıtlı prosedürlerin ardından daha geniş bir yayına hazırlanılıyor
Fiyatlandırma 1 milyon token başına Sol için $5 giriş / $30 çıkış, Terra için $2.50 giriş / $15 çıkış, Luna için $1 giriş / $6 çıkış; cache yazımı 1.25x, cache okuması ise %90 indirimli

GPT‑5.6 serisi önizleme kapsamı

OpenAI, GPT‑5.6 ürün ailesini önce sınırlı önizleme olarak duyurdu
- Sol: amiral gemisi model
- Terra: günlük işler için dengeli model
- Luna: hızlı ve uygun maliyetli model
Terra, GPT‑5.5 ile rekabetçi performans sunarken fiyatı 2 kat daha ucuz
Luna, OpenAI'nin en düşük maliyetle güçlü yetenekler sunan modeli
GPT‑5.6 Sol, OpenAI'nin şimdiye kadar kurduğu en sağlam güvenlik yığını ile birlikte sunuluyor
- yüksek riskli faaliyetler
- hassas siber talepler
- tekrarlayan kötüye kullanım
- gerçek saldırılara karşı zayıflık arama ve stres testleri

Sınırlı yayın ve hükümetle istişare

OpenAI, GPT‑5.6 Sol, Terra ve Luna'yı önümüzdeki birkaç hafta içinde genel kullanıma açmayı planlıyor
ABD hükümeti ile süren istişare sürecinde, lansman öncesi planlarını ve model yeteneklerini paylaştı
Hükümetin talebi doğrultusunda, katılımlarının hükümetle paylaşıldığı az sayıdaki güvenilir iş ortağıyla önce sınırlı önizleme başlatıldı
OpenAI, bu tür hükümet erişim prosedürlerinin uzun vadede varsayılan hale gelmemesi gerektiğini düşünüyor
- çünkü kullanıcılar, geliştiriciler, şirketler, siber savunucular ve küresel iş ortakları ihtiyaç duydukları araçlara erişemeyebilir
Bu kısa vadeli prosedür, birkaç hafta içinde daha geniş bir yayına geçiş için bir yol olarak görülüyor
- yönetimle birlikte siber Executive Order çerçevesi ve gelecekteki model lansmanları için tekrarlanabilir prosedürler geliştirilirken uygulanıyor

Model yetenekleri ve değerlendirme

GPT‑5.6 Sol, OpenAI'nin en güçlü modeli olarak tanıtılıyor
Kodlama, biyoloji ve siber güvenlik değerlendirmelerinde gelişmiş ajan yetenekleri gösteriyor
Ek güvenlik ve hazırlık değerlendirmeleri GPT‑5.6 Preview system card içinde yer alıyor
Daha geniş erişim açıldığında genişletilmiş değerlendirme sonuçları paketi paylaşılacak
Akıl yürütme modu
- GPT‑5.6'ya, Sol'un daha uzun ve daha derin akıl yürütebilmesini sağlayan max reasoning effort eklendi
- Yeni ultra modu, tek ajan kapasitesinin ötesine geçerek karmaşık işleri hızlandırmak için alt ajanları kullanıyor
Kodlama ve biyoloji
- GPT‑5.6 Sol, komut satırı iş akışlarını değerlendiren Terminal‑Bench 2.1'de yeni en yüksek performansı kaydetti
- Bu benchmark, planlama, yineleme ve araç koordinasyonu gerektiren komut satırı görevlerini test ediyor
- GeneBench v1'de, GPT‑5.5'ten daha güçlü sonuçlar üretirken daha az token kullandı
- GeneBench v1, uzun kapsamlı genomik ve nicel biyoloji analizlerini değerlendiriyor
Siber güvenlik
- GPT‑5.6 Sol, OpenAI'nin siber güvenlik işleri için geliştirdiği modeller arasında en yetenekli olanı
- Zafiyet araştırması ve exploit dahil uzun süreli güvenlik görevlerinde performans-verimlilik sınırını ileri taşıyor
- ExploitBench'te Mythos Preview ile rekabetçi sonuçlar üretirken yaklaşık üçte bir oranında çıkış tokenı kullandı
- ExploitGym'de Sol, Terra ve Luna'nın tümü, akıl yürütme arttıkça siber yeteneklerde güçlü iyileşme gösterdi
- ExploitGym, UC Berkeley araştırmacılarının OpenAI ve diğer frontier laboratuvarlarla iş birliği içinde oluşturduğu bir benchmark

Siber yetenekler ve güvenlik önlemleri

GPT‑5.6 Sol, Terra ve Luna, her modelin yeteneklerine uygun OpenAI'nin en sağlam güvenlik önlemleri ile geliştirildi
Model yetenekleri arttıkça, güvenlik önlemlerinin gerçek düşmanca baskı altında da dayanması hedefleniyor
Meşru savunma amaçlı çalışmalara erişim korunmak isteniyor
- kod inceleme
- zafiyet araştırması
- yama geliştirme
- hata ayıklama
- güvenlik eğitimi
- savunmacı testler
Amaç, yasaklı saldırgan faaliyetleri daha zor, daha belirsiz ve daha tespit edilebilir hale getirirken faydalı kullanımları gereksiz yere kısıtlamamak
OpenAI'nin değerlendirmesine göre meşru savunma çalışmalarında kayda değer fayda var, yasaklı saldırgan kullanım ise anlamlı biçimde kısıtlanıyor
Cyber Critical eşiği
- GPT‑5.6 Sol, Preparedness Framework kapsamında Cyber Critical eşiğini aşmıyor
- Chromium ve Firefox ile ilgili değerlendirmelerde hata ve exploit primitive'leri belirledi
- Test koşullarında işlevsel bir full-chain exploit'i otonom olarak oluşturamadı
- Benchmark eşikleri, modelin kullanım biçimlerini veya başka araçlarla kombinasyonlarını tamamen yakalayamayabilir
- Bu belirsizlik ve genel yetenek artışı nedeniyle OpenAI, daha güçlü güvenlik önlemleriyle birlikte kademeli yayın uyguluyor

Katmanlı güvenlik yığını

Kasıtlı veya uyarlanabilir kötüye kullanımı yalnızca tek bir güvenlik önlemiyle engellemek zor
GPT‑5.6 önizlemesinin tamamında, modele göre yapılandırması değişen katmanlı güvenlik önlemleri uygulanıyor
- modele eğitilmiş korumalar
- üretim sırasında gerçek zamanlı kontroller
- hesap düzeyi sinyaller
- farklılaştırılmış erişim
- izleme
- yaptırım
- sürekli test
Model düzeyi ret ve gerçek zamanlı kontroller
- GPT‑5.6, kullanıcı niyetini gizlese veya jailbreak denese bile yasaklı siber desteği reddedecek şekilde eğitildi
- Gerçek zamanlı siber ve biyoloji kötüye kullanım sınıflandırıcıları, üretilen çıktıları değerlendiriyor
- Yüksek riskli durumlarda olası ihlal tespit edilirse üretim geçici olarak durdurulabilir
- Daha büyük akıl yürütme modelleri konuşmayı ve bağlamı inceler; çıktı yasaklı olarak değerlendirilirse kullanıcıya ulaşmadan önce beklemeye alınır
Hesap düzeyi inceleme ve farklılaştırılmış erişim
- İşaretlenen faaliyetler, ilgili konuşmalar ve risk sinyallerini içeren hesap düzeyi inceleme sürecine yol açabilir
- Tek bir konuşma yerine hesap düzeyi bağlama bakmak, meşru çift kullanımlı güvenlik çalışmaları ile kalıcı kötü niyetli davranışları ayırt etmeye yardımcı olur
- Farklılaştırılmış erişim, kritik savunma çalışmalarını korurken en hassas yeteneklerin varsayılan olarak geniş çapta açılmamasını sağlar
Önizleme sırasında kullanıcı etkisi
- Önizleme döneminde bazı istekler engellenebilir veya reddedilebilir
- Ek inceleme nedeniyle üretim duraklatılırsa bazı istekler daha uzun sürebilir
- Savunmacı ve saldırgan faaliyetlerin başlangıçta benzer görünebildiği çift kullanımlı alanlarda, meşru çalışmalara da güvenlik önlemleri müdahale edebilir
- Önizleme geri bildirimleri, gereksiz engelleme ve gecikmeleri azaltmak, güvenlik önlemlerinin bağlam yorumunu iyileştirmek ve daha geniş lansman öncesinde deneyimi rafine etmek için kullanılacak
- Kurumsal müşterilerle uzun vadeli yaklaşım da tartışılıyor
  - gizlilik dostu tespit
  - müşteri operasyonlarına yönelik güvenlik kontrolleri
  - müşteri, kullanıcı ve iş yükü riskine göre uyarlanmış erişim izinleri

Otomatik red team ile sağlamlığın iyileştirilmesi

Güvenlik önlemleri, saldırganların taktik değiştirmesi durumunda da etkisini korumalı
OpenAI, kendi modellerini kullanarak zayıf noktaları buluyor ve güvenlik önlemlerini daha hızlı geliştiriyor
Otomatik red team için 700,000 A100-equivalent GPU hours'dan fazla kaynak ayrıldı
Otomatik red team, birden fazla prompt veya bağlamda çalışabilen universal jailbreak'leri bulmaya odaklanıyor
Bu daha genel saldırılara odaklanmak, güvenlik önlemlerini sabit hata örnekleri listesinin ötesinde test etmeyi sağlıyor
Otomasyon, yalnızca insan testleriyle ele alınması zor olan daha fazla saldırı örüntüsünü keşfediyor ve başarısızlık örüntülerini daha erken bularak zafiyet keşfinden düzeltmeye kadar geçen süreyi kısaltıyor
Dış test uzmanlarıyla birlikte insan uzmanlardan oluşan red team çalışmaları da yürütüldü ve bu çalışmalar önizleme süresince devam ediyor
Yeni keşfedilen jailbreak'ler yeniden üretim, değerlendirme, önceliklendirme ve düzeltme süreçlerinden geçiyor; ayrıca gelecekte benzer hataların test edilebilmesi için sürekli değerlendirmelere ekleniyor

Sunum şekli ve fiyatlandırma

Önizleme sırasında GPT‑5.6 modelleri, API ve Codex üzerinden önce seçili güvenilir iş ortakları ve kuruluşlara sunuluyor
Ardından ChatGPT, Codex ve API kullanıcılarına daha geniş biçimde açılması planlanıyor
GPT‑5.6'nın yeni adlandırma sisteminde sayı, model neslini ifade ediyor
Sol, Terra ve Luna ise kendi hızlarında gelişebilecek sürekli yetenek katmanlarını temsil ediyor
Bu ürün ailesi, zeka, hız ve maliyet arasında kullanıcılar ve geliştiriciler için daha net seçenekler sunuyor
Token fiyatları ve caching
- GPT‑5.6 fiyatları 1 milyon token üzerinden belirleniyor
- Sol: giriş $5 / çıkış $30
- Terra: giriş $2.50 / çıkış $15
- Luna: giriş $1 / çıkış $6
- GPT‑5.6, daha öngörülebilir prompt caching getiriyor
  - açık cache breakpoint desteği
  - en az 30 dakika cache ömrü
- GPT‑5.6 ve sonraki modellerde cache yazımı, ilgili modelin cache'siz giriş ücretinin 1.25 katı olarak ücretlendiriliyor
- Cache okuması ise cache giriş ücretinde %90 indirim almaya devam ediyor
Cerebras sunumu
- GPT‑5.6 Sol, Temmuz ayında Cerebras üzerinde saniyede en fazla 750 tokens hızla sunulacak
- İlk erişim, kapasite artırımı sürecinde seçili müşterilerle sınırlı olacak

1 yorum

GN⁺ 5 시간 전

Hacker News görüşleri

Bu duyurudaki en ilginç kısım, sondan bir önceki paragrafın içine gömülmüş durumda: “Temmuz ayında Cerebras üzerinde saniyede 750 tokene kadar hızla GPT‑5.6 Sol’u kullanıma sunarak müşterilere eşi benzeri görülmemiş bir hızda frontier zekâ sağlayacağız. Erişim, kapasite genişletilene kadar bazı müşterilerle sınırlı olacak”
Frontier bir modelde 750 token/sn gerçekten çok ilginç görünüyor. Yetenek tarafında bunun basit bir sürüm artışından fazlası olup olmayacağından şüpheliyim, ama yanıtları daha hızlı alabiliyorsanız çok daha kullanışlı hâle geliyor
Örneğin bir kod tabanında belirli bir özelliği bulmaya yönelik sıkıcı işleri düşündürüyor. Şimdiden bu tür işlerde AI agent harness’i yenmek genelde zor; model 3 kat hızlanırsa kazanma şansı daha da azalır
- https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
  750 token/sn kabaca böyle hissettiriyor gibi
- Karşılaştırma için, openrouter’a göre Opus 4.8 yaklaşık 55 token/sn, hızlı mod ise yaklaşık 102 token/sn
  En büyük modelde 750 token/sn inanılmaz olurdu
- “Bir kod tabanında belirli bir özelliği bulma işinde AI agent harness’i yenmek genelde zordur” sözüne katılıyorum
  Daha bir yıl önce, bir kod tabanını anlamaya çalışırken AI ile “yarıştığımı” hatırlıyorum; şimdi ise kazanma ihtimalim yok. Akıl yürütme becerilerim mi düştü yoksa modeller mi iyileşti, bilmiyorum
- Hâlâ GPT-5.3-codex-spark kullanıyorum; bu da Cerebras çiplerinde çalışıyor
  Spark 1000 token/sn’yi aşabiliyor ama bağlam penceresi çok sınırlı olduğu için birçok iş akışına uymuyor. Bu model nispeten biraz daha yavaş olsa bile yine de harika olabilir
- Belli bir hıza ulaşıldığında sürekli/gerçek zamanlı akıl yürütme sistemlerine geçilebilecek gibi görünüyor
  Şu anki ayrık ve tur tabanlı çözümler, öğrenme biçimini bile ciddi şekilde kısıtlıyor. Sürekli ve gerçek zamanlı bir yaklaşım bu alanı kökten değiştirebilir
  Bilgi kuramı açısından bakınca, gerçek bilgi aktarım hızı hâlâ telefon hattı seviyesinde. 750 token/sn bile ancak kötü bir çevirmeli bağlantı kadar; saniyede 10 milyon tokeni hayal edin
Şöyle bir eğilim görünüyor: GPT-5 mini $0.25/$2 ve Aralık’ta kaldırılacak, GPT-5.4 mini $0.75/$4.5 ve onun yerine geçecek deniyor, GPT-5.4 nano ise $0.2/$1.25 ve benchmark’larda GPT-5 mini’den daha iyi ama gerçek senaryolarda hiç de benzer değil
Yani şu anda 5 mini kullanıyorsanız sonunda GPT-5.4 mini’ye itilmiş olacaksınız. Burada da aynı şey oluyor; “Luna” modeli $1/$6
Gerçekte istediğimiz modeli kullanmaya devam edemez miyiz? GPT 5.4 mini’ye ihtiyacım yok, GPT-5 yeterli
Zaten başlangıçta hiç bu kadar ucuz değildi; belki de bizi yavaş ve acı verici bir yükseltmeye zorlamaya çalıştıklarını fark ediyoruzdur
- Anthropic/OpenAI frontier modellerinin performansına ihtiyacınız yoksa, ortadan kaldırılamayan açık ağırlıklı modeller daha iyi olabilir
  HN’de DeepSeek V4 Flash sık sık gündeme geliyor ama Artificial Analysis’e göre Ağustos 2025 itibarıyla GPT-5 high ile başa baş gidiyor [0]
  [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
- Aynısı SaaS modellerinde de var. Fiyatlar sürekli yükseliyor ve bunu meşrulaştırmak için kimsenin istemediği özelliklerle dolu yeni sürümlere yükseltme yapmanız zorlanıyor
- Bu konuda epey zorlandım. Harika ve ucuz modellerin mümkün olduğu açık; açık kaynakta da çok var ve neo cloud sağlayıcıları bunları kâr ederek sunuyor
  Büyük laboratuvarlar fiilen ucuz modellerden vazgeçti ve bu sinir bozucu. Uygulamaların artık bunların üstüne o kadar da çok inşa edilmeme ihtimali yüksek. Örneğin biz de iş yüklerimizi Haiku/Sonnet’ten Deepseek v4’e taşıyoruz
  Sorun galiba gelir rakamlarını korumak için yüksek ücret almak zorunda olmaları ve başkasının onları yıpratmasındansa kendi gelirlerini kendilerinin yıpratmasından daha çok korkmaları
- İyi bir gözlem. Fiyat artışı eğilimi açık, ama aynı zamanda hem açık hem kapalı modeller tarafında çıkan alternatifler sayesinde yenilik ve erişilebilirlik bunu dengeliyor
  Laboratuvarların fiyatları ne kadar zorlayabileceklerini yoklaması doğal; rakiplerin de o marjları kendi büyüme fırsatlarına çevirmesi doğal. Sonuçta fiyatların daha istikrarlı hâle geleceğini düşünüyorum
- Aynı şey Anthropic Haiku ve Gemini Flash/Flash Lite için de oluyor. Hepsi fiyat yükseltiyor ve ucuz modelleri kaldırıyor
GPT-5.6 Sol’un tespit edilen hile yapma oranı, ReAct agent harness’imizde değerlendirdiğimiz herkese açık modeller arasında en yükseğiydi
Görev setimizde “hile”, modeli beklenen değerlendirme kısıtları içinde problemi çözmek yerine, değerlendirme ortamındaki hataları kötüye kullanarak ya da görevde yasak olan stratejileri benimseyerek değerlendirme performansını artıran davranış olarak tanımlıyoruz
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
- Bağlantıdaki şu alıntı gerçekten korkutucu: GPT-5.6 Sol değerlendirilirken görülen bir örnekte model, görevin gizli test seti hakkındaki bilgileri açığa çıkarmak için ara teslimatlara exploit paketlemiş; başka görevlerde ise beklenen yanıtları açıklayan gizli kaynak kodunu çıkarmış
  Bu, Alibaba’da görülen davranışla [0] yankılanıyor, ama o eğitim sırasındaydı. Bu ise neredeyse piyasaya çıkacak bir modelde yaşandı
  [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
- Modellerin hile yapması aslında oldukça mantıklı. Değerlendirme sırasında benchmark istekleri bu şirketlerin backend’lerine gönderiliyor
  Bu şirketlerin yapması gereken tek şey o istekleri loglamak ve bir sonraki model sürümünde “düzeltmek”
GPT’nin kodu en iyi yazdığını düşünüyorum. 5.6 sürümünde ne kadar iyi yazacağını düşününce ürperiyorum
Yakın zamanda neredeyse 2.000 satırlık bir kodda GPT ile doğrudan kapıştım; GPT’nin çözümü daha üstündü ve daha hızlıydı. Birden fazla GitHub kod tabanına bakarak denedim ama GPT ile kıyaslanamazdı
Bu yüzden GPT’yi kullanınca aynı anda hem korku hem heyecan duyuyorum. Bu seviyedeki kodun artık çoğunluk için ortalama hâline gelmesi fikri korkutuyor, benim de bu seviyede çalışıp öğrenebilmem ise heyecan veriyor
5.6 yükseltmesiyle kod yazma yeteneğinin ne kadar daha gelişeceğini gerçekten merak ediyorum
- Ben karşı taraftayım. Açık modeller daha iyi olmaya başladı ve GPT 5.5 sürekli berbat sonuçlar çıkarıyor
  Buna karşılık pi + glm + DeepSeek kombinasyonu çok iyi. Fable ise bambaşka türden bir canavardı. RIP
- Tamamen öznel ama, GPT 5.5 kodunun genel tavanı daha yüksek olsa bile Opus 4.8 çıktısını okumayı daha çok tercih ediyorum
  İlki inceleme açısından biraz daha rahat
- Birkaç ay önce Opus 4.6 için de aynı cümleyi defalarca duymuştum; sonra 4.7 ve 4.8 hayal kırıklığı olarak görüldü ve bugün insanlar “4.6’nın güzel günlerini” özlüyor
  Buradaki güzel günler 2026 Şubat’ındaki birkaç haftayı ifade ediyor. Bütün bunların nasıl geliştiğini izlemek çok ilginç
- Kodlama yeteneğinin ne kadar geliştiği konusunda şüpheliyim
  Duyuruda tek bir kodlama benchmark’ı bile olmaması ve buna en yakın şeyin terminal bench olması tuhaf görünüyor
- Bir örnek verebilir misin? Neyi çözmeye çalışıyordun, kendi çözümün neydi ve GPT’nin çözümünün neden daha üstün ve daha hızlı olduğunu merak ediyorum
Son yaklaşık 24 saatte GPT-5.5 kullandıysan, 5.6’ya zaten erişmiş olabilirsin
Yaptığımız harness üzerinde testler çalıştırıyorduk, dün bir anda birkaç puan sıçradı. Temel Codex benchmark’ını yeniden çalıştırdım ve GPT-5.5 temel Codex’te Terminal Bench 2.1’de yaklaşık %88 aldı
Skordan da büyük sinyal şu: 5.5’te sık sık “güvenlik” engeline takılan 3 test dün gece hiçbir uyarı olmadan başarılı olmaya başladı
- Bu tür değişiklikler gizemli bir A/B testi yüzünden değil, yalnızca altyapı değişiklikleriyle de ortaya çıkabilir
- Yayın notunu okudun mu? Herkese geniş çapta açılmış değildi
  Metinde “devletle katılım bilgisi paylaşılmış küçük bir güvenilir ortak grubu için sınırlı önizlemeyle başlayıp, ardından daha geniş yayımlama” deniyor
  Bu yorum, ortalama LLM kullanıcısının fiilen bir slot makinesi kullanıcısı gibi davrandığına çok iyi bir örnek. “Bu sıcak, bu şanslı, bu ötekinden daha iyi” diye inanıp, yalnızca kendisinin sahip olduğunu sandığı gizemli bir anlayışa dayanarak modeli durmadan değiştiriyor
  Ayrıca %80’lik bir benchmark neden önemli olsun? Bu, böyle açık benchmark’larla eğitilip bunlara anlam yükleyen insanları etkilemeye çalışmak için yapılıyor. O zaman neden saatlik $20~30’lık Upwork işlerinde geçiş oranı sadece %4? Bu benchmark’lar pratikte işe yaramaz görünüyor
  Bir de varyans diye bir şey var; birkaç testte puan arttı diye, erişimin olmadığını söyleyen bir modele eriştiğine neden inanılsın anlamıyorum
  https://labs.scale.com/leaderboard/rli
Popüler başlığa sığınarak soruyorum: şu anda Codex ve Claude kullanım limitleri nasıl?
Eskiden aynı görevi ikisine de verirdim; Codex benim 5 saatlik limitimin 20 kat daha azını kullanırdı. İkisi de aylık $20 plandaydı
Normalde Claude’u daha çok tercih ettiğim için sinir bozucuydu ama o dönem limitler yüzünden ciddi işlerde kullanılamıyordu
O zamandan beri her iki sağlayıcı da kullanım miktarını ciddi biçimde kıstı ve en az biri bunun yüzünden dava bile yedi
Şu an ikisine de abone değilim ve seçenekleri tartıyorum. GPT, Opus’tan biraz daha iyi gibi ve eskiden çok daha yüksek limit sunuyordu; bu yüzden OpenAI aboneliğine kayıyorum. Ama mevcut durumun 2~3 ay önceki hatırladıklarımla örtüşüp örtüşmediğini merak ediyorum. Çünkü iki şirket de maliyet kısmada çok agresif görünüyor
İkisini de kullanmış birinin yanıtını tercih ederim ama anekdotlara da açığım
- Codex kullanımının çok cömert olduğunu düşünüyorum. Ama ben $200 planındayım ve Claude’da da $200 planını kullanıyorum
  İstersen uyanık olduğun tüm süre boyunca xhigh ve subagent’ları neredeyse sürekli çalıştırabilirsin. 1.5x hız seçeneğini açarsan bazen 5 saatlik limite ulaşılıyor
  Claude’un hissini 5.5’e göre daha çok seviyorum ama 5.5 çok daha az tembel gibi geliyor. Tabii bu büyük ölçüde göreve ve prompt stratejine bağlıdır
- Geçen ay Claude Max 5x, Fable ve bug’lar yüzünden sık sık sıfırlama gerektirdiği için kullanım açısından oldukça cömert hissettirdi
  5.5 high ya da Opus 4.8 high kullanınca dürüst olmak gerekirse seviye oldukça benzer
  Max planda ayrı Sonnet kullanımını kaldırmış gibiler; bu da Sonnet 5 hazırlığı yüzünden olabilir. Bu sayede subagent iş akışı neredeyse sınırsız gibi hissettiriyordu, o yüzden üzücü
- Claude Code ile Cursor+Gpt55’i işte karşılaştırınca, Claude kesin olarak daha yavaş ve daha pahalı
- İlginç. Yaklaşık bir aydır Claude Code’un yaklaşık 5 kat daha fazla token kullanmaya başladığını fark ettim. Tabii bu sadece kaba bir tahmin
“Tek bir ajanının yeteneklerinin ötesine geçip karmaşık işleri hızlandırmak için alt ajanlardan yararlanan yeni ultra modunu da sunuyoruz” deniyor; bunun nasıl çalıştığını merak ediyorum
Alt ajanlar da aynı araçları kullanabiliyor mu? İstemci araç çağrılarıyla dolup taşacak mı? Aynı şeyi istemci tarafında daha fazla kontrolle yapmak mümkünken neden yeni bir “model” için ek ücret ödeniyor?
Ayrıca bu bir alt ajan ordusuysa neden Fable ve Mythos ile karşılaştırıldığını da merak ediyorum. Benzer bir harness eklense o modeller muhtemelen daha iyi benchmark sonuçları verirdi
- ClaudeCode’un ultracode’una benziyorsa yeni ya da yenilikçi bir şey değil
  Özünde ana model iş parçacığının yazdığı deterministik bir script birden fazla alt ajanı çağırıyor, her biri bolca token tüketiyor, ardından orkestratör ajan çıktıları birleştiriyor
- Claude Ultracode’a benziyorsa tek bir prompt ile 30 dakikada 3 milyon token yakar
- Başlıca harness’lerin hepsi (pi, Claude code, codex) zaten alt ajan kullanmıyor mu?
  Açıkça talimat verirsen kesinlikle kullanıyorlar, en azından pi’nin açık talimat olmadan da başlattığını gördüm
- Ben de merak ediyorum. Bu sadece biraz daha performans sıkıştırmak için değilse, bu tür kullanımın gerçek kullanım verilerini derli toplu şekilde toplamak içindir gibi geliyor
- Zaten alt ajan kullanmıyor olmaları şaşırtıcı. Belki de sadece web dağıtımının codex ile entegre edildiğini söylüyorlardır
Mythos zamanında olduğu gibi, kullanamadığım bir model beni hiç heyecanlandırmıyor
- En azından OpenAI’nin tüm sürümleri halka sunma planı var. Anthropic’te olanlardan çok daha iyi görünüyor
  “Evet, mevcut en iyi modele sahibiz. Bize güvenin. Gerçekten korkutucu”
  “Aa, öyle mi? Görebilir miyiz?”
  “Defolun. Sizin gibi sıradan insanlara daha kötü bir sürüm vereceğiz”
  “Hımm, teşekkürler?”
  “haha aslında o da değil. Mevcut yönetim korku pazarlamamıza kandı. Size daha kötü ve deli gibi pahalı bir token öğütücüsü vereceğiz. Donanım kısıtları da her hafta daha ağırlaşıyor”
  OpenAI hakkında ne denirse densin, kurumsal stratejisi çok daha sağlam görünüyor
“Terra, GPT‑5.5 ile rekabetçi performans gösteriyor ve 2 kat daha ucuz” sözü bana “Daha düşük bir ürünümüz var ama pazarlamayla bunu gizlemeye çalışıyoruz” gibi geliyor
Ayrıca “bugüne kadarki en sağlam güvenlik yığını, yüksek riskli faaliyetler, hassas siber talepler ve tekrarlanan kötüye kullanıma karşı güçlendirilmiş korumalar, haftalar süren zayıflık arama, stres testi ve gerçek dünya saldırılarına karşı sertleştirme” gibi ifadeler benim için en iyi ihtimalle değersiz, çoğu zaman da muhtemelen zararlı. Çünkü redler artacak ya da kullanım faydası düşecek
Sağlayıcılar neden sürekli güvenlik yığınını öne çıkarıyor? Bunu gerçekten isteyen müşteriler var mı? Destek amaçlı ChatGPT chatbot kullanıcıları dışında aklıma kimse gelmiyor
- “Terra, GPT‑5.5 ile rekabetçi performans gösteriyor ve 2 kat daha ucuz” ifadesini, bugünün ana hat performansını çok daha düşük bir fiyata alacağımız anlamında okuyorum
- Terra’nın amacı en iyi modelden daha ucuz ama yine de oldukça iyi olmak. Elbette zeka açısından daha zayıf
- O mesaj açıkça hükümeti hedefliyor. Diğer başlıklara bakmak yeterli
- Muhtemelen yatırımcılara yönelik bir mesaj da olabilir

GPT‑5.6 Sol önizlemesi: yeni nesil model

GPT‑5.6 serisi önizleme kapsamı

Sınırlı yayın ve hükümetle istişare

Model yetenekleri ve değerlendirme

Akıl yürütme modu

Kodlama ve biyoloji

Siber güvenlik

Siber yetenekler ve güvenlik önlemleri

Cyber Critical eşiği

Katmanlı güvenlik yığını

Model düzeyi ret ve gerçek zamanlı kontroller

Hesap düzeyi inceleme ve farklılaştırılmış erişim

Önizleme sırasında kullanıcı etkisi

Otomatik red team ile sağlamlığın iyileştirilmesi

Sunum şekli ve fiyatlandırma

Token fiyatları ve caching

Cerebras sunumu

İlgili okumalar

1 yorum

Hacker News görüşleri