Claude Sonnet 4.5

(anthropic.com)

4 puan yazan GN⁺ 2025-09-30 | 1 yorum | WhatsApp'ta paylaş

Claude Sonnet 4.5, kodlama, akıl yürütme ve matematik yeteneklerinde en üst düzey performans sunan en yeni yapay zeka modelidir
Güncellenen Claude Code, checkpoint, iyileştirilmiş terminal arayüzü, VS Code uzantısı ve bellek yönetimi özellikleri eklenerek karmaşık işleri uzun süre sürdürebilir hale gelmiştir
Yeni tanıtılan Claude Agent SDK, ajan geliştirme için temel altyapıyı sunarak farklı problem çözme araçlarının doğrudan oluşturulmasını mümkün kılar
SWE-bench, OSWorld gibi benchmark'larda rakip modelleri açık farkla geride bırakarak sayısal akıl yürütme, mantık yürütme ve alan uyumu gibi konulardaki gücünü kanıtlar
Güvenlik tarafında da en iyi alignment seviyesine sahip model olarak değerlendirilir; prompt injection savunması ve riskli içerik engelleme performansı iyileştirilmiştir

Claude Sonnet 4.5 Genel Bakış

Claude Sonnet 4.5, mevcut en iyi kodlama modeli olup karmaşık ajan kurma ve bilgisayar kullanımı alanlarında en güçlü performansı gösterir
- Yazılım, elektronik tablolar ve çeşitli araçlar dahil kullandığımız tüm modern çalışma ortamlarında kod temel bir unsurdur
Akıl yürütme ve matematiksel problem çözme yetenekleri de önceki modellere kıyasla belirgin biçimde gelişmiş olup, çeşitli uzmanlık alanlarında kullanım değerini artırır
Mevcut Sonnet 4 ile aynı fiyatla sunulur (milyon token başına $3 / $15)

Başlıca ürün güncellemeleri

Claude Code
- Checkpoint özelliğiyle çalışma sırasında ara kayıt ve geri alma desteği
- Terminal arayüzü iyileştirildi, yerel VS Code uzantısı yayımlandı
- Context editing ve bellek araçları eklendi; uzun süreli ve karmaşık işlerin yürütülmesi destekleniyor
Claude Apps
- Kod çalıştırma ve dosya oluşturmayı (elektronik tablo, slayt, belge) doğrudan sohbet içinde destekler
Claude for Chrome
- Max kullanıcıları için uzantı sunulur, tarayıcı içi iş otomasyonunu destekler

Claude Agent SDK

Anthropic'in içeride Claude Code'u geliştirirken kullandığı ajan altyapısı dış geliştiricilere açıldı
Uzun vadeli bellek yönetimi, izin kontrolü ve çoklu alt ajan koordinasyonu gibi zor sorunları çözen bir temel sunar
Kodlama dışında da çeşitli ajanların geliştirilmesinde kullanılabilir

Performans ve benchmark'lar

SWE-bench Verified üzerinde en yüksek performansı kaydetti; uzun süreli çok adımlı kodlama görevlerini 30 saatten fazla sürdürebilir
OSWorld benchmark'ında %61,4 elde etti (önceki Sonnet 4: %42,2)
Akıl yürütme, matematik ve çok dilli değerlendirmelerde (MMMLU) yetenekleri de büyük ölçüde gelişti; finans, hukuk, tıp ve STEM uzmanlarının değerlendirmelerinde de yüksek başarı gösterdi
Müşteri geri bildirimleriyle uzun süreli işler, karmaşık kod tabanlarını anlama, hızlı ve doğru kod üretimi gibi gerçek production kullanımına uygunluğu doğrulandı

Müşteri örnekleri

Cursor: karmaşık problem çözümünde en yüksek performans doğrulandı
GitHub Copilot: çok adımlı akıl yürütme ve kod anlama yeteneği gelişti
Güvenlik alanı: zafiyet müdahale süresi %44 kısaldı, doğruluk %25 arttı
Canva, Figma: büyük ölçekli kod tabanları ve prototiplemede çarpıcı verimlilik artışı
Devin: planlama performansı %18 arttı, kod test etme ve çalıştırma yetenekleri güçlendi

Güvenlik ve alignment

Sonnet 4.5, Anthropic'in duyurduğu modeller arasında en yüksek alignment seviyesine sahiptir
Sycophancy, aldatma, güç arayışı ve sanrıları teşvik etme gibi istenmeyen davranışları azaltmak için güvenlik odaklı pekiştirmeli öğrenme uygulandı
Prompt injection saldırılarına karşı savunmada önemli ilerleme sağlandı; güvenlik değerlendirmelerine mekanizma yorumlama teknikleri de eklendi
Otomatik davranış denetim sistemiyle kötüye kullanım olasılığı için otomatik puanlama yapılır ve yüksek güvenlik standartları karşılanır
AI Safety Level 3 (ASL-3) korumaları altında yayımlandı; tehlikeli girdi ve çıktılar için filtreleme uygulanır (ör. kimya, biyoloji, radyasyon ve nükleer riskler)

Araştırma ön izlemesi

Claude Sonnet 4.5 ile birlikte "Imagine with Claude" adlı geçici bir araştırma ön izlemesi sunuldu
Önceden tanımlanmış kod veya özellikler olmadan, kullanıcının taleplerine gerçek zamanlı tepki verip uyum sağlayarak anında yazılım üretimi sergiler
Max aboneleri için 5 gün boyunca denenebilir

Ek bilgiler ve geçiş

Mevcut Claude ürünleri ve API kullanıcıları için Sonnet 4.5 hemen kullanılabilir; fiyat Sonnet 4 ile aynıdır (milyon token başına $3/$15)
Kodlama, dosya oluşturma, kod çalıştırma gibi yeni özellikler tüm ücretli planlarda sunulur
Ayrıntılı teknik detaylar ve değerlendirme sonuçları için System Card, Claude Model page, resmî dokümantasyon incelenebilir
Claude Agent SDK ile ajan geliştirme, siber güvenlik, etkili context engineering bağlantılarına da bakılabilir

Sonuç ve öneri

Claude Sonnet 4.5, API, uygulama ve Claude Code dahil tüm kullanım ortamlarında performansı artırılmış, doğrudan ikame edilebilen bir modeldir
Kodlama, ajan geliştirme ve bilgisayar kullanımında dünya çapında performans, uygulanabilirlik ve tutarlılığı bir arada sunar
Güçlü güvenlik politikaları ve geniş geliştirici araç desteğiyle geliştiricilerin ve BT organizasyonlarının verimlilik ile inovasyonunu hızlandıracaktır
Aynı fiyata daha güçlü yetenekler sunduğu için yükseltme önerilir

1 yorum

GN⁺ 2025-09-30

Hacker News görüşü

Bu hafta sonu önizleme sürümüne erişebildim; ilgili notları burada toparladım
Bana göre oldukça etkileyiciydi ve kapsamlı bir karşılaştırmadan ziyade genel hissiyat olarak GPT-5-Codex’ten biraz daha iyi performans gösterdi
Özellikle claude.ai'nin yeni Python/Node.js kod yorumlayıcı modunda parladığını düşünüyorum
Aşağıdaki gibi bir prompt kullanmanızı öneririm

Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

Karmaşık veritabanı refactor işlemlerini de adım adım iyi yönetti; ayrıntıları blogda yazdım

@simonw ve LLM benchmark’larıyla ilgilenenlerden bir ricam var
Görevin tamamlanmasının ne kadar sürdüğünü mutlaka paylaşsalar iyi olur
Bu yazı “claude.ai üzerinde doğrudan çalışıyor” şeklinde bir deneyim aktarımı ama sonucun ne zaman alındığına dair zaman damgası bilgisi yok
Gerçek LLM kodlama liderlik tablolarında da yürütme süresi bilgisi hiç olmaması üzücü
Model ve platforma göre iş tamamlama süresi büyük fark yaratıyor; tekrarlı denemeler/reboot, prompt iyileştirme gibi durumlarda çıkarım hızı, token tüketimi, araç verimliliği, maliyet ve model zekâsı birlikte etkili oluyor
Özellikle Grok Code Fast ve Cerebras Code gibi modeller, en yüksek performansta olmasalar bile 10 katı aşan çıkarım hızlarıyla daha fazla iş yapılmasını sağlıyor; hızlı modeller gerçekten avantajlı
Bakılabilecek benchmark’lar: swebench, tbench leaderboard, gosuevals agents
Denedim ama benim ortamımda çalışmıyor
Anladığım kadarıyla bu, LLM CLI aracını kurmaya yönelik komutlar; -e seçeneği editable kurulum yapıyor, [test] de test bağımlılıklarını yüklüyor
Bende bulunan araç shell komutlarını (pip, pytest) ya da git clone, Python çalıştırma gibi şeyleri desteklemiyor
Tarayıcı ortamında yalnızca JavaScript çalıştırabiliyor, shell seviyesinde komut yürütemiyor
Neyi beklediğinizi merak ettim; test kurulumunu anlamamı mı istiyordunuz, yoksa özelliğin kendisini mi bekliyordunuz?
“zip dosyası oluştur” prompt kullanım örneğiyle ilgilenenler için
Gist’i doğrudan açmaya vakti olmayan çok kişi olacaktır; gerçekten düzgün çalıştı mı, çıktı hakkında ek izlenimleriniz varsa duymak isterim
Claude Sonnet 4.5 hâlâ her soruya “kesinlikle haklısınız!” tarzında mı yanıt veriyor, yoksa artık gerçekten bir programcı gibi mi konuşuyor, merak ediyorum
Neden erken önizleme erişimi alabildiğinizi merak ediyorum
Gerçek deneyimimi paylaşayım
Yaklaşık 200 bin LoC’lik büyük bir web uygulamasında aynı prompt’u Sonnet 4.5’e (Claude Code) ve GPT-5-Codex’e uyguladım
Gereksinim şuydu: “'Go to Conversation' veya 'Go to Report' içinde başlık girildiğinde standart öğelerle eşleşmezse 2 saniye sonra fuzzy search çalıştır”
Sonnet 4.5 yaklaşık 3 dakikada sonuç verdi ama kod dağınıktı, mevcut auth yapısını da yeniden kullanamadı ve sıfırdan server-side auth oluşturmaya çalıştı
Sorunu işaret edip yeniden prompt vermeme rağmen büyük bir iyileşme olmadı; zorunlu gereksinim olan test kodları da yazılmadı
Buna karşılık GPT-5-Codex yaklaşık 20 dakika sürdü ama hata yönetimi ve çeşitli edge case’leri titizlikle ele aldı; ayrıca özel olarak istenmemesine rağmen test kodlarını da yazdı
API de sorunsuz çalıştı ve genel uygulama kalitesi açısından Senior geliştirici seviyesinde bir çıktı sundu
3 dakikada çıkan “hızlı ama kirli” bir implementasyon istemediğim için hiç düşünmeden 20 dakikayı seçerim
Sonnet’in beklenenden hızlı sonuç vermesi şaşırtıcıydı ama düzgün kalite ve testsiz bir implementasyonun anlamı yoktu
- Eleştiri gibi duyulmasından çekiniyorum ama böyle basit bir cümle biçimindeki prompt’la başlanırsa sonucun biraz rastgele olması kaçınılmaz diye düşünüyorum
  Mantıksal gruplama ve ayrıntılı koşulları daha net kurmak önemli; örnek prompt da neredeyse run-on sentence gibi
  Karmaşık ya da kritik işlerde prompt’un 5-20 kat daha uzun ve ayrıntılı olması gerektiğini düşünüyorum
  Girdi structured olduğunda ve codebase içinde düzenli kalıplar bulunduğunda yapay zeka çok daha iyi sonuç veriyor
  Gerçek hayatta bir Junior geliştiriciye ya da ekibe tek cümlelik kısa bir gereksinim verip ayrıntı anlatmazsanız, istenen sonucun çıkmaması anlaşılır olur
  Başlangıç prompt’unu hazırlamaya birkaç dakika daha ayırırsanız tatmin edici sonuç alma ihtimali de yükselir
- ChatGPT Pro ücretli planını mı kullanıyorsunuz; Codex CLI da buna dahil mi, merak ediyorum
  Claude Code için Max planı nedeniyle Sonnet/Opus kullanıyorum ama ChatGPT Pro’da da Codex kullanılabiliyorsa geçmeyi düşünebilirim
- Bende de aynı deneyim var
  Geçen hafta Codex ile eksiksiz bir C++20 XPath 1.0 parser’ını başarıyla geliştirdim; şimdi de XPath 2.0 desteği üzerinde çalışıyorum
  Codex sürekli olağanüstü sonuçlar veriyor; cloud sürümünü kullanmak zorunda olmam dışında (local sürüm bug’lar yüzünden zor) ciddi bir sorun yaşamadım
  Sonnet ise yüksek karmaşıklıktaki işlerde sürekli takılıyor ve 4.5 sürümünde de belirgin bir ilerleme hissetmiyorum
  Özellikle date-time işlemlerinde Claude neredeyse pes ederken Codex bunu kusursuz şekilde hallediyor
  Açıkçası Anthropic’e karşı olumlu bakıyordum ama şu ana kadar OpenAI’nin çok daha ileride olduğunu düşünüyorum
  Codex ile rekabet edebilmesi için Claude’un önemli bir atılım yapması gerekiyor; ayrıca fiyatı da pahalı ve hizmet kalitesi sorunları nedeniyle kullanıcı kaybı ciddi görünüyor
- Benim beklentimle uyumlu
  Codex daha çok vibe coding aracı gibi, Claude Code ise ai assisted development tarafına odaklanmış görünüyor
  Ben yine de Claude’u daha çok seviyorum
  Codex bağımsız çalışmada iyi ama yön değiştiğinde (örneğin çok basit bir dosya düzenlemesini bile gereksiz yere Python script’iyle yapmaya çalışması gibi) tuhaf şekilde inatçı davranabiliyor ve güncel bilgiyi yansıtmakta da zayıf kalıyor
  Açıklama istediğinizde de bağlam sunmak yerine sadece icraata geçme eğiliminde
  Yetki yönetimi sorunu da sürüyor. Codex’in sandbox’ı etkileyici ama yanlışlıkla commit atmasından endişe ediyorum; tercihen sadece düzenleme yapmasını isterim
  Codex’i MCP sunucusu olarak da kullanabilirsiniz ama ben kişisel olarak Claude’u işbirlikçi planlayıcı olarak kullanıp planı Codex’le çıkarıp, sonra Claude ve kendi tarzımla uyumlu şekilde ortak çalışmayı tercih ediyorum
- Prompt’a ultrathink ekleyip müzik açarak deneme yapmanızı da öneririm
  Referans: ultrathink ile ilgili Reddit bağlantısı
Son modellerin yeteneklerini görünce moralim bozuluyor
Yıllardır emek vererek geliştirdiğim temiz kod yazma konusundaki ince beceriler sanki anlamsız ayrıntılara dönüşüyor gibi
Eskiden özsel gördüğüm şeyler artık prompt’un “uygulama detayı” haline geliyor
Sanki yeteneklerim giderek otomasyonla yer değiştiriyormuş gibi hissediyorum
- O ayrıntılı ustalıkların önemi zaten en baştan da biraz belirsizdi; gerçek beceri sonuçta yazılımdan para kazanma sürecinin kendisi
  Yapay zeka sayesinde daha da fazla yazılım üretilecek ve bunların uzmanlar tarafından yönetilmesi gerekecek
- Ben de birkaç aydır yapay zeka odaklı bir rolde yoğun çalışıyorum ve ilk 4 hafta boyunca aynı kriz hissini yaşadım
  Özellikle 25 yıllık geliştirme birikimimin anlamsızlaştığını düşünmek kafamı karıştırdı
  Biraz daha kabullenip uyum sağladığınızda kendinizi çok daha iyi hissedeceksiniz
  Kodlama becerilerimden daha fazlası olduğumu hatırlamanızı isterim
- Eskiden başkalarının otomasyonla yer değiştirmesini memnuniyetle karşılamış olabilirsiniz; şimdi sıra size gelmiş oldu
  Ekonomiyi dinamik yapan “yaratıcı yıkım” tam da budur
- Eskiden ben de öyle düşünüyordum ama son dönemde gerçekten kullanınca pek pratik olmadığı sonucuna vardım
  Özellikle deneyimsiz kişiler vibe coding’e yaslandığında ortaya anlamsız sonuçlar çıkıyor; biraz karmaşık işlerde de ciddi hata/yanlışlar çok sık yaşanıyor
  Frontend otomasyonu da tatmin edici değil; örneğin çok basit işler için bile gereğinden uzun kod üretiyor
  Sonuçta temel react/nextjs frontend’i ve popüler site kopyalarıyla sınırlı kalıyor; sıra dışı gereksinimler veya ince tasarım kararlarında zorlanıyor diye deneyimledim
- Gerçekte vibe coding araçları üretkenliği o kadar da artırmıyor
  Özetle sistemin (kod/infrastructure vb.) bakım sorumluluğu hâlâ insanda ve insanların sistemin yapısını ve çalışma mantığını kavrama süreci asla otomatikleştirilemez
  Sonuçta uzman bakış açısına sahip geliştiriciler daha da kıymetli, daha da nadir kişiler haline gelecek
Basit bir kod değiştirme görevini Sonnet 4 ve Opus 4.1’e verdim, ikisi de başarısız oldu
Yeni başlayan birinin bile yapabileceği bir dönüştürmeydi ama modellerin benchmark puanlarının peşinden koşarken gerçek kullanım performansını kaçırmasından endişe ediyorum
Devam prompt’u olarak (“tam olarak istediğimi yap”) dediğimde Sonnet başardı, Opus ise sonsuz döngüye girdi
- Benchmark takıntısının gerçek performansa zarar verebileceği uzun süredir kaygı konusuydu
  Claude 3.7’den 4’e geçerken benim hissedilen performansım düşerken benchmark’lar ciddi şekilde yükseldi
  Bununla birlikte benchmark’ların yapay zekâdaki ilerlemeyi takip etmekte geride kalan bir ödev olduğunu da anlıyorum
- Esasen “benchmark çalıştır, en yüksek skoru al → gerçekte performans düşsün → birkaç hafta sonra daha iyi modeli çıkar ve tekrar et” şeklinde bir döngü yaşandığını düşünüyorum
- Modeller aynı veri kaynaklarına (internet, github, kitaplar vb.) bakıp standart testlere optimize oluyorsa, skor dışında nasıl bir farklılık ya da özgün değer kaldığını bilmiyorum
- Artık LLM’lerin yanlış yaptığı örnekleri topladığımız bir topluluk veritabanı olsa iyi olur diye düşünüyorum; bende de böyle örneklerden çok var
- Basit lint hatalarını düzeltme gibi işleri doğrudan kendim yapıp geçmeyi daha mantıklı buluyorum
  Böyle basit bir işten anlam çıkarmaya çalışmak yerine, yapay zekânın çok daha karmaşık problemlerde mükemmel sonuç verdiği yerlerde değer aramak lazım
Grafikte Sonnet 4’ün zaten SWE verified benchmark’ında GPT-5-codex’in önünde olduğu görünüyor ama benim gerçek deneyimimde karmaşık problemlerde GPT-5-codex açık ara daha iyi
- GPT-5 bana beyzbolda home run vurabilen ama dış saha temel becerileri zayıf takım arkadaşı gibi geliyor
  Diğer agent’larla işbirliği yaparken de sık sık drama çıkarıyor; yakın zamanda claude code’a geçeceğimi söyleyince git reset --hard konusunda ısrar etmesi gibi öngörülemez davranışlar sergiliyor
  Buna karşılık gemini ve claude harika ekip arkadaşları
  Tüm bu tablo bana GPT-5’in bilinçli olarak böyle tasarlanmadığını düşündürüyor; OpenAI içinde moralin hayli bozulmuş olmasının sonucu gibi geliyor
- Benim kullanımımda 5-codex token’ları çok hızlı tüketti ve agents.md yönergelerine de Claude kadar iyi uymadı
  Özellikle önemsiz komutlar için bile aşırı kapsamlı bash veya python script’leri yazmaya çalışıyor
- Bende tam tersi; GPT-5-codex çok yavaş ve çıktısı da sıradan
  Zorunlu olsam yapay zekâ kullanmaktan tamamen vazgeçerim
- Model performansının mutlak bir standardı olduğunu düşünmüyorum
  Örneğin Claude-Opus seçseniz bile bazen ultra ucuz modellerden daha kötü yanıtlar alabiliyorsunuz
  Performans oynaklığı yüksek; muhtemelen trafik durumuna göre sunucu kaynakları değişiyor
  Anthropic de bir dönem deneylerin etkisiyle performans düşüşü yaşandığını resmen kabul etmişti
  GPT’nin de yoğun saatlerde data center kapasitesi nedeniyle performans kaybı yaşaması bana olası geliyor
- Anthropic modelleri sanki vibe-coding’e göre tune edilmiş gibi
  Basit Python/TypeScript için iyiler ama bilimsel/karmaşık kod ve büyük codebase’lerde zayıflar
  Yeni Sonnet’ten de büyük bir değişim beklemiyorum
“30 saatten fazla odak kaybetmeden karmaşık çok adımlı görevler yürütme” şeklindeki tanıtım ifadesi özellikle ilgimi çekiyor
The Verge gibi kaynaklara göre gerçekten 11.000 satır kod kullanarak 30 saat boyunca durmaksızın bir Slack klonu ürettiği söyleniyor
Bir LLM’yi 30 saat gözetimsiz bıraktığınızda ortaya çıkacak çıktının kalitesi konusunda şüpheliyim
İlgili haber
- 30 saat kesintisiz çalışma, LLM’yi tek başına bırakınca gerçekleşebilecek bir aşama değil
  Harici araç entegrasyonu, context yönetimi gibi ortam hazırlıkları şart; hatta çoklu agent sistemi kurulumu da gerektiriyor
  Bunun mümkün olması için çok ciddi altyapı ve yapılandırma emeği gerekiyor
- “30 saat gözetimsiz çalışma” ifadesi başlı başına fazla muğlak, somutluk taşımıyor
  Örneğin saatte 1 token işliyorsa bir satırlık cümle üretmekten öteye geçemeyebilir
- Model context yönetim araçlarının gerçekten kullanılıp kullanılmadığını, 200 bin ila 1 milyon token’lık prompt’ların nasıl işletildiğini ve bunun teknik ayrıntılarını merak ediyorum
Az önce basit bir issue üzerinde deneme yaptım; önceki modeller gibi Sonnet 4.5 de tavşan deliğine düşer gibi problemi gereğinden fazla karmaşıklaştırıyor
Çoğunlukla deneme-yanılma tarzında ilerliyor ve sürekli “şimdi çözülmüş olmalı” türü geri bildirim veriyor
Örneğin GH Actions pipeline’da source file olmadığı için build system’in algılanmadığı bir hata vardı; Sonnet 4.5 çarpık çözümleri tekrar tekrar denedi (sahte JSON dosyası oluşturmak, var olmayan workflow parametreleri eklemek gibi)
Oysa yapılması gereken yalnızca step’i override edip basitçe “Hello world” yazdırmaktı
Yapay zekânın bu kadar basit “kutunun dışından düşünme” yaklaşımında neden zayıf kaldığını merak ediyorum
Sanki 170 IQ’lu bir dâhi ama toplu taşımaya binemiyor gibi
Gemini, Claude ve OpenAI’nin hepsine ücretli üyeyim ama son dönemde ChatGPT’nin belirgin şekilde öne geçtiği sonucuna vardım
Yanıtları daha kısa, bilgilendiriciliği daha yüksek ve Claude 4.5’i test ettiğimde de büyük bir iyileşme hissetmedim
- Bende de aynı şekilde üçüne de abonelik var
  Karmaşık durum analizi için ChatGPT en iyisi ama kod yazma konusunda Claude daha başarılı
  ChatGPT ile tasarım ve problem çözümü yapıp, çıkan cevabı Claude veya Gemini’ye vererek implementasyonu ilerletiyorum
  Gemini ise her iki alanda da ortalamanın üstünde
- Genel olarak ChatGPT biraz daha iyi ama Gemini de AI Studio kullanımı, ayar optimizasyonu ve system prompt düzenlemeleriyle gerçek kullanım bağlamında en iyi seçenek olabilir
  Örneğin nano banana SOTA olabilir ama Qwen-Edit daha az sansürlü olduğu için gerçek kullanımda daha elverişli geliyor
  Yönettiğim yerelleştirilmiş e-ticaret hizmetinde nano banana kadın görselleri üretirken kısıtlamaya takıldığı için kullanamıyorum, Qwen-Edit ise sorunsuz çalışıyor
- Ben de hem Claude Max hem de ChatGPT Codex hesabına abonelik ödüyorum
  Eskiden Claude hayranıydım ama son zamanlarda neredeyse yalnızca codex kullanıyorum
  Takıldığımda sadece basit işleri Claude’a veriyorum ya da ikisini aynı anda test ediyorum; Sonnet/Opus kullanan Claude Code, Codex’in belirgin şekilde gerisinde kalıyor
- Burada gerçekten codex’i mi kastettiğinizi netleştirseniz iyi olur
- Grok nasıl, yetişebiliyor mu diye merak ediyorum
Claude’u henüz kullanamadım ama ben yapay zekâyı siyasi metinleri düzeltmek gibi çeşitli işlerde kullanıyorum
Belirli hassas konularda (ör. Avusturya’daki 12 yaşındaki çocuğa cinsel saldırı vakası) ChatGPT’nin guardrail nedeniyle tamamen durduğunu gördüm
Gerçek bağlam ne olursa olsun yalnızca sex + kid kelimelerini algılayıp topyekûn engellemesi bana makul gelmiyor
Bu, kelime işlemcinin konuyu sansürleyip yazmayı tamamen engellemesi gibi; böyle olunca araç olma işlevini yerine getirmiyor diye düşünüyorum
- Gerçekte bu tür başlıklarda meşru konuşmalara kıyasla kabul edilemez içerik oranı çok yüksek olduğu için, çoğu hizmet sağlayıcı açısından engelleme mantıklı görünüyor
  Örneğin geliştirdiğim soy/köken takibi yapan hayvancılık uygulamasında sadece breeding/breeders kelimeleri geçti diye engellenmek gibi can sıkıcı durumlar yaşadım
- “Hizmet” bir araç değildir diye düşünüyorum
  Gerçek bir araç istiyorsanız çözüm, LLM’yi yerelde kendiniz çalıştırmak
- Sonunda en az guardrail’e sahip yapay zekânın pazarı ele geçireceğini düşünüyorum
  Şu an frontier modeller arasında Grok en az kısıtlayıcı olanı gibi duruyor ama onun da gelişmesi gereken tarafları var
- Benzer şekilde, kızım için doğum günü kuponu görseli üretmeye çalıştığımda ChatGPT/DallE ile geçirdiğim sürenin dörtte üçü çeşitli içerik politikalarını aşmaya uğraşmakla geçti
- Benim sınırlı deneyimimde de Claude “tartışmalı” konularda diyaloğu çok daha hızlı ve sert biçimde kesiyor
System Initiative ile birlikte hızlı bir test yaptım
Altyapıdaki 503 hatası elle çözülse 2 saatten fazla sürecekti; birlikte kullanınca 15 dakikada çözdüm
Başka kullanım örneklerini blogda derledim
System Initiative resmi sitesi
Deneyim yazısı blogu

Claude Sonnet 4.5

Claude Sonnet 4.5 Genel Bakış

Başlıca ürün güncellemeleri

Claude Agent SDK

Performans ve benchmark'lar

Müşteri örnekleri

Güvenlik ve alignment

Araştırma ön izlemesi

Ek bilgiler ve geçiş

Sonuç ve öneri

İlgili okumalar

1 yorum

Hacker News görüşü