- Claude Sonnet 4.5, kodlama, akıl yürütme ve matematik yeteneklerinde en üst düzey performans sunan en yeni yapay zeka modelidir
- Güncellenen Claude Code, checkpoint, iyileştirilmiş terminal arayüzü, VS Code uzantısı ve bellek yönetimi özellikleri eklenerek karmaşık işleri uzun süre sürdürebilir hale gelmiştir
- Yeni tanıtılan Claude Agent SDK, ajan geliştirme için temel altyapıyı sunarak farklı problem çözme araçlarının doğrudan oluşturulmasını mümkün kılar
- SWE-bench, OSWorld gibi benchmark'larda rakip modelleri açık farkla geride bırakarak sayısal akıl yürütme, mantık yürütme ve alan uyumu gibi konulardaki gücünü kanıtlar
- Güvenlik tarafında da en iyi alignment seviyesine sahip model olarak değerlendirilir; prompt injection savunması ve riskli içerik engelleme performansı iyileştirilmiştir
Claude Sonnet 4.5 Genel Bakış
- Claude Sonnet 4.5, mevcut en iyi kodlama modeli olup karmaşık ajan kurma ve bilgisayar kullanımı alanlarında en güçlü performansı gösterir
- Yazılım, elektronik tablolar ve çeşitli araçlar dahil kullandığımız tüm modern çalışma ortamlarında kod temel bir unsurdur
- Akıl yürütme ve matematiksel problem çözme yetenekleri de önceki modellere kıyasla belirgin biçimde gelişmiş olup, çeşitli uzmanlık alanlarında kullanım değerini artırır
- Mevcut Sonnet 4 ile aynı fiyatla sunulur (milyon token başına $3 / $15)
Başlıca ürün güncellemeleri
- Claude Code
- Checkpoint özelliğiyle çalışma sırasında ara kayıt ve geri alma desteği
- Terminal arayüzü iyileştirildi, yerel VS Code uzantısı yayımlandı
- Context editing ve bellek araçları eklendi; uzun süreli ve karmaşık işlerin yürütülmesi destekleniyor
- Claude Apps
- Kod çalıştırma ve dosya oluşturmayı (elektronik tablo, slayt, belge) doğrudan sohbet içinde destekler
- Claude for Chrome
- Max kullanıcıları için uzantı sunulur, tarayıcı içi iş otomasyonunu destekler
Claude Agent SDK
- Anthropic'in içeride Claude Code'u geliştirirken kullandığı ajan altyapısı dış geliştiricilere açıldı
- Uzun vadeli bellek yönetimi, izin kontrolü ve çoklu alt ajan koordinasyonu gibi zor sorunları çözen bir temel sunar
- Kodlama dışında da çeşitli ajanların geliştirilmesinde kullanılabilir
Performans ve benchmark'lar
- SWE-bench Verified üzerinde en yüksek performansı kaydetti; uzun süreli çok adımlı kodlama görevlerini 30 saatten fazla sürdürebilir
- OSWorld benchmark'ında %61,4 elde etti (önceki Sonnet 4: %42,2)
- Akıl yürütme, matematik ve çok dilli değerlendirmelerde (MMMLU) yetenekleri de büyük ölçüde gelişti; finans, hukuk, tıp ve STEM uzmanlarının değerlendirmelerinde de yüksek başarı gösterdi
- Müşteri geri bildirimleriyle uzun süreli işler, karmaşık kod tabanlarını anlama, hızlı ve doğru kod üretimi gibi gerçek production kullanımına uygunluğu doğrulandı
Müşteri örnekleri
- Cursor: karmaşık problem çözümünde en yüksek performans doğrulandı
- GitHub Copilot: çok adımlı akıl yürütme ve kod anlama yeteneği gelişti
- Güvenlik alanı: zafiyet müdahale süresi %44 kısaldı, doğruluk %25 arttı
- Canva, Figma: büyük ölçekli kod tabanları ve prototiplemede çarpıcı verimlilik artışı
- Devin: planlama performansı %18 arttı, kod test etme ve çalıştırma yetenekleri güçlendi
Güvenlik ve alignment
- Sonnet 4.5, Anthropic'in duyurduğu modeller arasında en yüksek alignment seviyesine sahiptir
- Sycophancy, aldatma, güç arayışı ve sanrıları teşvik etme gibi istenmeyen davranışları azaltmak için güvenlik odaklı pekiştirmeli öğrenme uygulandı
- Prompt injection saldırılarına karşı savunmada önemli ilerleme sağlandı; güvenlik değerlendirmelerine mekanizma yorumlama teknikleri de eklendi
- Otomatik davranış denetim sistemiyle kötüye kullanım olasılığı için otomatik puanlama yapılır ve yüksek güvenlik standartları karşılanır
- AI Safety Level 3 (ASL-3) korumaları altında yayımlandı; tehlikeli girdi ve çıktılar için filtreleme uygulanır (ör. kimya, biyoloji, radyasyon ve nükleer riskler)
Araştırma ön izlemesi
- Claude Sonnet 4.5 ile birlikte "Imagine with Claude" adlı geçici bir araştırma ön izlemesi sunuldu
- Önceden tanımlanmış kod veya özellikler olmadan, kullanıcının taleplerine gerçek zamanlı tepki verip uyum sağlayarak anında yazılım üretimi sergiler
- Max aboneleri için 5 gün boyunca denenebilir
Ek bilgiler ve geçiş
Sonuç ve öneri
- Claude Sonnet 4.5, API, uygulama ve Claude Code dahil tüm kullanım ortamlarında performansı artırılmış, doğrudan ikame edilebilen bir modeldir
- Kodlama, ajan geliştirme ve bilgisayar kullanımında dünya çapında performans, uygulanabilirlik ve tutarlılığı bir arada sunar
- Güçlü güvenlik politikaları ve geniş geliştirici araç desteğiyle geliştiricilerin ve BT organizasyonlarının verimlilik ile inovasyonunu hızlandıracaktır
- Aynı fiyata daha güçlü yetenekler sunduğu için yükseltme önerilir
1 yorum
Hacker News görüşü
Bana göre oldukça etkileyiciydi ve kapsamlı bir karşılaştırmadan ziyade genel hissiyat olarak GPT-5-Codex’ten biraz daha iyi performans gösterdi
Özellikle claude.ai'nin yeni Python/Node.js kod yorumlayıcı modunda parladığını düşünüyorum
Aşağıdaki gibi bir prompt kullanmanızı öneririm
Karmaşık veritabanı refactor işlemlerini de adım adım iyi yönetti; ayrıntıları blogda yazdım
@simonw ve LLM benchmark’larıyla ilgilenenlerden bir ricam var
Görevin tamamlanmasının ne kadar sürdüğünü mutlaka paylaşsalar iyi olur
Bu yazı “claude.ai üzerinde doğrudan çalışıyor” şeklinde bir deneyim aktarımı ama sonucun ne zaman alındığına dair zaman damgası bilgisi yok
Gerçek LLM kodlama liderlik tablolarında da yürütme süresi bilgisi hiç olmaması üzücü
Model ve platforma göre iş tamamlama süresi büyük fark yaratıyor; tekrarlı denemeler/reboot, prompt iyileştirme gibi durumlarda çıkarım hızı, token tüketimi, araç verimliliği, maliyet ve model zekâsı birlikte etkili oluyor
Özellikle Grok Code Fast ve Cerebras Code gibi modeller, en yüksek performansta olmasalar bile 10 katı aşan çıkarım hızlarıyla daha fazla iş yapılmasını sağlıyor; hızlı modeller gerçekten avantajlı
Bakılabilecek benchmark’lar: swebench, tbench leaderboard, gosuevals agents
Denedim ama benim ortamımda çalışmıyor
Anladığım kadarıyla bu, LLM CLI aracını kurmaya yönelik komutlar;
-eseçeneği editable kurulum yapıyor,[test]de test bağımlılıklarını yüklüyorBende bulunan araç shell komutlarını (
pip,pytest) ya dagit clone, Python çalıştırma gibi şeyleri desteklemiyorTarayıcı ortamında yalnızca JavaScript çalıştırabiliyor, shell seviyesinde komut yürütemiyor
Neyi beklediğinizi merak ettim; test kurulumunu anlamamı mı istiyordunuz, yoksa özelliğin kendisini mi bekliyordunuz?
“zip dosyası oluştur” prompt kullanım örneğiyle ilgilenenler için
Gist’i doğrudan açmaya vakti olmayan çok kişi olacaktır; gerçekten düzgün çalıştı mı, çıktı hakkında ek izlenimleriniz varsa duymak isterim
Claude Sonnet 4.5 hâlâ her soruya “kesinlikle haklısınız!” tarzında mı yanıt veriyor, yoksa artık gerçekten bir programcı gibi mi konuşuyor, merak ediyorum
Neden erken önizleme erişimi alabildiğinizi merak ediyorum
Gerçek deneyimimi paylaşayım
Yaklaşık 200 bin LoC’lik büyük bir web uygulamasında aynı prompt’u Sonnet 4.5’e (Claude Code) ve GPT-5-Codex’e uyguladım
Gereksinim şuydu: “'Go to Conversation' veya 'Go to Report' içinde başlık girildiğinde standart öğelerle eşleşmezse 2 saniye sonra fuzzy search çalıştır”
Sonnet 4.5 yaklaşık 3 dakikada sonuç verdi ama kod dağınıktı, mevcut auth yapısını da yeniden kullanamadı ve sıfırdan server-side auth oluşturmaya çalıştı
Sorunu işaret edip yeniden prompt vermeme rağmen büyük bir iyileşme olmadı; zorunlu gereksinim olan test kodları da yazılmadı
Buna karşılık GPT-5-Codex yaklaşık 20 dakika sürdü ama hata yönetimi ve çeşitli edge case’leri titizlikle ele aldı; ayrıca özel olarak istenmemesine rağmen test kodlarını da yazdı
API de sorunsuz çalıştı ve genel uygulama kalitesi açısından Senior geliştirici seviyesinde bir çıktı sundu
3 dakikada çıkan “hızlı ama kirli” bir implementasyon istemediğim için hiç düşünmeden 20 dakikayı seçerim
Sonnet’in beklenenden hızlı sonuç vermesi şaşırtıcıydı ama düzgün kalite ve testsiz bir implementasyonun anlamı yoktu
Eleştiri gibi duyulmasından çekiniyorum ama böyle basit bir cümle biçimindeki prompt’la başlanırsa sonucun biraz rastgele olması kaçınılmaz diye düşünüyorum
Mantıksal gruplama ve ayrıntılı koşulları daha net kurmak önemli; örnek prompt da neredeyse run-on sentence gibi
Karmaşık ya da kritik işlerde prompt’un 5-20 kat daha uzun ve ayrıntılı olması gerektiğini düşünüyorum
Girdi structured olduğunda ve codebase içinde düzenli kalıplar bulunduğunda yapay zeka çok daha iyi sonuç veriyor
Gerçek hayatta bir Junior geliştiriciye ya da ekibe tek cümlelik kısa bir gereksinim verip ayrıntı anlatmazsanız, istenen sonucun çıkmaması anlaşılır olur
Başlangıç prompt’unu hazırlamaya birkaç dakika daha ayırırsanız tatmin edici sonuç alma ihtimali de yükselir
ChatGPT Pro ücretli planını mı kullanıyorsunuz; Codex CLI da buna dahil mi, merak ediyorum
Claude Code için Max planı nedeniyle Sonnet/Opus kullanıyorum ama ChatGPT Pro’da da Codex kullanılabiliyorsa geçmeyi düşünebilirim
Bende de aynı deneyim var
Geçen hafta Codex ile eksiksiz bir C++20 XPath 1.0 parser’ını başarıyla geliştirdim; şimdi de XPath 2.0 desteği üzerinde çalışıyorum
Codex sürekli olağanüstü sonuçlar veriyor; cloud sürümünü kullanmak zorunda olmam dışında (local sürüm bug’lar yüzünden zor) ciddi bir sorun yaşamadım
Sonnet ise yüksek karmaşıklıktaki işlerde sürekli takılıyor ve 4.5 sürümünde de belirgin bir ilerleme hissetmiyorum
Özellikle date-time işlemlerinde Claude neredeyse pes ederken Codex bunu kusursuz şekilde hallediyor
Açıkçası Anthropic’e karşı olumlu bakıyordum ama şu ana kadar OpenAI’nin çok daha ileride olduğunu düşünüyorum
Codex ile rekabet edebilmesi için Claude’un önemli bir atılım yapması gerekiyor; ayrıca fiyatı da pahalı ve hizmet kalitesi sorunları nedeniyle kullanıcı kaybı ciddi görünüyor
Benim beklentimle uyumlu
Codex daha çok vibe coding aracı gibi, Claude Code ise ai assisted development tarafına odaklanmış görünüyor
Ben yine de Claude’u daha çok seviyorum
Codex bağımsız çalışmada iyi ama yön değiştiğinde (örneğin çok basit bir dosya düzenlemesini bile gereksiz yere Python script’iyle yapmaya çalışması gibi) tuhaf şekilde inatçı davranabiliyor ve güncel bilgiyi yansıtmakta da zayıf kalıyor
Açıklama istediğinizde de bağlam sunmak yerine sadece icraata geçme eğiliminde
Yetki yönetimi sorunu da sürüyor. Codex’in sandbox’ı etkileyici ama yanlışlıkla commit atmasından endişe ediyorum; tercihen sadece düzenleme yapmasını isterim
Codex’i MCP sunucusu olarak da kullanabilirsiniz ama ben kişisel olarak Claude’u işbirlikçi planlayıcı olarak kullanıp planı Codex’le çıkarıp, sonra Claude ve kendi tarzımla uyumlu şekilde ortak çalışmayı tercih ediyorum
Prompt’a
ultrathinkekleyip müzik açarak deneme yapmanızı da öneririmReferans: ultrathink ile ilgili Reddit bağlantısı
Son modellerin yeteneklerini görünce moralim bozuluyor
Yıllardır emek vererek geliştirdiğim temiz kod yazma konusundaki ince beceriler sanki anlamsız ayrıntılara dönüşüyor gibi
Eskiden özsel gördüğüm şeyler artık prompt’un “uygulama detayı” haline geliyor
Sanki yeteneklerim giderek otomasyonla yer değiştiriyormuş gibi hissediyorum
O ayrıntılı ustalıkların önemi zaten en baştan da biraz belirsizdi; gerçek beceri sonuçta yazılımdan para kazanma sürecinin kendisi
Yapay zeka sayesinde daha da fazla yazılım üretilecek ve bunların uzmanlar tarafından yönetilmesi gerekecek
Ben de birkaç aydır yapay zeka odaklı bir rolde yoğun çalışıyorum ve ilk 4 hafta boyunca aynı kriz hissini yaşadım
Özellikle 25 yıllık geliştirme birikimimin anlamsızlaştığını düşünmek kafamı karıştırdı
Biraz daha kabullenip uyum sağladığınızda kendinizi çok daha iyi hissedeceksiniz
Kodlama becerilerimden daha fazlası olduğumu hatırlamanızı isterim
Eskiden başkalarının otomasyonla yer değiştirmesini memnuniyetle karşılamış olabilirsiniz; şimdi sıra size gelmiş oldu
Ekonomiyi dinamik yapan “yaratıcı yıkım” tam da budur
Eskiden ben de öyle düşünüyordum ama son dönemde gerçekten kullanınca pek pratik olmadığı sonucuna vardım
Özellikle deneyimsiz kişiler vibe coding’e yaslandığında ortaya anlamsız sonuçlar çıkıyor; biraz karmaşık işlerde de ciddi hata/yanlışlar çok sık yaşanıyor
Frontend otomasyonu da tatmin edici değil; örneğin çok basit işler için bile gereğinden uzun kod üretiyor
Sonuçta temel react/nextjs frontend’i ve popüler site kopyalarıyla sınırlı kalıyor; sıra dışı gereksinimler veya ince tasarım kararlarında zorlanıyor diye deneyimledim
Gerçekte vibe coding araçları üretkenliği o kadar da artırmıyor
Özetle sistemin (kod/infrastructure vb.) bakım sorumluluğu hâlâ insanda ve insanların sistemin yapısını ve çalışma mantığını kavrama süreci asla otomatikleştirilemez
Sonuçta uzman bakış açısına sahip geliştiriciler daha da kıymetli, daha da nadir kişiler haline gelecek
Basit bir kod değiştirme görevini Sonnet 4 ve Opus 4.1’e verdim, ikisi de başarısız oldu
Yeni başlayan birinin bile yapabileceği bir dönüştürmeydi ama modellerin benchmark puanlarının peşinden koşarken gerçek kullanım performansını kaçırmasından endişe ediyorum
Devam prompt’u olarak (“tam olarak istediğimi yap”) dediğimde Sonnet başardı, Opus ise sonsuz döngüye girdi
Benchmark takıntısının gerçek performansa zarar verebileceği uzun süredir kaygı konusuydu
Claude 3.7’den 4’e geçerken benim hissedilen performansım düşerken benchmark’lar ciddi şekilde yükseldi
Bununla birlikte benchmark’ların yapay zekâdaki ilerlemeyi takip etmekte geride kalan bir ödev olduğunu da anlıyorum
Esasen “benchmark çalıştır, en yüksek skoru al → gerçekte performans düşsün → birkaç hafta sonra daha iyi modeli çıkar ve tekrar et” şeklinde bir döngü yaşandığını düşünüyorum
Modeller aynı veri kaynaklarına (internet, github, kitaplar vb.) bakıp standart testlere optimize oluyorsa, skor dışında nasıl bir farklılık ya da özgün değer kaldığını bilmiyorum
Artık LLM’lerin yanlış yaptığı örnekleri topladığımız bir topluluk veritabanı olsa iyi olur diye düşünüyorum; bende de böyle örneklerden çok var
Basit lint hatalarını düzeltme gibi işleri doğrudan kendim yapıp geçmeyi daha mantıklı buluyorum
Böyle basit bir işten anlam çıkarmaya çalışmak yerine, yapay zekânın çok daha karmaşık problemlerde mükemmel sonuç verdiği yerlerde değer aramak lazım
Grafikte Sonnet 4’ün zaten SWE verified benchmark’ında GPT-5-codex’in önünde olduğu görünüyor ama benim gerçek deneyimimde karmaşık problemlerde GPT-5-codex açık ara daha iyi
GPT-5 bana beyzbolda home run vurabilen ama dış saha temel becerileri zayıf takım arkadaşı gibi geliyor
Diğer agent’larla işbirliği yaparken de sık sık drama çıkarıyor; yakın zamanda claude code’a geçeceğimi söyleyince
git reset --hardkonusunda ısrar etmesi gibi öngörülemez davranışlar sergiliyorBuna karşılık gemini ve claude harika ekip arkadaşları
Tüm bu tablo bana GPT-5’in bilinçli olarak böyle tasarlanmadığını düşündürüyor; OpenAI içinde moralin hayli bozulmuş olmasının sonucu gibi geliyor
Benim kullanımımda 5-codex token’ları çok hızlı tüketti ve
agents.mdyönergelerine de Claude kadar iyi uymadıÖzellikle önemsiz komutlar için bile aşırı kapsamlı bash veya python script’leri yazmaya çalışıyor
Bende tam tersi; GPT-5-codex çok yavaş ve çıktısı da sıradan
Zorunlu olsam yapay zekâ kullanmaktan tamamen vazgeçerim
Model performansının mutlak bir standardı olduğunu düşünmüyorum
Örneğin Claude-Opus seçseniz bile bazen ultra ucuz modellerden daha kötü yanıtlar alabiliyorsunuz
Performans oynaklığı yüksek; muhtemelen trafik durumuna göre sunucu kaynakları değişiyor
Anthropic de bir dönem deneylerin etkisiyle performans düşüşü yaşandığını resmen kabul etmişti
GPT’nin de yoğun saatlerde data center kapasitesi nedeniyle performans kaybı yaşaması bana olası geliyor
Anthropic modelleri sanki vibe-coding’e göre tune edilmiş gibi
Basit Python/TypeScript için iyiler ama bilimsel/karmaşık kod ve büyük codebase’lerde zayıflar
Yeni Sonnet’ten de büyük bir değişim beklemiyorum
“30 saatten fazla odak kaybetmeden karmaşık çok adımlı görevler yürütme” şeklindeki tanıtım ifadesi özellikle ilgimi çekiyor
The Verge gibi kaynaklara göre gerçekten 11.000 satır kod kullanarak 30 saat boyunca durmaksızın bir Slack klonu ürettiği söyleniyor
Bir LLM’yi 30 saat gözetimsiz bıraktığınızda ortaya çıkacak çıktının kalitesi konusunda şüpheliyim
İlgili haber
30 saat kesintisiz çalışma, LLM’yi tek başına bırakınca gerçekleşebilecek bir aşama değil
Harici araç entegrasyonu, context yönetimi gibi ortam hazırlıkları şart; hatta çoklu agent sistemi kurulumu da gerektiriyor
Bunun mümkün olması için çok ciddi altyapı ve yapılandırma emeği gerekiyor
“30 saat gözetimsiz çalışma” ifadesi başlı başına fazla muğlak, somutluk taşımıyor
Örneğin saatte 1 token işliyorsa bir satırlık cümle üretmekten öteye geçemeyebilir
Model context yönetim araçlarının gerçekten kullanılıp kullanılmadığını, 200 bin ila 1 milyon token’lık prompt’ların nasıl işletildiğini ve bunun teknik ayrıntılarını merak ediyorum
Az önce basit bir issue üzerinde deneme yaptım; önceki modeller gibi Sonnet 4.5 de tavşan deliğine düşer gibi problemi gereğinden fazla karmaşıklaştırıyor
Çoğunlukla deneme-yanılma tarzında ilerliyor ve sürekli “şimdi çözülmüş olmalı” türü geri bildirim veriyor
Örneğin GH Actions pipeline’da source file olmadığı için build system’in algılanmadığı bir hata vardı; Sonnet 4.5 çarpık çözümleri tekrar tekrar denedi (sahte JSON dosyası oluşturmak, var olmayan workflow parametreleri eklemek gibi)
Oysa yapılması gereken yalnızca step’i override edip basitçe “Hello world” yazdırmaktı
Yapay zekânın bu kadar basit “kutunun dışından düşünme” yaklaşımında neden zayıf kaldığını merak ediyorum
Sanki 170 IQ’lu bir dâhi ama toplu taşımaya binemiyor gibi
Gemini, Claude ve OpenAI’nin hepsine ücretli üyeyim ama son dönemde ChatGPT’nin belirgin şekilde öne geçtiği sonucuna vardım
Yanıtları daha kısa, bilgilendiriciliği daha yüksek ve Claude 4.5’i test ettiğimde de büyük bir iyileşme hissetmedim
Bende de aynı şekilde üçüne de abonelik var
Karmaşık durum analizi için ChatGPT en iyisi ama kod yazma konusunda Claude daha başarılı
ChatGPT ile tasarım ve problem çözümü yapıp, çıkan cevabı Claude veya Gemini’ye vererek implementasyonu ilerletiyorum
Gemini ise her iki alanda da ortalamanın üstünde
Genel olarak ChatGPT biraz daha iyi ama Gemini de AI Studio kullanımı, ayar optimizasyonu ve system prompt düzenlemeleriyle gerçek kullanım bağlamında en iyi seçenek olabilir
Örneğin nano banana SOTA olabilir ama Qwen-Edit daha az sansürlü olduğu için gerçek kullanımda daha elverişli geliyor
Yönettiğim yerelleştirilmiş e-ticaret hizmetinde nano banana kadın görselleri üretirken kısıtlamaya takıldığı için kullanamıyorum, Qwen-Edit ise sorunsuz çalışıyor
Ben de hem Claude Max hem de ChatGPT Codex hesabına abonelik ödüyorum
Eskiden Claude hayranıydım ama son zamanlarda neredeyse yalnızca codex kullanıyorum
Takıldığımda sadece basit işleri Claude’a veriyorum ya da ikisini aynı anda test ediyorum; Sonnet/Opus kullanan Claude Code, Codex’in belirgin şekilde gerisinde kalıyor
Burada gerçekten codex’i mi kastettiğinizi netleştirseniz iyi olur
Grok nasıl, yetişebiliyor mu diye merak ediyorum
Claude’u henüz kullanamadım ama ben yapay zekâyı siyasi metinleri düzeltmek gibi çeşitli işlerde kullanıyorum
Belirli hassas konularda (ör. Avusturya’daki 12 yaşındaki çocuğa cinsel saldırı vakası) ChatGPT’nin guardrail nedeniyle tamamen durduğunu gördüm
Gerçek bağlam ne olursa olsun yalnızca
sex + kidkelimelerini algılayıp topyekûn engellemesi bana makul gelmiyorBu, kelime işlemcinin konuyu sansürleyip yazmayı tamamen engellemesi gibi; böyle olunca araç olma işlevini yerine getirmiyor diye düşünüyorum
Gerçekte bu tür başlıklarda meşru konuşmalara kıyasla kabul edilemez içerik oranı çok yüksek olduğu için, çoğu hizmet sağlayıcı açısından engelleme mantıklı görünüyor
Örneğin geliştirdiğim soy/köken takibi yapan hayvancılık uygulamasında sadece
breeding/breederskelimeleri geçti diye engellenmek gibi can sıkıcı durumlar yaşadım“Hizmet” bir araç değildir diye düşünüyorum
Gerçek bir araç istiyorsanız çözüm, LLM’yi yerelde kendiniz çalıştırmak
Sonunda en az guardrail’e sahip yapay zekânın pazarı ele geçireceğini düşünüyorum
Şu an frontier modeller arasında Grok en az kısıtlayıcı olanı gibi duruyor ama onun da gelişmesi gereken tarafları var
Benzer şekilde, kızım için doğum günü kuponu görseli üretmeye çalıştığımda ChatGPT/DallE ile geçirdiğim sürenin dörtte üçü çeşitli içerik politikalarını aşmaya uğraşmakla geçti
Benim sınırlı deneyimimde de Claude “tartışmalı” konularda diyaloğu çok daha hızlı ve sert biçimde kesiyor
System Initiative ile birlikte hızlı bir test yaptım
Altyapıdaki 503 hatası elle çözülse 2 saatten fazla sürecekti; birlikte kullanınca 15 dakikada çözdüm
Başka kullanım örneklerini blogda derledim
System Initiative resmi sitesi
Deneyim yazısı blogu