4 puan yazan GN⁺ 2025-09-30 | 1 yorum | WhatsApp'ta paylaş
  • Claude Sonnet 4.5, kodlama, akıl yürütme ve matematik yeteneklerinde en üst düzey performans sunan en yeni yapay zeka modelidir
  • Güncellenen Claude Code, checkpoint, iyileştirilmiş terminal arayüzü, VS Code uzantısı ve bellek yönetimi özellikleri eklenerek karmaşık işleri uzun süre sürdürebilir hale gelmiştir
  • Yeni tanıtılan Claude Agent SDK, ajan geliştirme için temel altyapıyı sunarak farklı problem çözme araçlarının doğrudan oluşturulmasını mümkün kılar
  • SWE-bench, OSWorld gibi benchmark'larda rakip modelleri açık farkla geride bırakarak sayısal akıl yürütme, mantık yürütme ve alan uyumu gibi konulardaki gücünü kanıtlar
  • Güvenlik tarafında da en iyi alignment seviyesine sahip model olarak değerlendirilir; prompt injection savunması ve riskli içerik engelleme performansı iyileştirilmiştir

Claude Sonnet 4.5 Genel Bakış

  • Claude Sonnet 4.5, mevcut en iyi kodlama modeli olup karmaşık ajan kurma ve bilgisayar kullanımı alanlarında en güçlü performansı gösterir
    • Yazılım, elektronik tablolar ve çeşitli araçlar dahil kullandığımız tüm modern çalışma ortamlarında kod temel bir unsurdur
  • Akıl yürütme ve matematiksel problem çözme yetenekleri de önceki modellere kıyasla belirgin biçimde gelişmiş olup, çeşitli uzmanlık alanlarında kullanım değerini artırır
  • Mevcut Sonnet 4 ile aynı fiyatla sunulur (milyon token başına $3 / $15)

Başlıca ürün güncellemeleri

  • Claude Code
    • Checkpoint özelliğiyle çalışma sırasında ara kayıt ve geri alma desteği
    • Terminal arayüzü iyileştirildi, yerel VS Code uzantısı yayımlandı
    • Context editing ve bellek araçları eklendi; uzun süreli ve karmaşık işlerin yürütülmesi destekleniyor
  • Claude Apps
    • Kod çalıştırma ve dosya oluşturmayı (elektronik tablo, slayt, belge) doğrudan sohbet içinde destekler
  • Claude for Chrome
    • Max kullanıcıları için uzantı sunulur, tarayıcı içi iş otomasyonunu destekler

Claude Agent SDK

  • Anthropic'in içeride Claude Code'u geliştirirken kullandığı ajan altyapısı dış geliştiricilere açıldı
  • Uzun vadeli bellek yönetimi, izin kontrolü ve çoklu alt ajan koordinasyonu gibi zor sorunları çözen bir temel sunar
  • Kodlama dışında da çeşitli ajanların geliştirilmesinde kullanılabilir

Performans ve benchmark'lar

  • SWE-bench Verified üzerinde en yüksek performansı kaydetti; uzun süreli çok adımlı kodlama görevlerini 30 saatten fazla sürdürebilir
  • OSWorld benchmark'ında %61,4 elde etti (önceki Sonnet 4: %42,2)
  • Akıl yürütme, matematik ve çok dilli değerlendirmelerde (MMMLU) yetenekleri de büyük ölçüde gelişti; finans, hukuk, tıp ve STEM uzmanlarının değerlendirmelerinde de yüksek başarı gösterdi
  • Müşteri geri bildirimleriyle uzun süreli işler, karmaşık kod tabanlarını anlama, hızlı ve doğru kod üretimi gibi gerçek production kullanımına uygunluğu doğrulandı

Müşteri örnekleri

  • Cursor: karmaşık problem çözümünde en yüksek performans doğrulandı
  • GitHub Copilot: çok adımlı akıl yürütme ve kod anlama yeteneği gelişti
  • Güvenlik alanı: zafiyet müdahale süresi %44 kısaldı, doğruluk %25 arttı
  • Canva, Figma: büyük ölçekli kod tabanları ve prototiplemede çarpıcı verimlilik artışı
  • Devin: planlama performansı %18 arttı, kod test etme ve çalıştırma yetenekleri güçlendi

Güvenlik ve alignment

  • Sonnet 4.5, Anthropic'in duyurduğu modeller arasında en yüksek alignment seviyesine sahiptir
  • Sycophancy, aldatma, güç arayışı ve sanrıları teşvik etme gibi istenmeyen davranışları azaltmak için güvenlik odaklı pekiştirmeli öğrenme uygulandı
  • Prompt injection saldırılarına karşı savunmada önemli ilerleme sağlandı; güvenlik değerlendirmelerine mekanizma yorumlama teknikleri de eklendi
  • Otomatik davranış denetim sistemiyle kötüye kullanım olasılığı için otomatik puanlama yapılır ve yüksek güvenlik standartları karşılanır
  • AI Safety Level 3 (ASL-3) korumaları altında yayımlandı; tehlikeli girdi ve çıktılar için filtreleme uygulanır (ör. kimya, biyoloji, radyasyon ve nükleer riskler)

Araştırma ön izlemesi

  • Claude Sonnet 4.5 ile birlikte "Imagine with Claude" adlı geçici bir araştırma ön izlemesi sunuldu
  • Önceden tanımlanmış kod veya özellikler olmadan, kullanıcının taleplerine gerçek zamanlı tepki verip uyum sağlayarak anında yazılım üretimi sergiler
  • Max aboneleri için 5 gün boyunca denenebilir

Ek bilgiler ve geçiş

Sonuç ve öneri

  • Claude Sonnet 4.5, API, uygulama ve Claude Code dahil tüm kullanım ortamlarında performansı artırılmış, doğrudan ikame edilebilen bir modeldir
  • Kodlama, ajan geliştirme ve bilgisayar kullanımında dünya çapında performans, uygulanabilirlik ve tutarlılığı bir arada sunar
  • Güçlü güvenlik politikaları ve geniş geliştirici araç desteğiyle geliştiricilerin ve BT organizasyonlarının verimlilik ile inovasyonunu hızlandıracaktır
  • Aynı fiyata daha güçlü yetenekler sunduğu için yükseltme önerilir

1 yorum

 
GN⁺ 2025-09-30
Hacker News görüşü
  • Bu hafta sonu önizleme sürümüne erişebildim; ilgili notları burada toparladım
    Bana göre oldukça etkileyiciydi ve kapsamlı bir karşılaştırmadan ziyade genel hissiyat olarak GPT-5-Codex’ten biraz daha iyi performans gösterdi
    Özellikle claude.ai'nin yeni Python/Node.js kod yorumlayıcı modunda parladığını düşünüyorum
    Aşağıdaki gibi bir prompt kullanmanızı öneririm
Checkout https://github.com/simonw/llm and run the tests with
pip install -e '.[test]'
pytest

Karmaşık veritabanı refactor işlemlerini de adım adım iyi yönetti; ayrıntıları blogda yazdım

  • @simonw ve LLM benchmark’larıyla ilgilenenlerden bir ricam var
    Görevin tamamlanmasının ne kadar sürdüğünü mutlaka paylaşsalar iyi olur
    Bu yazı “claude.ai üzerinde doğrudan çalışıyor” şeklinde bir deneyim aktarımı ama sonucun ne zaman alındığına dair zaman damgası bilgisi yok
    Gerçek LLM kodlama liderlik tablolarında da yürütme süresi bilgisi hiç olmaması üzücü
    Model ve platforma göre iş tamamlama süresi büyük fark yaratıyor; tekrarlı denemeler/reboot, prompt iyileştirme gibi durumlarda çıkarım hızı, token tüketimi, araç verimliliği, maliyet ve model zekâsı birlikte etkili oluyor
    Özellikle Grok Code Fast ve Cerebras Code gibi modeller, en yüksek performansta olmasalar bile 10 katı aşan çıkarım hızlarıyla daha fazla iş yapılmasını sağlıyor; hızlı modeller gerçekten avantajlı
    Bakılabilecek benchmark’lar: swebench, tbench leaderboard, gosuevals agents

  • Denedim ama benim ortamımda çalışmıyor
    Anladığım kadarıyla bu, LLM CLI aracını kurmaya yönelik komutlar; -e seçeneği editable kurulum yapıyor, [test] de test bağımlılıklarını yüklüyor
    Bende bulunan araç shell komutlarını (pip, pytest) ya da git clone, Python çalıştırma gibi şeyleri desteklemiyor
    Tarayıcı ortamında yalnızca JavaScript çalıştırabiliyor, shell seviyesinde komut yürütemiyor
    Neyi beklediğinizi merak ettim; test kurulumunu anlamamı mı istiyordunuz, yoksa özelliğin kendisini mi bekliyordunuz?

  • “zip dosyası oluştur” prompt kullanım örneğiyle ilgilenenler için
    Gist’i doğrudan açmaya vakti olmayan çok kişi olacaktır; gerçekten düzgün çalıştı mı, çıktı hakkında ek izlenimleriniz varsa duymak isterim

  • Claude Sonnet 4.5 hâlâ her soruya “kesinlikle haklısınız!” tarzında mı yanıt veriyor, yoksa artık gerçekten bir programcı gibi mi konuşuyor, merak ediyorum

  • Neden erken önizleme erişimi alabildiğinizi merak ediyorum

  • Gerçek deneyimimi paylaşayım
    Yaklaşık 200 bin LoC’lik büyük bir web uygulamasında aynı prompt’u Sonnet 4.5’e (Claude Code) ve GPT-5-Codex’e uyguladım
    Gereksinim şuydu: “'Go to Conversation' veya 'Go to Report' içinde başlık girildiğinde standart öğelerle eşleşmezse 2 saniye sonra fuzzy search çalıştır”
    Sonnet 4.5 yaklaşık 3 dakikada sonuç verdi ama kod dağınıktı, mevcut auth yapısını da yeniden kullanamadı ve sıfırdan server-side auth oluşturmaya çalıştı
    Sorunu işaret edip yeniden prompt vermeme rağmen büyük bir iyileşme olmadı; zorunlu gereksinim olan test kodları da yazılmadı
    Buna karşılık GPT-5-Codex yaklaşık 20 dakika sürdü ama hata yönetimi ve çeşitli edge case’leri titizlikle ele aldı; ayrıca özel olarak istenmemesine rağmen test kodlarını da yazdı
    API de sorunsuz çalıştı ve genel uygulama kalitesi açısından Senior geliştirici seviyesinde bir çıktı sundu
    3 dakikada çıkan “hızlı ama kirli” bir implementasyon istemediğim için hiç düşünmeden 20 dakikayı seçerim
    Sonnet’in beklenenden hızlı sonuç vermesi şaşırtıcıydı ama düzgün kalite ve testsiz bir implementasyonun anlamı yoktu

    • Eleştiri gibi duyulmasından çekiniyorum ama böyle basit bir cümle biçimindeki prompt’la başlanırsa sonucun biraz rastgele olması kaçınılmaz diye düşünüyorum
      Mantıksal gruplama ve ayrıntılı koşulları daha net kurmak önemli; örnek prompt da neredeyse run-on sentence gibi
      Karmaşık ya da kritik işlerde prompt’un 5-20 kat daha uzun ve ayrıntılı olması gerektiğini düşünüyorum
      Girdi structured olduğunda ve codebase içinde düzenli kalıplar bulunduğunda yapay zeka çok daha iyi sonuç veriyor
      Gerçek hayatta bir Junior geliştiriciye ya da ekibe tek cümlelik kısa bir gereksinim verip ayrıntı anlatmazsanız, istenen sonucun çıkmaması anlaşılır olur
      Başlangıç prompt’unu hazırlamaya birkaç dakika daha ayırırsanız tatmin edici sonuç alma ihtimali de yükselir

    • ChatGPT Pro ücretli planını mı kullanıyorsunuz; Codex CLI da buna dahil mi, merak ediyorum
      Claude Code için Max planı nedeniyle Sonnet/Opus kullanıyorum ama ChatGPT Pro’da da Codex kullanılabiliyorsa geçmeyi düşünebilirim

    • Bende de aynı deneyim var
      Geçen hafta Codex ile eksiksiz bir C++20 XPath 1.0 parser’ını başarıyla geliştirdim; şimdi de XPath 2.0 desteği üzerinde çalışıyorum
      Codex sürekli olağanüstü sonuçlar veriyor; cloud sürümünü kullanmak zorunda olmam dışında (local sürüm bug’lar yüzünden zor) ciddi bir sorun yaşamadım
      Sonnet ise yüksek karmaşıklıktaki işlerde sürekli takılıyor ve 4.5 sürümünde de belirgin bir ilerleme hissetmiyorum
      Özellikle date-time işlemlerinde Claude neredeyse pes ederken Codex bunu kusursuz şekilde hallediyor
      Açıkçası Anthropic’e karşı olumlu bakıyordum ama şu ana kadar OpenAI’nin çok daha ileride olduğunu düşünüyorum
      Codex ile rekabet edebilmesi için Claude’un önemli bir atılım yapması gerekiyor; ayrıca fiyatı da pahalı ve hizmet kalitesi sorunları nedeniyle kullanıcı kaybı ciddi görünüyor

    • Benim beklentimle uyumlu
      Codex daha çok vibe coding aracı gibi, Claude Code ise ai assisted development tarafına odaklanmış görünüyor
      Ben yine de Claude’u daha çok seviyorum
      Codex bağımsız çalışmada iyi ama yön değiştiğinde (örneğin çok basit bir dosya düzenlemesini bile gereksiz yere Python script’iyle yapmaya çalışması gibi) tuhaf şekilde inatçı davranabiliyor ve güncel bilgiyi yansıtmakta da zayıf kalıyor
      Açıklama istediğinizde de bağlam sunmak yerine sadece icraata geçme eğiliminde
      Yetki yönetimi sorunu da sürüyor. Codex’in sandbox’ı etkileyici ama yanlışlıkla commit atmasından endişe ediyorum; tercihen sadece düzenleme yapmasını isterim
      Codex’i MCP sunucusu olarak da kullanabilirsiniz ama ben kişisel olarak Claude’u işbirlikçi planlayıcı olarak kullanıp planı Codex’le çıkarıp, sonra Claude ve kendi tarzımla uyumlu şekilde ortak çalışmayı tercih ediyorum

    • Prompt’a ultrathink ekleyip müzik açarak deneme yapmanızı da öneririm
      Referans: ultrathink ile ilgili Reddit bağlantısı

  • Son modellerin yeteneklerini görünce moralim bozuluyor
    Yıllardır emek vererek geliştirdiğim temiz kod yazma konusundaki ince beceriler sanki anlamsız ayrıntılara dönüşüyor gibi
    Eskiden özsel gördüğüm şeyler artık prompt’un “uygulama detayı” haline geliyor
    Sanki yeteneklerim giderek otomasyonla yer değiştiriyormuş gibi hissediyorum

    • O ayrıntılı ustalıkların önemi zaten en baştan da biraz belirsizdi; gerçek beceri sonuçta yazılımdan para kazanma sürecinin kendisi
      Yapay zeka sayesinde daha da fazla yazılım üretilecek ve bunların uzmanlar tarafından yönetilmesi gerekecek

    • Ben de birkaç aydır yapay zeka odaklı bir rolde yoğun çalışıyorum ve ilk 4 hafta boyunca aynı kriz hissini yaşadım
      Özellikle 25 yıllık geliştirme birikimimin anlamsızlaştığını düşünmek kafamı karıştırdı
      Biraz daha kabullenip uyum sağladığınızda kendinizi çok daha iyi hissedeceksiniz
      Kodlama becerilerimden daha fazlası olduğumu hatırlamanızı isterim

    • Eskiden başkalarının otomasyonla yer değiştirmesini memnuniyetle karşılamış olabilirsiniz; şimdi sıra size gelmiş oldu
      Ekonomiyi dinamik yapan “yaratıcı yıkım” tam da budur

    • Eskiden ben de öyle düşünüyordum ama son dönemde gerçekten kullanınca pek pratik olmadığı sonucuna vardım
      Özellikle deneyimsiz kişiler vibe coding’e yaslandığında ortaya anlamsız sonuçlar çıkıyor; biraz karmaşık işlerde de ciddi hata/yanlışlar çok sık yaşanıyor
      Frontend otomasyonu da tatmin edici değil; örneğin çok basit işler için bile gereğinden uzun kod üretiyor
      Sonuçta temel react/nextjs frontend’i ve popüler site kopyalarıyla sınırlı kalıyor; sıra dışı gereksinimler veya ince tasarım kararlarında zorlanıyor diye deneyimledim

    • Gerçekte vibe coding araçları üretkenliği o kadar da artırmıyor
      Özetle sistemin (kod/infrastructure vb.) bakım sorumluluğu hâlâ insanda ve insanların sistemin yapısını ve çalışma mantığını kavrama süreci asla otomatikleştirilemez
      Sonuçta uzman bakış açısına sahip geliştiriciler daha da kıymetli, daha da nadir kişiler haline gelecek

  • Basit bir kod değiştirme görevini Sonnet 4 ve Opus 4.1’e verdim, ikisi de başarısız oldu
    Yeni başlayan birinin bile yapabileceği bir dönüştürmeydi ama modellerin benchmark puanlarının peşinden koşarken gerçek kullanım performansını kaçırmasından endişe ediyorum
    Devam prompt’u olarak (“tam olarak istediğimi yap”) dediğimde Sonnet başardı, Opus ise sonsuz döngüye girdi

    • Benchmark takıntısının gerçek performansa zarar verebileceği uzun süredir kaygı konusuydu
      Claude 3.7’den 4’e geçerken benim hissedilen performansım düşerken benchmark’lar ciddi şekilde yükseldi
      Bununla birlikte benchmark’ların yapay zekâdaki ilerlemeyi takip etmekte geride kalan bir ödev olduğunu da anlıyorum

    • Esasen “benchmark çalıştır, en yüksek skoru al → gerçekte performans düşsün → birkaç hafta sonra daha iyi modeli çıkar ve tekrar et” şeklinde bir döngü yaşandığını düşünüyorum

    • Modeller aynı veri kaynaklarına (internet, github, kitaplar vb.) bakıp standart testlere optimize oluyorsa, skor dışında nasıl bir farklılık ya da özgün değer kaldığını bilmiyorum

    • Artık LLM’lerin yanlış yaptığı örnekleri topladığımız bir topluluk veritabanı olsa iyi olur diye düşünüyorum; bende de böyle örneklerden çok var

    • Basit lint hatalarını düzeltme gibi işleri doğrudan kendim yapıp geçmeyi daha mantıklı buluyorum
      Böyle basit bir işten anlam çıkarmaya çalışmak yerine, yapay zekânın çok daha karmaşık problemlerde mükemmel sonuç verdiği yerlerde değer aramak lazım

  • Grafikte Sonnet 4’ün zaten SWE verified benchmark’ında GPT-5-codex’in önünde olduğu görünüyor ama benim gerçek deneyimimde karmaşık problemlerde GPT-5-codex açık ara daha iyi

    • GPT-5 bana beyzbolda home run vurabilen ama dış saha temel becerileri zayıf takım arkadaşı gibi geliyor
      Diğer agent’larla işbirliği yaparken de sık sık drama çıkarıyor; yakın zamanda claude code’a geçeceğimi söyleyince git reset --hard konusunda ısrar etmesi gibi öngörülemez davranışlar sergiliyor
      Buna karşılık gemini ve claude harika ekip arkadaşları
      Tüm bu tablo bana GPT-5’in bilinçli olarak böyle tasarlanmadığını düşündürüyor; OpenAI içinde moralin hayli bozulmuş olmasının sonucu gibi geliyor

    • Benim kullanımımda 5-codex token’ları çok hızlı tüketti ve agents.md yönergelerine de Claude kadar iyi uymadı
      Özellikle önemsiz komutlar için bile aşırı kapsamlı bash veya python script’leri yazmaya çalışıyor

    • Bende tam tersi; GPT-5-codex çok yavaş ve çıktısı da sıradan
      Zorunlu olsam yapay zekâ kullanmaktan tamamen vazgeçerim

    • Model performansının mutlak bir standardı olduğunu düşünmüyorum
      Örneğin Claude-Opus seçseniz bile bazen ultra ucuz modellerden daha kötü yanıtlar alabiliyorsunuz
      Performans oynaklığı yüksek; muhtemelen trafik durumuna göre sunucu kaynakları değişiyor
      Anthropic de bir dönem deneylerin etkisiyle performans düşüşü yaşandığını resmen kabul etmişti
      GPT’nin de yoğun saatlerde data center kapasitesi nedeniyle performans kaybı yaşaması bana olası geliyor

    • Anthropic modelleri sanki vibe-coding’e göre tune edilmiş gibi
      Basit Python/TypeScript için iyiler ama bilimsel/karmaşık kod ve büyük codebase’lerde zayıflar
      Yeni Sonnet’ten de büyük bir değişim beklemiyorum

  • “30 saatten fazla odak kaybetmeden karmaşık çok adımlı görevler yürütme” şeklindeki tanıtım ifadesi özellikle ilgimi çekiyor
    The Verge gibi kaynaklara göre gerçekten 11.000 satır kod kullanarak 30 saat boyunca durmaksızın bir Slack klonu ürettiği söyleniyor
    Bir LLM’yi 30 saat gözetimsiz bıraktığınızda ortaya çıkacak çıktının kalitesi konusunda şüpheliyim
    İlgili haber

    • 30 saat kesintisiz çalışma, LLM’yi tek başına bırakınca gerçekleşebilecek bir aşama değil
      Harici araç entegrasyonu, context yönetimi gibi ortam hazırlıkları şart; hatta çoklu agent sistemi kurulumu da gerektiriyor
      Bunun mümkün olması için çok ciddi altyapı ve yapılandırma emeği gerekiyor

    • “30 saat gözetimsiz çalışma” ifadesi başlı başına fazla muğlak, somutluk taşımıyor
      Örneğin saatte 1 token işliyorsa bir satırlık cümle üretmekten öteye geçemeyebilir

    • Model context yönetim araçlarının gerçekten kullanılıp kullanılmadığını, 200 bin ila 1 milyon token’lık prompt’ların nasıl işletildiğini ve bunun teknik ayrıntılarını merak ediyorum

  • Az önce basit bir issue üzerinde deneme yaptım; önceki modeller gibi Sonnet 4.5 de tavşan deliğine düşer gibi problemi gereğinden fazla karmaşıklaştırıyor
    Çoğunlukla deneme-yanılma tarzında ilerliyor ve sürekli “şimdi çözülmüş olmalı” türü geri bildirim veriyor
    Örneğin GH Actions pipeline’da source file olmadığı için build system’in algılanmadığı bir hata vardı; Sonnet 4.5 çarpık çözümleri tekrar tekrar denedi (sahte JSON dosyası oluşturmak, var olmayan workflow parametreleri eklemek gibi)
    Oysa yapılması gereken yalnızca step’i override edip basitçe “Hello world” yazdırmaktı
    Yapay zekânın bu kadar basit “kutunun dışından düşünme” yaklaşımında neden zayıf kaldığını merak ediyorum
    Sanki 170 IQ’lu bir dâhi ama toplu taşımaya binemiyor gibi

  • Gemini, Claude ve OpenAI’nin hepsine ücretli üyeyim ama son dönemde ChatGPT’nin belirgin şekilde öne geçtiği sonucuna vardım
    Yanıtları daha kısa, bilgilendiriciliği daha yüksek ve Claude 4.5’i test ettiğimde de büyük bir iyileşme hissetmedim

    • Bende de aynı şekilde üçüne de abonelik var
      Karmaşık durum analizi için ChatGPT en iyisi ama kod yazma konusunda Claude daha başarılı
      ChatGPT ile tasarım ve problem çözümü yapıp, çıkan cevabı Claude veya Gemini’ye vererek implementasyonu ilerletiyorum
      Gemini ise her iki alanda da ortalamanın üstünde

    • Genel olarak ChatGPT biraz daha iyi ama Gemini de AI Studio kullanımı, ayar optimizasyonu ve system prompt düzenlemeleriyle gerçek kullanım bağlamında en iyi seçenek olabilir
      Örneğin nano banana SOTA olabilir ama Qwen-Edit daha az sansürlü olduğu için gerçek kullanımda daha elverişli geliyor
      Yönettiğim yerelleştirilmiş e-ticaret hizmetinde nano banana kadın görselleri üretirken kısıtlamaya takıldığı için kullanamıyorum, Qwen-Edit ise sorunsuz çalışıyor

    • Ben de hem Claude Max hem de ChatGPT Codex hesabına abonelik ödüyorum
      Eskiden Claude hayranıydım ama son zamanlarda neredeyse yalnızca codex kullanıyorum
      Takıldığımda sadece basit işleri Claude’a veriyorum ya da ikisini aynı anda test ediyorum; Sonnet/Opus kullanan Claude Code, Codex’in belirgin şekilde gerisinde kalıyor

    • Burada gerçekten codex’i mi kastettiğinizi netleştirseniz iyi olur

    • Grok nasıl, yetişebiliyor mu diye merak ediyorum

  • Claude’u henüz kullanamadım ama ben yapay zekâyı siyasi metinleri düzeltmek gibi çeşitli işlerde kullanıyorum
    Belirli hassas konularda (ör. Avusturya’daki 12 yaşındaki çocuğa cinsel saldırı vakası) ChatGPT’nin guardrail nedeniyle tamamen durduğunu gördüm
    Gerçek bağlam ne olursa olsun yalnızca sex + kid kelimelerini algılayıp topyekûn engellemesi bana makul gelmiyor
    Bu, kelime işlemcinin konuyu sansürleyip yazmayı tamamen engellemesi gibi; böyle olunca araç olma işlevini yerine getirmiyor diye düşünüyorum

    • Gerçekte bu tür başlıklarda meşru konuşmalara kıyasla kabul edilemez içerik oranı çok yüksek olduğu için, çoğu hizmet sağlayıcı açısından engelleme mantıklı görünüyor
      Örneğin geliştirdiğim soy/köken takibi yapan hayvancılık uygulamasında sadece breeding/breeders kelimeleri geçti diye engellenmek gibi can sıkıcı durumlar yaşadım

    • “Hizmet” bir araç değildir diye düşünüyorum
      Gerçek bir araç istiyorsanız çözüm, LLM’yi yerelde kendiniz çalıştırmak

    • Sonunda en az guardrail’e sahip yapay zekânın pazarı ele geçireceğini düşünüyorum
      Şu an frontier modeller arasında Grok en az kısıtlayıcı olanı gibi duruyor ama onun da gelişmesi gereken tarafları var

    • Benzer şekilde, kızım için doğum günü kuponu görseli üretmeye çalıştığımda ChatGPT/DallE ile geçirdiğim sürenin dörtte üçü çeşitli içerik politikalarını aşmaya uğraşmakla geçti

    • Benim sınırlı deneyimimde de Claude “tartışmalı” konularda diyaloğu çok daha hızlı ve sert biçimde kesiyor

  • System Initiative ile birlikte hızlı bir test yaptım
    Altyapıdaki 503 hatası elle çözülse 2 saatten fazla sürecekti; birlikte kullanınca 15 dakikada çözdüm
    Başka kullanım örneklerini blogda derledim
    System Initiative resmi sitesi
    Deneyim yazısı blogu