9 puan yazan GN⁺ 5 일 전 | 10 yorum | WhatsApp'ta paylaş
  • İlk birkaç hafta boyunca yüksek hız, adil görünen token kotası ve iyi sonuç kalitesi nedeniyle memnuniyet yüksekti; ancak yaklaşık 3 hafta önce bu algı belirgin biçimde değişti
  • 10 saat ara verip döndükten sonra Claude Haiku’ya yalnızca iki kısa soru gönderildiğinde kullanım %100’e fırladı; destek kanalı ise sorunun özünü ele almayan otomatik yanıtların ardından fiilen kapandı
  • Son dönemde aynı anda birden çok proje yürütülebilirken artık tek bir projede bile iki saat içinde token sınırı tükeniyor; refaktör sürecinde ise ucuz bir geçici çözümü düzeltmek için 5 saatlik pencerenin yaklaşık yarısı harcandı
  • Bir süre geçince konuşma önbelleği kaybolduğu için kod tabanını yeniden okuma maliyeti tekrarlandı; haftalık referans noktasının değişmesi ve açıklamasız aylık limit uyarıları da eklenince limit sistemi tutarlı görünmedi
  • Verimlilik artışı ve ürünün potansiyeli güçlü biçimde kabul edilse de, yetersiz destek, kalite düşüşü ve kullanım sınırı karmaşası birikince sonunda Anthropic hesabı iptal edildi

İlk memnuniyet ve sonrasındaki değişim

  • Claude Code aboneliğinin ilk birkaç haftasında hız yüksekti, token kotası adil görünüyordu ve sonuç kalitesi de iyiydi
    • Yoğun olmayan saatlerde token kotasının artırıldığına dair duyuru da görülebiliyordu
    • Bazı devlet kurallarına karşı çıkan tutumu da eklenince ürüne destek duygusu oluştu
  • Yaklaşık 3 hafta önce bu ilk memnuniyet hızla kaybolmaya başladı
    • Sonraki bölümlerde destek yaklaşımı, kalite ve kullanım sınırı sorunları art arda anlatılıyor

Destek kalitesi sorunu

  • Yaklaşık 10 saat dinlenip tokenların yeniden dolduğu düşünülerek sabah işe dönüldü; ancak Claude Haiku’ya depo ile ilgisiz iki kısa soru gönderildikten hemen sonra token kullanımı %100’e çıktı
    • Sorular basitti ve ölçek olarak da küçüktü
    • Beklenen token yenilenmesi ile fiili kullanım artışı birbiriyle örtüşmedi
  • Yapay zeka destek botuna başvuruldu, fakat yalnızca temel yönlendirmeler döndürdü ve gerçek sorunu doğru düzgün anlayamadı
    • Ardından insan desteği talep edildi
    • Birkaç gün sonra gelen yanıt da gerçek sorunun dışında kalan kalıplaşmış bir cevap gibi göründü
  • Gelen yanıtta “sistemin bunu Pro veya Max plan kullanım limiti sorusu olarak algıladığı” yazıyordu; oysa fiilen zaten Pro plan kullanılıyordu ve başvurunun özü yine yakalanmamıştı
    • Devamındaki metin de günlük ve haftalık limitleri anlatan uzun, doküman benzeri bir içerikten oluşuyordu
    • Sorulan problemi çözen ya da doğrudan ele alan bir akış görünmüyordu
  • E-postanın sonunda ek yanıtların izlenmeyebileceği ve yardım sayfasının ziyaret edilmesi gerektiği yazıyordu; böylece destek kanalı fiilen kapanmış oldu
    • Gerçek sorunu yansıtmayan otomatik bir yanıtın ardından destek yolu da tıkanmış oldu
    • Destek kalitesine yönelik hayal kırıklığı ciddi biçimde büyüdü

Kalite düşüşü

  • Sonraki günler ve haftalarda sonuç kalitesi ilk deneyime kıyasla tatmin edici değildi; çalışılabilir süre de ciddi biçimde azaldı
    • Önceden aynı anda en fazla üç proje yürütülebilirken, artık tek bir projede bile iki saat içinde token sınırı doluyordu
    • Kullanılabilir miktar ile hissedilen üretkenlik birlikte kötüleşti
  • Kalite değerlendirmesinin öznel olabileceği ve ajan performansının kullanıcıdan büyük ölçüde etkilenebileceği de özellikle belirtiliyor
    • Aynı zamanda GitHub Copilot, OpenAI Codex, OMLX, Continue, Qwen3.5-9B de kullandığı belirtilerek karşılaştırmalı deneyim ortaya konuyor
    • Mutlak uzmanlık iddiası yok, ancak birçok aracı denemiş biri olarak hissedilen düşüşten söz ediliyor
  • Claude Opus’a bir projeyi refaktör ettirme örneğinde, modelin düşünce günlüğünde tüm kaydırıcıları JSX içinde doğrudan düzenlemek yerine ui-events.js içine genel amaçlı bir başlatıcı ekleyip değer gösterimini otomatik enjekte etme yönünde bir yaklaşım göründü
    • Bu yaklaşım, her range input için değer göstergesi yoksa onu otomatik ekleyen bir dolambaçlı çözüm biçimindeydi
    • Bu tür günlüklerin ara sıra değil, sık sık incelenmesi gerektiği anlaşıldı
  • Bu yöntem iyi bir pratik değil, ucuz bir geçici çözüm olarak değerlendirildi; doğrudan işaret edilince Opus da bunun tembel bir yaklaşım olduğunu kabul edip JSX içine etiketleri doğrudan ekleyen ve açıkça bağlayan yönteme geçti
    • İlk yanlış yönü düzeltmek için bile 5 saatlik token kotasının yaklaşık %50’si harcandı
    • Böylece kalite düşüşünün yalnızca izlenim değil, gerçek maliyet israfına dönüştüğü görüldü

Önbellek ve limit göstergelerindeki karmaşa

  • Konuşma önbelleği sorunu da yeni bir başlık olarak ortaya çıktı; buna ilişkin Anthropic postmortem’i ve Hacker News tartışması birlikte bağlantılanıyor
    • Sorunun kamuya açık biçimde ele alınması kendi başına olumlu karşılanıyor
    • Ancak kullanıcı deneyimi açısından yük olduğu gibi kalıyor
  • Bir süre geçtikten sonra işe geri dönüldüğünde konuşma önbelleği kayboluyor ve model kod tabanını baştan yeniden okumaya başlıyordu
    • Maliyet açısından akıllıca olabilir, ancak kullanıcı açısından ilk yükleme için tokenlar bir kez zaten harcanmışken zorunlu aradan sonra aynı yükleme maliyetinin tekrar ödenmesi anlamına geliyor
    • Özellikle 5 saatlik token penceresi limiti nedeniyle ara verip dönüldüğünde aynı maliyet tekrar tekrar ortaya çıkıyor
  • Haftalık pencerenin bir anda bugünden pazartesi referansına dönüştüğü ve değişimle birlikte kullanımın 0’a sıfırlandığı da oldu
    • Sıfırlanmanın kendisi sevindiriciydi, ancak bunun neden gerçekleştiği bilinmiyordu
    • Bu da limit sisteminin tutarlı görünmediği izlenimini güçlendirdi
  • Proje üzerinde çalışırken token kullanımını sürekli izleyen kullanıcı, kurumsal müşteri olmadığı halde birden aylık kullanım limiti konusunda uyarı görmeye başladı
    • O anda saatlik ve haftalık limitler de henüz aşılmamıştı
    • Uyarının dayanağı ekranda açıklanmıyordu
  • Bu uyarı yaklaşık iki saat sonra kayboldu ve çalışmaya devam edilebildi
    • Dokümanlarda aylık kullanım limitinden söz edilmiyor
    • Ayarlar sayfasında da yalnızca mevcut oturum ile haftalık limitin gösterildiği yazıyor; bu nedenle aylık limitin ne olduğu belirsiz kaldı

Verimlilik etkisi ve nihai iptal

  • Ürünün kendisine duyulan beğeni hâlâ güçlü; teorik olarak her şeyin çok iyi çalıştığı ve fırsatların büyük olduğu düşünülüyor
  • Verimlilik tek haneli katlar düzeyinde değil, bir büyüklük sırası kadar artmış durumda; kafadaki fikirler birkaç yıl öncesine kıyasla çok daha hızlı ve kolay hayata geçirilebiliyor
    • Ürünün potansiyeli ve pratik faydası açık biçimde görülüyor
    • Özellik kurgusunun da özenli olduğu not ediliyor
  • Aynı zamanda böyle bir ürünü işletmenin teknik ve organizasyonel zorlukları da anlaşılıyor; çıkarım satışı artımlı maliyet yapısına sahip olduğu için her ek süre ve her yeni müşteri benzer düzeyde hesaplama kaynağı gerektiriyor
    • Ölçek ekonomisinden yararlanmanın zor olduğu bir yapı olduğu da ortaya çıkıyor
    • Hizmeti işletmenin zorluğu bütünüyle reddedilmiyor
  • Sonuç olarak Anthropic’in aynı anda çok fazla yeni müşteriyi kaldıramadığı düşünülüyor ve üzerlerindeki yükü azaltmak için hesap iptal ediliyor
    • Ürüne duyulan ilgi ile gerçek kullanımda hissedilen operasyonel sorunlar arasındaki fark iptal kararına yol açtı
    • Yetersiz destek, kalite düşüşü ve limit karmaşasının birikmiş sonucu

10 yorum

 
iolothebard 4 일 전

“İlk birkaç hafta boyunca hızlı hissettiren ve adil görünen token kotası”??
Adil olduğuna kim karar veriyor?

 
savvykang 5 일 전

Aylık 220 dolarlık bir hizmetin %99,5 erişilebilirlik seviyesine bile ulaşamadığını görünce, kullanıcının enayi yerine konduğunu düşündürüyor. Claude.ai ise %99’a bile ulaşamıyor.

 
geralt 5 일 전

Bunun yerine hangi hizmeti kullanıyorsunuz? Codex mi? Bir alternatif göremediğim için kullanmaya devam ediyorum ama...

 
vndk2234 4 일 전

Alternatifi olmadığı da doğru, ama hayatımda ilk kez %99 uptime’ı bile koruyamayan bir hizmet kullanıyorum..

 
lamanus 4 일 전

GitHub 99’la bırak, galiba 95’le bile mücadele etmek zorunda.

 
savvykang 4 일 전

Claude ai, proje verisi senkronizasyon sorunları nedeniyle taşınması kolay olmadığı için, şimdilik Claude Code, Codex ve Gemini CLI’ı birlikte kullanmayı düşünüyorum.

 
savvykang 4 일 전

Bir alternatif varsa ben de bilmek isterim

 
picopress 5 일 전

Aylık kullanım limiti
Yıllık kullanım limiti
Haha...

 
emptybynature 4 일 전

Claude ile ChatGPT rekabet edince tüketici için iyi oluyor haha. Gemini’nin de bir an önce yarışa katılmasını isterim; Çinli modellerin gelişimi de inanılmaz, umarım hepsi kıyasıya rekabet eder.

 
GN⁺ 5 일 전
Hacker News görüşleri
  • Birden fazla dosyada ayrıntılı teknik özellik dokümanları hazırlayıp içine Markdown ve örnek kod da ekleyerek Claude Sonnet'e verse bile, bazen gereksinimleri atlıyor, yinelenen kod üretiyor ya da gereksiz veri işleme adımları ekliyordu
    Testleri de sadece geçsin diye zorla süsleyip püslemiş gibi görünüyordu; sonuçta kod yazmak yerine devasa miktarda kod okumak zorunda kalıyordum
    Zaten bizzat deneyince kodlamadan çok kod okuma ve zihinsel model kurma kısmının daha zor olduğu görülüyor; Gen AI kullanınca bu yük daha da artıyor
    Bu yüzden Anthropic'in mevcut fiyat seviyesinde bunun net zarar olduğunu düşünüyorum
    Vibe coding değil, gerçek kullanıcıların bağımlı olduğu yazılımlar geliştiriyorum; bu yüzden aboneliğimi yakında iptal etmeyi düşünüyorum

    • Kodun AI tarafından tamamen yazılmasına izin vermek yerine, onu bir kod inceleme yardımcısı gibi kullanmak daha iyi
      Normal test/lint döngüsüne bağlayıp inceleme yaptırmak, üçüncü taraf kütüphaneleri hızlıca değerlendirmek, yeni konuları araştırmak, RFC ve tasarım belgeleri için taslak çıkarmak ya da zor problemlerde konuşma partneri gibi kullanmak daha uygun
      Genel olarak AI şirketlerinden hoşlanmıyorum ve telif ihlali üstüne kurulmuş olmalarıyla ilgili rahatsızlığım da sürüyor; ama son modeler bazı açılardan saçma denecek kadar zeki
      Abartılmış vibecoding hype'ını kabul etmeye gerek yok; sadece bir üretkenlik aracı olarak kullanmak bile yeterince değerli
      Hiç kullanmamak da mümkün, belli bir şirkete para ödeme zorunluluğu da yok; ama sırf vibecoding'e bakıp bu teknolojinin tamamını çöpe atmak gerektiğini düşünmüyorum
    • Her şeyi tek seferde vermeyi bırakıp işi bölerek micromanage etmek daha iyi
      Tüm sistem tasarımını teslim etmek yerine tasarımı kendin yapıp, gerekirse sadece tasarım desteği alarak uygulamayı tek tek yaptırmak daha yüksek doğruluk veriyor
      Her aşamada gözden geçirip düzelttirip sonra devam edersen, her şeyi tamamen kendin yazmaktan yine daha hızlı olurken çok daha kontrol edilebilir kalıyor
    • Ayrıntılı spesifikasyon yazıp her şeyi AI'ya bırakma yöntemi optimal değil
      Bu, belgeleme aşaması eklenmiş bir vibecoding türüne daha yakın; düzenleme işini azaltmak istiyorsan Sonnet yerine o andaki en iyi modeli kullanmak daha mantıklı
      Yine de hangi model olursa olsun hepsini kusursuz şekilde halletmeyecek, bu yüzden ya hep ya hiç gibi kullanmamak lazım
      Kararı sürekli kendin verirken, sadece faydalı olduğu bölümlerde AI kullanıp hızı artırmak daha gerçekçi
      Kıdemsiz olmayan mühendisler genelde böyle bir dengeye oturuyor; LinkedIn veya sosyal medyadaki uygulamayı otomatik üretme abartılarını da görmezden gelmek gerekiyor
    • Pek çok kişinin yaşadığı sorun, sanırım gerçekçi olmayan beklentilerden kaynaklanıyor
      Benzer biçimde kullanıp daha hızlı ve daha yüksek kaliteli kod üretiyorum, ayrıca bilek yüküm de ciddi şekilde azaldı
      Fark, AI'ya sadece yapabildiği kadarı bırakıp kapsamı dar ve kademeli şekilde yönetmek gibi görünüyor
      Küçük birimlerde net değişiklikleri gözden geçirmek kolay ama her gün 10 bin satırlık kod dökümü alırsan değerlendirmek zorlaşıyor
      Belki de fazla çok şeyi, fazla hızlı ve fazla erken zorluyorsundur
      Denge kurulursa değerini görmek mümkün; beklenen kadar patlayıcı bir hız artışı olmasa da tek başına yapmaktan hâlâ daha hızlı olması muhtemel
    • Ben başkalarından biraz farklı kullanıyor olabilirim ama, istediğim içeriği ve biçimi yazınca Opus 4.7 bir plan oluşturuyor ve ben de onu dikkatle inceliyorum
      Doğrulama ve kontrol sık sık gerekiyor, planı da defalarca düzeltmek zorunda kalıyorum; ama uygulamada da hâlâ Opus kullanıyorum
      Şu anda model cache'te olduğu için Sonnet ile implement etmemem gerektiğine dair uyarı da çıkıyor bazen
      Okuyup anlamak zaman alıyor ve sık sık manuel düzeltme yapıyorum ama genel olarak Pro aboneliği içinde hallediliyor
  • Claude Opus'u oldukça etkili kullanıyorum ve orta seviye abonelikte limite çok sık takılmıyorum
    Çalışma biçimim autopilot'tan çok copilot'a yakın; kapsamı sınırlı işleri prompt olarak veriyorum ve neredeyse her şeyi gözden geçiriyorum
    Bu kullanım için lider modellerin artık neredeyse yeterince iyi seviyesine geldiğini hissediyorum
    Düzgün lisanslanmış kod tabanıyla eğitilmiş bir açık kaynak model çıkıp LLM destekli kodlamayı commoditized hale getirse güzel olurdu

    • Ben de benzer şekilde copilot tarzında kullanıyorum ve genel olarak memnunum; ama şirketler bizi autopilot moduna itmek istiyor gibi güçlü bir his var
      Daha çok token harcatıp daha fazla ücret almak isterken, insanların beklenenden fazla kullanım yapması nedeniyle mevcut fiyatlandırmanın da zorlandığı görülüyor
      Sonunda çözüm olarak üst pakete geçmenizi söyleyeceklerse, aslında bu iki durum birbirine tamamen zıt da sayılmaz
    • LLM destekli kodlamanın metalaşması zaten gerçekleşmedi mi diye düşünüyorum
      Ayda 100 dolar yeterli ve gelişmiş ülkelerde elektrik faturasından ucuz ev bile az değil
      Benim anladığım LLM destekli kodlama, her değişikliği ve her satırı tamamen anlamak demek; bunun dışında kalan şey vibe coding
      Bu ilkeye ciddi biçimde bağlı kalırsan $100 tier kotasını tüketmenin zor olduğunu düşünüyorum
    • Ben de copilot'ım, autopilot değilim
      Çeşitli modeller arasında bunun en iyisi olduğunu düşünüyorum ama asıl işi ona vermekten çok bazen arama motoru yerine kullanıyorum
      LLM'lerin işi gerçekten devralmada verimli olduğunu hiç hissetmedim; eskiden teknik dokümantasyonun işe yarar olduğu günleri özlüyorum
      Sonuçta Claude, geliştirici deneyimindeki boşlukları kapatan bir koltuk değneğine daha çok benziyor
    • Max 5x paketinde sadece Claude Opus'u xhigh modunda kullanıyorum; agent ya da MCP kullanmıyor, yalnızca Claude Code kullanıyorum
      Kullanım hakkını tamamen doldurmak inanılmaz zor ve oldukça çok gerçek iş yaptırmama rağmen haftalık ortalama yaklaşık %30'da kalıyorum
      Buna karşılık Pro döneminde komik derecede sık limite takılıyordum; tek bir istekle oturum %100'ü aşıp ek ücrete gittiği de oluyordu
      Max 5x hissiyat olarak 5 kattan çok daha büyük geliyor ama Anthropic surge rate gibi şeyleri fazla muğlak ele aldığı için emin olamıyorum
      Son dönemde HN'de taşan Opus bitti, Codex'e geçelim tarzı gönderilere epey şüpheyle bakıyorum
      Bir kısmı sadece öfke kusma olabilir ama bazılarında astroturfing kokusu da alıyorum
    • Benim deneyimim de benzer
      Gerçek işte yoğun kullansam da limite hiç dayanmadım
      Saatlerce LLM çalıştırmak ise sonunda ne yaptığını ve neden yaptığını iz sürerek anlamaya uğraşacağın için, kendi zamanını boşa harcamanın reçetesi gibi görünüyor
  • Asıl endişe verici olan, insanların tekelci ve şeffaf olmayan abonelikli GenAI'ye bağımlı hale gelmesi
    Bunu sağlam bir temelmiş gibi kullanıp üzerine bir şeyler inşa ediyorlar ama bir gün sahibi gelip o temeli bir anda çekip alabilir

    • Yine de bu ürünler arasında ikame edilebilirlik yüksek
      Son zamanlarda rate limit biraz sinir bozduğu için CC yerine Codex'i daha çok tercih ettim ama çalışma biçimimde neredeyse hiçbir şeyi değiştirmem gerekmedi
    • En azından yatırımcıların bir kısmı burada tekel konumu peşinde
      Rakipleri ezip geçecek kadar para harcayarak erişilemez bir fark yaratmak ve sonra fiyatı istedikleri gibi belirlemek istiyorlar
      Yine de rekabet hâlâ sert ve kodlama araçlarında Anthropic en iyisi olsa da bu üstünlük eskisine göre daha küçük
      Açıkçası Opus 4.5 civarında zaten yeterince kullanılabilir bir seviyeye ulaşılmıştı ve artık bu sınıfta birkaç model var
      Gemini Pro 3.1 de benzer, mevcut Codex ise Opus 4.5'ten daha iyi ve 4.7'ye daha yakın görünüyor
      Ben de aynı projede model ve ajanları sık sık değiştiriyorum, geçiş maliyeti fiilen sıfır
      claude yerine gemini, copilot, hermes çalıştırmak yeterli; yani belli bir modele derin bir bağımlılık yok
      Şirketler bağımlılık yaratacak özellikler eklemeye çalışacaktır ama üst düzey modeller o kadar zeki ki çoğu zaman ne gerekiyorsa doğrudan söylemek yetiyor
      Şu an tek tutarlı moat, en iyi modeli yapabilme yeteneği gibi görünüyor; o da o kadar sığ ki yarın Claude Code kaybolsa ölümcül olmaz
      Kendi başına host edilebilen açık modeller de zaten epey yaklaşmış durumda
    • Neyse ki yerel AI her geçen gün daha gerçekçi hale geliyor
    • Bu yüzden herkesin erişebildiği ve sürekli açık kalabilen açık kaynak ve egemen modellerin kritik olduğunu düşünüyorum
      OpenAI ile Anthropic arasındaki rekabet de ilginç; buna açık kaynak akımı da eklenince yakında o noktaya varacağız gibi görünüyor
    • Sahibinin doğrudan rug pull yapması ya da Broadcom tarafından satın alınıp sonrasında sıkıştırılmaya başlanması senaryosu da gayet olası
  • Claude, Sonnet medium effort ile tek bir oturum hakkının %100'ünü ve ek ücretlendirmeyi tüketip 53 dakika düşündükten sonra sadece şunu verdi:
    API Error: Claude's response exceeded the 32000 output token maximum...

    • Ve yedinci günde de yine aynı şekilde API Error: Claude's response exceeded the 32000 output token maximum olmuş olması esprisi tam yerine oturuyor
    • 5 dakikadan fazla düşünmesine izin vereceğimi sanmıyorum
    • Böyle bir durumda agentic/vibe coder tipleri yöneticilerine "yarına kadar çalışamıyorum" mu diyor, merak ediyorum
    • O hata mesajını olduğu gibi tekrar Claude'a yapıştırınca çoğu zaman devam edebiliyor
      Son birkaç ayda bunu birçok kez gördüm; önce AWS Bedrock kaynaklı sanmıştım ama sadece onunla sınırlı görünmüyor
    • Bunun Max 5x mi yoksa 20x mi olduğu, yani hangi plan olduğu da merak konusu
  • Ben ve birkaç çalışma arkadaşım son iki ayda Claude'da belirgin bir bilişsel yetenek düşüşü yaşıyoruz
    4.5 kullanılabilirdi, 4.6 ise gerçekten iyiydi; kişisel benchmark'ıma göre 4.5 ancak 2-way pointer merge loop'u takip edebiliyor, 4.6 ise 3-way'i, 1M context de k-way'e kadar gidiyordu
    Bu takip yeteneği sayesinde gerçek production kodunu anlayıp değiştirmede çok faydalıydı
    Ama iki ay kadar önce 4.6 bir şeyleri unutmaya ve aptalca kararlar almaya başladı; birbirimizle karşılaştırınca sorunun sadece bende olmadığı ortaya çıktı
    4.7 de çok daha iyi değil ve son birkaç haftadır sürekli auto level of effort downgrade ile mücadele ediyor gibiyim
    Bir şeylerin aptallaştığını hissedip ayarlara baktığımda sessizce düşürülmüş olduğunu görmek ciddi sürtünme yaratıyor
    4.6'nın ilk dönemindeki kadar iyi bir modelin mümkün olduğu zaten kanıtlandı; sorun, Anthropic'in bunu kitle pazarına sunarken throttle ve downgrade uygulamasıyla gerçek kullanım değerini düşürmesi
    Bence yakında DeepSeek, 4.6+ düzeyinde more-than-good-enough seviyeye ulaştığında herkes Claude'un daha fazla ödeyip daha az alma döngüsünden çıkacak
    Daha etkileyici bir şeye ihtiyaç yok; zaten mümkün olanı, sayaçlı değil provisioned bir yapıyla bizim kontrolümüzde ve istikrarlı biçimde kullanmak istiyoruz

    • Bu gerçekten yaşanmış bir sorundu ve Anthropic de yakın zamanda https://www.anthropic.com/engineering/april-23-postmortem yazısında bunu kabul etti
      Bir şirket böyle hata yaptığında sinir bozucu olması normal ama bir süre sınırları gevşeterek fiilen telafi ettiler ve en önemlisi yanıtları oldukça şeffaftı
      Başka büyük bir AI şirketinin bu kadar şeffaf davranıp davranmayacağından emin değilim; bu yüzden Claude'a sinirlensem de ele alış biçimine saygı duyuyorum
    • 4.7'yi xhigh veya max effort'ta kullanmıyorsan, bunun fiilen zaman kaybına yakın olduğunu düşünüyorum
  • max20 aboneliğim nisan ayından beri neredeyse boş duruyor; Codex 5.4 ve şimdi 5.5, fast mode'da bile hissedilir şekilde tamamen farklı
    Opus inandırıcı biçimde başarısız oluyor, kritik ayrıntıların yarısını unutuyor ya da sessizce pragmatic adı altında teknik borcu bantla kapatıp başarılı olduğunu iddia ediyor
    Gerçekte değişiklikten sonra sistem dağılıyor ama yine de öyle söylüyor; hata gösterilince de bazen daha büyük bir karmaşa yaratıyor
    Opus, greenfield kapsamı tek atışta çıkarmakta iyi ama sonradan iteratif düzeltme veya karmaşık entegrasyon işlerinde zararlı olacak kadar kötü
    Buna karşılık GPT 5.4+ zaman ayırıp önce edge case'leri düşünüyor ve bunu gerçekten doğru yaptığı için sonraki debug turlarını azaltıp düzgün sonuç veriyor
    Tek satırlık script değişikliğinde bile dakikalarca "bu kötü amaçlı yazılım gibi görünmüyor", "bir dakika" türü düşünce döngülerine de girmiyor

    • LLM'lerle ilgili zihinsel modelim, onlardan aynı anda sakız çiğneyip yürümelerini beklememek yönünde
      Kodu toparlamak yeni özellik yazmaktan farklı bir iş ve GLM benzerleri dışarıdan daha zeki davranıyor gibi görünse de gerçek kodu inceleyince sonunda yine build/prune cycle gerekiyor
    • Kullanmadığın bir max20 varsa bana verebilir misin diye şaka yapılacak türden bir durum bu
    • En verimli akış, iki aboneliği birden tutup Claude'a özellikleri hızlıca yükleme işini vermek ve Codex'e de
      "Bu şey race condition dolu değil mi?" diye inceletmek olmuştu
      Şimdi sadece Codex kullanıyorum; çünkü Claude'a güvenmek zor ve veri yarışlarını ya da olumsuz koşul eksiklerini çok sık bırakıyor
  • Bu günlerde Aider kullanıyorum ve yeni eğitim politikası yüzünden Github multi AI bundle aboneliğini de muhtemelen iptal edeceğim
    Yeni açık modellerle birlikte Aider kullanmak ve devretmeden önce Open Spec üzerinden gereksinimleri müzakere etmek oldukça yardımcı oldu

  • AI hizmetlerinin token kullanımını azaltma yönünde teşviki zayıf
    Ne kadar çok token harcatırlarsa o kadar çok para kazanıyorlar; bu yüzden kullanıcı tam sinirlenmeden önce ne kadar ileri gidebileceklerini sürekli test edecekler gibi geliyor
    Tüm AI şirketleri maliyet artışına göre token kullanımı ile fiyat arasında sürekli yer değiştirerek hareket edecek
    Biz de kaynamaya yaklaşmış ama hâlâ banyo suyu sanan ılık sudaki kurbağa gibi görünüyoruz

    • AWS zamanında da "neden senin paranı korusunlar ki" denirdi ama pratikte fiyat düştükçe kullanıcı arttı ve daha fazla para kazandılar
      AI şirketleri için de teşvik aynı
      Daha ucuz olursa insanlar daha çok kullanır ve fiyat maliyetin üstünde kaldığı sürece sonuçta kâr da artabilir
      Doğal olarak kendi maliyetlerini düşürmek için de yeterli sebepleri var
    • Bir yere kadar doğru ama kapasite kısıtı gerçekten devreye girip Anthropic de tekel olmadığı için rekabet baskısı hissettiği anda ekonomik teşvik değişiyor
    • İnsanların kapalı ajan kilidine giderek daha çok yorulacağını düşünüyorum
      Bu yüzden yalnızca token verimliliğini hedefleyen (cline fork'u olan) açık kaynak https://github.com/dirac-run/dirac projesini yaptım
      Kapalı ve kilitleyici şirketlerin zamanla kullanıcıları yeterince bunaltacağını düşünüyorum; şu anda katkı sunacak kişiler de arıyoruz
    • Yine de belli bir noktaya kadar böyle bir teşvik var; ama kullanıcıları taşıyamayıp müşteriler ayrılmaya başlayınca durum değişir
    • Ben de öyle düşünüyorum
      Komplo teorisi gibi gelebilir ama Anthropic gibi şirketler, model işi bitiremediğinde bile kazanç sağlıyor
      Son dönemde over editing phenomenon ile ilgili şeyler de okudum; makine sanki asla bitirmek istemiyor
      Bu, iyi eşleşme istemeyen flört uygulamalarına benziyor
      Çünkü başarılı olursa kullanıcı aboneliği iptal edecek
  • Dün benim için aydınlanma anıydı
    Yerel bir LLM'e bağlı Claude Code'a basit bir çıkarım işi verdim, 10 dakika boyunca sadece uğuldayıp durdu
    Aynı veri ve prompt'u llama_cpp sohbet arayüzünde doğrudan modele verince 1 dakikadan kısa sürede single-shot olarak bitirdi
    O yüzden sorun ya kodlama ajanının kendisinde ya da LLM ile konuşma biçiminde bir yerde olmalı
    Şu an çok basit bir açık kaynak kodlama ajanı arıyorum; Nanocoder Mac'te düzgün kurulmadı ve node-modules aşırı şişkin, Opencode ise tamamen açık kaynak gibi görünmüyor
    Şimdilik kodlama ajanı görevini bizzat ben üstlenip llama_cpp web arayüzünü kullanıyorum ve fena da gitmiyor

    • https://pi.dev/ popüler görünüyor; Opencode'un hangi açıdan açık kaynak olmadığını merak ettim
      Depoda MIT License yazıyor
    • Belki biraz alışılmadık bir öneri ama, şu an kullandığın AI'ya istediğin ajanı bizzat yaptırabilirsin
      "Aşırı basit" bir kodlama ajanı istiyorsan, hatta tam sana göre yapmak mümkün
      Ben de bu hafta Anthropic'in garip davranışlarına sinirlenip gerçekten bunu yaptım ve birkaç gün içinde kullanılabilir bir şey ortaya çıktı
      Benim durumumda BeOS veya eski Mac'lerde Claude Code olmadığı için, doğrudan kendim bootstrap edip parçaları bağlamak daha da kolaydı
      Bu süreçte modelin gerçekte nasıl çalıştığını ve Claude Code'un içinde ne kadar saçma sapan bant yamaları döndüğünü de çok şey öğreniyorsun
      Tabii ajan ya da harness tarafının çözmesi gereken zorlukları da bir miktar anlamış oluyorsun
      Ayrıca llama_cpp'ye kıyasla Claude Code'un yavaş olması sorununu ben de yaşadım; tahminim API trafiğine abonelik trafiğinden öncelik veriliyor
      API çok daha hızlı hissettiriyor ama karşılığında çok daha pahalıya geliyor
    • Aklına gelmemiş olabilir diye söylüyorum: İstediğin kodlama ajanını kendin yapabilirsin
      Yapı düşündüğünden çok daha basit
    • Artık TUI ile IDE arasında bir yerde duran bir araç olması gerekiyor gibi geliyor
    • CC'yi yerel modelle birlikte çalıştırmak da mümkün ve o kadar zor değil
      vLLM'e sadece endpoint sözdizimini değiştiren ince bir shim ekleyerek bunu gerçekten yaptım
  • Bazen aynı Claude modeli bazı zamanlarda mantık hatası üretirken bazen üretmiyor
    Claude performansı zamana bağlı gibi güçlü bir his veriyor ve bunu gösteren grafikler de var
    https://marginlab.ai/trackers/claude-code/
    Ayrıca çok açık konuşulmuyor ama aynı modelde bile quantization'a göre sonuç farkının epey büyük olduğunu hissediyorum
    4-bit ile 8-bit'in hesaplama gereksinimi de çıktı kalitesi de farklı
    https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
    Frontier modellerin birebir aynı çalışmadığını biliyorum ama yoğun saatlerde bellek ya da kaynak kullanımını azaltmak için bir yerde bir fidelity dial olup performansın ayarlanıp ayarlanmadığını merak ediyorum

    • O grafiğin gerçekten zamansal korelasyon gösterdiğinden emin değilim
      %60 çizgisi %95 güven aralığının içinde kalıyor; o durumda bu sadece ölçüm gürültüsü de olabilir, diye düşünüyorum