Claude’u neden iptal ettim: token sorunları, kalite düşüşü ve yetersiz destek

(nickyreinert.de)

9 puan yazan GN⁺ 5 일 전 | 10 yorum | WhatsApp'ta paylaş

İlk birkaç hafta boyunca yüksek hız, adil görünen token kotası ve iyi sonuç kalitesi nedeniyle memnuniyet yüksekti; ancak yaklaşık 3 hafta önce bu algı belirgin biçimde değişti
10 saat ara verip döndükten sonra Claude Haiku’ya yalnızca iki kısa soru gönderildiğinde kullanım %100’e fırladı; destek kanalı ise sorunun özünü ele almayan otomatik yanıtların ardından fiilen kapandı
Son dönemde aynı anda birden çok proje yürütülebilirken artık tek bir projede bile iki saat içinde token sınırı tükeniyor; refaktör sürecinde ise ucuz bir geçici çözümü düzeltmek için 5 saatlik pencerenin yaklaşık yarısı harcandı
Bir süre geçince konuşma önbelleği kaybolduğu için kod tabanını yeniden okuma maliyeti tekrarlandı; haftalık referans noktasının değişmesi ve açıklamasız aylık limit uyarıları da eklenince limit sistemi tutarlı görünmedi
Verimlilik artışı ve ürünün potansiyeli güçlü biçimde kabul edilse de, yetersiz destek, kalite düşüşü ve kullanım sınırı karmaşası birikince sonunda Anthropic hesabı iptal edildi

İlk memnuniyet ve sonrasındaki değişim

Claude Code aboneliğinin ilk birkaç haftasında hız yüksekti, token kotası adil görünüyordu ve sonuç kalitesi de iyiydi
- Yoğun olmayan saatlerde token kotasının artırıldığına dair duyuru da görülebiliyordu
- Bazı devlet kurallarına karşı çıkan tutumu da eklenince ürüne destek duygusu oluştu
Yaklaşık 3 hafta önce bu ilk memnuniyet hızla kaybolmaya başladı
- Sonraki bölümlerde destek yaklaşımı, kalite ve kullanım sınırı sorunları art arda anlatılıyor

Destek kalitesi sorunu

Yaklaşık 10 saat dinlenip tokenların yeniden dolduğu düşünülerek sabah işe dönüldü; ancak Claude Haiku’ya depo ile ilgisiz iki kısa soru gönderildikten hemen sonra token kullanımı %100’e çıktı
- Sorular basitti ve ölçek olarak da küçüktü
- Beklenen token yenilenmesi ile fiili kullanım artışı birbiriyle örtüşmedi
Yapay zeka destek botuna başvuruldu, fakat yalnızca temel yönlendirmeler döndürdü ve gerçek sorunu doğru düzgün anlayamadı
- Ardından insan desteği talep edildi
- Birkaç gün sonra gelen yanıt da gerçek sorunun dışında kalan kalıplaşmış bir cevap gibi göründü
Gelen yanıtta “sistemin bunu Pro veya Max plan kullanım limiti sorusu olarak algıladığı” yazıyordu; oysa fiilen zaten Pro plan kullanılıyordu ve başvurunun özü yine yakalanmamıştı
- Devamındaki metin de günlük ve haftalık limitleri anlatan uzun, doküman benzeri bir içerikten oluşuyordu
- Sorulan problemi çözen ya da doğrudan ele alan bir akış görünmüyordu
E-postanın sonunda ek yanıtların izlenmeyebileceği ve yardım sayfasının ziyaret edilmesi gerektiği yazıyordu; böylece destek kanalı fiilen kapanmış oldu
- Gerçek sorunu yansıtmayan otomatik bir yanıtın ardından destek yolu da tıkanmış oldu
- Destek kalitesine yönelik hayal kırıklığı ciddi biçimde büyüdü

Kalite düşüşü

Sonraki günler ve haftalarda sonuç kalitesi ilk deneyime kıyasla tatmin edici değildi; çalışılabilir süre de ciddi biçimde azaldı
- Önceden aynı anda en fazla üç proje yürütülebilirken, artık tek bir projede bile iki saat içinde token sınırı doluyordu
- Kullanılabilir miktar ile hissedilen üretkenlik birlikte kötüleşti
Kalite değerlendirmesinin öznel olabileceği ve ajan performansının kullanıcıdan büyük ölçüde etkilenebileceği de özellikle belirtiliyor
- Aynı zamanda GitHub Copilot, OpenAI Codex, OMLX, Continue, Qwen3.5-9B de kullandığı belirtilerek karşılaştırmalı deneyim ortaya konuyor
- Mutlak uzmanlık iddiası yok, ancak birçok aracı denemiş biri olarak hissedilen düşüşten söz ediliyor
Claude Opus’a bir projeyi refaktör ettirme örneğinde, modelin düşünce günlüğünde tüm kaydırıcıları JSX içinde doğrudan düzenlemek yerine ui-events.js içine genel amaçlı bir başlatıcı ekleyip değer gösterimini otomatik enjekte etme yönünde bir yaklaşım göründü
- Bu yaklaşım, her range input için değer göstergesi yoksa onu otomatik ekleyen bir dolambaçlı çözüm biçimindeydi
- Bu tür günlüklerin ara sıra değil, sık sık incelenmesi gerektiği anlaşıldı
Bu yöntem iyi bir pratik değil, ucuz bir geçici çözüm olarak değerlendirildi; doğrudan işaret edilince Opus da bunun tembel bir yaklaşım olduğunu kabul edip JSX içine etiketleri doğrudan ekleyen ve açıkça bağlayan yönteme geçti
- İlk yanlış yönü düzeltmek için bile 5 saatlik token kotasının yaklaşık %50’si harcandı
- Böylece kalite düşüşünün yalnızca izlenim değil, gerçek maliyet israfına dönüştüğü görüldü

Önbellek ve limit göstergelerindeki karmaşa

Konuşma önbelleği sorunu da yeni bir başlık olarak ortaya çıktı; buna ilişkin Anthropic postmortem’i ve Hacker News tartışması birlikte bağlantılanıyor
- Sorunun kamuya açık biçimde ele alınması kendi başına olumlu karşılanıyor
- Ancak kullanıcı deneyimi açısından yük olduğu gibi kalıyor
Bir süre geçtikten sonra işe geri dönüldüğünde konuşma önbelleği kayboluyor ve model kod tabanını baştan yeniden okumaya başlıyordu
- Maliyet açısından akıllıca olabilir, ancak kullanıcı açısından ilk yükleme için tokenlar bir kez zaten harcanmışken zorunlu aradan sonra aynı yükleme maliyetinin tekrar ödenmesi anlamına geliyor
- Özellikle 5 saatlik token penceresi limiti nedeniyle ara verip dönüldüğünde aynı maliyet tekrar tekrar ortaya çıkıyor
Haftalık pencerenin bir anda bugünden pazartesi referansına dönüştüğü ve değişimle birlikte kullanımın 0’a sıfırlandığı da oldu
- Sıfırlanmanın kendisi sevindiriciydi, ancak bunun neden gerçekleştiği bilinmiyordu
- Bu da limit sisteminin tutarlı görünmediği izlenimini güçlendirdi
Proje üzerinde çalışırken token kullanımını sürekli izleyen kullanıcı, kurumsal müşteri olmadığı halde birden aylık kullanım limiti konusunda uyarı görmeye başladı
- O anda saatlik ve haftalık limitler de henüz aşılmamıştı
- Uyarının dayanağı ekranda açıklanmıyordu
Bu uyarı yaklaşık iki saat sonra kayboldu ve çalışmaya devam edilebildi
- Dokümanlarda aylık kullanım limitinden söz edilmiyor
- Ayarlar sayfasında da yalnızca mevcut oturum ile haftalık limitin gösterildiği yazıyor; bu nedenle aylık limitin ne olduğu belirsiz kaldı

Verimlilik etkisi ve nihai iptal

Ürünün kendisine duyulan beğeni hâlâ güçlü; teorik olarak her şeyin çok iyi çalıştığı ve fırsatların büyük olduğu düşünülüyor
- Claude tabanlı kendi harness çözümü oluşturulmuş ve arka planda GitHub issue’larıyla ilgilenen Claude Caude de yüksek takdir görüyor
- Claude Cowork ile Nerd Enzyklopädie yazımı sürdürülüyor
Verimlilik tek haneli katlar düzeyinde değil, bir büyüklük sırası kadar artmış durumda; kafadaki fikirler birkaç yıl öncesine kıyasla çok daha hızlı ve kolay hayata geçirilebiliyor
- Ürünün potansiyeli ve pratik faydası açık biçimde görülüyor
- Özellik kurgusunun da özenli olduğu not ediliyor
Aynı zamanda böyle bir ürünü işletmenin teknik ve organizasyonel zorlukları da anlaşılıyor; çıkarım satışı artımlı maliyet yapısına sahip olduğu için her ek süre ve her yeni müşteri benzer düzeyde hesaplama kaynağı gerektiriyor
- Ölçek ekonomisinden yararlanmanın zor olduğu bir yapı olduğu da ortaya çıkıyor
- Hizmeti işletmenin zorluğu bütünüyle reddedilmiyor
Sonuç olarak Anthropic’in aynı anda çok fazla yeni müşteriyi kaldıramadığı düşünülüyor ve üzerlerindeki yükü azaltmak için hesap iptal ediliyor
- Ürüne duyulan ilgi ile gerçek kullanımda hissedilen operasyonel sorunlar arasındaki fark iptal kararına yol açtı
- Yetersiz destek, kalite düşüşü ve limit karmaşasının birikmiş sonucu

10 yorum

iolothebard 4 일 전

“İlk birkaç hafta boyunca hızlı hissettiren ve adil görünen token kotası”??
Adil olduğuna kim karar veriyor?

savvykang 5 일 전

Aylık 220 dolarlık bir hizmetin %99,5 erişilebilirlik seviyesine bile ulaşamadığını görünce, kullanıcının enayi yerine konduğunu düşündürüyor. Claude.ai ise %99’a bile ulaşamıyor.

geralt 5 일 전

Bunun yerine hangi hizmeti kullanıyorsunuz? Codex mi? Bir alternatif göremediğim için kullanmaya devam ediyorum ama...

vndk2234 4 일 전

Alternatifi olmadığı da doğru, ama hayatımda ilk kez %99 uptime’ı bile koruyamayan bir hizmet kullanıyorum..

lamanus 4 일 전

GitHub 99’la bırak, galiba 95’le bile mücadele etmek zorunda.

savvykang 4 일 전

Claude ai, proje verisi senkronizasyon sorunları nedeniyle taşınması kolay olmadığı için, şimdilik Claude Code, Codex ve Gemini CLI’ı birlikte kullanmayı düşünüyorum.

savvykang 4 일 전

Bir alternatif varsa ben de bilmek isterim

picopress 5 일 전

Aylık kullanım limiti
Yıllık kullanım limiti
Haha...

emptybynature 4 일 전

Claude ile ChatGPT rekabet edince tüketici için iyi oluyor haha. Gemini’nin de bir an önce yarışa katılmasını isterim; Çinli modellerin gelişimi de inanılmaz, umarım hepsi kıyasıya rekabet eder.

GN⁺ 5 일 전

Hacker News görüşleri

Birden fazla dosyada ayrıntılı teknik özellik dokümanları hazırlayıp içine Markdown ve örnek kod da ekleyerek Claude Sonnet'e verse bile, bazen gereksinimleri atlıyor, yinelenen kod üretiyor ya da gereksiz veri işleme adımları ekliyordu
Testleri de sadece geçsin diye zorla süsleyip püslemiş gibi görünüyordu; sonuçta kod yazmak yerine devasa miktarda kod okumak zorunda kalıyordum
Zaten bizzat deneyince kodlamadan çok kod okuma ve zihinsel model kurma kısmının daha zor olduğu görülüyor; Gen AI kullanınca bu yük daha da artıyor
Bu yüzden Anthropic'in mevcut fiyat seviyesinde bunun net zarar olduğunu düşünüyorum
Vibe coding değil, gerçek kullanıcıların bağımlı olduğu yazılımlar geliştiriyorum; bu yüzden aboneliğimi yakında iptal etmeyi düşünüyorum
- Kodun AI tarafından tamamen yazılmasına izin vermek yerine, onu bir kod inceleme yardımcısı gibi kullanmak daha iyi
  Normal test/lint döngüsüne bağlayıp inceleme yaptırmak, üçüncü taraf kütüphaneleri hızlıca değerlendirmek, yeni konuları araştırmak, RFC ve tasarım belgeleri için taslak çıkarmak ya da zor problemlerde konuşma partneri gibi kullanmak daha uygun
  Genel olarak AI şirketlerinden hoşlanmıyorum ve telif ihlali üstüne kurulmuş olmalarıyla ilgili rahatsızlığım da sürüyor; ama son modeler bazı açılardan saçma denecek kadar zeki
  Abartılmış vibecoding hype'ını kabul etmeye gerek yok; sadece bir üretkenlik aracı olarak kullanmak bile yeterince değerli
  Hiç kullanmamak da mümkün, belli bir şirkete para ödeme zorunluluğu da yok; ama sırf vibecoding'e bakıp bu teknolojinin tamamını çöpe atmak gerektiğini düşünmüyorum
- Her şeyi tek seferde vermeyi bırakıp işi bölerek micromanage etmek daha iyi
  Tüm sistem tasarımını teslim etmek yerine tasarımı kendin yapıp, gerekirse sadece tasarım desteği alarak uygulamayı tek tek yaptırmak daha yüksek doğruluk veriyor
  Her aşamada gözden geçirip düzelttirip sonra devam edersen, her şeyi tamamen kendin yazmaktan yine daha hızlı olurken çok daha kontrol edilebilir kalıyor
- Ayrıntılı spesifikasyon yazıp her şeyi AI'ya bırakma yöntemi optimal değil
  Bu, belgeleme aşaması eklenmiş bir vibecoding türüne daha yakın; düzenleme işini azaltmak istiyorsan Sonnet yerine o andaki en iyi modeli kullanmak daha mantıklı
  Yine de hangi model olursa olsun hepsini kusursuz şekilde halletmeyecek, bu yüzden ya hep ya hiç gibi kullanmamak lazım
  Kararı sürekli kendin verirken, sadece faydalı olduğu bölümlerde AI kullanıp hızı artırmak daha gerçekçi
  Kıdemsiz olmayan mühendisler genelde böyle bir dengeye oturuyor; LinkedIn veya sosyal medyadaki uygulamayı otomatik üretme abartılarını da görmezden gelmek gerekiyor
- Pek çok kişinin yaşadığı sorun, sanırım gerçekçi olmayan beklentilerden kaynaklanıyor
  Benzer biçimde kullanıp daha hızlı ve daha yüksek kaliteli kod üretiyorum, ayrıca bilek yüküm de ciddi şekilde azaldı
  Fark, AI'ya sadece yapabildiği kadarı bırakıp kapsamı dar ve kademeli şekilde yönetmek gibi görünüyor
  Küçük birimlerde net değişiklikleri gözden geçirmek kolay ama her gün 10 bin satırlık kod dökümü alırsan değerlendirmek zorlaşıyor
  Belki de fazla çok şeyi, fazla hızlı ve fazla erken zorluyorsundur
  Denge kurulursa değerini görmek mümkün; beklenen kadar patlayıcı bir hız artışı olmasa da tek başına yapmaktan hâlâ daha hızlı olması muhtemel
- Ben başkalarından biraz farklı kullanıyor olabilirim ama, istediğim içeriği ve biçimi yazınca Opus 4.7 bir plan oluşturuyor ve ben de onu dikkatle inceliyorum
  Doğrulama ve kontrol sık sık gerekiyor, planı da defalarca düzeltmek zorunda kalıyorum; ama uygulamada da hâlâ Opus kullanıyorum
  Şu anda model cache'te olduğu için Sonnet ile implement etmemem gerektiğine dair uyarı da çıkıyor bazen
  Okuyup anlamak zaman alıyor ve sık sık manuel düzeltme yapıyorum ama genel olarak Pro aboneliği içinde hallediliyor
Claude Opus'u oldukça etkili kullanıyorum ve orta seviye abonelikte limite çok sık takılmıyorum
Çalışma biçimim autopilot'tan çok copilot'a yakın; kapsamı sınırlı işleri prompt olarak veriyorum ve neredeyse her şeyi gözden geçiriyorum
Bu kullanım için lider modellerin artık neredeyse yeterince iyi seviyesine geldiğini hissediyorum
Düzgün lisanslanmış kod tabanıyla eğitilmiş bir açık kaynak model çıkıp LLM destekli kodlamayı commoditized hale getirse güzel olurdu
- Ben de benzer şekilde copilot tarzında kullanıyorum ve genel olarak memnunum; ama şirketler bizi autopilot moduna itmek istiyor gibi güçlü bir his var
  Daha çok token harcatıp daha fazla ücret almak isterken, insanların beklenenden fazla kullanım yapması nedeniyle mevcut fiyatlandırmanın da zorlandığı görülüyor
  Sonunda çözüm olarak üst pakete geçmenizi söyleyeceklerse, aslında bu iki durum birbirine tamamen zıt da sayılmaz
- LLM destekli kodlamanın metalaşması zaten gerçekleşmedi mi diye düşünüyorum
  Ayda 100 dolar yeterli ve gelişmiş ülkelerde elektrik faturasından ucuz ev bile az değil
  Benim anladığım LLM destekli kodlama, her değişikliği ve her satırı tamamen anlamak demek; bunun dışında kalan şey vibe coding
  Bu ilkeye ciddi biçimde bağlı kalırsan $100 tier kotasını tüketmenin zor olduğunu düşünüyorum
- Ben de copilot'ım, autopilot değilim
  Çeşitli modeller arasında bunun en iyisi olduğunu düşünüyorum ama asıl işi ona vermekten çok bazen arama motoru yerine kullanıyorum
  LLM'lerin işi gerçekten devralmada verimli olduğunu hiç hissetmedim; eskiden teknik dokümantasyonun işe yarar olduğu günleri özlüyorum
  Sonuçta Claude, geliştirici deneyimindeki boşlukları kapatan bir koltuk değneğine daha çok benziyor
- Max 5x paketinde sadece Claude Opus'u xhigh modunda kullanıyorum; agent ya da MCP kullanmıyor, yalnızca Claude Code kullanıyorum
  Kullanım hakkını tamamen doldurmak inanılmaz zor ve oldukça çok gerçek iş yaptırmama rağmen haftalık ortalama yaklaşık %30'da kalıyorum
  Buna karşılık Pro döneminde komik derecede sık limite takılıyordum; tek bir istekle oturum %100'ü aşıp ek ücrete gittiği de oluyordu
  Max 5x hissiyat olarak 5 kattan çok daha büyük geliyor ama Anthropic surge rate gibi şeyleri fazla muğlak ele aldığı için emin olamıyorum
  Son dönemde HN'de taşan Opus bitti, Codex'e geçelim tarzı gönderilere epey şüpheyle bakıyorum
  Bir kısmı sadece öfke kusma olabilir ama bazılarında astroturfing kokusu da alıyorum
- Benim deneyimim de benzer
  Gerçek işte yoğun kullansam da limite hiç dayanmadım
  Saatlerce LLM çalıştırmak ise sonunda ne yaptığını ve neden yaptığını iz sürerek anlamaya uğraşacağın için, kendi zamanını boşa harcamanın reçetesi gibi görünüyor
Asıl endişe verici olan, insanların tekelci ve şeffaf olmayan abonelikli GenAI'ye bağımlı hale gelmesi
Bunu sağlam bir temelmiş gibi kullanıp üzerine bir şeyler inşa ediyorlar ama bir gün sahibi gelip o temeli bir anda çekip alabilir
- Yine de bu ürünler arasında ikame edilebilirlik yüksek
  Son zamanlarda rate limit biraz sinir bozduğu için CC yerine Codex'i daha çok tercih ettim ama çalışma biçimimde neredeyse hiçbir şeyi değiştirmem gerekmedi
- En azından yatırımcıların bir kısmı burada tekel konumu peşinde
  Rakipleri ezip geçecek kadar para harcayarak erişilemez bir fark yaratmak ve sonra fiyatı istedikleri gibi belirlemek istiyorlar
  Yine de rekabet hâlâ sert ve kodlama araçlarında Anthropic en iyisi olsa da bu üstünlük eskisine göre daha küçük
  Açıkçası Opus 4.5 civarında zaten yeterince kullanılabilir bir seviyeye ulaşılmıştı ve artık bu sınıfta birkaç model var
  Gemini Pro 3.1 de benzer, mevcut Codex ise Opus 4.5'ten daha iyi ve 4.7'ye daha yakın görünüyor
  Ben de aynı projede model ve ajanları sık sık değiştiriyorum, geçiş maliyeti fiilen sıfır
  claude yerine gemini, copilot, hermes çalıştırmak yeterli; yani belli bir modele derin bir bağımlılık yok
  Şirketler bağımlılık yaratacak özellikler eklemeye çalışacaktır ama üst düzey modeller o kadar zeki ki çoğu zaman ne gerekiyorsa doğrudan söylemek yetiyor
  Şu an tek tutarlı moat, en iyi modeli yapabilme yeteneği gibi görünüyor; o da o kadar sığ ki yarın Claude Code kaybolsa ölümcül olmaz
  Kendi başına host edilebilen açık modeller de zaten epey yaklaşmış durumda
- Neyse ki yerel AI her geçen gün daha gerçekçi hale geliyor
- Bu yüzden herkesin erişebildiği ve sürekli açık kalabilen açık kaynak ve egemen modellerin kritik olduğunu düşünüyorum
  OpenAI ile Anthropic arasındaki rekabet de ilginç; buna açık kaynak akımı da eklenince yakında o noktaya varacağız gibi görünüyor
- Sahibinin doğrudan rug pull yapması ya da Broadcom tarafından satın alınıp sonrasında sıkıştırılmaya başlanması senaryosu da gayet olası
Claude, Sonnet medium effort ile tek bir oturum hakkının %100'ünü ve ek ücretlendirmeyi tüketip 53 dakika düşündükten sonra sadece şunu verdi:
API Error: Claude's response exceeded the 32000 output token maximum...
- Ve yedinci günde de yine aynı şekilde API Error: Claude's response exceeded the 32000 output token maximum olmuş olması esprisi tam yerine oturuyor
- 5 dakikadan fazla düşünmesine izin vereceğimi sanmıyorum
- Böyle bir durumda agentic/vibe coder tipleri yöneticilerine "yarına kadar çalışamıyorum" mu diyor, merak ediyorum
- O hata mesajını olduğu gibi tekrar Claude'a yapıştırınca çoğu zaman devam edebiliyor
  Son birkaç ayda bunu birçok kez gördüm; önce AWS Bedrock kaynaklı sanmıştım ama sadece onunla sınırlı görünmüyor
- Bunun Max 5x mi yoksa 20x mi olduğu, yani hangi plan olduğu da merak konusu
Ben ve birkaç çalışma arkadaşım son iki ayda Claude'da belirgin bir bilişsel yetenek düşüşü yaşıyoruz
4.5 kullanılabilirdi, 4.6 ise gerçekten iyiydi; kişisel benchmark'ıma göre 4.5 ancak 2-way pointer merge loop'u takip edebiliyor, 4.6 ise 3-way'i, 1M context de k-way'e kadar gidiyordu
Bu takip yeteneği sayesinde gerçek production kodunu anlayıp değiştirmede çok faydalıydı
Ama iki ay kadar önce 4.6 bir şeyleri unutmaya ve aptalca kararlar almaya başladı; birbirimizle karşılaştırınca sorunun sadece bende olmadığı ortaya çıktı
4.7 de çok daha iyi değil ve son birkaç haftadır sürekli auto level of effort downgrade ile mücadele ediyor gibiyim
Bir şeylerin aptallaştığını hissedip ayarlara baktığımda sessizce düşürülmüş olduğunu görmek ciddi sürtünme yaratıyor
4.6'nın ilk dönemindeki kadar iyi bir modelin mümkün olduğu zaten kanıtlandı; sorun, Anthropic'in bunu kitle pazarına sunarken throttle ve downgrade uygulamasıyla gerçek kullanım değerini düşürmesi
Bence yakında DeepSeek, 4.6+ düzeyinde more-than-good-enough seviyeye ulaştığında herkes Claude'un daha fazla ödeyip daha az alma döngüsünden çıkacak
Daha etkileyici bir şeye ihtiyaç yok; zaten mümkün olanı, sayaçlı değil provisioned bir yapıyla bizim kontrolümüzde ve istikrarlı biçimde kullanmak istiyoruz
- Bu gerçekten yaşanmış bir sorundu ve Anthropic de yakın zamanda https://www.anthropic.com/engineering/april-23-postmortem yazısında bunu kabul etti
  Bir şirket böyle hata yaptığında sinir bozucu olması normal ama bir süre sınırları gevşeterek fiilen telafi ettiler ve en önemlisi yanıtları oldukça şeffaftı
  Başka büyük bir AI şirketinin bu kadar şeffaf davranıp davranmayacağından emin değilim; bu yüzden Claude'a sinirlensem de ele alış biçimine saygı duyuyorum
- 4.7'yi xhigh veya max effort'ta kullanmıyorsan, bunun fiilen zaman kaybına yakın olduğunu düşünüyorum
max20 aboneliğim nisan ayından beri neredeyse boş duruyor; Codex 5.4 ve şimdi 5.5, fast mode'da bile hissedilir şekilde tamamen farklı
Opus inandırıcı biçimde başarısız oluyor, kritik ayrıntıların yarısını unutuyor ya da sessizce pragmatic adı altında teknik borcu bantla kapatıp başarılı olduğunu iddia ediyor
Gerçekte değişiklikten sonra sistem dağılıyor ama yine de öyle söylüyor; hata gösterilince de bazen daha büyük bir karmaşa yaratıyor
Opus, greenfield kapsamı tek atışta çıkarmakta iyi ama sonradan iteratif düzeltme veya karmaşık entegrasyon işlerinde zararlı olacak kadar kötü
Buna karşılık GPT 5.4+ zaman ayırıp önce edge case'leri düşünüyor ve bunu gerçekten doğru yaptığı için sonraki debug turlarını azaltıp düzgün sonuç veriyor
Tek satırlık script değişikliğinde bile dakikalarca "bu kötü amaçlı yazılım gibi görünmüyor", "bir dakika" türü düşünce döngülerine de girmiyor
- LLM'lerle ilgili zihinsel modelim, onlardan aynı anda sakız çiğneyip yürümelerini beklememek yönünde
  Kodu toparlamak yeni özellik yazmaktan farklı bir iş ve GLM benzerleri dışarıdan daha zeki davranıyor gibi görünse de gerçek kodu inceleyince sonunda yine build/prune cycle gerekiyor
- Kullanmadığın bir max20 varsa bana verebilir misin diye şaka yapılacak türden bir durum bu
- En verimli akış, iki aboneliği birden tutup Claude'a özellikleri hızlıca yükleme işini vermek ve Codex'e de
  "Bu şey race condition dolu değil mi?" diye inceletmek olmuştu
  Şimdi sadece Codex kullanıyorum; çünkü Claude'a güvenmek zor ve veri yarışlarını ya da olumsuz koşul eksiklerini çok sık bırakıyor
Bu günlerde Aider kullanıyorum ve yeni eğitim politikası yüzünden Github multi AI bundle aboneliğini de muhtemelen iptal edeceğim
Yeni açık modellerle birlikte Aider kullanmak ve devretmeden önce Open Spec üzerinden gereksinimleri müzakere etmek oldukça yardımcı oldu
AI hizmetlerinin token kullanımını azaltma yönünde teşviki zayıf
Ne kadar çok token harcatırlarsa o kadar çok para kazanıyorlar; bu yüzden kullanıcı tam sinirlenmeden önce ne kadar ileri gidebileceklerini sürekli test edecekler gibi geliyor
Tüm AI şirketleri maliyet artışına göre token kullanımı ile fiyat arasında sürekli yer değiştirerek hareket edecek
Biz de kaynamaya yaklaşmış ama hâlâ banyo suyu sanan ılık sudaki kurbağa gibi görünüyoruz
- AWS zamanında da "neden senin paranı korusunlar ki" denirdi ama pratikte fiyat düştükçe kullanıcı arttı ve daha fazla para kazandılar
  AI şirketleri için de teşvik aynı
  Daha ucuz olursa insanlar daha çok kullanır ve fiyat maliyetin üstünde kaldığı sürece sonuçta kâr da artabilir
  Doğal olarak kendi maliyetlerini düşürmek için de yeterli sebepleri var
- Bir yere kadar doğru ama kapasite kısıtı gerçekten devreye girip Anthropic de tekel olmadığı için rekabet baskısı hissettiği anda ekonomik teşvik değişiyor
- İnsanların kapalı ajan kilidine giderek daha çok yorulacağını düşünüyorum
  Bu yüzden yalnızca token verimliliğini hedefleyen (cline fork'u olan) açık kaynak https://github.com/dirac-run/dirac projesini yaptım
  Kapalı ve kilitleyici şirketlerin zamanla kullanıcıları yeterince bunaltacağını düşünüyorum; şu anda katkı sunacak kişiler de arıyoruz
- Yine de belli bir noktaya kadar böyle bir teşvik var; ama kullanıcıları taşıyamayıp müşteriler ayrılmaya başlayınca durum değişir
- Ben de öyle düşünüyorum
  Komplo teorisi gibi gelebilir ama Anthropic gibi şirketler, model işi bitiremediğinde bile kazanç sağlıyor
  Son dönemde over editing phenomenon ile ilgili şeyler de okudum; makine sanki asla bitirmek istemiyor
  Bu, iyi eşleşme istemeyen flört uygulamalarına benziyor
  Çünkü başarılı olursa kullanıcı aboneliği iptal edecek
Dün benim için aydınlanma anıydı
Yerel bir LLM'e bağlı Claude Code'a basit bir çıkarım işi verdim, 10 dakika boyunca sadece uğuldayıp durdu
Aynı veri ve prompt'u llama_cpp sohbet arayüzünde doğrudan modele verince 1 dakikadan kısa sürede single-shot olarak bitirdi
O yüzden sorun ya kodlama ajanının kendisinde ya da LLM ile konuşma biçiminde bir yerde olmalı
Şu an çok basit bir açık kaynak kodlama ajanı arıyorum; Nanocoder Mac'te düzgün kurulmadı ve node-modules aşırı şişkin, Opencode ise tamamen açık kaynak gibi görünmüyor
Şimdilik kodlama ajanı görevini bizzat ben üstlenip llama_cpp web arayüzünü kullanıyorum ve fena da gitmiyor
- https://pi.dev/ popüler görünüyor; Opencode'un hangi açıdan açık kaynak olmadığını merak ettim
  Depoda MIT License yazıyor
- Belki biraz alışılmadık bir öneri ama, şu an kullandığın AI'ya istediğin ajanı bizzat yaptırabilirsin
  "Aşırı basit" bir kodlama ajanı istiyorsan, hatta tam sana göre yapmak mümkün
  Ben de bu hafta Anthropic'in garip davranışlarına sinirlenip gerçekten bunu yaptım ve birkaç gün içinde kullanılabilir bir şey ortaya çıktı
  Benim durumumda BeOS veya eski Mac'lerde Claude Code olmadığı için, doğrudan kendim bootstrap edip parçaları bağlamak daha da kolaydı
  Bu süreçte modelin gerçekte nasıl çalıştığını ve Claude Code'un içinde ne kadar saçma sapan bant yamaları döndüğünü de çok şey öğreniyorsun
  Tabii ajan ya da harness tarafının çözmesi gereken zorlukları da bir miktar anlamış oluyorsun
  Ayrıca llama_cpp'ye kıyasla Claude Code'un yavaş olması sorununu ben de yaşadım; tahminim API trafiğine abonelik trafiğinden öncelik veriliyor
  API çok daha hızlı hissettiriyor ama karşılığında çok daha pahalıya geliyor
- Aklına gelmemiş olabilir diye söylüyorum: İstediğin kodlama ajanını kendin yapabilirsin
  Yapı düşündüğünden çok daha basit
- Artık TUI ile IDE arasında bir yerde duran bir araç olması gerekiyor gibi geliyor
- CC'yi yerel modelle birlikte çalıştırmak da mümkün ve o kadar zor değil
  vLLM'e sadece endpoint sözdizimini değiştiren ince bir shim ekleyerek bunu gerçekten yaptım
Bazen aynı Claude modeli bazı zamanlarda mantık hatası üretirken bazen üretmiyor
Claude performansı zamana bağlı gibi güçlü bir his veriyor ve bunu gösteren grafikler de var
https://marginlab.ai/trackers/claude-code/
Ayrıca çok açık konuşulmuyor ama aynı modelde bile quantization'a göre sonuç farkının epey büyük olduğunu hissediyorum
4-bit ile 8-bit'in hesaplama gereksinimi de çıktı kalitesi de farklı
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Frontier modellerin birebir aynı çalışmadığını biliyorum ama yoğun saatlerde bellek ya da kaynak kullanımını azaltmak için bir yerde bir fidelity dial olup performansın ayarlanıp ayarlanmadığını merak ediyorum
- O grafiğin gerçekten zamansal korelasyon gösterdiğinden emin değilim
  %60 çizgisi %95 güven aralığının içinde kalıyor; o durumda bu sadece ölçüm gürültüsü de olabilir, diye düşünüyorum