- İlk birkaç hafta boyunca yüksek hız, adil görünen token kotası ve iyi sonuç kalitesi nedeniyle memnuniyet yüksekti; ancak yaklaşık 3 hafta önce bu algı belirgin biçimde değişti
- 10 saat ara verip döndükten sonra Claude Haiku’ya yalnızca iki kısa soru gönderildiğinde kullanım %100’e fırladı; destek kanalı ise sorunun özünü ele almayan otomatik yanıtların ardından fiilen kapandı
- Son dönemde aynı anda birden çok proje yürütülebilirken artık tek bir projede bile iki saat içinde token sınırı tükeniyor; refaktör sürecinde ise ucuz bir geçici çözümü düzeltmek için 5 saatlik pencerenin yaklaşık yarısı harcandı
- Bir süre geçince konuşma önbelleği kaybolduğu için kod tabanını yeniden okuma maliyeti tekrarlandı; haftalık referans noktasının değişmesi ve açıklamasız aylık limit uyarıları da eklenince limit sistemi tutarlı görünmedi
- Verimlilik artışı ve ürünün potansiyeli güçlü biçimde kabul edilse de, yetersiz destek, kalite düşüşü ve kullanım sınırı karmaşası birikince sonunda Anthropic hesabı iptal edildi
İlk memnuniyet ve sonrasındaki değişim
- Claude Code aboneliğinin ilk birkaç haftasında hız yüksekti, token kotası adil görünüyordu ve sonuç kalitesi de iyiydi
- Yoğun olmayan saatlerde token kotasının artırıldığına dair duyuru da görülebiliyordu
- Bazı devlet kurallarına karşı çıkan tutumu da eklenince ürüne destek duygusu oluştu
- Yaklaşık 3 hafta önce bu ilk memnuniyet hızla kaybolmaya başladı
- Sonraki bölümlerde destek yaklaşımı, kalite ve kullanım sınırı sorunları art arda anlatılıyor
Destek kalitesi sorunu
- Yaklaşık 10 saat dinlenip tokenların yeniden dolduğu düşünülerek sabah işe dönüldü; ancak Claude Haiku’ya depo ile ilgisiz iki kısa soru gönderildikten hemen sonra token kullanımı %100’e çıktı
- Sorular basitti ve ölçek olarak da küçüktü
- Beklenen token yenilenmesi ile fiili kullanım artışı birbiriyle örtüşmedi
- Yapay zeka destek botuna başvuruldu, fakat yalnızca temel yönlendirmeler döndürdü ve gerçek sorunu doğru düzgün anlayamadı
- Ardından insan desteği talep edildi
- Birkaç gün sonra gelen yanıt da gerçek sorunun dışında kalan kalıplaşmış bir cevap gibi göründü
- Gelen yanıtta “sistemin bunu Pro veya Max plan kullanım limiti sorusu olarak algıladığı” yazıyordu; oysa fiilen zaten Pro plan kullanılıyordu ve başvurunun özü yine yakalanmamıştı
- Devamındaki metin de günlük ve haftalık limitleri anlatan uzun, doküman benzeri bir içerikten oluşuyordu
- Sorulan problemi çözen ya da doğrudan ele alan bir akış görünmüyordu
- E-postanın sonunda ek yanıtların izlenmeyebileceği ve yardım sayfasının ziyaret edilmesi gerektiği yazıyordu; böylece destek kanalı fiilen kapanmış oldu
- Gerçek sorunu yansıtmayan otomatik bir yanıtın ardından destek yolu da tıkanmış oldu
- Destek kalitesine yönelik hayal kırıklığı ciddi biçimde büyüdü
Kalite düşüşü
- Sonraki günler ve haftalarda sonuç kalitesi ilk deneyime kıyasla tatmin edici değildi; çalışılabilir süre de ciddi biçimde azaldı
- Önceden aynı anda en fazla üç proje yürütülebilirken, artık tek bir projede bile iki saat içinde token sınırı doluyordu
- Kullanılabilir miktar ile hissedilen üretkenlik birlikte kötüleşti
- Kalite değerlendirmesinin öznel olabileceği ve ajan performansının kullanıcıdan büyük ölçüde etkilenebileceği de özellikle belirtiliyor
- Aynı zamanda GitHub Copilot, OpenAI Codex, OMLX, Continue, Qwen3.5-9B de kullandığı belirtilerek karşılaştırmalı deneyim ortaya konuyor
- Mutlak uzmanlık iddiası yok, ancak birçok aracı denemiş biri olarak hissedilen düşüşten söz ediliyor
- Claude Opus’a bir projeyi refaktör ettirme örneğinde, modelin düşünce günlüğünde tüm kaydırıcıları JSX içinde doğrudan düzenlemek yerine
ui-events.jsiçine genel amaçlı bir başlatıcı ekleyip değer gösterimini otomatik enjekte etme yönünde bir yaklaşım göründü- Bu yaklaşım, her range input için değer göstergesi yoksa onu otomatik ekleyen bir dolambaçlı çözüm biçimindeydi
- Bu tür günlüklerin ara sıra değil, sık sık incelenmesi gerektiği anlaşıldı
- Bu yöntem iyi bir pratik değil, ucuz bir geçici çözüm olarak değerlendirildi; doğrudan işaret edilince Opus da bunun tembel bir yaklaşım olduğunu kabul edip JSX içine etiketleri doğrudan ekleyen ve açıkça bağlayan yönteme geçti
- İlk yanlış yönü düzeltmek için bile 5 saatlik token kotasının yaklaşık %50’si harcandı
- Böylece kalite düşüşünün yalnızca izlenim değil, gerçek maliyet israfına dönüştüğü görüldü
Önbellek ve limit göstergelerindeki karmaşa
- Konuşma önbelleği sorunu da yeni bir başlık olarak ortaya çıktı; buna ilişkin Anthropic postmortem’i ve Hacker News tartışması birlikte bağlantılanıyor
- Sorunun kamuya açık biçimde ele alınması kendi başına olumlu karşılanıyor
- Ancak kullanıcı deneyimi açısından yük olduğu gibi kalıyor
- Bir süre geçtikten sonra işe geri dönüldüğünde konuşma önbelleği kayboluyor ve model kod tabanını baştan yeniden okumaya başlıyordu
- Maliyet açısından akıllıca olabilir, ancak kullanıcı açısından ilk yükleme için tokenlar bir kez zaten harcanmışken zorunlu aradan sonra aynı yükleme maliyetinin tekrar ödenmesi anlamına geliyor
- Özellikle 5 saatlik token penceresi limiti nedeniyle ara verip dönüldüğünde aynı maliyet tekrar tekrar ortaya çıkıyor
- Haftalık pencerenin bir anda bugünden pazartesi referansına dönüştüğü ve değişimle birlikte kullanımın 0’a sıfırlandığı da oldu
- Sıfırlanmanın kendisi sevindiriciydi, ancak bunun neden gerçekleştiği bilinmiyordu
- Bu da limit sisteminin tutarlı görünmediği izlenimini güçlendirdi
- Proje üzerinde çalışırken token kullanımını sürekli izleyen kullanıcı, kurumsal müşteri olmadığı halde birden aylık kullanım limiti konusunda uyarı görmeye başladı
- O anda saatlik ve haftalık limitler de henüz aşılmamıştı
- Uyarının dayanağı ekranda açıklanmıyordu
- Bu uyarı yaklaşık iki saat sonra kayboldu ve çalışmaya devam edilebildi
- Dokümanlarda aylık kullanım limitinden söz edilmiyor
- Ayarlar sayfasında da yalnızca mevcut oturum ile haftalık limitin gösterildiği yazıyor; bu nedenle aylık limitin ne olduğu belirsiz kaldı
Verimlilik etkisi ve nihai iptal
- Ürünün kendisine duyulan beğeni hâlâ güçlü; teorik olarak her şeyin çok iyi çalıştığı ve fırsatların büyük olduğu düşünülüyor
- Claude tabanlı kendi harness çözümü oluşturulmuş ve arka planda GitHub issue’larıyla ilgilenen Claude Caude de yüksek takdir görüyor
- Claude Cowork ile Nerd Enzyklopädie yazımı sürdürülüyor
- Verimlilik tek haneli katlar düzeyinde değil, bir büyüklük sırası kadar artmış durumda; kafadaki fikirler birkaç yıl öncesine kıyasla çok daha hızlı ve kolay hayata geçirilebiliyor
- Ürünün potansiyeli ve pratik faydası açık biçimde görülüyor
- Özellik kurgusunun da özenli olduğu not ediliyor
- Aynı zamanda böyle bir ürünü işletmenin teknik ve organizasyonel zorlukları da anlaşılıyor; çıkarım satışı artımlı maliyet yapısına sahip olduğu için her ek süre ve her yeni müşteri benzer düzeyde hesaplama kaynağı gerektiriyor
- Ölçek ekonomisinden yararlanmanın zor olduğu bir yapı olduğu da ortaya çıkıyor
- Hizmeti işletmenin zorluğu bütünüyle reddedilmiyor
- Sonuç olarak Anthropic’in aynı anda çok fazla yeni müşteriyi kaldıramadığı düşünülüyor ve üzerlerindeki yükü azaltmak için hesap iptal ediliyor
- Ürüne duyulan ilgi ile gerçek kullanımda hissedilen operasyonel sorunlar arasındaki fark iptal kararına yol açtı
- Yetersiz destek, kalite düşüşü ve limit karmaşasının birikmiş sonucu
10 yorum
“İlk birkaç hafta boyunca hızlı hissettiren ve adil görünen token kotası”??
Adil olduğuna kim karar veriyor?
Aylık 220 dolarlık bir hizmetin %99,5 erişilebilirlik seviyesine bile ulaşamadığını görünce, kullanıcının enayi yerine konduğunu düşündürüyor. Claude.ai ise %99’a bile ulaşamıyor.
Bunun yerine hangi hizmeti kullanıyorsunuz? Codex mi? Bir alternatif göremediğim için kullanmaya devam ediyorum ama...
Alternatifi olmadığı da doğru, ama hayatımda ilk kez %99 uptime’ı bile koruyamayan bir hizmet kullanıyorum..
GitHub 99’la bırak, galiba 95’le bile mücadele etmek zorunda.
Claude ai, proje verisi senkronizasyon sorunları nedeniyle taşınması kolay olmadığı için, şimdilik Claude Code, Codex ve Gemini CLI’ı birlikte kullanmayı düşünüyorum.
Bir alternatif varsa ben de bilmek isterim
Aylık kullanım limiti
Yıllık kullanım limiti
Haha...
Claude ile ChatGPT rekabet edince tüketici için iyi oluyor haha. Gemini’nin de bir an önce yarışa katılmasını isterim; Çinli modellerin gelişimi de inanılmaz, umarım hepsi kıyasıya rekabet eder.
Hacker News görüşleri
Birden fazla dosyada ayrıntılı teknik özellik dokümanları hazırlayıp içine Markdown ve örnek kod da ekleyerek Claude Sonnet'e verse bile, bazen gereksinimleri atlıyor, yinelenen kod üretiyor ya da gereksiz veri işleme adımları ekliyordu
Testleri de sadece geçsin diye zorla süsleyip püslemiş gibi görünüyordu; sonuçta kod yazmak yerine devasa miktarda kod okumak zorunda kalıyordum
Zaten bizzat deneyince kodlamadan çok kod okuma ve zihinsel model kurma kısmının daha zor olduğu görülüyor; Gen AI kullanınca bu yük daha da artıyor
Bu yüzden Anthropic'in mevcut fiyat seviyesinde bunun net zarar olduğunu düşünüyorum
Vibe coding değil, gerçek kullanıcıların bağımlı olduğu yazılımlar geliştiriyorum; bu yüzden aboneliğimi yakında iptal etmeyi düşünüyorum
Normal test/lint döngüsüne bağlayıp inceleme yaptırmak, üçüncü taraf kütüphaneleri hızlıca değerlendirmek, yeni konuları araştırmak, RFC ve tasarım belgeleri için taslak çıkarmak ya da zor problemlerde konuşma partneri gibi kullanmak daha uygun
Genel olarak AI şirketlerinden hoşlanmıyorum ve telif ihlali üstüne kurulmuş olmalarıyla ilgili rahatsızlığım da sürüyor; ama son modeler bazı açılardan saçma denecek kadar zeki
Abartılmış vibecoding hype'ını kabul etmeye gerek yok; sadece bir üretkenlik aracı olarak kullanmak bile yeterince değerli
Hiç kullanmamak da mümkün, belli bir şirkete para ödeme zorunluluğu da yok; ama sırf vibecoding'e bakıp bu teknolojinin tamamını çöpe atmak gerektiğini düşünmüyorum
Tüm sistem tasarımını teslim etmek yerine tasarımı kendin yapıp, gerekirse sadece tasarım desteği alarak uygulamayı tek tek yaptırmak daha yüksek doğruluk veriyor
Her aşamada gözden geçirip düzelttirip sonra devam edersen, her şeyi tamamen kendin yazmaktan yine daha hızlı olurken çok daha kontrol edilebilir kalıyor
Bu, belgeleme aşaması eklenmiş bir vibecoding türüne daha yakın; düzenleme işini azaltmak istiyorsan Sonnet yerine o andaki en iyi modeli kullanmak daha mantıklı
Yine de hangi model olursa olsun hepsini kusursuz şekilde halletmeyecek, bu yüzden ya hep ya hiç gibi kullanmamak lazım
Kararı sürekli kendin verirken, sadece faydalı olduğu bölümlerde AI kullanıp hızı artırmak daha gerçekçi
Kıdemsiz olmayan mühendisler genelde böyle bir dengeye oturuyor; LinkedIn veya sosyal medyadaki uygulamayı otomatik üretme abartılarını da görmezden gelmek gerekiyor
Benzer biçimde kullanıp daha hızlı ve daha yüksek kaliteli kod üretiyorum, ayrıca bilek yüküm de ciddi şekilde azaldı
Fark, AI'ya sadece yapabildiği kadarı bırakıp kapsamı dar ve kademeli şekilde yönetmek gibi görünüyor
Küçük birimlerde net değişiklikleri gözden geçirmek kolay ama her gün 10 bin satırlık kod dökümü alırsan değerlendirmek zorlaşıyor
Belki de fazla çok şeyi, fazla hızlı ve fazla erken zorluyorsundur
Denge kurulursa değerini görmek mümkün; beklenen kadar patlayıcı bir hız artışı olmasa da tek başına yapmaktan hâlâ daha hızlı olması muhtemel
Doğrulama ve kontrol sık sık gerekiyor, planı da defalarca düzeltmek zorunda kalıyorum; ama uygulamada da hâlâ Opus kullanıyorum
Şu anda model cache'te olduğu için Sonnet ile implement etmemem gerektiğine dair uyarı da çıkıyor bazen
Okuyup anlamak zaman alıyor ve sık sık manuel düzeltme yapıyorum ama genel olarak Pro aboneliği içinde hallediliyor
Claude Opus'u oldukça etkili kullanıyorum ve orta seviye abonelikte limite çok sık takılmıyorum
Çalışma biçimim autopilot'tan çok copilot'a yakın; kapsamı sınırlı işleri prompt olarak veriyorum ve neredeyse her şeyi gözden geçiriyorum
Bu kullanım için lider modellerin artık neredeyse yeterince iyi seviyesine geldiğini hissediyorum
Düzgün lisanslanmış kod tabanıyla eğitilmiş bir açık kaynak model çıkıp LLM destekli kodlamayı commoditized hale getirse güzel olurdu
Daha çok token harcatıp daha fazla ücret almak isterken, insanların beklenenden fazla kullanım yapması nedeniyle mevcut fiyatlandırmanın da zorlandığı görülüyor
Sonunda çözüm olarak üst pakete geçmenizi söyleyeceklerse, aslında bu iki durum birbirine tamamen zıt da sayılmaz
Ayda 100 dolar yeterli ve gelişmiş ülkelerde elektrik faturasından ucuz ev bile az değil
Benim anladığım LLM destekli kodlama, her değişikliği ve her satırı tamamen anlamak demek; bunun dışında kalan şey vibe coding
Bu ilkeye ciddi biçimde bağlı kalırsan $100 tier kotasını tüketmenin zor olduğunu düşünüyorum
Çeşitli modeller arasında bunun en iyisi olduğunu düşünüyorum ama asıl işi ona vermekten çok bazen arama motoru yerine kullanıyorum
LLM'lerin işi gerçekten devralmada verimli olduğunu hiç hissetmedim; eskiden teknik dokümantasyonun işe yarar olduğu günleri özlüyorum
Sonuçta Claude, geliştirici deneyimindeki boşlukları kapatan bir koltuk değneğine daha çok benziyor
Kullanım hakkını tamamen doldurmak inanılmaz zor ve oldukça çok gerçek iş yaptırmama rağmen haftalık ortalama yaklaşık %30'da kalıyorum
Buna karşılık Pro döneminde komik derecede sık limite takılıyordum; tek bir istekle oturum %100'ü aşıp ek ücrete gittiği de oluyordu
Max 5x hissiyat olarak 5 kattan çok daha büyük geliyor ama Anthropic surge rate gibi şeyleri fazla muğlak ele aldığı için emin olamıyorum
Son dönemde HN'de taşan Opus bitti, Codex'e geçelim tarzı gönderilere epey şüpheyle bakıyorum
Bir kısmı sadece öfke kusma olabilir ama bazılarında astroturfing kokusu da alıyorum
Gerçek işte yoğun kullansam da limite hiç dayanmadım
Saatlerce LLM çalıştırmak ise sonunda ne yaptığını ve neden yaptığını iz sürerek anlamaya uğraşacağın için, kendi zamanını boşa harcamanın reçetesi gibi görünüyor
Asıl endişe verici olan, insanların tekelci ve şeffaf olmayan abonelikli GenAI'ye bağımlı hale gelmesi
Bunu sağlam bir temelmiş gibi kullanıp üzerine bir şeyler inşa ediyorlar ama bir gün sahibi gelip o temeli bir anda çekip alabilir
Son zamanlarda rate limit biraz sinir bozduğu için CC yerine Codex'i daha çok tercih ettim ama çalışma biçimimde neredeyse hiçbir şeyi değiştirmem gerekmedi
Rakipleri ezip geçecek kadar para harcayarak erişilemez bir fark yaratmak ve sonra fiyatı istedikleri gibi belirlemek istiyorlar
Yine de rekabet hâlâ sert ve kodlama araçlarında Anthropic en iyisi olsa da bu üstünlük eskisine göre daha küçük
Açıkçası Opus 4.5 civarında zaten yeterince kullanılabilir bir seviyeye ulaşılmıştı ve artık bu sınıfta birkaç model var
Gemini Pro 3.1 de benzer, mevcut Codex ise Opus 4.5'ten daha iyi ve 4.7'ye daha yakın görünüyor
Ben de aynı projede model ve ajanları sık sık değiştiriyorum, geçiş maliyeti fiilen sıfır
claudeyerinegemini,copilot,hermesçalıştırmak yeterli; yani belli bir modele derin bir bağımlılık yokŞirketler bağımlılık yaratacak özellikler eklemeye çalışacaktır ama üst düzey modeller o kadar zeki ki çoğu zaman ne gerekiyorsa doğrudan söylemek yetiyor
Şu an tek tutarlı moat, en iyi modeli yapabilme yeteneği gibi görünüyor; o da o kadar sığ ki yarın Claude Code kaybolsa ölümcül olmaz
Kendi başına host edilebilen açık modeller de zaten epey yaklaşmış durumda
OpenAI ile Anthropic arasındaki rekabet de ilginç; buna açık kaynak akımı da eklenince yakında o noktaya varacağız gibi görünüyor
Claude, Sonnet medium effort ile tek bir oturum hakkının %100'ünü ve ek ücretlendirmeyi tüketip 53 dakika düşündükten sonra sadece şunu verdi:
API Error: Claude's response exceeded the 32000 output token maximum...API Error: Claude's response exceeded the 32000 output token maximumolmuş olması esprisi tam yerine oturuyorSon birkaç ayda bunu birçok kez gördüm; önce AWS Bedrock kaynaklı sanmıştım ama sadece onunla sınırlı görünmüyor
Ben ve birkaç çalışma arkadaşım son iki ayda Claude'da belirgin bir bilişsel yetenek düşüşü yaşıyoruz
4.5 kullanılabilirdi, 4.6 ise gerçekten iyiydi; kişisel benchmark'ıma göre 4.5 ancak 2-way pointer merge loop'u takip edebiliyor, 4.6 ise 3-way'i, 1M context de k-way'e kadar gidiyordu
Bu takip yeteneği sayesinde gerçek production kodunu anlayıp değiştirmede çok faydalıydı
Ama iki ay kadar önce 4.6 bir şeyleri unutmaya ve aptalca kararlar almaya başladı; birbirimizle karşılaştırınca sorunun sadece bende olmadığı ortaya çıktı
4.7 de çok daha iyi değil ve son birkaç haftadır sürekli auto level of effort downgrade ile mücadele ediyor gibiyim
Bir şeylerin aptallaştığını hissedip ayarlara baktığımda sessizce düşürülmüş olduğunu görmek ciddi sürtünme yaratıyor
4.6'nın ilk dönemindeki kadar iyi bir modelin mümkün olduğu zaten kanıtlandı; sorun, Anthropic'in bunu kitle pazarına sunarken throttle ve downgrade uygulamasıyla gerçek kullanım değerini düşürmesi
Bence yakında DeepSeek, 4.6+ düzeyinde more-than-good-enough seviyeye ulaştığında herkes Claude'un daha fazla ödeyip daha az alma döngüsünden çıkacak
Daha etkileyici bir şeye ihtiyaç yok; zaten mümkün olanı, sayaçlı değil provisioned bir yapıyla bizim kontrolümüzde ve istikrarlı biçimde kullanmak istiyoruz
Bir şirket böyle hata yaptığında sinir bozucu olması normal ama bir süre sınırları gevşeterek fiilen telafi ettiler ve en önemlisi yanıtları oldukça şeffaftı
Başka büyük bir AI şirketinin bu kadar şeffaf davranıp davranmayacağından emin değilim; bu yüzden Claude'a sinirlensem de ele alış biçimine saygı duyuyorum
max20 aboneliğim nisan ayından beri neredeyse boş duruyor; Codex 5.4 ve şimdi 5.5, fast mode'da bile hissedilir şekilde tamamen farklı
Opus inandırıcı biçimde başarısız oluyor, kritik ayrıntıların yarısını unutuyor ya da sessizce pragmatic adı altında teknik borcu bantla kapatıp başarılı olduğunu iddia ediyor
Gerçekte değişiklikten sonra sistem dağılıyor ama yine de öyle söylüyor; hata gösterilince de bazen daha büyük bir karmaşa yaratıyor
Opus, greenfield kapsamı tek atışta çıkarmakta iyi ama sonradan iteratif düzeltme veya karmaşık entegrasyon işlerinde zararlı olacak kadar kötü
Buna karşılık GPT 5.4+ zaman ayırıp önce edge case'leri düşünüyor ve bunu gerçekten doğru yaptığı için sonraki debug turlarını azaltıp düzgün sonuç veriyor
Tek satırlık script değişikliğinde bile dakikalarca "bu kötü amaçlı yazılım gibi görünmüyor", "bir dakika" türü düşünce döngülerine de girmiyor
Kodu toparlamak yeni özellik yazmaktan farklı bir iş ve GLM benzerleri dışarıdan daha zeki davranıyor gibi görünse de gerçek kodu inceleyince sonunda yine build/prune cycle gerekiyor
"Bu şey race condition dolu değil mi?" diye inceletmek olmuştu
Şimdi sadece Codex kullanıyorum; çünkü Claude'a güvenmek zor ve veri yarışlarını ya da olumsuz koşul eksiklerini çok sık bırakıyor
Bu günlerde Aider kullanıyorum ve yeni eğitim politikası yüzünden Github multi AI bundle aboneliğini de muhtemelen iptal edeceğim
Yeni açık modellerle birlikte Aider kullanmak ve devretmeden önce Open Spec üzerinden gereksinimleri müzakere etmek oldukça yardımcı oldu
AI hizmetlerinin token kullanımını azaltma yönünde teşviki zayıf
Ne kadar çok token harcatırlarsa o kadar çok para kazanıyorlar; bu yüzden kullanıcı tam sinirlenmeden önce ne kadar ileri gidebileceklerini sürekli test edecekler gibi geliyor
Tüm AI şirketleri maliyet artışına göre token kullanımı ile fiyat arasında sürekli yer değiştirerek hareket edecek
Biz de kaynamaya yaklaşmış ama hâlâ banyo suyu sanan ılık sudaki kurbağa gibi görünüyoruz
AI şirketleri için de teşvik aynı
Daha ucuz olursa insanlar daha çok kullanır ve fiyat maliyetin üstünde kaldığı sürece sonuçta kâr da artabilir
Doğal olarak kendi maliyetlerini düşürmek için de yeterli sebepleri var
Bu yüzden yalnızca token verimliliğini hedefleyen (cline fork'u olan) açık kaynak https://github.com/dirac-run/dirac projesini yaptım
Kapalı ve kilitleyici şirketlerin zamanla kullanıcıları yeterince bunaltacağını düşünüyorum; şu anda katkı sunacak kişiler de arıyoruz
Komplo teorisi gibi gelebilir ama Anthropic gibi şirketler, model işi bitiremediğinde bile kazanç sağlıyor
Son dönemde over editing phenomenon ile ilgili şeyler de okudum; makine sanki asla bitirmek istemiyor
Bu, iyi eşleşme istemeyen flört uygulamalarına benziyor
Çünkü başarılı olursa kullanıcı aboneliği iptal edecek
Dün benim için aydınlanma anıydı
Yerel bir LLM'e bağlı Claude Code'a basit bir çıkarım işi verdim, 10 dakika boyunca sadece uğuldayıp durdu
Aynı veri ve prompt'u
llama_cppsohbet arayüzünde doğrudan modele verince 1 dakikadan kısa sürede single-shot olarak bitirdiO yüzden sorun ya kodlama ajanının kendisinde ya da LLM ile konuşma biçiminde bir yerde olmalı
Şu an çok basit bir açık kaynak kodlama ajanı arıyorum; Nanocoder Mac'te düzgün kurulmadı ve node-modules aşırı şişkin, Opencode ise tamamen açık kaynak gibi görünmüyor
Şimdilik kodlama ajanı görevini bizzat ben üstlenip
llama_cppweb arayüzünü kullanıyorum ve fena da gitmiyorDepoda MIT License yazıyor
"Aşırı basit" bir kodlama ajanı istiyorsan, hatta tam sana göre yapmak mümkün
Ben de bu hafta Anthropic'in garip davranışlarına sinirlenip gerçekten bunu yaptım ve birkaç gün içinde kullanılabilir bir şey ortaya çıktı
Benim durumumda BeOS veya eski Mac'lerde Claude Code olmadığı için, doğrudan kendim bootstrap edip parçaları bağlamak daha da kolaydı
Bu süreçte modelin gerçekte nasıl çalıştığını ve Claude Code'un içinde ne kadar saçma sapan bant yamaları döndüğünü de çok şey öğreniyorsun
Tabii ajan ya da harness tarafının çözmesi gereken zorlukları da bir miktar anlamış oluyorsun
Ayrıca
llama_cpp'ye kıyasla Claude Code'un yavaş olması sorununu ben de yaşadım; tahminim API trafiğine abonelik trafiğinden öncelik veriliyorAPI çok daha hızlı hissettiriyor ama karşılığında çok daha pahalıya geliyor
Yapı düşündüğünden çok daha basit
vLLM'e sadece endpoint sözdizimini değiştiren ince bir shim ekleyerek bunu gerçekten yaptım
Bazen aynı Claude modeli bazı zamanlarda mantık hatası üretirken bazen üretmiyor
Claude performansı zamana bağlı gibi güçlü bir his veriyor ve bunu gösteren grafikler de var
https://marginlab.ai/trackers/claude-code/
Ayrıca çok açık konuşulmuyor ama aynı modelde bile quantization'a göre sonuç farkının epey büyük olduğunu hissediyorum
4-bit ile 8-bit'in hesaplama gereksinimi de çıktı kalitesi de farklı
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization
Frontier modellerin birebir aynı çalışmadığını biliyorum ama yoğun saatlerde bellek ya da kaynak kullanımını azaltmak için bir yerde bir fidelity dial olup performansın ayarlanıp ayarlanmadığını merak ediyorum
%60 çizgisi %95 güven aralığının içinde kalıyor; o durumda bu sadece ölçüm gürültüsü de olabilir, diye düşünüyorum