Token sıkıştırma yanılsaması: RTK’ye neden şüpheyle yaklaşıyorum

(mroczek.dev)

1 puan yazan GN⁺ 5 시간 전 | 1 yorum | WhatsApp'ta paylaş

RTK, kodlama ajanlarının terminal çıktısını sıkıştırarak maliyeti düşürmeyi vaat ediyor, ancak ham çıktının azalması doğrudan daha ucuz, daha güvenli ve daha doğru yazılım mühendisliği anlamına gelmiyor
“%60~90 tasarruf”, LLM faturasının o kadar azaldığı anlamına gelmiyor; bu oran, RTK’nin kaldırdığı komut satırı çıktısı oranına daha yakın
Terminal çıktısının sessizce bozulduğu veya eksildiği silent failure durumları oluşursa, ajan önemli stack trace’ler veya derleyici bağlamı olmadan yanlış kararlar verebilir
Yalnızca token tasarrufu grafikleri yeterli değil; otonom ajanların işi gerçekten tamamlayıp tamamlamadığını gösteren görev başarı oranı ve SWE-bench tarzı doğruluk değerlendirmeleri gerekli
RTK, bağımsız bir üründen çok bir geliştirme aracı özelliğine benziyor; git, cargo, npm, grep gibi CLI çıktılarındaki değişikliklere karşı kırılgan olduğu için, bunu production ajanlarının kritik yoluna koymanın operasyonel riski yüksek

Tasarruf rakamlarının gizlediği gerçek maliyet yapısı

RTK, kodlama ajanları için terminal çıktısı sıkıştırmasıyla token kullanımında azalma ve maliyet düşüşü vaat ediyor
- GitHub’da 60k’dan fazla yıldız aldı ve sektör bu tanıtıma güçlü tepki veriyor
- Ancak “fazla iyi görünen” geliştirme aracı iddialarında gerçek yapıya bakmak gerekir
Viral olan “%60~90 tasarruf” rakamı, gerçek API fatura düşüşüyle aynı şey değil
- RTK’nin azalttığı şey, Bash çıktısının yalnızca bir kısmı
- Derin dosya okuma, depo bağlamı, sistem prompt’ları ve modelin iç muhakeme token’ları gibi daha büyük maliyet kalemleri yerinde duruyor
- rtk gain gibi komutlar, temel mimari optimizasyondan çok sosyal medya ekran görüntülerine veya teknik olmayan yöneticilere gösterilecek metriklere odaklanmış gibi görünüyor
- Son GitHub issue’larında da abartılmış metriklerle ilgili sorular yükselmeye başladı

Doğruluk ve operasyonel kararlılık daha büyük değişkenler

Doğruluk eşlik etmiyorsa optimizasyonun anlamı yok; deponun açık issue’larında terminal çıktısının sessizce bozulduğu veya eksildiği örnekler şimdiden görülüyor
- Asıl risk, AI ajanının metnin sıkıştırıldığını bilmemesi
- RTK, birkaç token tasarrufu için stack trace’in veya derleyici bağlamının kritik satırlarını kaldırırsa, hem kullanıcı hem de LLM eksik bilgiyle çalışmak zorunda kalır
- RTK’yi devreye almak, sayısız CLI aracının çıktısını anlam kaybı olmadan parse edip yorumlayan ve özetleyen harici bir katmana bağımlı olmayı seçmek demek
RTK, token tasarrufu grafikleri gösteriyor ama gerçekte önemli olan görev başarı oranı metriği eksik
- Asıl mesele, otonom ajanın çalıştırma döngüsünün sonunda yazılım mühendisliği problemini çözüp çözmediği
- Prompt maliyetini %80 düşürseniz bile bağlam zayıfladığı için ajan halüsinasyon görebilir, build’i başarısız olabilir veya döngüye girebilir; sonuçta daha fazla token harcanabilir
- Maliyet grafikleriyle birlikte titiz SWE-bench tarzı doğruluk değerlendirmeleri gelene kadar RTK anlatısı eksik kalıyor
Mimari açıdan RTK, ajan ile shell arasındaki senkron kritik yol üzerine kırılgan bir harici bağımlılık ekliyor
- Çıktı optimizasyonu, bağımsız bir ürün veya platformdan çok bir özelliğe benziyor
- Başlıca CLI ve geliştirme araçları, LLM tüketimine uygun yerel --compact veya --json-stream bayrakları sunarsa RTK’nin temel avantajı ortadan kalkabilir
RTK, insanlar tarafından okunan stdout/stderr biçimlerini özel olarak parse etmeye büyük ölçüde dayandığı için bakımı zor
- git, cargo, npm, grep terminal biçiminde birkaç boşluğu veya hata yerleşimini değiştirirse, RTK’nin regex’leri ve parse filtreleri bozulabilir
- Bu durumda açık bir hata yerine sessizce başarısız olup ajana bozulmuş veya kısmi metin verebilir
RTK, ham terminal token’larını azaltma gibi gösterişli bir metrik uğruna belirleyici güvenilirlikten, anlamsal bütünlükten ve mimari sadelikten ödün verdiriyor
- silent degradation sorununu çözene ve şeffaf görev doğruluğu benchmark’ları sunana kadar, bunu production ajan iş akışlarının kritik yoluna koymak, sağladığı indirime kıyasla yüksek operasyonel risk taşıyor

1 yorum

GN⁺ 5 시간 전

Hacker News yorumları

Bu tür yazıların sonunda genel LLM sihirli kutu endüstrisine karşı biraz güç kazanmaya başlamasına sevindim
caveman mode'dan RTK'ye, anlamsal aramaya kadar geliştiriciler mühendislerden çok büyü okuyan sihirbazlar gibi hissettiriyor; iş yerinde ise özellikle herkes kendi büyüsünün en nihai token tasarruf yöntemi olduğuna inandığı için yorucu oluyor
Ölçütüm şu: değerlendirme harness'i içinde olmayan fikirler genelde pek iyi değil ve iyi fikirler de sonunda Codex/Claude'a çıkıyor diye düşünüyorum. GitHub'da token'ların yüzde birkaçını tasarruf ettirdiğini reklam eden şeylere de inanmak zor
Bu alanda aldatıcı araçlardan kaçınmak zor ve insanların buna daha eleştirel bakmaya başlamasını isterim
- Buna tamamen katılmıyorum; ön saftaki şirketlerin LLM modeli yapmak dışındaki alanlarda ne kadar beceriksiz olduğunu hafife alıyorsun
  1 yıl boyunca “oyun motoru gibi yazılmış” yanıp sönen TUI örnekleri de oldu ve bizzat çeşitli benchmark'lar çalıştırdığımda aynı sonucu üretirken token'ları azaltan doğrulanmış yöntemler gördüm. Örneğin aynı CVE'yi bulmak ya da code review'da aynı bug'ı yakalamak gibi
  Küçük kanıtım için https://maki.sh adresine bakabilirsin
- Bu yüzden her şeyi kör A/B testiyle ölçüyorum
  Çok token yakıyorlar ama gerçekten değer ürettiklerini kanıtlamaları gerekiyor ve çoğu bu çıtanın yanına bile yaklaşamıyor
  Benim AI ajanımda da çeşitli özellikler var ama 4 ay önceki kör A/B testinin sonucunun bugün hâlâ anlamlı olduğunu düşünmüyorum. Sadece benim kelime seçimim bile sonucu büyük ölçüde değiştirebilir
  Yine de değeri bizzat doğrulamak ve gözümle görmek için test ediyorum. Belirli kör A/B test sonuçlarını özellikle paylaşmıyorum
  Başkalarının kör A/B testini çok yanlış yaptığını da gördüm; ölçüm kötüyse testin kendisi anlamsız oluyor
  Hepimiz bu sorunu birlikte çözmeye çalışıyoruz ve ortada çok fazla kara büyü olduğu için hooks'a epey bağımlıyız. Benim küçük AI ajanımda da bolca kara büyü vardır muhtemelen
  Kesin bildiğim tek şey, bunun benim için çalıştığı. Bunu kullanmasam insanların şu anda AI ile nasıl çalıştığını açıkçası bilmiyorum
  Link bırakıyorum ama ne yaparsan yap bunu önerdiğim anlamına gelmiyor. Bunu çoğunlukla başka yazılım mühendisleri kullanıyor ve benim yapmam gereken işe çok özel. En fazla, kendin uygulayabileceğin fikirler verebilir
  https://github.com/notque/vexjoy-agent
- “İyi fikirler Codex/Claude'a çıkar” sözü ancak birileri RTK gibi araçlar yapıp başkaları da bunları denediğinde geçerli olur
  Bu turu sadece izlemek de sorun değil ama RTK, Headroom, caveman mode gibi araçlar işlenmesi gereken giriş/çıkış token'larını azaltıyor ve yerel LLM'lerde ölçülebilir hız artışı sağlayabiliyor
  Nihai çıktı kalitesine zarar verip vermediği konusunda konuşacak kadar veri yok ama bunu anlamak için kurcalamak eğlenceli
- Fikrin kendisi makul. Bağlam penceresindeki sinyal/gürültü oranını düşürebiliyorsa bu iyi bir şey
  Ama RTK'nin gerçekten bunu yapıp yapmadığı henüz kanıtlanmış değil. “Yüzde 90'a kadar” gibi anlamsız ifadeler yerine, bu aracın pratikte yarattığı farkı düzgün benchmark'layan sonuçları görmek isterim
- Daha da ötesi, git status gibi komutlar için rtk'de gördüğüm bazı optimizasyonlar zaten model katmanına çıkmış gibi görünüyor
  Codex artık git status yerine sık sık git status --short gibi tool call'lar yapıyor
Yazar benim. Açık konuşmak gerekirse bunu, bir yazılım mühendisi olarak rtk ai bana çok tuhaf göründüğü için yazdım
Yıldız sayıları, doğrulukla ilgili herhangi bir değerin olmaması ve yöneticilerin maliyet optimizasyonu için buna yüklenme biçimi beni rahatsız etti. Artık insanlar mümkün olan her komutu rtk ile sarmalıyor, tüm ana komutları ele almaya çalışıyor ve hatta hangi çıktının alınması gerektiğini bile belirlemeye kalkıyor
- https://www.github.com/jahala/tilth hakkında samimi görüşlerini duymak isterim
  RTK'den farklı bir yaklaşım ve doğru cevap başına maliyeti yaklaşık %40 azaltacak şekilde benchmark edildi
- İddiaları destekleyecek gerçek kullanım rakamları neden hiç paylaşılmamış, anlayamadım. Pek yardımcı olmadı
Araç çıktısı, çıktımın büyük bir kısmını oluşturuyor. 3,9 milyon giriş token’ının 3,7 milyonunu kurtarabiliyorsam bunu kabul ederim. Tasarruf edilen token, tasarruf edilen tokendır
Bir RTK kullanıcısı olarak doğruluk benchmark’larının olmasını isterim, ama sıkıştırma yüzünden modelin önemli bir şeyi kaçırdığına dair henüz bir kanıt görmedim
Tasarım felsefesi gereği doğruluğun korunması çok katı ele alınıyor ve filtre başarısız olursa ham çıktıya geri dönülüyor. Sık kullandığım komutların kaynaklarına da bizzat baktım; hoşuma gitti ve şimdiye kadar güven kazandığını düşünüyorum
git, cargo, npm, grep terminal biçimlendirmesinde birkaç boşluğu değiştirirse ya da hata düzenini değiştirirse RTK’nin regex’lerinin ve parser’larının bozulacağı yönünde kaygılar var, ama filtre başarısız olursa yine ham çıktıya dönülüyor. RTK, bozuk veya kısmi metni ajana vermemek üzerine tasarlanmış bir araç
Kaygılar geçerli, ama eleştirilerin kanıtla desteklenmesini isterim. RTK’yi kullanıp kullanmadıklarını ve doğruluğu koruyamadığına dair kanıt bulup bulmadıklarını merak ediyorum
- Konuyu incelerken buna rastladım; göze çarpan birkaç issue oldukça kötü görünüyor
  https://github.com/rtk-ai/rtk/issues/2494
  https://github.com/rtk-ai/rtk/issues/2462
  https://github.com/rtk-ai/rtk/issues/2395
- Tasarruf edilen token, tasarruf edilen token değildir denebilecek durumlar da var
  RTK bayrakları ve başka bilgileri kaldırıyor. Bazen bunları sonradan geri kazanmak için daha fazla token harcamak gerekiyor. O araç çağrısında token’ların %70’ini kurtarmış olsanız bile, metrikler araç çağrısını 1 kez yerine 3 kez yapıp yapmadığınızı göstermiyor
  Kaldırılan çıktı yüzünden daha fazla çıkarım token’ı harcanıp harcanmadığına da bakmak gerekir
- Doğruluğu çok katı biçimde koruyor olması tek başına yeterli değil diye düşünüyorum
  En yeni model ile geride kalmış açık ağırlıklı modeller arasındaki maliyet farkını, ya da en büyük model ile bir altındaki model arasındaki maliyet farkını düşününce performansın çok dikkatli ölçülmesi gerekiyor
  Kanıt sunma yükü eleştiren tarafta olmaktan ziyade, RTK’nin performansı düşürmediğini RTK’nin kanıtlaması gerekir
Mesele şu ki, AI’yı daha iyi yaptığını söyleyen sayısız araç var ama AI’nın gerçekten daha iyi çalışıp çalışmadığını ölçmenin bir yolu yok
Popüler ürünü olan büyük şirketlerin bir yöntemi var. Genel ürün analitiği ile chatbot değerlendirmesi arasında bir yerde, kullanıcının oturum içinde başarıya ulaşıp ulaşmadığını anlıyorlar. İşleri bu
Ama günde 3 ila 50 oturum çalıştıran bireysel geliştiricilerin, neyin LLM’i daha iyi yaptığını bilmesinin neredeyse hiçbir yolu yok. Her şey sezgiye kalıyor
Şirketimizde tercih edilen harness, model, skills ve hatta kod yapısına kadar uzanan tam bir stack var. Claude Code’un milyonda biri ölçekte bile bu kurulumun bize yarayıp yaramadığını ölçmenin bir yolu olmalı
- Benim ürünümde, ajana bunu açıkça sormasını söylüyoruz. Deneyebileceğiniz gerçek örnekler ve gerçek depolar var
  https://gitsense.com
  https://github.com/gitsense/smart-ripgrep
  https://github.com/gitsense/smart-codex
  Ortalama token tasarrufuyla pek ilgilenmiyorum. Daha çok AI’nın gereksiz dosyaları bağlama taşıyıp taşımadığıyla ilgileniyorum; çünkü bu, çıkarımı etkileyebilir
  Görevden sonra ajana “dosyanın amacını baştan bilseydin, okumazdım diyeceğin kaç dosya var sence?” diye sormanız yeterli
- Geçerli bir benchmark oluşturma çabası muazzam. Muhtemelen doğru bir nokta bu ve bu yüzden daha da sinir bozucu
  Zaten framework’ler üzerinde bolca tartışma vardı; bu çok daha kötü. Senin sezgin benim sezgime karşı durumuna dönüyor. Deterministik olmayan çıktının bizi buraya getireceğini kim tahmin ederdi ki
- Cevap var. Bu tür araçlar basit token tasarrufu ile değil, doğru cevap başına maliyet üzerinden benchmark edilmelidir
Bizzat denedim; bağlamımın %90’ını oluşturan mesajları sıkıştırmadığı için toplam token kullanımının yalnızca küçük bir kısmını sıkıştırdı
Yazıyı dikkatle okursanız zaten açıkça böyle deniyor. /context çıktısına bakarsanız, muhtemelen token tüketiminin araç çağrılarında olmadığını görürsünüz. Bu yüzden yalnızca araç çağrılarını sıkıştıran bir proxy, araç çağrılarını 8 kat sıkıştırdığı doğru olsa bile büyük bir etki yaratmıyor
Uzun kodlama oturumlarında benim için pek önemli değildi
“native/built-in Read or cat tools, the data is not intercepted by RTK's shell hook”
Bu yazı, karşı argümanı destekleyen çok az veri içeriyor ve büyük ölçüde LLM tarafından üretilmiş bir metin gibi okunuyor
Semble’de de buna benzer şikayetler aldık. Bunun geçerli bir şikayet olduğunu düşünüyorum, ama bu tür benchmark’lar oluşturmak harness × model × MCP/CLI kombinasyonu yüzünden çok zor ve pahalı
Geleneksel makine öğreniminde ya da araçlarda benchmark göstermemek genelde kırmızı bayraktı. Ama LLM araçlarında durumdan emin değilim
Ajanın RTK sıkıştırmasının farkında olmasını ve bir baypas seçeneğine sahip olmasını sağlarsanız, kesilmeyi algılamasını sağlamanın bir yolu var. Ben tam ham metni geri yükleyen RTK_DISABLE=1 kullanıyorum
İyi çalışıyor ve evet, doğru. Yalnızca komut çıktısını sıkıştırdığı için “sıkıştırma” açısından sadece giriş token’larını etkiliyor
Ana akım CLI ve geliştirici araçlarının, LLM tüketimi için yerel --compact ya da --json-stream bayrakları sunabileceği doğru, ama bunu yakında yapmayacaklar
Bu yüzden rtk, caveman, ponytail gibi araçlar, durmadan büyüyen maliyetleri azaltmaya çalışıyor. 2.000 kişilik bir organizasyonda bu bugün yaklaşık 2,5 milyon dolar seviyesinde ve herkes bu ödünleşimleri bilip ona göre ayar yapıyor
Yazarın iddiasının aksine, biz bu ödünleşimlerin gayet farkındayız; araçları fork’layıp benchmark ediyor, çıktı kalitesinin ihtiyaçlarımıza uyduğunu doğrulayarak kullanıyoruz. Körü körüne kullanmıyoruz
Bireysel geliştiriciler için şart olmayabilir ve maliyet düşürmek adına başka modelleri self-host etmek daha mantıklı olabilir. Ama organizasyonlarda bu oldukça can yakıcı bir kalem
Böyle yazıların ışık tutması iyi, ama araçlara yaklaştığımız gibi bu tür yazıları da bir miktar süzerek okumak gerekir
Mac'te rtk gain komutunu denedim. Ana geliştirme makinem bellek sorunları yüzünden yeniden imajlandı ve birkaç şey karıştığı için kontrol edemedim ama Mac'te yaklaşık olarak girdi 51 bin tokenı ve çıktı 23 bin tokenı azalttı, komut başına da ortalama 3 saniye kazandırdı
Neden bu kadar öfkelendiğini, neden özellikle bunun için yazı bile yazdığını pek anlamıyorum
Birinin stack trace'i RTK'ye pipe ettiğini sanmıyorum. Ben bunu yalnızca çok belirli programlarda kullanıyorum ve derleyici çıktısını buna doldurmak aptalca görünüyor. Ajana RTK'yi yalnızca belirli bir komut kümesi için kullanmasını söyleyebilirsiniz

Token sıkıştırma yanılsaması: RTK’ye neden şüpheyle yaklaşıyorum

Tasarruf rakamlarının gizlediği gerçek maliyet yapısı

Doğruluk ve operasyonel kararlılık daha büyük değişkenler

İlgili okumalar

1 yorum

Hacker News yorumları