Tokenmaxxing öldü, yaşasın Tokenmaxxing

(12gramsofcarbon.com)

2 puan yazan GN⁺ 4 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

Şirketlerin yapay zeka benimsemesinin ilk dönemlerinde token kullanımını performans değerlendirmesiyle ilişkilendiren tokenmaxxing, anlamsız maliyetler yarattı; ancak yapay zeka araçlarının kullanımını organizasyona zorla yayma rolü de oynadı
Meta’da kişi başına token kullanımı değerlendirmeyle ilişkilendirilince, token rakamlarını artırmak için iki ajanı tüm gün birbirleriyle konuşturmak gibi biçimsel kullanımlar bile görüldü
Geçmişte ajanları uzun süre çalıştırmak, küçük hataların biriktiği birikimli hata (compounding error) nedeniyle riskliydi; ancak son dönemde daha fazla token’ın daha iyi sonuç ürettiği birikimli doğruluk (compounding correctness) eğilimi öne çıkıyor
Güvenlik alanında Mythos gibi modellere büyük token bütçeleri ayırarak zafiyet bulma yöntemi ortaya çıktı ve savunmacıların saldırganlardan daha fazla hesaplama kullanmak zorunda kaldığı bir yapı oluşuyor
İleride pahalı üst seviye modellere sınırsız harcama yapmak yerine, ucuz açık modelleri döngüler içinde daha fazla çalıştırmak tokenmaxxing’in pratik merkezi olabilir

Anlamsız token tüketimiyle başlayan tokenmaxxing

tokenmaxxing, yöneticilerin çalışanları çok token kullanmaya teşvik etmesiyle, gerçek değeri düşük işlerde bile token harcanması olgusunu ifade eder
Temsili örnek olarak Meta, performans değerlendirmelerini kişi bazında token kullanımıyla ilişkilendirdiği için eleştirildi
- Bir Meta çalışanı, token rakamını yükseltmek için iki ajanı tüm gün birbirleriyle konuşturduğunu aktardı
Dışarıdan bakıldığında yönetim gelir getirmeden yalnızca maliyet yakıyor gibi görünse de, bu yapay zeka araçlarının kullanımını zorla yaymaya yönelik bir politika olarak da görülebilir
Birkaç ay öncesine kadar organizasyonlarda yapay zeka araçlarının kullanımına güçlü biçimde direnen çok sayıda kıdemli çalışan vardı; ikna başarılı olsa bile araçları tuhaf ya da kötü sonuç üretmeye yatkın biçimlerde kullanma durumları yaşanıyordu
Bu durumda yukarıdan gelen token kullanma baskısı, duvarı delmek için kaba bir zorlama aracı olarak işledi

İlk sınırsız kullanım politikasının maliyet baskısıyla sona ermesi

tokenmaxxing politikası bir ölçüde etkili oldu ve artık neredeyse tüm ekipler en azından bir miktar yapay zeka ile kod yazıyor
Birçok ekip henüz Ramp Inspect veya Stripe Minions gibi kendi sistemlerini kurmuş değil, ancak temel olarak Cursor’ı yan çubukta kullanma seviyesine ulaştı
Token kullanımı büyük ölçüde artarken OpenAI ve Anthropic, halka arz peşinde oldukları bir dönemde aboneliklerde sunulan miktarı sınırladı ve API fiyatlarını artırdı
Token sübvansiyonları da azalınca sınırsız token kullanım politikalarını geri alan ekipler ortaya çıktı
Eski anlamıyla sınırsız tokenmaxxing, maliyet incelemesine dayanması zor bir aşamaya yaklaşıyor

Birikimli hatadan birikimli doğruluğa

Yapay zeka araçlarından beklenen, insanın sürekli denetimi olmadan zor ve sıkıcı işleri ele alabilmeleridir
- Büyük ölçekli kod migrasyonları
- Her sabah rakip araştırması
- Inbound ve outbound akışlarının işlenmesi
Geçmişte yapay zekayı ne kadar uzun çalıştırırsanız, modelin küçük hataları ve halüsinasyonları proje içinde o kadar birikiyor ve geri döndürülmesi zorlaşıyordu
Bu olgu birikimli hata (compounding error) olarak adlandırılıyordu ve çok fazla insan denetimi gerektiği için ajanları 24 saat çalıştırmanın da pek bir gerekçesi yoktu
Şimdi ise daha fazla token kullanmanın doğru cevap olasılığını artırdığı bir birikimli doğruluk (compounding correctness) ortamına geçiliyor
Token harcaması sonuç kalitesiyle bağlantılıysa, yeniden çok token kullanmaya yönelik teşvik doğar

Güvenlik alanında önce görülen token bütçesi yarışı

Siber güvenlikte token harcamasının performansla doğrudan bağlantılı olduğu örnekler şimdiden ortaya çıkıyor
Cybersecurity is Proof of Work Now, Anthropic’in Mythos’unu örnek göstererek, sistemleri güçlendirmek için saldırganın istismar amacıyla kullandığından daha fazla token’ın zafiyet keşfine harcanması gerektiğini savunuyor
AISI, Mythos’un her denemesi için 100M token bütçe ayırdı; bu da deneme başına $12.500, 10 çalıştırma için $125.000 ölçeğinde
100M token bütçesi verilen modeller azalan getiri işareti göstermedi ve AISI, test edilen token bütçesi aralığında modellerin bütçe arttıkça ilerlemeyi sürdürdüğünü belirtti
Bu yapıda zekâdan çok hesaplama iş yükü ve ödenebilir token bütçesi önem kazanıyor

Döngüler ve uzun süreli ajan çalıştırma

Boris Cherny’nin Claude Code sahnesinde söz ettiği loopsa yönelik ilgi de aynı eğilimle bağlantılı
loops’un temel yapısı, ajanın kendi turunu bitirene kadar çalışması ve bittiğinde aynı prompt’un yeniden başlatılmasıdır
Ağır bir spesifikasyonu otomatik olarak parçalara ayırıp, ajanın zaman içinde bölüm bölüm çözmesini sağlayabilir
Bu kavram yeni değil; geçen yıl Temmuz’dan beri vardı ve bir dönem “Ralph Wiggum loop” diye adlandırılıyordu
Eskiden prompt tasarımı ve ajan davranışına dair derin anlayış gerekiyordu; ancak birikimli doğruluk sayesinde tekrarlandıkça iyileşen yaklaşık sonuçlar beklemek kolaylaşıyor

Açık modellerin sağladığı maliyet etkin yinelemeli çalıştırma

Uzun vadede tokenmaxxing’in kazananı açık model platformları olabilir
En üst düzey araştırma laboratuvarlarının modellerine topluca token harcamak, CFO incelemesinden geçmekte zorlanır
Açık modeller iyileştikçe, ucuz modelleri döngü içinde daha çok çalıştırma yaklaşımı cazip hale gelir
Örneğin Claude yineleme başına 1,1 kat iyileşme, GLM 5.2 ise 1,05 kat iyileşme sağlıyor ama maliyeti yaklaşık beşte biriyse, GLM 5.2 döngüsünü 5 kat daha fazla çalıştırmak daha iyi olabilir
“Other things” bölümünde de GLM 5.2’nin son teknoloji olmasa da frontier modellere göre çok daha ucuz olduğu değerlendiriliyor
- GLM 5.2: 1 milyon giriş token’ı başına yaklaşık $1,4, 1 milyon çıkış token’ı başına yaklaşık $4
- Opus 4.X serisi: 1 milyon giriş token’ı başına $5, 1 milyon çıkış token’ı başına $25
- Haiku 4.5: 1 milyon giriş token’ı başına $1, 1 milyon çıkış token’ı başına $5
- GLM 5.2’nin Haiku’dan güçlü olduğu, bazı benchmark’larda GPT 5.5’ten de güçlü olabildiği söyleniyor

Geliştirici harcaması ile pipeline harcaması arasındaki fark

tokenmaxxing’in birbirinden farklı iki biçimi var
İlki geliştiriciye yönelik token harcamasıdır
- Geliştirici Claude Code gibi araçlar kullanır, loops çalıştırır ve çok sayıda token tüketir
- Mühendis üretkenliğini artırıyorsa iyi bir harcama olabilir
İkincisi pipeline’a yönelik token harcamasıdır
- Geliştirici hâlâ kodu elle yazar ve bu kodla belirli bir iş için tek seferlik ajanlar oluşturur
- Bu ajanlar deterministik olmayan ve kırılgan biçimde çalışırken çok sayıda token tüketir
- Pipeline gerçekten çalıştığında iyi bir harcamadır; ancak bu tür ajanlar deterministik pipeline’lar kadar doğru değildi
Halüsinasyon maliyetini azaltmak için kalite kontrol ajanı ekleyip, o kontrol ajanının hatalarını yakalamak için bir ajan daha eklerseniz token maliyeti 3 katına çıkar
Tek seferlik pipeline tipi araçların, belirli işe özel ajanlardan çok, belirli işe uyarlanmış bir dış kabuk giydirilmiş genel amaçlı platformlarla ele alınması eğilimi büyüyor

Yazılım fabrikası ve aşırı token harcaması

Doğal varış noktası yazılım fabrikası, daha da ileride karanlık fabrikadır
Bu yapıda kod tabanı, insan denetimi olmadan kod üretir, inceler, hata düzeltir ve test yazar
İnsan yalnızca spesifikasyonu verip uygulamayı teslim alan rolündedir
StrongDM’in yazılım fabrikası, bu yönü uç noktaya taşıyan bir örnek olarak anılıyor
StrongDM tarafı, mühendislerin günde $1000’lık token harcamayı hedeflemesi gerektiğini savundu; ancak bunun güçlü biçimde abartı ve tanıtım niteliği taşıdığı değerlendiriliyor
Kendi yazılım fabrikasının ayda yaklaşık $600 harcadığı söyleniyor ve şu anda mühendis başına token’lara kıdemli bir Google mühendisi maliyeti düzeyinde para harcamak aşırı bulunuyor
Bununla birlikte token’lara büyük para harcamaya yönelik teşvik potansiyel olarak mevcut ve hâlâ yayılmayı bekliyor

Tokenmaxxing öldü, yaşasın Tokenmaxxing

Anlamsız token tüketimiyle başlayan tokenmaxxing

İlk sınırsız kullanım politikasının maliyet baskısıyla sona ermesi

Birikimli hatadan birikimli doğruluğa

Güvenlik alanında önce görülen token bütçesi yarışı

Döngüler ve uzun süreli ajan çalıştırma

Açık modellerin sağladığı maliyet etkin yinelemeli çalıştırma

Geliştirici harcaması ile pipeline harcaması arasındaki fark

Yazılım fabrikası ve aşırı token harcaması

İlgili okumalar

Henüz yorum yok.