Tokenmaxxing öldü, yaşasın Tokenmaxxing
(12gramsofcarbon.com)- Şirketlerin yapay zeka benimsemesinin ilk dönemlerinde token kullanımını performans değerlendirmesiyle ilişkilendiren tokenmaxxing, anlamsız maliyetler yarattı; ancak yapay zeka araçlarının kullanımını organizasyona zorla yayma rolü de oynadı
- Meta’da kişi başına token kullanımı değerlendirmeyle ilişkilendirilince, token rakamlarını artırmak için iki ajanı tüm gün birbirleriyle konuşturmak gibi biçimsel kullanımlar bile görüldü
- Geçmişte ajanları uzun süre çalıştırmak, küçük hataların biriktiği birikimli hata (compounding error) nedeniyle riskliydi; ancak son dönemde daha fazla token’ın daha iyi sonuç ürettiği birikimli doğruluk (compounding correctness) eğilimi öne çıkıyor
- Güvenlik alanında Mythos gibi modellere büyük token bütçeleri ayırarak zafiyet bulma yöntemi ortaya çıktı ve savunmacıların saldırganlardan daha fazla hesaplama kullanmak zorunda kaldığı bir yapı oluşuyor
- İleride pahalı üst seviye modellere sınırsız harcama yapmak yerine, ucuz açık modelleri döngüler içinde daha fazla çalıştırmak tokenmaxxing’in pratik merkezi olabilir
Anlamsız token tüketimiyle başlayan tokenmaxxing
- tokenmaxxing, yöneticilerin çalışanları çok token kullanmaya teşvik etmesiyle, gerçek değeri düşük işlerde bile token harcanması olgusunu ifade eder
- Temsili örnek olarak Meta, performans değerlendirmelerini kişi bazında token kullanımıyla ilişkilendirdiği için eleştirildi
- Bir Meta çalışanı, token rakamını yükseltmek için iki ajanı tüm gün birbirleriyle konuşturduğunu aktardı
- Dışarıdan bakıldığında yönetim gelir getirmeden yalnızca maliyet yakıyor gibi görünse de, bu yapay zeka araçlarının kullanımını zorla yaymaya yönelik bir politika olarak da görülebilir
- Birkaç ay öncesine kadar organizasyonlarda yapay zeka araçlarının kullanımına güçlü biçimde direnen çok sayıda kıdemli çalışan vardı; ikna başarılı olsa bile araçları tuhaf ya da kötü sonuç üretmeye yatkın biçimlerde kullanma durumları yaşanıyordu
- Bu durumda yukarıdan gelen token kullanma baskısı, duvarı delmek için kaba bir zorlama aracı olarak işledi
İlk sınırsız kullanım politikasının maliyet baskısıyla sona ermesi
- tokenmaxxing politikası bir ölçüde etkili oldu ve artık neredeyse tüm ekipler en azından bir miktar yapay zeka ile kod yazıyor
- Birçok ekip henüz Ramp Inspect veya Stripe Minions gibi kendi sistemlerini kurmuş değil, ancak temel olarak Cursor’ı yan çubukta kullanma seviyesine ulaştı
- Token kullanımı büyük ölçüde artarken OpenAI ve Anthropic, halka arz peşinde oldukları bir dönemde aboneliklerde sunulan miktarı sınırladı ve API fiyatlarını artırdı
- Token sübvansiyonları da azalınca sınırsız token kullanım politikalarını geri alan ekipler ortaya çıktı
- Eski anlamıyla sınırsız tokenmaxxing, maliyet incelemesine dayanması zor bir aşamaya yaklaşıyor
Birikimli hatadan birikimli doğruluğa
- Yapay zeka araçlarından beklenen, insanın sürekli denetimi olmadan zor ve sıkıcı işleri ele alabilmeleridir
- Büyük ölçekli kod migrasyonları
- Her sabah rakip araştırması
- Inbound ve outbound akışlarının işlenmesi
- Geçmişte yapay zekayı ne kadar uzun çalıştırırsanız, modelin küçük hataları ve halüsinasyonları proje içinde o kadar birikiyor ve geri döndürülmesi zorlaşıyordu
- Bu olgu birikimli hata (compounding error) olarak adlandırılıyordu ve çok fazla insan denetimi gerektiği için ajanları 24 saat çalıştırmanın da pek bir gerekçesi yoktu
- Şimdi ise daha fazla token kullanmanın doğru cevap olasılığını artırdığı bir birikimli doğruluk (compounding correctness) ortamına geçiliyor
- Token harcaması sonuç kalitesiyle bağlantılıysa, yeniden çok token kullanmaya yönelik teşvik doğar
Güvenlik alanında önce görülen token bütçesi yarışı
- Siber güvenlikte token harcamasının performansla doğrudan bağlantılı olduğu örnekler şimdiden ortaya çıkıyor
- Cybersecurity is Proof of Work Now, Anthropic’in Mythos’unu örnek göstererek, sistemleri güçlendirmek için saldırganın istismar amacıyla kullandığından daha fazla token’ın zafiyet keşfine harcanması gerektiğini savunuyor
- AISI, Mythos’un her denemesi için 100M token bütçe ayırdı; bu da deneme başına $12.500, 10 çalıştırma için $125.000 ölçeğinde
- 100M token bütçesi verilen modeller azalan getiri işareti göstermedi ve AISI, test edilen token bütçesi aralığında modellerin bütçe arttıkça ilerlemeyi sürdürdüğünü belirtti
- Bu yapıda zekâdan çok hesaplama iş yükü ve ödenebilir token bütçesi önem kazanıyor
Döngüler ve uzun süreli ajan çalıştırma
- Boris Cherny’nin Claude Code sahnesinde söz ettiği loopsa yönelik ilgi de aynı eğilimle bağlantılı
- loops’un temel yapısı, ajanın kendi turunu bitirene kadar çalışması ve bittiğinde aynı prompt’un yeniden başlatılmasıdır
- Ağır bir spesifikasyonu otomatik olarak parçalara ayırıp, ajanın zaman içinde bölüm bölüm çözmesini sağlayabilir
- Bu kavram yeni değil; geçen yıl Temmuz’dan beri vardı ve bir dönem “Ralph Wiggum loop” diye adlandırılıyordu
- Eskiden prompt tasarımı ve ajan davranışına dair derin anlayış gerekiyordu; ancak birikimli doğruluk sayesinde tekrarlandıkça iyileşen yaklaşık sonuçlar beklemek kolaylaşıyor
Açık modellerin sağladığı maliyet etkin yinelemeli çalıştırma
- Uzun vadede tokenmaxxing’in kazananı açık model platformları olabilir
- En üst düzey araştırma laboratuvarlarının modellerine topluca token harcamak, CFO incelemesinden geçmekte zorlanır
- Açık modeller iyileştikçe, ucuz modelleri döngü içinde daha çok çalıştırma yaklaşımı cazip hale gelir
- Örneğin Claude yineleme başına 1,1 kat iyileşme, GLM 5.2 ise 1,05 kat iyileşme sağlıyor ama maliyeti yaklaşık beşte biriyse, GLM 5.2 döngüsünü 5 kat daha fazla çalıştırmak daha iyi olabilir
- “Other things” bölümünde de GLM 5.2’nin son teknoloji olmasa da frontier modellere göre çok daha ucuz olduğu değerlendiriliyor
- GLM 5.2: 1 milyon giriş token’ı başına yaklaşık $1,4, 1 milyon çıkış token’ı başına yaklaşık $4
- Opus 4.X serisi: 1 milyon giriş token’ı başına $5, 1 milyon çıkış token’ı başına $25
- Haiku 4.5: 1 milyon giriş token’ı başına $1, 1 milyon çıkış token’ı başına $5
- GLM 5.2’nin Haiku’dan güçlü olduğu, bazı benchmark’larda GPT 5.5’ten de güçlü olabildiği söyleniyor
Geliştirici harcaması ile pipeline harcaması arasındaki fark
- tokenmaxxing’in birbirinden farklı iki biçimi var
- İlki geliştiriciye yönelik token harcamasıdır
- Geliştirici Claude Code gibi araçlar kullanır, loops çalıştırır ve çok sayıda token tüketir
- Mühendis üretkenliğini artırıyorsa iyi bir harcama olabilir
- İkincisi pipeline’a yönelik token harcamasıdır
- Geliştirici hâlâ kodu elle yazar ve bu kodla belirli bir iş için tek seferlik ajanlar oluşturur
- Bu ajanlar deterministik olmayan ve kırılgan biçimde çalışırken çok sayıda token tüketir
- Pipeline gerçekten çalıştığında iyi bir harcamadır; ancak bu tür ajanlar deterministik pipeline’lar kadar doğru değildi
- Halüsinasyon maliyetini azaltmak için kalite kontrol ajanı ekleyip, o kontrol ajanının hatalarını yakalamak için bir ajan daha eklerseniz token maliyeti 3 katına çıkar
- Tek seferlik pipeline tipi araçların, belirli işe özel ajanlardan çok, belirli işe uyarlanmış bir dış kabuk giydirilmiş genel amaçlı platformlarla ele alınması eğilimi büyüyor
Yazılım fabrikası ve aşırı token harcaması
- Doğal varış noktası yazılım fabrikası, daha da ileride karanlık fabrikadır
- Bu yapıda kod tabanı, insan denetimi olmadan kod üretir, inceler, hata düzeltir ve test yazar
- İnsan yalnızca spesifikasyonu verip uygulamayı teslim alan rolündedir
- StrongDM’in yazılım fabrikası, bu yönü uç noktaya taşıyan bir örnek olarak anılıyor
- StrongDM tarafı, mühendislerin günde $1000’lık token harcamayı hedeflemesi gerektiğini savundu; ancak bunun güçlü biçimde abartı ve tanıtım niteliği taşıdığı değerlendiriliyor
- Kendi yazılım fabrikasının ayda yaklaşık $600 harcadığı söyleniyor ve şu anda mühendis başına token’lara kıdemli bir Google mühendisi maliyeti düzeyinde para harcamak aşırı bulunuyor
- Bununla birlikte token’lara büyük para harcamaya yönelik teşvik potansiyel olarak mevcut ve hâlâ yayılmayı bekliyor
Henüz yorum yok.