2 puan yazan GN⁺ 4 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Şirketlerin yapay zeka benimsemesinin ilk dönemlerinde token kullanımını performans değerlendirmesiyle ilişkilendiren tokenmaxxing, anlamsız maliyetler yarattı; ancak yapay zeka araçlarının kullanımını organizasyona zorla yayma rolü de oynadı
  • Meta’da kişi başına token kullanımı değerlendirmeyle ilişkilendirilince, token rakamlarını artırmak için iki ajanı tüm gün birbirleriyle konuşturmak gibi biçimsel kullanımlar bile görüldü
  • Geçmişte ajanları uzun süre çalıştırmak, küçük hataların biriktiği birikimli hata (compounding error) nedeniyle riskliydi; ancak son dönemde daha fazla token’ın daha iyi sonuç ürettiği birikimli doğruluk (compounding correctness) eğilimi öne çıkıyor
  • Güvenlik alanında Mythos gibi modellere büyük token bütçeleri ayırarak zafiyet bulma yöntemi ortaya çıktı ve savunmacıların saldırganlardan daha fazla hesaplama kullanmak zorunda kaldığı bir yapı oluşuyor
  • İleride pahalı üst seviye modellere sınırsız harcama yapmak yerine, ucuz açık modelleri döngüler içinde daha fazla çalıştırmak tokenmaxxing’in pratik merkezi olabilir

Anlamsız token tüketimiyle başlayan tokenmaxxing

  • tokenmaxxing, yöneticilerin çalışanları çok token kullanmaya teşvik etmesiyle, gerçek değeri düşük işlerde bile token harcanması olgusunu ifade eder
  • Temsili örnek olarak Meta, performans değerlendirmelerini kişi bazında token kullanımıyla ilişkilendirdiği için eleştirildi
    • Bir Meta çalışanı, token rakamını yükseltmek için iki ajanı tüm gün birbirleriyle konuşturduğunu aktardı
  • Dışarıdan bakıldığında yönetim gelir getirmeden yalnızca maliyet yakıyor gibi görünse de, bu yapay zeka araçlarının kullanımını zorla yaymaya yönelik bir politika olarak da görülebilir
  • Birkaç ay öncesine kadar organizasyonlarda yapay zeka araçlarının kullanımına güçlü biçimde direnen çok sayıda kıdemli çalışan vardı; ikna başarılı olsa bile araçları tuhaf ya da kötü sonuç üretmeye yatkın biçimlerde kullanma durumları yaşanıyordu
  • Bu durumda yukarıdan gelen token kullanma baskısı, duvarı delmek için kaba bir zorlama aracı olarak işledi

İlk sınırsız kullanım politikasının maliyet baskısıyla sona ermesi

  • tokenmaxxing politikası bir ölçüde etkili oldu ve artık neredeyse tüm ekipler en azından bir miktar yapay zeka ile kod yazıyor
  • Birçok ekip henüz Ramp Inspect veya Stripe Minions gibi kendi sistemlerini kurmuş değil, ancak temel olarak Cursor’ı yan çubukta kullanma seviyesine ulaştı
  • Token kullanımı büyük ölçüde artarken OpenAI ve Anthropic, halka arz peşinde oldukları bir dönemde aboneliklerde sunulan miktarı sınırladı ve API fiyatlarını artırdı
  • Token sübvansiyonları da azalınca sınırsız token kullanım politikalarını geri alan ekipler ortaya çıktı
  • Eski anlamıyla sınırsız tokenmaxxing, maliyet incelemesine dayanması zor bir aşamaya yaklaşıyor

Birikimli hatadan birikimli doğruluğa

  • Yapay zeka araçlarından beklenen, insanın sürekli denetimi olmadan zor ve sıkıcı işleri ele alabilmeleridir
    • Büyük ölçekli kod migrasyonları
    • Her sabah rakip araştırması
    • Inbound ve outbound akışlarının işlenmesi
  • Geçmişte yapay zekayı ne kadar uzun çalıştırırsanız, modelin küçük hataları ve halüsinasyonları proje içinde o kadar birikiyor ve geri döndürülmesi zorlaşıyordu
  • Bu olgu birikimli hata (compounding error) olarak adlandırılıyordu ve çok fazla insan denetimi gerektiği için ajanları 24 saat çalıştırmanın da pek bir gerekçesi yoktu
  • Şimdi ise daha fazla token kullanmanın doğru cevap olasılığını artırdığı bir birikimli doğruluk (compounding correctness) ortamına geçiliyor
  • Token harcaması sonuç kalitesiyle bağlantılıysa, yeniden çok token kullanmaya yönelik teşvik doğar

Güvenlik alanında önce görülen token bütçesi yarışı

  • Siber güvenlikte token harcamasının performansla doğrudan bağlantılı olduğu örnekler şimdiden ortaya çıkıyor
  • Cybersecurity is Proof of Work Now, Anthropic’in Mythos’unu örnek göstererek, sistemleri güçlendirmek için saldırganın istismar amacıyla kullandığından daha fazla token’ın zafiyet keşfine harcanması gerektiğini savunuyor
  • AISI, Mythos’un her denemesi için 100M token bütçe ayırdı; bu da deneme başına $12.500, 10 çalıştırma için $125.000 ölçeğinde
  • 100M token bütçesi verilen modeller azalan getiri işareti göstermedi ve AISI, test edilen token bütçesi aralığında modellerin bütçe arttıkça ilerlemeyi sürdürdüğünü belirtti
  • Bu yapıda zekâdan çok hesaplama iş yükü ve ödenebilir token bütçesi önem kazanıyor

Döngüler ve uzun süreli ajan çalıştırma

  • Boris Cherny’nin Claude Code sahnesinde söz ettiği loopsa yönelik ilgi de aynı eğilimle bağlantılı
  • loops’un temel yapısı, ajanın kendi turunu bitirene kadar çalışması ve bittiğinde aynı prompt’un yeniden başlatılmasıdır
  • Ağır bir spesifikasyonu otomatik olarak parçalara ayırıp, ajanın zaman içinde bölüm bölüm çözmesini sağlayabilir
  • Bu kavram yeni değil; geçen yıl Temmuz’dan beri vardı ve bir dönem “Ralph Wiggum loop” diye adlandırılıyordu
  • Eskiden prompt tasarımı ve ajan davranışına dair derin anlayış gerekiyordu; ancak birikimli doğruluk sayesinde tekrarlandıkça iyileşen yaklaşık sonuçlar beklemek kolaylaşıyor

Açık modellerin sağladığı maliyet etkin yinelemeli çalıştırma

  • Uzun vadede tokenmaxxing’in kazananı açık model platformları olabilir
  • En üst düzey araştırma laboratuvarlarının modellerine topluca token harcamak, CFO incelemesinden geçmekte zorlanır
  • Açık modeller iyileştikçe, ucuz modelleri döngü içinde daha çok çalıştırma yaklaşımı cazip hale gelir
  • Örneğin Claude yineleme başına 1,1 kat iyileşme, GLM 5.2 ise 1,05 kat iyileşme sağlıyor ama maliyeti yaklaşık beşte biriyse, GLM 5.2 döngüsünü 5 kat daha fazla çalıştırmak daha iyi olabilir
  • “Other things” bölümünde de GLM 5.2’nin son teknoloji olmasa da frontier modellere göre çok daha ucuz olduğu değerlendiriliyor
    • GLM 5.2: 1 milyon giriş token’ı başına yaklaşık $1,4, 1 milyon çıkış token’ı başına yaklaşık $4
    • Opus 4.X serisi: 1 milyon giriş token’ı başına $5, 1 milyon çıkış token’ı başına $25
    • Haiku 4.5: 1 milyon giriş token’ı başına $1, 1 milyon çıkış token’ı başına $5
    • GLM 5.2’nin Haiku’dan güçlü olduğu, bazı benchmark’larda GPT 5.5’ten de güçlü olabildiği söyleniyor

Geliştirici harcaması ile pipeline harcaması arasındaki fark

  • tokenmaxxing’in birbirinden farklı iki biçimi var
  • İlki geliştiriciye yönelik token harcamasıdır
    • Geliştirici Claude Code gibi araçlar kullanır, loops çalıştırır ve çok sayıda token tüketir
    • Mühendis üretkenliğini artırıyorsa iyi bir harcama olabilir
  • İkincisi pipeline’a yönelik token harcamasıdır
    • Geliştirici hâlâ kodu elle yazar ve bu kodla belirli bir iş için tek seferlik ajanlar oluşturur
    • Bu ajanlar deterministik olmayan ve kırılgan biçimde çalışırken çok sayıda token tüketir
    • Pipeline gerçekten çalıştığında iyi bir harcamadır; ancak bu tür ajanlar deterministik pipeline’lar kadar doğru değildi
  • Halüsinasyon maliyetini azaltmak için kalite kontrol ajanı ekleyip, o kontrol ajanının hatalarını yakalamak için bir ajan daha eklerseniz token maliyeti 3 katına çıkar
  • Tek seferlik pipeline tipi araçların, belirli işe özel ajanlardan çok, belirli işe uyarlanmış bir dış kabuk giydirilmiş genel amaçlı platformlarla ele alınması eğilimi büyüyor

Yazılım fabrikası ve aşırı token harcaması

  • Doğal varış noktası yazılım fabrikası, daha da ileride karanlık fabrikadır
  • Bu yapıda kod tabanı, insan denetimi olmadan kod üretir, inceler, hata düzeltir ve test yazar
  • İnsan yalnızca spesifikasyonu verip uygulamayı teslim alan rolündedir
  • StrongDM’in yazılım fabrikası, bu yönü uç noktaya taşıyan bir örnek olarak anılıyor
  • StrongDM tarafı, mühendislerin günde $1000’lık token harcamayı hedeflemesi gerektiğini savundu; ancak bunun güçlü biçimde abartı ve tanıtım niteliği taşıdığı değerlendiriliyor
  • Kendi yazılım fabrikasının ayda yaklaşık $600 harcadığı söyleniyor ve şu anda mühendis başına token’lara kıdemli bir Google mühendisi maliyeti düzeyinde para harcamak aşırı bulunuyor
  • Bununla birlikte token’lara büyük para harcamaya yönelik teşvik potansiyel olarak mevcut ve hâlâ yayılmayı bekliyor

Henüz yorum yok.

Henüz yorum yok.