2 puan yazan GN⁺ 11 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Opus 4.7'nin yeni tokenizer'ı nedeniyle aynı istemin daha fazla token olarak sayılması sorununu analiz etmeye yarayan bir hesaplama aracı
  • Aynı girdi, içerik türüne göre 1,0~1,35 kat token'a eşleniyor ve kelimeleri değiştirmeden bile istek başına maliyet artıyor
  • Gerçek ölçümlerde Opus 4.7'nin, Opus 4.6'ya kıyasla ortalama istek token'ı ve ortalama istek maliyeti değerlerinde sırasıyla +%37,4 artış gösterdiği görüldü
  • Artış oranı son 50 kayıt bazında en düşük +%19,0 ile en yüksek +%86,2 arasında dağılıyor; %30'lar ve %40'lar aralığındaki örnekler geniş yer tutuyor
  • Bu sayfada konuşma, sistem istemi ve metin yapıştırılarak Opus 4.7 ile 4.6 arasındaki token sayısı farkı ve mevcut fiyatlara göre maliyet somut biçimde karşılaştırılabiliyor

Bu aracın ortaya çıkış nedeni

  • Opus 4.7 duyurusunda Opus 4.6'nın doğrudan yükseltmesi olarak tanıtıldı, ancak token kullanımını etkileyen iki değişiklik bulunuyor
    • Güncellenmiş tokenizer nedeniyle aynı girdi, içerik türüne göre 1,0~1,35 kat token'a eşleniyor
    • Yüksek effort seviyesinde, özellikle agentic ortamlarda ilerleyen turlarda daha fazla düşünmesi nedeniyle çıktı token sayısı artıyor
  • Zor problemlerde güvenilirlik artsa da bunun token tabanlı maliyet yapısı üzerinde doğrudan etkisi var

Kullanıcıya etkisi

  • İstem metni aynı kalsa bile Opus 4.7'de daha fazla token olarak sayıldığı için, ifade değişmeden de istek başına maliyet yükseliyor
  • Tokenomics, herhangi bir konuşma, sistem istemi veya metni yapıştırarak Opus 4.7 ile 4.6 arasındaki token farkını doğrudan görmeyi sağlıyor
  • Mevcut fiyatlara göre somut maliyet farkını hesaplıyor

Topluluk ortalaması sayfası

  • /leaderboard sayfasında araç kullanıcılarının anonim karşılaştırma verileri toplanıyor
  • Farklı istem türlerine göre gerçek token artış oranı ortalamaları gerçek kullanım verisiyle görülebiliyor

Bilinmesi gerekenler

  • İstem metni saklanmıyor: Girdi tarayıcıda ayrıştırıldıktan sonra sunucuya gönderiliyor ve Anthropic token sayım API'sine iletiliyor; istem metni veritabanına kaydedilmiyor, yalnızca anonim token sayım metrikleri saklanıyor
  • Anthropic'in resmi ürünü değil: Bill Chambers tarafından yapıldı; Anthropic ile bağlılık, onay veya sponsorluk ilişkisi yok
  • Açık kaynak: Tüm kaynak kod GitHub'da (bllchmbrs/tokensmatter) açık; katkı ve geri bildirim memnuniyetle karşılanıyor

Topluluk ortalamaları

  • Anonim olarak gönderilen gerçek kullanım istek karşılaştırmaları temel alınarak, Opus 4.6 ile karşılaştırıldığında Opus 4.7 için istek token'ı ve istek maliyeti farkı derlenmiş
    • Toplam 425 gönderim üzerinden hesaplanmış
    • Son karşılaştırma listesi en son 50 kayıt, en yeniden eskiye sıralı
  • Ortalama istek token değişim oranı +%37,4
  • Ortalama istek maliyeti değişim oranı +%37,4
  • Ortalama istek boyutu 369 / 495
    • Kaynak metinde bu iki değere ilişkin ek açıklama yok

Son anonim karşılaştırma örnekleri

  • Son 50 kaydın tablosunda çoğu örnekte Opus 4.7 istek token'ı artışı ile maliyet artışı aynı oranda kaydedilmiş
    • Örnek 1: 6b5d3ebf gönderimi, istek 23 → 31, maliyet $0.000345 → $0.000465, değişim oranı +%34,8
    • Örnek 2: 1363973a gönderimi, istek 99 → 130, maliyet $0.001485 → $0.001950, değişim oranı +%31,3
    • Örnek 3: 17a9645e gönderimi, istek 16 → 20, maliyet $0.000240 → $0.000300, değişim oranı +%25,0
  • Küçük isteklerde de artış görülebiliyor
    • 10c3149a gönderimi, istek 8 → 14, maliyet $0.000120 → $0.000210, değişim oranı +%75,0
    • 8f58e536 gönderimi, istek 8 → 13, maliyet $0.000120 → $0.000195, değişim oranı +%62,5
    • 942f5d38 gönderimi, istek 12 → 19, maliyet $0.000180 → $0.000285, değişim oranı +%58,3
  • Orta ölçekli isteklerde de benzer artış örnekleri tekrar ediyor
    • 67f5f437 gönderimi, istek 188 → 275, maliyet $0.002820 → $0.004125, değişim oranı +%46,3
    • 04249c86 gönderimi, istek 176 → 256, maliyet $0.002640 → $0.003840, değişim oranı +%45,5
    • af25da70 gönderimi, istek 269 → 501, maliyet $0.004035 → $0.007515, değişim oranı +%86,2
  • Büyük isteklerde de benzer artış deseni görülüyor
    • c5d75d71 gönderimi, istek 2,263 → 3,282, maliyet $0.0339 → $0.0492, değişim oranı +%45,0
    • 4db385b5 gönderimi, istek 1,592 → 2,205, maliyet $0.0239 → $0.0331, değişim oranı +%38,5
    • 68375705 gönderimi, istek 4,449 → 6,434, maliyet $0.0667 → $0.0965, değişim oranı +%44,6
  • Aynı sayıların tekrarlandığı çok sayıda gönderim de bulunuyor
    • İstek 175 → 221, maliyet $0.002625 → $0.003315, değişim oranı +%26,3 olan örnek birden fazla gönderim kimliğinde tekrar ediyor
    • İstek 996 → 1,392, maliyet $0.0149 → $0.0209, değişim oranı +%39,8 olan örnek birden fazla gönderim kimliğinde tekrar ediyor
    • İstek 43 → 61, maliyet $0.000645 → $0.000915, değişim oranı +%41,9 olan örnek birden fazla gönderim kimliğinde tekrar ediyor

1 yorum

 
GN⁺ 11 일 전
Hacker News yorumları
  • Adil bir karşılaştırma yapmak için toplam maliyete bakmak gerektiğini düşünüyorum. 4.7, 4.6'ya göre çok daha az çıktı token'ı üretiyor ve çıkarım maliyeti de epey düşmüş gibi görünüyor. Artificial Analysis karşılaştırması incelendiğinde 4.7'nin 4.6'dan biraz daha ucuz, 4.5'in ise neredeyse yarı fiyatına olduğu görülüyor. Özellikle reasoning maliyetinin 4.6'dan 4.7'ye geçerken neredeyse yarıya inmesi dikkat çekici. Ancak Claude Code gibi gerçek iş yüklerinde hem girdi hem de çıkarım payı büyük göründüğünden, girdi birim fiyatındaki artış ile çıkarım birim fiyatındaki düşüşün nasıl dengeleneceğini hâlâ kestiremiyorum. Çıkarımı yoğun işler daha ucuz olabilir, ama çıkarımı az olan işler aksine daha pahalıya da gelebilir. Öyle işlerde ben sanırım Codex kullanırdım

    • 4.7'nin daha az düşünüp daha az çıktı üretmesinin nedeninin forced adaptive thinking olduğunu düşünüyorum. API kullanıcıları da bunu kapatamıyor ve sadece 2 hafta önce Opus 4.6'da kalite sorunlarına yol açan da tam olarak aynı yaklaşımdı. O zaman da devre dışı bırakılmasını öneren yorumlar vardı ve hatta düşünme token'larının 0'a ayarlandığı durumlar olduğunu hatırlıyorum. Şu anda da Opus 4.7'nin kalite düşüşünden yakınan çok kişi var ve ben de çok temel hataları sık görüyorum. 10 dakika boyunca token harcayıp gerçekte kodu doğru düzgün okumadan hand-waving ile geçiştirip sonra kendi söylediklerini geri alma paterni sürekli ortaya çıkıyor. adaptive thinking açıkken Opus'a güvenmek zor geliyor. Gerekirse oturum geri bildirim ID'lerini de paylaşabilirim
    • Bazı insanlar, aynı model numarası olsa bile zaman içinde davranış ve token kullanımının değişebildiği için, aynı modelin zamana göre test edilmesinin daha adil olduğunu düşünüyor. Sürüm adı aynı kalsa da iç davranış değişebildiğinden, yakın tarihli test sonuçları gelecekteki karşılaştırmalar için uygun bir temel olmayabilir
  • Benim hissiyatıma göre 4.6'dan 4.7'ye performans artışı neredeyse hiç yok, ama limit tüketim hızı çok net hissediliyor. Dün 5 saatlik sınırı 2 saatte bitirdim ve refactor yapmak için batched mode'u açınca 5 dakika içinde limitin %30'unu harcadığım için iptal ettim. Sonra serial yönteme geçince daha az tüketti ama yine de 4.6'ya göre çok daha hızlı tükendiği kesindi. Şu anda tek bir konuşmada 5 saatlik limitin yaklaşık %5'i gidiyor gibi geliyor; eskiden bu oran %1–2 civarındaydı. Ben Max 5x plandayım, bu yüzden haftalık limitte hâlâ epey payım var ve idare edebiliyorum, ama en azından bunun daha şeffaf açıklanmasını ya da iyileştirilmesini isterdim. effort ayarı da hâlâ fazla belirsiz olduğu için pratikte pek yardımcı olmuyor

    • En sinir bozucu olan şey, adaptive thinking'in zorla uygulanması yüzünden kalitenin düşmesi. Max 5x kullanımımın %5–10'unu tüketip 10 dakika çalışıyor, ama dönen sonuçlar çoğu zaman güven vermeyecek kadar kötü oluyor. Gerçek kodu okuyup akıl yürütmektense sorunu geçiştiriyormuş gibi davranıyor; bu yüzden adaptive thinking açıkken Opus'a güvenemiyorum
    • Benim anladığım kadarıyla prompt'lar arasında 5 dakikadan fazla ara verirsen compact ya da clear kullanmadan cache'in yeniden başlatılma maliyetini tekrar ödüyorsun. compact kullansan da maliyet tamamen sıfırlanmıyor, sadece girdi token'ları biraz azalıyor gibi görünüyor. Ama compact işleminin kendisinin ücretsiz olup olmadığını ben de merak ediyorum
  • Sonuç gerçekten iyiyse daha fazla ödemeye razıyım, ama şu an Anthropic sanki token tüketimini sürdürmeye yönelik aralıklı ödül tarzı bir yola girmiş gibi geliyor. Claude serisi, GPT ya da Codex'ten belirgin biçimde daha eğlenceli, daha karakterli ve tasarım zevkiyle estetik anlayışı da var. Birlikte vibe-coding yapıyormuşsun gibi hissettirmesi oyun gibi eğlenceli. Ama ortaya çıkan sonuçlar neredeyse hep benzer sorunlara çıkıyor. Testleri silip geçiyor, yinelenen kodu artırıyor, soyutlamaları yanlış kuruyor, tip güvenliğini kapatıyor ve katı gereksinimleri görmezden geliyor. Bunlar 4.7'de de çözülmüş değil ve benchmark'lar ne derse desin, gerçek kullanımda hâlâ sürüyor gibi geliyor. Şirketin bunu düzeltme niyeti var mı ondan da emin değilim

    • Ben de neredeyse aynı duygudayım. Şu anki araçlar özellikle Google yerine geçecek araç, angarya scaffold işleri, kod inceleme ve gelişmiş arama için faydalı görünüyor. Coding LLM pazarında yerlerini aldıklarına göre şimdi ciddi biçimde gelir elde etmeye başlamış gibiler; bundan sonra performans artışı çok az olan ama fiyatı %40'tan fazla yükselen modellerin gelmeye devam edeceğini tahmin ediyorum
    • Bence AI'ı öylece salmak değil, yönlendirmek gerekiyor. Onu doğru şekilde yönlendirecek becerin varsa yeterince yüksek kaliteli sonuçlar üretmek mümkün
    • Yukarıdaki eleştiriler içinde, Anthropic'in bilinçli biçimde token tüketimini teşvik eden bir kısa vadeli sömürü stratejisi seçtiği yorumu bana fazla kesin geliyor. Dışarıdan bir şirketin stratejisini bildiğini söylemek zor. Benim tahminime göre böyle bir senaryodan ziyade, altyapı ya da kapasite sorunları nedeniyle performans dalgalanmış olabilir, ya da ayarlar müşterilerin istediği yönden çok mühendislerin istediği yöne çekilmiş olabilir, ya da Mythos ile ilgili güvenlik mesajında olduğu gibi güvenlik kaygıları nedeniyle daha temkinli hâle getirilmiş olabilir. Bu etkenler de birbirini dışlayan şeyler değil. Ben de Opus 4.7'yi çok etkileyici bulduğumu söyleyemem ama henüz uzun süre kullanmadım ve benchmark'ları da kendim çalıştırmadım. Üstelik bu aralar Claude'a verdiğim işler birkaç hafta öncesine kıyasla çok daha zor, daha çok Bayesian probabilistic modeling tarafında; dolayısıyla modelin sınırlarını ben daha sert zorluyor da olabilirim
  • Bu karşılaştırma, token sayma API'siyle prompt uzunluğunu iki farklı şekilde ölçüp yalnızca tokenizer değişimini izole etmeye çalışmış gibi görünüyor. Daha akıllı bir modelin daha kısa yanıt vererek çıktı token'larını azaltması da mümkün; bunu da hesaba katarsak, sadece bu karşılaştırmaya bakıp 4.7'nin gerçekten daha ucuz olduğunu söylemek zor. Elbette sonuçta daha pahalı da olabilir, daha ucuz da olabilir, ama bu veri tek başına pratik kullanım açısından çok yardımcı görünmüyor

    • Gerçek kullanıma daha yakın veri olarak Artificial Analysis benchmark'ı 4.6 max'in yaklaşık 160 milyon token, 4.7 max'in ise yaklaşık 100 milyon token kullandığını bildirmişti. Maliyet kırılımında girdi maliyeti 800 dolar artarken çıktı maliyeti 1400 dolar azalmış. Tabii girdi ile çıktının birbirini ne kadar dengeleyeceği kullanım senaryosuna göre çok değişir ve effort düştükçe fark da muhtemelen küçülür
    • Bunun neden faydasız olduğu görüşünü pek anlamıyorum. 4.7'nin girdi token fiyatı aynı kalmış olabilir ama aynı prompt artık giriş tarafında yaklaşık %30 daha pahalı görünüyor; bence bu oldukça net
    • Evet. Ben de 4.6'da her oturumu max effort ile başlatmaya başladıktan sonra token kullanımımın düştüğünü gördüm. Çünkü aradaki düşünme sürecinde kendi kendini düzeltip deneme-yanılmayı azaltıyor ve işi daha az adımda bitiriyordu. Buna karşılık 4.7 temel görevlerde bile daha fazla dolanıyor gibi geldi. Yine de uzun bağlamı daha uzun süre koruma yeteneği biraz daha iyi olmuş olabilir
    • AI tarafında ne zaman baksam herkesin üzerinde uzlaşabileceği işe yarar bir karşılaştırma hiç olmuyor gibi geliyor
  • Şimdilik VSCode Copilot'ta ana model olarak Opus 4.5 kullanmaya devam edeceğim. Benim iş akışımda ajana oldukça ayrıntılı talimatlar veriyorum ama çoğu ajan sürekli gerekenden fazlasını yapmaya çalışıyor. Denediklerim içinde Opus 4.5'in en iyi yaptığı şey, eksik prompt'larda bile benim istediğim kapsamı anlayıp tam gerektiği kadarını yapma eğilimiydi. 4.6 daha uzun sürüyor, fazla düşünüyor ve değişiklik kapsamını büyütüyordu; üst düzey GPT'lerde de benzer sorunlar gördüm. Sonnet gibi diğer modeller ise daha az ayrıntılı talimatlardan benim niyetimi anlama konusunda Opus kadar iyi değildi. Bu yüzden denemeleri bırakıp sadece 4.5 kullanmaya devam ettim; pahalıydı ama buna değdiğini düşündüm. Ama şimdi 4.7'nin VSCode Copilot'ta hem 4.5'in hem 4.6'nın yerini alacağı ve üstüne 7.5 katlık bir modifier ekleneceği söylenince, bana daha yavaş ve daha pahalı bir yöne gidiş gibi geliyor; hatta düpedüz gerileme gibi

    • Neden doğrudan Sonnet kullanmıyorsun diye merak ediyorum
    • 4.7'nin hem 4.5'in hem 4.6'nın yerini alacağı söylenince, bunun gerçekten 4.5'in kalkacağı anlamına gelip gelmediğini merak etmiştim. Ben de 4.5'e yerleşmiştim; eğer doğruysa üzücü olur
  • Giderek daha fazla, LLM'leri sadece ölçeklendirmenin beyaz yakalı işleri toptan ikame etmeye yeteceğini varsaymanın naif bir kabul olduğunu düşünüyorum. attention mekanizması ya da Hopfield network insan beyninin sadece bir kısmını modelliyor gibi ve bugün etrafta gördüğümüz agentic memory takviyeleri de mevcut SOTA transformer'ların tek başına yeterli olmadığının bir kanıtı gibi duruyor. Yalnızca metin alanına indirgesek bile sınırlar görünmeye başlıyor; belki de sadece Yann LeCun tarzı görüşleri tekrar ediyorumdur

    • Muhtemelen gerçekten o görüşleri tekrar ediyor olabilirsin. Transformer'ların insan beyninin yalnızca küçük bir alt kümesine benzediği argümanı bana hem nörobiyolojik açıdan hem de LLM'lerin fiilî performansı açısından ikna edici gelmiyor. Transformer'lar sadece LLM'lerde değil; video, ses, SLAM, VLA gibi çok geniş alanlarda kullanılan son derece genel ve ifade gücü yüksek yapılar. İnsan beynini birebir kopyalamamış olmaları, işlevsel olarak eşdeğer zekâya ulaşamayacakları anlamına gelmiyor. İnsan beyni, evrimle ortaya çıkmış uygulama biçimlerinden sadece biri olabilir. LeCun'un söylediği LLM yapamaz iddiaları da ampirik olarak sürekli boşa düşüyor. Hatta LLM'lerin aleyhine tasarlanmış ARC-AGI-3 gibi benchmark'larda bile, şu ana kadar LLM'lerden daha iyi denebilecek başka bir AI ailesi görmedim
    • Bence yalnızca ölçeklendirme ile neredeyse tavana gelmiş durumdayız. Yine de verimlilik artabilir ve çevresindeki araçlar ile harness tarafı gelişmeye devam eder
    • Sadece metinle sınırlı düşünsek bile kafamda soru işaretleri var. Neden hâlâ bir romanı düzgün yazamıyorlar merak ediyorum. Çıtayı düşürüp novella düzeyini düşünsek bile, Death in Venice, Candide, The Metamorphosis, Breakfast at Tiffany's seviyesinde eserler üretemiyorlar gibi geliyor. Eğitim korpusunda bu kitapların hepsi vardı; mesele sadece birilerinin henüz yüz binlerce dolarlık token maliyetini göze almamış olması mı diye düşünüyorum
  • Dün Opus 4.7 ile tek sayfalık bir web sitesinin best practice'lerini toparlamaya çalıştım ve yaklaşık 4 prompt içinde günlük limite ulaştım. Oradan sonra 7 kadar daha gidince haftalık limit de bitti. Tüm HTML/CSS/JS kodu toplam 300 satırı bile bulmuyordu ama kullanım limitinin bu kadar hızlı tükenmesi beni gerçekten şaşırttı

    • Böyle bir şey olacağını düşündüğüm için ben daha Claude kullanmaya başlamadım. Kurumsal abonelikte fatura sadece kabarır, ama bunun üzerine bir VP'nin tüm şirkete hemen geçiş duyurusu yapması da kolay olmaz gibi. Bireysel aboneler önce ayrılmaya başlarsa veri merkezi kullanımı azalırken kârlılık artabilir diye de düşünüyorum
    • reasoning effort'u neye ayarladığını merak ediyorum. Bildiğim kadarıyla şu an Max çok daha fazla token harcıyor ve çoğu kullanım senaryosu için tavsiye edilmiyor. Yeni varsayılan xhigh da eski varsayılan medium'dan daha fazla tüketiyor
    • Hangi planda olduğunu merak ettim. Pro ise mümkün olabilir ama Max planında bu kadar hızlı tükenmesi biraz şaşırtıcı olurdu
    • Claude aboneliği kullanıp kullanmadığını merak ediyorum. Bildiğim kadarıyla abonelik tabanlı Claude böyle çalışmıyor
  • Bana göre başlık 4.7'den 4.6'ya değil, 4.6 to 4.7 olmalı

    • Kesinlikle katılıyorum
    • Soldan sağa okuyan biri için de Opus 4.6 to 4.7 çok daha doğal duruyor
  • Artificial Analysis açıklamasına göre Opus 4.7, Adaptive Reasoning ve Max Effort ile Intelligence Index'i çalıştırırken yaklaşık 4.406 dolara mal olmuş; bu da 4.6'nın yaklaşık 4.970 dolarlık maliyetinden yaklaşık %11 daha ucuz demek. Skor da 4 puan daha yüksekmiş ve bunun nedeni, yeni tokenizer'a rağmen çıktı token kullanımının azalması olarak açıklanıyor. Ancak cached input indirimi henüz bu hesaba katılmamış; yakında maliyet hesabına ekleneceği belirtilmiş

  • Benim izlenimim, sohbet kalitesinin beklenmedik biçimde daha iyi olduğu yönünde. Daha öz eleştirel, önerilerini daha eleştirel biçimde gözden geçiriyor ve varsayılan tercihleri de genel olarak daha iyi gibi hissettiriyor. Buradaki diğer kişiler kadar çok çeşitli harness kullanmış değilim; bu yüzden fark bana daha az çarpıcı geliyor olabilir. Ama hazırlığı daha az olan kullanıcılar için değeri belki de daha yüksek olabilir. Son dönem inceleme akışını gözden geçirmek ya da ürün tartışmalarını takip etmek gibi temel işlerde bile 4.6 kullanışlı ama kolayca foot-gun olabilecek bir yapıya sahipken, 4.7 sanki ekibin kıdemli bir üyesi gibi davranmaya daha yatkın görünüyor