Opus 4.6 ve Opus 4.7 için token maliyeti hesaplayıcısı
(tokens.billchambers.me)- Opus 4.7'nin yeni tokenizer'ı nedeniyle aynı istemin daha fazla token olarak sayılması sorununu analiz etmeye yarayan bir hesaplama aracı
- Aynı girdi, içerik türüne göre 1,0~1,35 kat token'a eşleniyor ve kelimeleri değiştirmeden bile istek başına maliyet artıyor
- Gerçek ölçümlerde Opus 4.7'nin, Opus 4.6'ya kıyasla ortalama istek token'ı ve ortalama istek maliyeti değerlerinde sırasıyla +%37,4 artış gösterdiği görüldü
- Artış oranı son 50 kayıt bazında en düşük +%19,0 ile en yüksek +%86,2 arasında dağılıyor; %30'lar ve %40'lar aralığındaki örnekler geniş yer tutuyor
- Bu sayfada konuşma, sistem istemi ve metin yapıştırılarak Opus 4.7 ile 4.6 arasındaki token sayısı farkı ve mevcut fiyatlara göre maliyet somut biçimde karşılaştırılabiliyor
Bu aracın ortaya çıkış nedeni
- Opus 4.7 duyurusunda Opus 4.6'nın doğrudan yükseltmesi olarak tanıtıldı, ancak token kullanımını etkileyen iki değişiklik bulunuyor
- Güncellenmiş tokenizer nedeniyle aynı girdi, içerik türüne göre 1,0~1,35 kat token'a eşleniyor
- Yüksek effort seviyesinde, özellikle agentic ortamlarda ilerleyen turlarda daha fazla düşünmesi nedeniyle çıktı token sayısı artıyor
- Zor problemlerde güvenilirlik artsa da bunun token tabanlı maliyet yapısı üzerinde doğrudan etkisi var
Kullanıcıya etkisi
- İstem metni aynı kalsa bile Opus 4.7'de daha fazla token olarak sayıldığı için, ifade değişmeden de istek başına maliyet yükseliyor
- Tokenomics, herhangi bir konuşma, sistem istemi veya metni yapıştırarak Opus 4.7 ile 4.6 arasındaki token farkını doğrudan görmeyi sağlıyor
- Mevcut fiyatlara göre somut maliyet farkını hesaplıyor
Topluluk ortalaması sayfası
/leaderboardsayfasında araç kullanıcılarının anonim karşılaştırma verileri toplanıyor- Farklı istem türlerine göre gerçek token artış oranı ortalamaları gerçek kullanım verisiyle görülebiliyor
Bilinmesi gerekenler
- İstem metni saklanmıyor: Girdi tarayıcıda ayrıştırıldıktan sonra sunucuya gönderiliyor ve Anthropic token sayım API'sine iletiliyor; istem metni veritabanına kaydedilmiyor, yalnızca anonim token sayım metrikleri saklanıyor
- Anthropic'in resmi ürünü değil: Bill Chambers tarafından yapıldı; Anthropic ile bağlılık, onay veya sponsorluk ilişkisi yok
- Açık kaynak: Tüm kaynak kod GitHub'da (
bllchmbrs/tokensmatter) açık; katkı ve geri bildirim memnuniyetle karşılanıyor
Topluluk ortalamaları
- Anonim olarak gönderilen gerçek kullanım istek karşılaştırmaları temel alınarak, Opus 4.6 ile karşılaştırıldığında Opus 4.7 için istek token'ı ve istek maliyeti farkı derlenmiş
- Toplam 425 gönderim üzerinden hesaplanmış
- Son karşılaştırma listesi en son 50 kayıt, en yeniden eskiye sıralı
- Ortalama istek token değişim oranı +%37,4
- Ortalama istek maliyeti değişim oranı +%37,4
- Ortalama istek boyutu 369 / 495
- Kaynak metinde bu iki değere ilişkin ek açıklama yok
Son anonim karşılaştırma örnekleri
- Son 50 kaydın tablosunda çoğu örnekte Opus 4.7 istek token'ı artışı ile maliyet artışı aynı oranda kaydedilmiş
- Örnek 1:
6b5d3ebfgönderimi, istek 23 → 31, maliyet $0.000345 → $0.000465, değişim oranı +%34,8 - Örnek 2:
1363973agönderimi, istek 99 → 130, maliyet $0.001485 → $0.001950, değişim oranı +%31,3 - Örnek 3:
17a9645egönderimi, istek 16 → 20, maliyet $0.000240 → $0.000300, değişim oranı +%25,0
- Örnek 1:
- Küçük isteklerde de artış görülebiliyor
10c3149agönderimi, istek 8 → 14, maliyet $0.000120 → $0.000210, değişim oranı +%75,08f58e536gönderimi, istek 8 → 13, maliyet $0.000120 → $0.000195, değişim oranı +%62,5942f5d38gönderimi, istek 12 → 19, maliyet $0.000180 → $0.000285, değişim oranı +%58,3
- Orta ölçekli isteklerde de benzer artış örnekleri tekrar ediyor
67f5f437gönderimi, istek 188 → 275, maliyet $0.002820 → $0.004125, değişim oranı +%46,304249c86gönderimi, istek 176 → 256, maliyet $0.002640 → $0.003840, değişim oranı +%45,5af25da70gönderimi, istek 269 → 501, maliyet $0.004035 → $0.007515, değişim oranı +%86,2
- Büyük isteklerde de benzer artış deseni görülüyor
c5d75d71gönderimi, istek 2,263 → 3,282, maliyet $0.0339 → $0.0492, değişim oranı +%45,04db385b5gönderimi, istek 1,592 → 2,205, maliyet $0.0239 → $0.0331, değişim oranı +%38,568375705gönderimi, istek 4,449 → 6,434, maliyet $0.0667 → $0.0965, değişim oranı +%44,6
- Aynı sayıların tekrarlandığı çok sayıda gönderim de bulunuyor
- İstek 175 → 221, maliyet $0.002625 → $0.003315, değişim oranı +%26,3 olan örnek birden fazla gönderim kimliğinde tekrar ediyor
- İstek 996 → 1,392, maliyet $0.0149 → $0.0209, değişim oranı +%39,8 olan örnek birden fazla gönderim kimliğinde tekrar ediyor
- İstek 43 → 61, maliyet $0.000645 → $0.000915, değişim oranı +%41,9 olan örnek birden fazla gönderim kimliğinde tekrar ediyor
1 yorum
Hacker News yorumları
Adil bir karşılaştırma yapmak için toplam maliyete bakmak gerektiğini düşünüyorum. 4.7, 4.6'ya göre çok daha az çıktı token'ı üretiyor ve çıkarım maliyeti de epey düşmüş gibi görünüyor. Artificial Analysis karşılaştırması incelendiğinde 4.7'nin 4.6'dan biraz daha ucuz, 4.5'in ise neredeyse yarı fiyatına olduğu görülüyor. Özellikle reasoning maliyetinin 4.6'dan 4.7'ye geçerken neredeyse yarıya inmesi dikkat çekici. Ancak Claude Code gibi gerçek iş yüklerinde hem girdi hem de çıkarım payı büyük göründüğünden, girdi birim fiyatındaki artış ile çıkarım birim fiyatındaki düşüşün nasıl dengeleneceğini hâlâ kestiremiyorum. Çıkarımı yoğun işler daha ucuz olabilir, ama çıkarımı az olan işler aksine daha pahalıya da gelebilir. Öyle işlerde ben sanırım Codex kullanırdım
Benim hissiyatıma göre 4.6'dan 4.7'ye performans artışı neredeyse hiç yok, ama limit tüketim hızı çok net hissediliyor. Dün 5 saatlik sınırı 2 saatte bitirdim ve refactor yapmak için batched mode'u açınca 5 dakika içinde limitin %30'unu harcadığım için iptal ettim. Sonra serial yönteme geçince daha az tüketti ama yine de 4.6'ya göre çok daha hızlı tükendiği kesindi. Şu anda tek bir konuşmada 5 saatlik limitin yaklaşık %5'i gidiyor gibi geliyor; eskiden bu oran %1–2 civarındaydı. Ben Max 5x plandayım, bu yüzden haftalık limitte hâlâ epey payım var ve idare edebiliyorum, ama en azından bunun daha şeffaf açıklanmasını ya da iyileştirilmesini isterdim. effort ayarı da hâlâ fazla belirsiz olduğu için pratikte pek yardımcı olmuyor
Sonuç gerçekten iyiyse daha fazla ödemeye razıyım, ama şu an Anthropic sanki token tüketimini sürdürmeye yönelik aralıklı ödül tarzı bir yola girmiş gibi geliyor. Claude serisi, GPT ya da Codex'ten belirgin biçimde daha eğlenceli, daha karakterli ve tasarım zevkiyle estetik anlayışı da var. Birlikte vibe-coding yapıyormuşsun gibi hissettirmesi oyun gibi eğlenceli. Ama ortaya çıkan sonuçlar neredeyse hep benzer sorunlara çıkıyor. Testleri silip geçiyor, yinelenen kodu artırıyor, soyutlamaları yanlış kuruyor, tip güvenliğini kapatıyor ve katı gereksinimleri görmezden geliyor. Bunlar 4.7'de de çözülmüş değil ve benchmark'lar ne derse desin, gerçek kullanımda hâlâ sürüyor gibi geliyor. Şirketin bunu düzeltme niyeti var mı ondan da emin değilim
Bu karşılaştırma, token sayma API'siyle prompt uzunluğunu iki farklı şekilde ölçüp yalnızca tokenizer değişimini izole etmeye çalışmış gibi görünüyor. Daha akıllı bir modelin daha kısa yanıt vererek çıktı token'larını azaltması da mümkün; bunu da hesaba katarsak, sadece bu karşılaştırmaya bakıp 4.7'nin gerçekten daha ucuz olduğunu söylemek zor. Elbette sonuçta daha pahalı da olabilir, daha ucuz da olabilir, ama bu veri tek başına pratik kullanım açısından çok yardımcı görünmüyor
Şimdilik VSCode Copilot'ta ana model olarak Opus 4.5 kullanmaya devam edeceğim. Benim iş akışımda ajana oldukça ayrıntılı talimatlar veriyorum ama çoğu ajan sürekli gerekenden fazlasını yapmaya çalışıyor. Denediklerim içinde Opus 4.5'in en iyi yaptığı şey, eksik prompt'larda bile benim istediğim kapsamı anlayıp tam gerektiği kadarını yapma eğilimiydi. 4.6 daha uzun sürüyor, fazla düşünüyor ve değişiklik kapsamını büyütüyordu; üst düzey GPT'lerde de benzer sorunlar gördüm. Sonnet gibi diğer modeller ise daha az ayrıntılı talimatlardan benim niyetimi anlama konusunda Opus kadar iyi değildi. Bu yüzden denemeleri bırakıp sadece 4.5 kullanmaya devam ettim; pahalıydı ama buna değdiğini düşündüm. Ama şimdi 4.7'nin VSCode Copilot'ta hem 4.5'in hem 4.6'nın yerini alacağı ve üstüne 7.5 katlık bir modifier ekleneceği söylenince, bana daha yavaş ve daha pahalı bir yöne gidiş gibi geliyor; hatta düpedüz gerileme gibi
Giderek daha fazla, LLM'leri sadece ölçeklendirmenin beyaz yakalı işleri toptan ikame etmeye yeteceğini varsaymanın naif bir kabul olduğunu düşünüyorum. attention mekanizması ya da Hopfield network insan beyninin sadece bir kısmını modelliyor gibi ve bugün etrafta gördüğümüz agentic memory takviyeleri de mevcut SOTA transformer'ların tek başına yeterli olmadığının bir kanıtı gibi duruyor. Yalnızca metin alanına indirgesek bile sınırlar görünmeye başlıyor; belki de sadece Yann LeCun tarzı görüşleri tekrar ediyorumdur
Dün Opus 4.7 ile tek sayfalık bir web sitesinin best practice'lerini toparlamaya çalıştım ve yaklaşık 4 prompt içinde günlük limite ulaştım. Oradan sonra 7 kadar daha gidince haftalık limit de bitti. Tüm HTML/CSS/JS kodu toplam 300 satırı bile bulmuyordu ama kullanım limitinin bu kadar hızlı tükenmesi beni gerçekten şaşırttı
Bana göre başlık 4.7'den 4.6'ya değil, 4.6 to 4.7 olmalı
Artificial Analysis açıklamasına göre Opus 4.7, Adaptive Reasoning ve Max Effort ile Intelligence Index'i çalıştırırken yaklaşık 4.406 dolara mal olmuş; bu da 4.6'nın yaklaşık 4.970 dolarlık maliyetinden yaklaşık %11 daha ucuz demek. Skor da 4 puan daha yüksekmiş ve bunun nedeni, yeni tokenizer'a rağmen çıktı token kullanımının azalması olarak açıklanıyor. Ancak cached input indirimi henüz bu hesaba katılmamış; yakında maliyet hesabına ekleneceği belirtilmiş
Benim izlenimim, sohbet kalitesinin beklenmedik biçimde daha iyi olduğu yönünde. Daha öz eleştirel, önerilerini daha eleştirel biçimde gözden geçiriyor ve varsayılan tercihleri de genel olarak daha iyi gibi hissettiriyor. Buradaki diğer kişiler kadar çok çeşitli harness kullanmış değilim; bu yüzden fark bana daha az çarpıcı geliyor olabilir. Ama hazırlığı daha az olan kullanıcılar için değeri belki de daha yüksek olabilir. Son dönem inceleme akışını gözden geçirmek ya da ürün tartışmalarını takip etmek gibi temel işlerde bile 4.6 kullanışlı ama kolayca foot-gun olabilecek bir yapıya sahipken, 4.7 sanki ekibin kıdemli bir üyesi gibi davranmaya daha yatkın görünüyor