Uber’ın aylık 1.500 dolarlık yapay zeka limiti, yapay zeka araçlarının fiyatlandırması için yararlı bir sinyal
(simonwillison.net)- Uber, ajan tabanlı kodlama araçlarının artan maliyetine karşılık tüm çalışanlar için yapay zeka kodlama araçlarının her biri adına aylık token harcamasını 1.500 dolarla sınırladı
- Limit yalnızca Cursor veya Claude Code gibi ajan tabanlı kodlama yazılımlarına uygulanıyor ve bir araçtaki harcama diğer araçların bütçesini etkilemiyor
- Uber, 2025’te 2026 yapay zeka bütçesini hazırladı; ardından yüksek miktarda token tüketen kodlama ajanları beklenenden daha hızlı popülerleşince 2026 bütçesi 4 ay içinde tükendi
- İki aracın aktif kullanıldığı varsayılırsa mühendis başına yıllık limit 36.000 dolar oluyor; bu da Levels.fyi’nin verdiği ABD’deki Uber yazılım mühendisleri için 330.000 dolarlık medyan toplam ücretin yaklaşık %11’ine denk geliyor
- Yapay zeka araç fiyatları, bireysel abonelere yönelik sübvansiyonlu planlarla büyük şirketlerin fiilen ödediği API fiyatları arasında ciddi ölçüde ayrıştı ve Uber’ın limiti, şirketlerin karşılayabileceği maliyet için bir ölçüt gösteriyor
Uber’ın yapay zeka kodlama aracı harcama limiti
- Uber, tüm çalışanların yapay zeka kodlama araçları için araç başına aylık token harcamasını 1.500 dolarla sınırladı
- Bu limit son birkaç ay içinde devreye alındı ve yalnızca Cursor ya da Anthropic’in Claude Code’u gibi ajan tabanlı kodlama yazılımlarına uygulanıyor
- Limit araç bazlı olduğundan, bir araçta yapılan harcama diğer aracın bütçesini azaltmıyor
- Aylık 1.500 dolarlık limit, aşırı harcamaya karşı makul bir önlem olarak görülüyor ve çalışanları yapay zeka kullanımında rekabete sokan tokenmaxxing sıralamalarından daha mantıklı bir yaklaşım olarak değerlendiriliyor
Fiyat sinyali ve maliyet hesabı
- Uber’ın 2026 yapay zeka bütçesini 4 ayda tüketmesi, 2025’te bütçe hazırlanırken yüksek miktarda token kullanan kodlama ajanlarının ne kadar popülerleşeceğini öngörmenin zor olmasıyla bağlantılı
- Bir mühendisin aktif olarak kullandığı araç sayısının 2 olduğu varsayılırsa üst sınır aylık 3.000 dolar, yıllık 36.000 dolar oluyor
- Levels.fyi’nin ABD’de Uber yazılım mühendisleri için medyan yıllık toplam ücret paketi 330.000 dolar ve yıllık 36.000 dolarlık limit bunun yaklaşık %11’i
- Bireysel kullanım açısından bakıldığında, Anthropic ve OpenAI’de aylık 1.000 dolarlık token tüketilse bile, bireysel abonelere yönelik sübvansiyonlu planlar sayesinde mevcut maliyet sağlayıcı başına yaklaşık 100 dolar düzeyinde kalıyor
- Bu tür bireysel sübvansiyonlu planlar artık Uber gibi büyük şirketlere sunulmuyor ve mevcut kullanım düzeninde Uber limiti içinde her araç için aylık 500 dolar daha pay kalıyor
1 yorum
Hacker News görüşleri
AI şirketlerinin mevcut token başına fiyatlandırmayı sürdürüp sürdürmeyeceğini ya da Çin kaynaklı rekabet nedeniyle sonunda düşürüp düşürmeyeceğini merak ediyorum
Büyük bütçesi olmayan bireyler zaten DeepSeek gibi Çin menşeli açık ağırlıklı modellere geçiyor
Çin’in şirketleri gerçekten sübvanse edip etmediği, yoksa çıkarım maliyetlerinin aslında çok daha düşük olup Anthropic/OpenAI’nin gelecekteki IPO için mümkün olduğunca fazla ücret alıp almadığı da soru işareti
Önde gelen laboratuvarların en azından düşük ve orta seviye modellerde yüksek token başına fiyatlarını indirmesi gerekecek gibi görünüyor. Çünkü Qwen, DeepSeek, Kimi ve GLM gibi Çin modelleri uygun bir yürütme ortamıyla birleştirildiğinde maliyet açısından verimli alternatifler olacak kadar “yeterince yaklaştı”
Yine de aynı problemi çözmek için daha fazla iş gerektiren modeller de var, bu yüzden aradaki farkı hemen tamamen kapatmaları gerekmeyebilir
Buna rağmen fiyatlar bir şekilde düşecek gibi görünüyor; aynı zamanda ucuz Çin modellerinin aboneliklerinin de muhtemelen sübvansiyonlu olduğu için zamanla daha az cömert hale gelmesi beklenebilir
Token başına fiyatlar rekabet baskısı veya müşterilerin eski ve ucuz modellere yönelmesi nedeniyle zamanla düşerken, veri merkezleri gelirlerin zamanla artacağı varsayımı altında borçla finanse ediliyor
Onun ifadesiyle, “[AI şirketleri] değeri düşen bir emtiayla sabit maliyetlerini ödüyor”
Bir tarafta token gelirleri düşüyor, diğer tarafta bir sonraki frontier modelin eğitim maliyeti artıyor ve aynı anda 10 yıllık borçlar ödenmek zorunda kalıyor
0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
“Sorunu daha da büyüten şey, Çin laboratuvarlarının çift kullanımlı olabilecek modelleri sıklıkla açık ağırlıklı olarak yayımlaması. Bir model açık ağırlıklı olduğunda mevcut güvenlik önlemleri de kaldırılabilir ve bu da, bu önlemlerin engellemeye çalıştığı siber ve CBRN kötüye kullanımları da dahil olmak üzere, kötü niyetli devlet ve devlet dışı aktörlerin kullanımına açabilir”
https://www.anthropic.com/research/2028-ai-leadership
Büyük şirketlerin flash modellerin de şu koşullarda fazlasıyla yeterli olduğunu ne zaman fark edeceğini merak ediyorum
Büyük modeller de büyük değişikliklerde hâlâ kötüler, şüpheli mimariler kuruyorlar ve ciddi bir projede zaten kodu her hâlükârda gözden geçirmek gerekiyor
Hangi model olursa olsun yeterince dikkat edilmezse kod tabanı hızla dağılır
Talimat verip yinelemeli çalışılan durumlarda flash modeller 10 kat daha ucuz ve çok daha hızlıyken neden büyük modeller kullanılsın ki? Büyük modeller güvenlik ve hata denetiminde kullanılabilir; 300 satırın altındaki değişikliklerde ise istediğiniz kod biçimini tarif ederseniz flash modeller de neredeyse aynı şekilde çalışıyor
Bu sayı belirgin biçimde artarsa, önerdiğiniz gibi şirketler flash modelleri daha ciddi incelemeye başlayacaktır
Ancak burada en kritik diğer unsur olan yürütme ortamı (harness) gözden kaçıyor. Kendi orkestratörünüzle planlama/tasarım/kodlama/build/test yapan otonom bir pipeline çalıştırıyor ve birden çok aşamada ajanlar kullanıyorsunuz
Her aşama için daha uygun farklı modeller var ve aşamalar arasındaki çıktılar da LLM ile değerlendiriliyor. Her iş için Opus 4.8 gerekmiyor
Yürütme ortamı, modele neyin verileceğini ve modelden neyin alınacağını ayarlayan bir zemin sağlıyor; ayrıca hangi modelin hangi işi yapacağını da belirlemenize yardımcı oluyor
Verilen token bütçesi içinde kaliteyi üreten şey model değil, pipeline
Ya da belki büyük modeller kolay ve zor sorular arasındaki farkı öğrenip buna göre ücretlendirebilir. Karmaşıklığı ölçebiliyorsa fiyat teklifi bile verebilir
Küçük modeller küçük kodlama işleri için yeterli ama büyük modellerin de çoğu durumda işi daha küçük parçalara bölememesinin nedenini gerçekten bilmiyorum
Bu artık bir mühendislik sorunu haline geldi ve çözmesi için mühendislere itildi
AI ile kod yazmanın hâlâ sadece bir heves olarak kalacağına inanan neden bu kadar çok insan var, anlamıyorum
Başlayalı daha 2 yıl bile olmadı ama şirketler şimdiden koltuk başına binlerce dolar ödüyor, hatta aylık 5 bin dolar veren yerler bile biliyorum
Sıfırdan çıkıp bu kadar hızlı benimsenen başka hangi araç oldu ki?
Şu anda gördüğümüz AI LLM pull request'leri sadece başkalarına daha fazla iş çıkarıyor ve sözde “builder”lar ise yalnızca yeni dashboard'lar ve demoda gösterilecek özelliklerle iyi görünüyor
Ama kod akışı hakkında konuşamıyorsun, bir şeyin neden öyle yapıldığını düşünce süreciyle birlikte soramıyorsun
Birçok kişinin deneyiminin yansıyıp temelden inşa edilmiş bir şey gibi değil; yoktan var olmuş gibi geliyor ve temel ayrım da yok, neredeyse hiç soyutlama da yok
Kimse dokunmak istemiyor. Pull request'ler fazla büyük ve o “yazarlar” bizimle birlikte on-call da tutmuyor
Tüm övgüyü alıyorlar ama gerçek işi yapmıyorlar
Bir evi tasarlayıp sonra mimar ve mühendislere “bunu çalışır hâle getirin” diye göndermeye benziyor
Şirketlerin böyle davranmasının, “AI ile kod yazmanın heves olmaması”ndan çok daha makul birçok açıklaması var
Pull request'ler fazla büyük, kimse o keşmekeşi inceleyemiyor ve prod'a aldıysan on-call'a hazır olman gerekiyor
Daha iyi olabilir de olmayabilir de, şimdilik bilmiyorum
Fazla büyük ve fazla hızlı; bu yüzden istikrarlı hissettirmiyor. Bu seviyeyi koruyabilir, daha da büyüyebilir ya da daha normal kullanım ve bütçe düzeylerine geri inebilir
Aylık 100 dolarlık abonelik kullanıyorum ama son 30 gündeki API maliyetim yaklaşık aylık 1700 dolar
Kullanım şekline göre çok değişiyor. Prompt ile ayrıntılı tasarım üretip onu görev listesine böler, sonra birden fazla ajana verirsen birkaç bin dolar yakmak çok kolay
Daha dikkatli kullanıp bir seferde yalnızca birkaç ajanı etkileşimli çalıştırır, bunları pull request inceleme / issue çözme / otomatik temizlik / performans optimizasyonu için kullanırsan 1500 dolar civarı olabilir
Eğer sadece tek seferlik soruları daha iyi bir Stack Overflow gibi soruyorsan 100 doların çok altına inersin
Bu aralar
/goal'a sardım; doğrulanabilir bir hedef bulup gece boyunca çalışmaya bırakınca ertesi sabah nereye kadar geldiğine bakmak Noel sabahı gibi oluyorAylık 1500 dolar, koltuk başına yıllık 18 bin dolar demek
Belki Microsoft ve Nvidia bir şeyler görüyordur
Yerel LLM çalıştırabilen 128GB bir makine 5 bin ila 8 bin dolar olsa bile ucuz geliyor. Saniye başına token sayısı hâlâ yeterli değil ama yine de mantıklı olabilir
Asıl darboğaz gerçekten kod değil; Uber o kadar parayı harcayıp tam olarak ne üretti ve bunun gelire olumlu yönde ne gibi anlamlı bir etkisi oldu?
Bana göre 50 tok/s altı tamamen kullanılamaz seviyede
Zaten biraz da elmayla armudu kıyaslamak gibi. Açık ağırlıklı modellerde çıkarım epey ucuz ve Claude ile OpenAI, DeepSeek ya da OpenRouter üzerindeki çeşitli sağlayıcılara kıyasla sadece çok yüksek marjlar alabiliyor. Çünkü açık modeller emtia niteliğinde
Dizüstüler amortismana tabi varlıklar, ölçek ekonomisi yok, donanım sabit ve modeli güncel tutman gereken parçalı bir cihaz filosu oluşturuyor
Elektrik tüketimi ve soğutma sorunlarını da düşününce şirketlerin neden o yöne gideceğini gerçekten anlamıyorum
Yerel donanım, 10 bin farklı şekilde bozulabilecek karmaşık bir yazılım yığınını çalıştırırken pahalıya geliyor
Gelecekteki yerel AI sunucuları muhtemelen sadece AI için bir protokolle haberleşecek, bir köşede duracak ve kimse umursamayacak
Yine de çeşitli sistem erişim izinleri gerekebilir, o yüzden emin değilim ama sonuçta birileri en yeni açık modeli falan üstüne koyduğu “kutudaki AI”yı sunacaktır
Bu, 7/24 en az 20 tok/s üretmeye eşdeğer ve gerçekte muhtemelen bundan çok daha yüksek
Açık ağırlıklı modeller, saygın Batılı sağlayıcılar üzerinden sunulsa bile kapalı modellerden çok daha ucuz olduğu için aynı harcama düzeyine gelmek adına 100 tok/s üzeri gerekebilir; bu da veri merkezi donanımı alanına girer
Prosumer platformlarda ilk rakama ulaşılabilir ama ancak çok özel iş yüklerinde mümkün olur. Ajanik iş yüklerinde yaygın olan ve prefill için çok zaman harcanan durumlarda tablo daha da kötü. Çünkü on-prem AI'da bu büyük bir kısıt
Mühendisler AI araçlarını doğru kullanırsa üretkenliği ciddi biçimde artırabilir ve LLM'leri junior ya da associate mühendis gibi kullanabilir
Aylık 1500 dolar, böyle bir üretkenlik seviyesiyle kıyaslandığında çok daha ucuz; insan bir mühendisi işe almak için çok daha fazlasını ödemen gerekirdi
Kilitlenme etkisi ve geçiş maliyeti giderek daha çok düşündürüyor
Yaklaşık 1 yıldır Claude kullanıyorum ve içinde epey “bilgi” biriktirmiş durumdayım
İleride Claude'un fiyat/performans dengesi kötüleşirse endişelenirim
Depolamayı çıkarımdan ayıran dağıtık çözümleri düşünmeye başladım ama şu an için Claude hâlâ tercih ettiğim seçenek. Benzer kaygısı olan var mı merak ediyorum
Bilgi nerede saklanıyor?
Benim bilgim genelde ajanın dışındaki planlama dokümanlarında tutuluyor
Zaten her ajan penceresini de düzenli olarak arşivliyorum
Çalışan kendi AI/LLM bütçesini kullanmazsa maaşına zam alabiliyor mu?
Büyük şirketlerde self-hosting ile açık ağırlıklı modeller çalıştırmanın, ya da ille de on-premise olmasa bile GPU sunucusu kiralamanın veya Together AI gibi yerlere host etmenin neden daha yaygın olmadığını bilmiyorum
Açık ağırlıklı modelleri ve Opus, Gemini Pro gibi premium modelleri kullandım; ikincisi biraz daha iyi olsa da fiyat farkını haklı çıkaracak kadar kesinlikle değil
Benim kullandığım senaryolarda fark çoğunlukla önemli değildi ve diğer kullanıcıların da benzer kullanım alanları olduğunu düşünüyorum
Harika geliştiricilere/hacker’lara güçlü GPU sunucuları verip çalıştırabilecekleri modelleri istedikleri gibi çalıştırmalarını sağlamakla, böyle bir platformu şirket geneli için sürdürmek tamamen farklı şeyler
Bu tür modelleri anlayıp sürdürecek insanları, backend’i, erişilebilirliği vb. düşünmeniz gerekiyor ve bu personelin maaşı da genelde yazılım geliştirici maaşlarından çok daha yüksek olabiliyor
Bu ek zahmet yüzünden, üst düzey harici laboratuvarlara para ödeyip herkese makul bir harcama limiti koymak daha kolay hale geliyor
Böyle devasa rack’lerin kullanım oranı 7/24/365 olmayacaktır ve çoğu şirket de artan hesaplama kapasitesiyle model eğitecek kadar GPU merkezli bir organizasyon değildir
Fiyatı 100 bin~200 bin doların üzerindeyse ve ömrü yaklaşık 2 yılsa, bunu finansal olarak gerekçelendirmek zor
Self-hosting de bunu birkaç geliştiriciye amorti ettiğinizde kolayca aylık 1000 dolar civarına gelir ve yoğun saatlerde sert hız sınırları oluşur
Aylık 1500 dolardan 1000 doları çıkarınca kalan 500 dolar, “AI üretkenliğinde” %10 düşüşü haklı çıkarır mı? Çoğu durumda bence hayır
Kısa vadede, kodlama yardımcı modelini mutlaka self-host etmeniz için çok iyi bir neden yoksa en iyi 2~3 kodlama yardımcısı sağlayıcısı daha iyi seçimdir derim
Claude Code lisansı satın alındı diye işten çıkarılan olmadı
Birden fazla kullanıcı için GPU’ları havuzlayıp sunmak, güvenlik kontrollerini korurken bunları dokümanlara ve data lake’lere bağlamak bile başlı başına zor
Sonuçta bunu yönetecek ekibe para ödüyorsunuz
Veri merkezinde özel donanım ve bunu işletecek uzmanlar gerekiyor
Şirketin ana işine ek olarak tedarik, varlıklar, maliyetler ve diğer 1000 şeyi nasıl yöneteceğini de çözmesi gerekiyor
Tüm bunları zaten çözmüş olanlar kim? AWS/Azure/OpenAI vb.
Donanım bakımı ve servis işletimi için uzman istihdam etmek para gerektirir
LLM modelleri gibi yaygın bir şey için, AWS’ye byte göndermeye aşırı hassas bir şirket değilseniz modeli kendi donanımınızla sunmanız için hiçbir neden yok
Aylık 1500 dolar limitinin sayısından çok, bir limite ulaşmış olmaları daha ilginç
Konuştuğum mühendislik ekiplerinin çoğu geliştirici başına AI harcamasının ne kadar olduğunu bilmiyor; çünkü bu birleşik cloud faturasının içinde kayboluyor
Katı bir üst sınır iki faydalı konuşmayı zorunlu kılıyor: hangi workflow’ların API çağrılarını haklı çıkardığı ve hangilerinde local inference’ın yeterli olduğu; bir de çıktının gerçekten üretkenlik metrikleriyle karşılaştırılıp karşılaştırılmadığı
Böyle bir geri bildirim döngüsü olmazsa, bu sadece kimin token’ları en hızlı yaktığını görme yarışına dönüşüyor
Anthropic: https://support.claude.com/en/articles/12883420-view-usage-a...
OpenAI: https://help.openai.com/en/articles/10875114-workspace-analy...
“Araç başına aylık 1500 dolarlık limit, aşırı tüketime karşı makul bir politika tepkisi gibi görünüyor” ile “Benim token kullanımım Anthropic ve OpenAI için ayrı ayrı ayda yaklaşık 1000 dolar ama bireysel abonelere yönelik cömert sübvansiyonlu planlar sayesinde şu anda sağlayıcı başına sadece 100 dolar ödüyorum” çizgisi bana çok katmanlı pazarlama işi gibi geliyor
Sanki ‘diamond’ seviyesindekiler seminerlerde MLM’i pazarlayıp para kazanıyor ve en alttaki heveslilere “şimdi AI aboneliği almak, hayatta kazanan tarafta olmanın tek seferlik fırsatı” diyor
MLM vs LLM üzerinden FOMO üreten bir şeyler var mı bilmiyorum