- Gemini 2.5 Flash ve Pro modellerinin resmen kullanıma sunulmasıyla birlikte, en ucuz ve en hızlı Flash-Lite modelinin önizleme sürümü de tanıtıldı
- Flash-Lite, çeviri, sınıflandırma gibi gecikmeye duyarlı işler için optimize edildi ve 2.0 Flash/Flash-Lite'tan daha düşük gecikme süresi ile daha yüksek genel kalite sunuyor
- Tüm 2.5 modelleri; çok modlu girdi, 1M token bağlam uzunluğu, araç bağlantıları (arama, kod çalıştırma vb.), Thinking modunu açıp kapatma gibi özellikleri destekliyor
- Maliyet/performans optimizasyonu (Pareto Frontier) gözetilerek tasarlandığından, büyük ölçekli trafik işleme için uygun bir ürün ailesi yapısına sahip
- Flash-Lite ve Flash, arama için de özelleştirilerek kullanılıyor; geliştiriciler ise Google AI Studio ve Vertex AI üzerinden önizleme ya da resmi modelleri kullanabiliyor
Flash-Lite'ın özellikleri
- En ucuz ve en hızlı model olarak, 1 milyon giriş tokenı başına $0.10 ve 1 milyon çıkış tokenı başına $0.40 ücretle sunuluyor
- Maliyetine göre yüksek performans sunduğu için çeviri, sınıflandırma gibi çok sayıda isteğin geldiği işler için özellikle uygun
- Önceki 2.0 Flash-Lite'a kıyasla genel kalite artmış durumda; bilim (GPQA) ölçütünde %64.6 → %66.7, matematikte (AIME 2025) ise %49.8 → %63.1 seviyesine yükseldi
- Kod üretimi ve düzenleme performansı sırasıyla %34.3 ve %27.1 düzeyinde; yüksek performanslı modellere göre daha düşük olsa da maliyet açısından verimli bir seçenek
- Çok modlu işleme performansı %72.9 seviyesinde korunurken, görüntü anlama %51.3'ten %57.5'e iyileşti
- Akıl yürütme (Thinking) modu etkinleştirildiğinde genel doğruluk artıyor; örneğin HumanEval'de %5.1 → %6.9, SWE-bench multi-task'ta ise %42.6 → %44.9'a çıkıyor
- Olgusallık (SimpleQA) ve uzun bağlam anlama (MRCR) gibi alanlarda da Thinking modunda performans belirgin şekilde yükseliyor; özellikle 1M token ölçütünde uzun bağlam doğruluğu %5.4'ten %16.8'e çıkarak 3 katın üzerine çıkıyor
- Çok dilli yetenek (MMLU) de artmış durumda; Non-thinking modunda %81.1, Thinking modunda ise %84.5'e ulaşıyor
1 yorum
Hacker News görüşleri
Google gönderisinde bundan bahsedilmiyor ama Gemini 2.5 Flash modeli için bir fiyat artışı da var gibi görünüyor
2.5 Flash Preview için arşivlenmiş fiyatlandırmada 1 milyon token başına giriş metni/görüntü/video $0.15, ses $1.00, çıkış ise non-thinking için $0.60, thinking için $3.50 idi
Yeni fiyatlandırmada thinking ve non-thinking ayrımı kaldırılmış
Giriş metni/görüntü/video 1 milyon başına $0.30 ile 2 katına çıkmış, ses $1.00 ile aynı kalmış, çıkış ise 1 milyon başına $2.50 olmuş; bu da önceki non-thinking fiyatına göre oldukça pahalı ama thinking'e göre daha ucuz bir yapı
Ayrıntılı fiyatlandırmayı burada görebilirsiniz
Fiyat değişikliği hakkında blog yazısında daha fazla bilgi var
Ayrıntılı referans bağlantısı
Yapay zeka teknolojisinin yakında aşırı ucuzlayacağı söyleniyordu ama şu an için fiyatların yükseldiğine dair bir yorum
Gemini ilk çıktığında fiyatının fazla düşük olduğunu, rakiplere kıyasla aşırı ucuz kaldığını düşündüğünü ve şimdi ancak daha gerçekçi bir fiyat seviyesine geldiğini söyleyen bir görüş
Rahatça 2 katına çıkarılmış bir fiyat
Gemini 2.0 Flash'ın $0.10/$0.40 olduğunu düşününce artış daha da hissediliyor
Bunun çok iyi fark edilmiş bir değişiklik olduğu yorumu
Bu fiyat değişiminin, audio-to-audio alanında GOAT olma potansiyeli taşıyan Gemini için oldukça önemli olduğu düşünülüyor
Bir dönem Gemini Pro AI Studio'da ücretsiz sunulurken insanların onu çok kullandığını düşünüyorum
Sonrasında performansı aksine kötüleşti ve artık önemli işler için yeniden Claude'a dönüyorum
Gemini, gereksiz yere çok konuşan bir arkadaş gibi hissettiriyor
Yine de beyin fırtınası için sık kullanıyorum; Gemini'nin oluşturduğu prompt'ları düzenleyip Claude'da kullanıyorum
Aider leaderboard'a bakınca benim deneyimimin aksine Gemini her zaman üstün görünmüyor
Ben sadece Aider API'yi doğrudan kullandım, AI Studio deneyimim yok
Claude, prompt zayıf olsa bile iyi performans veriyor; özellikle yön belirsizken sezgisi güçlü
Ne istediğimi net bildiğim durumlarda ise Gemini 2.5 Pro (Thinking açık) daha iyi ve ürettiği kod daha stabil çalışıyor
o4-mini ve o3'te daha "akıllıca" düşündüğü hissi var ama kod daha kararsız oluyor (Gemini daha stabil)
Karmaşıklık arttıkça Claude'un zayıfladığını hissediyorum; benim ölçütlerime göre Gemini ve o3 daha yüksek puanı hak ediyor
o3-mini çıktıktan sonra bir daha Claude'a dönmedim
Ben de benzer bir deneyim yaşadım
Başlarda karmaşık problemleri de iyi çözüyor gibiydi ama basit işlerde yönlendirmesi zor
Yanıtları fazla uzun; kullanıcı deneyimi en önemli şey olduğundan şu anda Claude Code'un UX'ini tercih ediyorum
Benim için de durum aynı; kısa cevap vermesi için elaborate prompt ile bir Gem oluşturdum ama yine de gereksiz derecede uzun yazıyor ve sorunun kapsamını lüzumsuz şekilde genişletmesi rahatsız edici
İçeriden bir bilgim yok ama model quantized edilmiş gibi hissettiriyor
Tek bir karakteri sonsuza kadar tekrar etmesi gibi, sadece quantized modellerde gördüğüm örüntüler gözleniyor
Eski preview sürümüne geri dönülmesini isterdim
Preview sürümü dengeliydi ve gerçekten işe yarayan karşı argümanlar da üretiyordu; genel kullanıma açılan sürüm ise aşırı olumlu bir tona kaymış
Gemini'den çok etkilendim ve OpenAI kullanmayı bıraktım
Bazen OpenRouter üzerinden üç modeli de test ediyorum ama şu anda kullanımımın %90'ından fazlası Gemini
Geçen yıl bunun %90'ı ChatGPT idi; düşününce büyük bir değişim
Google'a karşı eleştirel biriyim ama bu kez modellerin gerçekten mükemmel olduğunu düşünüyorum
Özellikle context window'un aşırı geniş olması çok büyük bir artı
Ben de aynı şekilde bu sefer Claude aboneliğimi iptal ettim; Gemini'nin çok hızlı şekilde arayı kapattığını düşünüyorum
Bu duyuruyla birlikte Flash Lite'ın artık "işe yaramaz" kategorisinden "kullanışlı araç" seviyesine yükseldiğini düşünüyorum
Flash Lite ucuz ve en önemlisi neredeyse her zaman 1 saniyenin altında (en düşük 200 ms, ortalama 400 ms) yanıt veriyor; gücü de bu "hız"
Biz de Brokk(brokk.ai) hizmetimizde Quick Edits için şu anda Flash 2.0'ı (Non-Lite) kullanıyoruz ve şimdi 2.5 Lite'ı değerlendirmeyi planlıyoruz
Thinking nedeniyle yavaşlayan Flash 2.5'in altında konumlanan bir modelin kullanım alanını merak ediyorum
Hızlı yanıt önemli ama thinking açıldığında hız düştüğü için konu biraz muğlak kalıyor
Kodlama dışında Gemini'yi nasıl kullandığınızı ve neden onu seçtiğinizi merak ediyorum
Uygulama geliştirirken GenAI backend'ini değiştirilebilir şekilde mi tasarlıyorsunuz, yoksa fiyat ya da güvenilirlik nedeniyle birden fazla sağlayıcı arasında load balancing yapıyor musunuz, ayrıca LLM'ler için de bir spot market oluşursa neler değişir diye düşünüyorum
Benim deneyimimde Gemini 2.5 Pro, çeviri ve özetleme (Canva kullanımı dahil) gibi kodlama dışı işlerde öne çıkıyor
Bunu mümkün kılan şey devasa context window ve kullanım limitleri
Özellikle araştırma raporu üretiminde Gemini'nin ChatGPT'den daha iyi olduğunu düşünüyorum
Google aramada güçlü olduğu için muhtemelen raporlar birden fazla kaynağa dayanıyor ve daha doğru oluyor
Yazı stilini de daha çok seviyorum; ayrıca Google Docs'a dışa aktarabilmek de kullanışlı
Yine de arayüzü rakiplerine göre çok geride ve Custom instruction, Projects, Temporary Chat gibi temel özelliklerin eksik ya da zayıf olması ciddi bir dezavantaj
Çok sayıda NDA belgesini tek seferde yükleyip birkaç saniye içinde sadece ilgili kısımları çıkarması çok faydalı
Geniş context window ve tam gereken bilgiyi çıkarabilen güçlü performansı sayesinde bu tür işler için çok uygun
Gemini Flash 2.0 son derece ucuz ve kurumsal ölçekli iş yüklerinde güçlü bir model
En ileri düzey zekaya sahip değil ama düşük fiyatı, yüksek hızı ve yapılandırılmış çıktılardaki yüksek güvenilirliği sayesinde geliştirme tarafında beni çok memnun ediyor
2.5 Lite'a yükseltmeyi test etmeyi planlıyorum
lexikon.ai'yi çok kullanıyorum; özellikle toplu görsel işleme tarafında Gemini'den çok yararlanıyorum
Google Vision API fiyatlarının diğer büyük sağlayıcılara (OpenAI, Anthropic) kıyasla çok daha ucuz olması hoşuma gidiyor
Gemini 2.5 Flash'ı (Non-thinking seçeneği) bir düşünce partneri olarak kullanıyorum
Düşüncelerimi toparlamama yardım ediyor, ayrıca aklıma gelmeyen girdileri de otomatik olarak sunuyor
Öz değerlendirme için de faydalı; kendi düşüncelerimi ya da dertlerimi yazıp yapay zekanın yanıtlarını referans alıyorum
Şu anda 2.5-pro API erişimi olmayan başka insanlar var mı merak ediyorum
"projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro bulunamadı veya erişim yetkiniz yok" şeklinde bir hata alıyorum
Geçerli bir model sürümü kullandığınızdan emin olmanız gerektiğini söyleyen bir uyarı çıkıyor
Büyük ölçekli LLM çıkarımı/veri işleme hizmetleri işletiyorum ve farklı open-weight modeller için maliyet ve performans profillemesi üzerine çok çalışıyorum
LLM fiyatlandırmasında bana hâlâ garip gelen şey, sağlayıcıların token tüketimine göre doğrusal ücret alması; oysa gerçek sistem maliyeti dizi uzunluğu arttıkça karesel olarak büyüyor
Günümüzde model mimarileri, çıkarım algoritmaları ve donanım çoğunlukla birbirine benziyor; bu yüzden sağlayıcılar fiyat belirlerken muhtemelen müşteri istek kalıplarına dair geçmiş istatistiklere ciddi biçimde bakıyor
Sonuçta gerçek kullanım örüntülerine ilişkin veri biriktikçe fiyat artışlarının gelmesi bana şaşırtıcı görünmüyor
2.0 Flash Lite'a kıyasla 2.5 Flash Lite'ın ses işleme fiyatı 6.33 kat artmış
2.5 Flash Lite'ta ses girişi 1 milyon token başına $0.5, 2.0'da ise $0.075 idi
Ses token fiyatının neden bu kadar sert arttığını merak ediyorum
Girdi:çıktı token oranını 3:1 varsayarsak blended price önceye göre 3.24 kat yükselmiş; 2.0 Flash ile karşılaştırınca neredeyse 5 kat ediyor
Bu yüzden 2.0 Flash'ın hâlâ birçok kullanım senaryosunda, özellikle kodlama dışı alanlarda, rekabetçi kalabileceğini düşünüyorum
Performans biraz düşük olsa bile prompt'ları birkaç tura bölmek pratikte daha iyi sonuç verebilir
Bu 2.5 Flash'ın ezici bir varsayılan seçenek olacağını sanmıştım, o yüzden biraz hayal kırıklığı oldu
(İlgili fiyat verileri için buraya bakabilirsiniz)