- Gemini 2.5 Flash, Google AI Studio ve Vertex AI üzerinden sunulan hibrit akıl yürütme modeli olarak, hız ve maliyeti korurken akıl yürütme yeteneğini büyük ölçüde geliştiriyor
- düşünme (on/off) özelliği ve thinking_budget ayarı ile performans, maliyet ve gecikme süresi ayrıntılı biçimde kontrol edilebiliyor
- düşünme bütçesi ayarlanarak modelin üretebileceği en yüksek token sayısı ince ayarlanabiliyor; bu da karmaşık görevlerde daha doğru ve kapsamlı yanıtlar sağlıyor
- Düşük maliyete karşı yüksek performans sunan Google'ın en maliyet verimli akıl yürütme modeli olup, farklı kullanım senaryolarına göre esnek biçimde ayarlanabiliyor
- Şu anda Google AI Studio ve Vertex AI üzerinde önizleme olarak kullanılabiliyor; API tarafında da yapılandırılabiliyor
Gemini 2.5 Flash önizlemesi yayınlandı
- Google, Gemini 2.5 Flash'ı Google AI Studio ve Vertex AI üzerinden önizleme (preview) olarak yayımladı
- Önceki 2.0 Flash'a kıyasla akıl yürütme yetenekleri büyük ölçüde geliştirildi; hız ve maliyet verimliliği ise korundu
- İlk tam hibrit akıl yürütme modeli olarak geliştiriciler thinking modunu açıp kapatabiliyor
- thinking_budget ayarıyla kalite, maliyet ve yanıt gecikmesi arasındaki denge ayarlanabiliyor
- Düşünme modu kapalıyken bile 2.0 Flash'tan daha iyi performans sunuyor
Gemini 2.5 Flash'ın akıl yürütme yetenekleri
- Gemini 2.5 Flash, yanıtı doğrudan üretmek yerine önce düşünme sürecini işletiyor
- Karmaşık problemler, matematik soruları ve araştırma analizi gibi konularda daha doğru ve kapsamlı yanıtlar üretiyor
- LMArena'nın Hard Prompts benchmark'ında 2.5 Pro'nun ardından en yüksek performansı gösteriyor
- Diğer modellere kıyasla daha düşük fiyat ve daha küçük model boyutu ile benzer performans sunuyor
En maliyet verimli akıl yürütme modeli
- Gemini 2.5 Flash, fiyat/performans açısından en iyi akıl yürütme modeli olarak değerlendiriliyor
- Google'ın kaliteye karşı maliyet verimliliği eğrisi (Pareto frontier) içine yeni eklendi
Düşünme kontrolü: thinking_budget
- Farklı kullanım senaryolarına göre kalite, maliyet ve gecikme arasında ince ayar imkanı sunuyor
- thinking_budget, modelin düşünme için kullanabileceği azami token sayısını ifade ediyor
- Örneğin budget yükseldikçe kalite artıyor; ancak maliyet ve gecikme süresi de yükseliyor
- Düşünme gerektirmeyen basit sorularda düşük budget otomatik olarak uygulanıyor
- budget aralığı 0 ~ 24.576 token ve AI Studio ile Vertex AI'da kaydırıcı ya da API parametresiyle ayarlanabiliyor
Düşünme düzeyine göre örnek prompt'lar
Düşük düzeyde akıl yürütme gerektirenler
- “Thank you” in Spanish
- Kanada'daki eyalet (province) sayısını sormak
Orta düzeyde akıl yürütme gerektirenler
- İki zar atıldığında toplamın 7 gelme olasılığını hesaplamak
- Bir programa göre hafta içinde 5 saat basketbol oynanabilecek bir takvim oluşturmak
Yüksek düzeyde akıl yürütme gerektirenler
- Bir kirişin makine mühendisliği gerilme hesabı problemi
- Excel tarzı formül değerlendirme fonksiyonu yazma problemi
- Bağımlılık çözümü, operatör önceliği ve döngü tespiti gerekiyor
Başlarken
- Google AI Studio, Vertex AI ve Gemini uygulamasında preview sürümü kullanılabiliyor
thinking_budget parametresi üzerinde deney yaparak karmaşık problem çözme potansiyeli keşfedilebiliyor
- Kod örneği:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
- Daha fazla bilgi geliştirici dokümanında ve Gemini Cookbook'ta yer alıyor
- İleride daha fazla özellik eklenecek ve resmi sürüm öncesine kadar sürekli iyileştirmeler sürecek
1 yorum
Hacker News görüşleri
Google'ın Gemini 2.5 Pro'yu (deneysel) ücretsiz sunması büyük bir olaydı. OpenAI'nin daha pahalı modellerini hiç kullanmadığım için karşılaştırma yapamam ama geçmişte kullandığım ücretsiz modellerle kıyaslandığında Gemini 2.5 Pro ciddi bir ilerleme gösteriyor. Bu model, uğraştığım konuların çoğunda benden daha akıllı ve bana katılmaya çalışmak yerine benimle tartışıyor. Artık gündelik yapay zeka kullanımımın tamamı Gemini üzerinde yoğunlaşıyor ve derin konularda soru sormayı dört gözle bekliyorum. Bu modelin değerini artırmak için yeni araçlar geliştiriyorum
Gemini modellerinin sıkça gözden kaçan özelliklerinden biri, API üzerinden doğrudan Python kodu yazıp çalıştırabilmesi. llm-gemini eklentim bunu destekliyor: GitHub bağlantısı. Kodu çalıştırmak için ek ücret alınmıyor; yalnızca giriş ve çıkış token'ları için ödeme yapıyorsunuz. Örneğin, 10 giriş ve 1.531 çıkış kullanımıyla maliyet 0,536 sent oldu
Gemini Flash modeli en az ilgi gören model olabilir ama gerçek kullanımda fiyat/performans açısından en iyi model ve multimodal araçlar sunuyor. Google, yapay zeka yarışını sessizce kazanıyor
Gemini 2.5 Flash belgelerini derinlemesine incelerken gizli bir bilgi: Görsel girdiler için model, ilgili nesnelerin 2D bounding box'larını üretebildiği gibi segmentasyon maskeleri de üretebiliyor. Bu fiyat seviyesinde bir Flash modelinin segmentasyon maskesi üretmesi oldukça etkileyici. Segmentasyon maskeleri, maskeyi temsil eden bir b64 dizesi üretilerek uygulanıyor
Programcı olmayan biri olarak Google benim için şaşırtıcı derecede iyi hale geliyor. İlk seferde çalışan kod veriyor. Bir web sitesindeki verileri scrape edip analiz eden kod yazmasını istediğimde, verileri scrape edip analiz eden kod yazdı. Temel veri sınıflandırması ve toplulaştırmaydı ama bunu beklemiyordum
Google'dan daha fazla yenilik. OpenAI'nin iki büyük sorunu var. Birincisi, Google'ın dikey entegre çip hattı ile yapay zeka çipleri üretmek için gereken derin tedarik zinciri ve operasyon bilgisi. Bu, her aşamada muazzam bir maliyet avantajı sağlıyor. İkincisi ise veri kıtlığı ve sosyal medyanın sürekli güncellenen bir bilgi kaynağı olarak sahip olduğu haksız avantaj. Yeni veri, giderek daha değerli bir farklılaştırıcı haline geliyor. SamA bunun farkında ve bunu OpenAI'nin başarılı olup olmayacağını belirleyecek temel meseleler olarak görüyor
Gemini 2.0 Flash'tan %50 fiyat artışı. Bu kulağa çok gelebilir ama Flash, bu kalitedeki diğer modellerle kıyaslandığında hâlâ çok ucuz
Python API kütüphanesi kodunda ilginç bir şey fark ettim: GitHub bağlantısı.
thinking_budgetbelgelenmiş amainclude_thoughtsun ne olduğunu anlamak zor. Bu seçenekle Gemini'nin düşünce özetini döndürmesini nasıl sağlayacağımı bulamadımGoogle, API ve ücretsiz AI Studio üzerinden etkileyici modeller sunarken, Gemini uygulamasında kullanılan model çok daha kötü görünüyor. Son haftalarda Workspace hesabımda Gemini Advanced kullanıyorum ve modelin daha kısa süre düşündüğünü, daha kısa çıktılar verdiğini ve bağlam penceresinin de reklamı yapılan 1 milyon token'dan oldukça uzak göründüğünü fark ettim. Sanki Google Gemini uygulamasını bilerek kısıtlıyor gibi
Dahili bir PDF'yi (3 sayfa, orta zorluk) JSON benchmark olarak çalıştırdığımda: