- Resmî sürüm öncesinde en yeni Gemini 2.5 Pro önizleme sürümü kullanıma açıldı
- LMArena, WebDevArena gibi başlıca değerlendirmelerde önceki modele kıyasla 24~35 Elo puan artışı sağladı
- Kodlama, bilim, matematik, multimodal anlama, uzun bağlam işleme gibi temel benchmark'larda en üst düzey performans gösterdi
Başlıca benchmark'lara göre karşılaştırma
- Reasoning & Knowledge (Humanity's Last Exam): %21,6 ile OpenAI/Anthropic gibi şirketlerle benzer seviyede, DeepSeek R1'den (%14) daha iyi
- Science (GPQA diamond): %86,4 ile sektörün en yüksek performansı (tek deneme bazında)
- Mathematics (AIME 2025): %88,0 ile OpenAI o3 ve DeepSeek R1'e benzer seviyede, Anthropic Claude 4/3'ten daha yüksek
- Code Generation/Editing: LiveCodeBench %69,0, Aider Polyglot %82,2 ile hem kod üretiminde hem düzenlemede yüksek doğruluk
- Agentic Coding (SWE-bench Verified): %59,6 (tekil), %67,2 (çoklu deneme) ile Anthropic Claude 4'ten biraz düşük, ancak OpenAI/DeepSeek ile benzer
- Factuality: SimpleQA %54,0, FACTS Grounding %87,8 ile gerçek veriye dayalı üretimde güçlü
- Visual/Video/Image Understanding: MMMU %82,0, Vibe-Eval (görüntü) %67,2, VideoMMMU (video) %83,6 ile metin-görüntü-video alanlarının tamamında güçlü
- Long Context (MRCR v2, 128K): %58,0 ile OpenAI, Anthropic, xAI gibi büyük rakip modellere karşı en yüksek performans
Fiyatlandırma ve desteklenen diller
- Girdi fiyatı: $1.25 / milyon token (200K üzeri için $2.50)
- Çıktı fiyatı: $10 / milyon token (200K üzeri için $15)
- Desteklenen diller: 70'ten fazla küresel dil (multipolyglot %89,2)
Kullanım alanları ve ek özellikler
- Google AI Studio, Vertex AI üzerinde önizleme hemen kullanılabilir
- Thinking Budget gibi geliştiricilere yönelik maliyet ve gecikme kontrolü özellikleri eklendi
- Kodlama, bilgi, multimodal kullanım, uzun metin işleme gibi gerçek iş kullanımına uygun yetenekler güçlendirildi
Sonuç
- Gemini 2.5 Pro; fiyat, performans, çok yönlülük, multimodal yetenekler, uzun bağlam gibi birçok başlıkta rakiplerine göre üstün
- Kurumsal ve geliştirici odaklı yapay zeka kullanımında, başlıca benchmark'lara dayalı net karşılaştırmalar ve maliyet verimliliği birlikte değerlendirilebilir
1 yorum
Hacker News görüşleri
Google'ın lmarena'da yaklaşık 25 ELO daha yükselmesine hayran kalırken, önceki #1'in de Gemini olduğuna dikkat çekiliyor Son birkaç haftadır hem Gemini'yi hem de Claude Opus 4'ü yeterince kullandıktan sonra, bence Opus'un bambaşka bir seviyede olduğu hissedildi Karmaşık TypeScript sorunlarıyla uğraşırken Gemini'nin bir noktada aynı yerde dönüp durduğu, hatta ilk kez pes edip yapamayacağını söylediği görülürken, Opus'un bunları kolayca çözdüğü izlenimi vardı Bu örnek genel performansın tamamını göstermeyebilir ama fark şu: Gemini kodu zorla çalıştırmaya uğraşıyor gibi hissettirirken, Opus problemin özünü kavrayıp daha temiz bir yaklaşımla ilerliyor Opus'un daha hayal gücü yüksek olduğu ya da ajan tarzı görevlere daha iyi optimize edildiği hissi de vardı Özellikle Opus'un Playwright script'i üretip DOM'u dump ederek analiz etmesi ve etkileşim sorunlarını kontrol etmesi gibi beklenmedik çözümleri tek seferde üretebilmesi çok etkileyiciydi Gemini ise kodun kendisini inatla okuyup bug yakalamaya çalışıyor ama bu yaklaşımın sınırları olduğu hissedildi Buna rağmen Gemini de harika bir model ve 4.0 öncesinde en iyisinin o olduğu düşünülüyordu
Ben şahsen Opus 4'ten bile çok o3'ü tercih ediyorum; son bir ayda AI kod üretim araçlarına yüzlerce dolar harcayıp kendi sıralamamı yaptım
Gemini'nin en güçlü yanı, diğer modellere kıyasla arama yeteneğinin üstün olması İşte şirket alan adı üzerinden spam gönderen bir yere e-posta yazmasını istediğimde hosting sağlayıcısının abuse e-postasını, alan adı bilgilerini, mx sunucusunu, IP'yi, veri merkezini vb. buldu Bir makaleyi podcast'e dönüştürmesini istediğimde de anında yaptı ve dinlemesi de gayet keyifliydi
Bu hafta Claude 4 ile Gemini 2.5'e aynı görevi verdiğimde Gemini doğru cevabı verdi, Claude ise düzgün yapamadı Özellikle SQL sorgusu karşılaştırması gibi zor görevler olmasa bile Gemini'nin gerçek sorunu bulduğu durumlar çok oldu
Gerçekte deneyim çok duruma göre değişiyor Bazı sorunları Gemini çatır çatır çözerken, hemen sonrasında çok basit bir bug'da takıldığı kafa karıştırıcı durumlar yaşandı o3 ve Sonnet için de aynı durum geçerliydi; 4.0'ı henüz yeterince kullanmadığım için değerlendirmeyi erteliyorum Birden fazla modeli paralel değerlendirip en iyi çözümü seçmeye yardımcı olacak desteğe ihtiyaç olduğu hissediliyor
o3 ile de test edip etmediğim soruldu Benim kullanım senaryomda o3, Opus 4'ten çok daha etkileyiciydi
OpenAI'ın piyasa değeri konusunda giderek daha fazla endişe duyuluyor Güçlü rakipler çoğaldı ve artık açık ara lider olmadığı yönündeki değerlendirme ikna edici geliyor 300 milyar dolarlık değerlemeyle bundan sonra nasıl daha fazla yatırım çekeceği merak ediliyor Gelir düşükken, donanım ve elektrik gibi maliyetler sürekli artarken gerçek değeri hesaplamak zorlaşıyor Bir sonraki nesil LLM'lerin yeni veriye ihtiyaç duyacağı noktada Facebook ve Google'ın avantajlı olacağı düşünülüyor Kendi başına büyük veri işi olmayan OpenAI'ın özel veri rekabetinde dezavantajlı olduğu görüşü var Hem araştırmada hem kullanıcı uygulamalarında lider olduğu dönemde bu yüksek değerleme gerekçelendirilebiliyordu ama şimdi güven için dayanak zayıf görünüyor Yeni yatırımcıların OpenAI'dan ne kazanacağı belirsiz 300 milyar dolarlık değerleme için genelde gelirinin 2 katı değil, 150 milyar dolar gelir gerekir; aşırı bir P/E (100x) ile bile yılda 3 milyar dolar kâr ve 10 yıl boyunca iki kat büyüme senaryosu varsayılmalı (2000'lerdeki Amazon gibi) Şu anda kâr amacı gütmeyen / kâr amaçlı yapı sorunları da olduğu için halka arzın kendisi bile kolay olmayabilir Google tebrik ediliyor ve yapay zeka yarışında en büyük kazanan olma ihtimali yüksek görülüyor
OpenAI'ın pazardaki konumuna dair büyük bir yanlış anlama olduğu görüşü var "chatgpt" zaten gündelik bir fiile dönüştü; Claude ya da Gemini ise sıradan insanlar tarafından hiç bilinmiyor Çok çarpıcı bir şey olmadıkça kitlenin başka ürünlere geçmesi için bir neden yok ChatGPT'nin konuşma geçmişi, hafıza ve dışa aktarma yapısının sunduğu rahatlık bile tek başına yeterli geçiş engeli oluşturuyor 500 milyon aktif kullanıcı karşısında OpenAI'ın yapması gereken tek şey kaliteyi korumak Mevcut paradigma sürerse, öncü olmasa bile başkalarının teknolojisini yakalamak mümkün olabilir Sıradan kullanıcılar küçük iyileştirmeler için ürün değiştirmez
Değerleme hesabında hata olduğu belirtiliyor 300 milyar doların iki katı gelir değil, 150 milyar dolar gelir doğru hesap Ama temel argüman yine de geçerli
Şu anda OpenAI'ın açıkça daha iyi olduğu alan görüntü üretimi İllüstrasyon, çizgi roman, fotoğraf düzenleme ve ev projeleri için fikir üretmede ayrışıyor
Google yapay zeka yarışını kazanıyor olsa bile arama işi yine de aşınacak Yapay zeka sayesinde pazar hakimiyetinden ekonomik getiri çıkarıp çıkaramayacağı belirsiz görülüyor Mecburen rekabet etmek zorunda ama reklam merkezli tekel döneminin daha iyi olduğu düşünülüyor
o3 pro ve GPT 5'in çıkışı yakın olduğu için, OpenAI'ın lider olmadığını söylemek için henüz erken olduğu görüşü var Eğer bu iki model gözle görülür ilerleme göstermezse ancak o zaman liderliğin kaybedildiği düşünülebilir Şimdilik en azından Google vb. ile omuz omuza olduğu hissediliyor
Aynı model için üç ayrı preview sürümü yayınlamak zaten kafa karıştırıcıyken, son iki tarihin de (05-06 ve 06-05) birbirine karışması daha da kafa karıştırıyor Bir gün ertelense çok daha net olabilirmiş hissi var
Tarih muğlak olduğu için aslında 13'üne ertelemek gerekirdi deniyor Kanada'da İngiliz ve Amerikan tarih formatlarının karışması gerçekten kafa karıştırıcı Bugünlerde y-m-d formatı resmen kabul ediliyor ve giderek yaygınlaşıyor
05-06 ile 06-05'in kafa karıştırması, OpenAI'ın 4o ve o4 model adlarıyla resmen dalga geçiyor gibi hissettiriyor
Gemini 2.5 pro'dan 2.6 pro'ya ne zaman geçileceği merak ediliyor Gemini 3'te muhtemelen boyutun daha da büyüyeceği tahmin ediliyor
Geliştiricilerin isimlendirme konusunda gerçekten kötü olduğuna dair bir şaka yapılıyor
Gemini'de özellikle hissedilen iki sorun var
Gemini'nin yanlış yaptığı somut bir örnek veriliyor
processing_class=tokenizerdiye açıkça belirtilmiş kodu defalarca düzenlese de Gemini bunu süreklitokenizer=tokenizerolarak değiştiriyor Hatta tümüne yorum olarak DO NOT CHANGE yazılsa bile yine yanlış değiştiriyor En son sürüm (06-05) henüz denenmedi, hemen önceki 05-06'da da aynı hata tekrarlandıAslında o1-pro'nun da Gemini ile birlikte kişisel sıralamamın en üstlerinde olduğu vurgulanıyor Ama Gemini gereksiz yorumlar ve alakasız kod değişiklikleri çok yaptığı için gerçek işte kullanmak zor Fikir keşfi için yardımcı oluyor ama son çözüm için o1-pro kullanılıyor
Gemini gerçekten saçma, çalışmayan yorumları da rastgele ekliyor
# Added this function,# Changed this to fix the issuegibi Bunlar commit mesajında ya da PR'da daha uygun; koda yorum olarak eklenmesi rahatsız ediciChatGPT'nin de bazı talimatları tamamen görmezden geldiği çok oluyor Örneğin "em dash veya en dash kullanma" diye ne kadar vurgulansa da tam tersine daha fazla koyuyor Defalarca denense de bunu bir kez bile düzgün kontrol ettirememiş biri var
Hem ChatGPT Plus hem de Gemini Pro için ücret ödeyip kullanılıyor ChatGPT sürekli rate limit'e takıldığı için aboneliği iptal etmeyi düşünülüyor Gemini/AI Studio'da ise şimdiye kadar bir kez bile rate limit'e takılınmadı
AI Studio'da aslında API hesabı backend'de kullanılıyor ve otomatik olarak Google Cloud free tier projesi oluşturuluyor "get an api key" sayfasının alt kısmından ödeme hesabı bağlanabiliyor Ücretsiz katman API'si, Google hizmet şartlarına göre ticari kullanım sayılmayabilir; prompt'lar insanlar tarafından incelenebilir ve eğitim verisi olarak kullanılabilir
AI Studio API kullandığı için, sıradan bir kullanıcının ücretli preview modelde limite dayanması fiilen çok nadir
Gemini, ChatGPT'den çok daha fazla beğenilmişti ama son dönemde Pro planına günlük 100 mesaj sınırı geldi AI Studio'da ise hâlâ bir sınır yok gibi görünüyor
Neden openrouter gibi bir aracı üzerinden API kullanılmadığı soruluyor
Önceki Gemini modellerinin kodlama yardımı açısından Claude 3.7 Sonnet'ten zayıf olduğu düşünülüyordu (4 daha da kötü) Bu yeni sürüm de bağımsız değerlendirmeler çıkmadan denenmeyecek İnternetteki yoğun Gemini övgüsü kişisel deneyimle o kadar uyuşmuyor ki, bariz pazarlama ya da yapay bir hype karışmış olabilir diye şüphe ediliyor
Her modelin değerlendirmesinin gerçekte ne yaptığınıza bağlı olduğu görüşü var Claude 3.5/3.7 Sonnet, C/C++/Make/CMake tarafında tamamen işe yaramaz düzeydeydi Yanlış bilgi, imkânsız kod, anlamsız söz dizimi/API üretimi, mantıksal çelişkiler gibi kötü deneyimler yaşandı Buna karşılık Gemini 2.5-pro ve o3 ezici biçimde iyiydi ve ekip genelinde de daha üstün bulundu Claude belki TypeScript ya da Ruby'de güçlü olabilir ama en azından benim işimde Gemini reklam abartısından fazlasıydı
Claude hiç kullanılmamış olsa da, günlük sorularda Gemini her zaman ChatGPT veya Copilot'tan daha iyi yanıtlar verdi Özellikle arama amaçlı kullanımda (komut satırı yöntemleri, ürün bilgisi vb.) Gemini net biçimde güçlü
Aider içinde Sonnet ile Gemini dönüşümlü kullanılıyor Garip şekilde bazı sorunları yalnızca bir model çözebiliyor ve önceden görülebilen bir desen yok
Claude 3.7 Sonnet'in bir kodlama asistanı olarak Gemini'den daha iyi olduğu düşünülse de, veri bilimi ya da karmaşık Python ETL işlerinde Claude hayal kırıklığı yarattı ve o3 çok daha iyiydi
Roo Code'da Claude araç kullanımında daha iyi ama Gemini'nin daha özlü kod stili daha çok beğeniliyor İkisi birlikte kullanılıyor ya da biri başarısız olursa diğeriyle sorun çözülüyor
Preview sürümlere sürekli tarih ekleyerek yayınlamak yerine patch numarasını artırmaları daha iyi olurdu düşüncesi var
Aider'e göre 82.2 puan Gerçekte hâlâ o3 high'ın resmi puanının gerisinde kalıyor Aider liderlik tablosu bağlantısı
82.2'nin diğer modellerdeki Percent correct ile aynı ölçüt olup olmadığı soruluyor "pure" o3 (high) %79.6, "o3 (high) + gpt-4.1" kombinasyonu ise en yüksek %82.7'ye denk geliyor Eski Gemini 2.5 Pro Preview 05-06 ise %76.9 seviyesindeydi Bunun oldukça büyük bir sıçrama olduğu düşünülüyor Aider benchmark'larının şu an en güvenilir benchmark olduğu kabul ediliyor
Çok daha ucuz ve hızlı olması özellikle şaşırtıcı bulunuyor
Verilen puanın eski 05-06 preview'a ait olduğu, bugün çıkan yeni sürüme ait olmadığı hatırlatılıyor
06-05'in 03-25 ile 05-06 arasındaki boşluğu kapattığını söyleyen bir tweet'e atıf yapılıyor İlgili tweet
Claude 4 Sonnet ile kod karşılaştırması merak ediliyor Bu blog tablosu buna göre Claude 4 Sonnet'ten belirgin biçimde geride olduğunu gösteriyor