Gemini-2.5-pro-preview-06-05

(deepmind.google)

1 puan yazan GN⁺ 2025-06-07 | 1 yorum | WhatsApp'ta paylaş

Resmî sürüm öncesinde en yeni Gemini 2.5 Pro önizleme sürümü kullanıma açıldı
LMArena, WebDevArena gibi başlıca değerlendirmelerde önceki modele kıyasla 24~35 Elo puan artışı sağladı
Kodlama, bilim, matematik, multimodal anlama, uzun bağlam işleme gibi temel benchmark'larda en üst düzey performans gösterdi

Başlıca benchmark'lara göre karşılaştırma

Reasoning & Knowledge (Humanity's Last Exam): %21,6 ile OpenAI/Anthropic gibi şirketlerle benzer seviyede, DeepSeek R1'den (%14) daha iyi
Science (GPQA diamond): %86,4 ile sektörün en yüksek performansı (tek deneme bazında)
Mathematics (AIME 2025): %88,0 ile OpenAI o3 ve DeepSeek R1'e benzer seviyede, Anthropic Claude 4/3'ten daha yüksek
Code Generation/Editing: LiveCodeBench %69,0, Aider Polyglot %82,2 ile hem kod üretiminde hem düzenlemede yüksek doğruluk
Agentic Coding (SWE-bench Verified): %59,6 (tekil), %67,2 (çoklu deneme) ile Anthropic Claude 4'ten biraz düşük, ancak OpenAI/DeepSeek ile benzer
Factuality: SimpleQA %54,0, FACTS Grounding %87,8 ile gerçek veriye dayalı üretimde güçlü
Visual/Video/Image Understanding: MMMU %82,0, Vibe-Eval (görüntü) %67,2, VideoMMMU (video) %83,6 ile metin-görüntü-video alanlarının tamamında güçlü
Long Context (MRCR v2, 128K): %58,0 ile OpenAI, Anthropic, xAI gibi büyük rakip modellere karşı en yüksek performans

Fiyatlandırma ve desteklenen diller

Girdi fiyatı: $1.25 / milyon token (200K üzeri için $2.50)
Çıktı fiyatı: $10 / milyon token (200K üzeri için $15)
Desteklenen diller: 70'ten fazla küresel dil (multipolyglot %89,2)

Kullanım alanları ve ek özellikler

Google AI Studio, Vertex AI üzerinde önizleme hemen kullanılabilir
Thinking Budget gibi geliştiricilere yönelik maliyet ve gecikme kontrolü özellikleri eklendi
Kodlama, bilgi, multimodal kullanım, uzun metin işleme gibi gerçek iş kullanımına uygun yetenekler güçlendirildi

Sonuç

Gemini 2.5 Pro; fiyat, performans, çok yönlülük, multimodal yetenekler, uzun bağlam gibi birçok başlıkta rakiplerine göre üstün
Kurumsal ve geliştirici odaklı yapay zeka kullanımında, başlıca benchmark'lara dayalı net karşılaştırmalar ve maliyet verimliliği birlikte değerlendirilebilir

1 yorum

GN⁺ 2025-06-07

Hacker News görüşleri

Google'ın lmarena'da yaklaşık 25 ELO daha yükselmesine hayran kalırken, önceki #1'in de Gemini olduğuna dikkat çekiliyor Son birkaç haftadır hem Gemini'yi hem de Claude Opus 4'ü yeterince kullandıktan sonra, bence Opus'un bambaşka bir seviyede olduğu hissedildi Karmaşık TypeScript sorunlarıyla uğraşırken Gemini'nin bir noktada aynı yerde dönüp durduğu, hatta ilk kez pes edip yapamayacağını söylediği görülürken, Opus'un bunları kolayca çözdüğü izlenimi vardı Bu örnek genel performansın tamamını göstermeyebilir ama fark şu: Gemini kodu zorla çalıştırmaya uğraşıyor gibi hissettirirken, Opus problemin özünü kavrayıp daha temiz bir yaklaşımla ilerliyor Opus'un daha hayal gücü yüksek olduğu ya da ajan tarzı görevlere daha iyi optimize edildiği hissi de vardı Özellikle Opus'un Playwright script'i üretip DOM'u dump ederek analiz etmesi ve etkileşim sorunlarını kontrol etmesi gibi beklenmedik çözümleri tek seferde üretebilmesi çok etkileyiciydi Gemini ise kodun kendisini inatla okuyup bug yakalamaya çalışıyor ama bu yaklaşımın sınırları olduğu hissedildi Buna rağmen Gemini de harika bir model ve 4.0 öncesinde en iyisinin o olduğu düşünülüyordu
- Ben şahsen Opus 4'ten bile çok o3'ü tercih ediyorum; son bir ayda AI kod üretim araçlarına yüzlerce dolar harcayıp kendi sıralamamı yaptım
  1. sırada o3 var; ince detayları ele alma, problemin özünü kavrama ve gerçek prodüksiyonda kullanılabilecek yüksek kaliteli kod yazma konusunda çok güçlü Eksileri ise context window, maliyet ve araç kullanmayı aşırı sevmesi Rails projelerinde neredeyse sorun olmuyor ama bazen etkisi hissediliyor
  2. sırada Opus 4 var (Claude Code üzerinden kullanıyorum); performansı iyi ve o3'e göre daha ucuz olduğu için günlük ana aracım olarak çoğunlukla bunu kullanıyorum Opus 4 planı ve ilk taslağı çıkarıyor, ardından o3 bunu dikkatle eleştirip geri bildirim listesini oluşturuyor; böylece gerçekten işi parlatabiliyorum
  3. sırada Gemini 2.5 Pro var; bu son sürümü henüz denemedim ama önceden 2. sıradaydı Şu anda Sonnet 4 ile aynı seviyede ya da biraz daha iyi, duruma göre değişiyor
  4. sırada Sonnet 4 var; çok kod üretiyor ama doğrudan koçluk ve denetim olmadan gerçekten yüksek kaliteli, özlü ve derinlikli kod çıkarmıyor Kod kalitesi ve düzenine (isimlendirme, yeniden kullanılabilirlik vb.) fazlasıyla takıntılı olduğum için, geçen ay Cursor istatistiklerine göre otomatik önerilen kodların yalnızca %33'ünü kabul ettim En iyi yol olmadığında hatalı istekleri düzeltiyor ve prompt'u yeniden şekillendirerek daha iyi sonuç peşinde koşuyorum
- Gemini'nin en güçlü yanı, diğer modellere kıyasla arama yeteneğinin üstün olması İşte şirket alan adı üzerinden spam gönderen bir yere e-posta yazmasını istediğimde hosting sağlayıcısının abuse e-postasını, alan adı bilgilerini, mx sunucusunu, IP'yi, veri merkezini vb. buldu Bir makaleyi podcast'e dönüştürmesini istediğimde de anında yaptı ve dinlemesi de gayet keyifliydi
- Bu hafta Claude 4 ile Gemini 2.5'e aynı görevi verdiğimde Gemini doğru cevabı verdi, Claude ise düzgün yapamadı Özellikle SQL sorgusu karşılaştırması gibi zor görevler olmasa bile Gemini'nin gerçek sorunu bulduğu durumlar çok oldu
- Gerçekte deneyim çok duruma göre değişiyor Bazı sorunları Gemini çatır çatır çözerken, hemen sonrasında çok basit bir bug'da takıldığı kafa karıştırıcı durumlar yaşandı o3 ve Sonnet için de aynı durum geçerliydi; 4.0'ı henüz yeterince kullanmadığım için değerlendirmeyi erteliyorum Birden fazla modeli paralel değerlendirip en iyi çözümü seçmeye yardımcı olacak desteğe ihtiyaç olduğu hissediliyor
- o3 ile de test edip etmediğim soruldu Benim kullanım senaryomda o3, Opus 4'ten çok daha etkileyiciydi
OpenAI'ın piyasa değeri konusunda giderek daha fazla endişe duyuluyor Güçlü rakipler çoğaldı ve artık açık ara lider olmadığı yönündeki değerlendirme ikna edici geliyor 300 milyar dolarlık değerlemeyle bundan sonra nasıl daha fazla yatırım çekeceği merak ediliyor Gelir düşükken, donanım ve elektrik gibi maliyetler sürekli artarken gerçek değeri hesaplamak zorlaşıyor Bir sonraki nesil LLM'lerin yeni veriye ihtiyaç duyacağı noktada Facebook ve Google'ın avantajlı olacağı düşünülüyor Kendi başına büyük veri işi olmayan OpenAI'ın özel veri rekabetinde dezavantajlı olduğu görüşü var Hem araştırmada hem kullanıcı uygulamalarında lider olduğu dönemde bu yüksek değerleme gerekçelendirilebiliyordu ama şimdi güven için dayanak zayıf görünüyor Yeni yatırımcıların OpenAI'dan ne kazanacağı belirsiz 300 milyar dolarlık değerleme için genelde gelirinin 2 katı değil, 150 milyar dolar gelir gerekir; aşırı bir P/E (100x) ile bile yılda 3 milyar dolar kâr ve 10 yıl boyunca iki kat büyüme senaryosu varsayılmalı (2000'lerdeki Amazon gibi) Şu anda kâr amacı gütmeyen / kâr amaçlı yapı sorunları da olduğu için halka arzın kendisi bile kolay olmayabilir Google tebrik ediliyor ve yapay zeka yarışında en büyük kazanan olma ihtimali yüksek görülüyor
- OpenAI'ın pazardaki konumuna dair büyük bir yanlış anlama olduğu görüşü var "chatgpt" zaten gündelik bir fiile dönüştü; Claude ya da Gemini ise sıradan insanlar tarafından hiç bilinmiyor Çok çarpıcı bir şey olmadıkça kitlenin başka ürünlere geçmesi için bir neden yok ChatGPT'nin konuşma geçmişi, hafıza ve dışa aktarma yapısının sunduğu rahatlık bile tek başına yeterli geçiş engeli oluşturuyor 500 milyon aktif kullanıcı karşısında OpenAI'ın yapması gereken tek şey kaliteyi korumak Mevcut paradigma sürerse, öncü olmasa bile başkalarının teknolojisini yakalamak mümkün olabilir Sıradan kullanıcılar küçük iyileştirmeler için ürün değiştirmez
- Değerleme hesabında hata olduğu belirtiliyor 300 milyar doların iki katı gelir değil, 150 milyar dolar gelir doğru hesap Ama temel argüman yine de geçerli
- Şu anda OpenAI'ın açıkça daha iyi olduğu alan görüntü üretimi İllüstrasyon, çizgi roman, fotoğraf düzenleme ve ev projeleri için fikir üretmede ayrışıyor
- Google yapay zeka yarışını kazanıyor olsa bile arama işi yine de aşınacak Yapay zeka sayesinde pazar hakimiyetinden ekonomik getiri çıkarıp çıkaramayacağı belirsiz görülüyor Mecburen rekabet etmek zorunda ama reklam merkezli tekel döneminin daha iyi olduğu düşünülüyor
- o3 pro ve GPT 5'in çıkışı yakın olduğu için, OpenAI'ın lider olmadığını söylemek için henüz erken olduğu görüşü var Eğer bu iki model gözle görülür ilerleme göstermezse ancak o zaman liderliğin kaybedildiği düşünülebilir Şimdilik en azından Google vb. ile omuz omuza olduğu hissediliyor
Aynı model için üç ayrı preview sürümü yayınlamak zaten kafa karıştırıcıyken, son iki tarihin de (05-06 ve 06-05) birbirine karışması daha da kafa karıştırıyor Bir gün ertelense çok daha net olabilirmiş hissi var
- Tarih muğlak olduğu için aslında 13'üne ertelemek gerekirdi deniyor Kanada'da İngiliz ve Amerikan tarih formatlarının karışması gerçekten kafa karıştırıcı Bugünlerde y-m-d formatı resmen kabul ediliyor ve giderek yaygınlaşıyor
- 05-06 ile 06-05'in kafa karıştırması, OpenAI'ın 4o ve o4 model adlarıyla resmen dalga geçiyor gibi hissettiriyor
- Gemini 2.5 pro'dan 2.6 pro'ya ne zaman geçileceği merak ediliyor Gemini 3'te muhtemelen boyutun daha da büyüyeceği tahmin ediliyor
- Geliştiricilerin isimlendirme konusunda gerçekten kötü olduğuna dair bir şaka yapılıyor
Gemini'de özellikle hissedilen iki sorun var
1. Açıkça isim değiştirmesi istenmemesine rağmen değişken adlarını yeniden adlandırıyor
2. Bazen kapanış köşeli parantezini unutuyor Değişken adlarını kısa tutmayı sevdiğim için bazen sadece "json" kullanıyorum; geri bildirim için teşekkürler ama bu tür değişiklikler artınca code review zorlaşıyor
- Gemini'nin yanlış yaptığı somut bir örnek veriliyor processing_class=tokenizer diye açıkça belirtilmiş kodu defalarca düzenlese de Gemini bunu sürekli tokenizer=tokenizer olarak değiştiriyor Hatta tümüne yorum olarak DO NOT CHANGE yazılsa bile yine yanlış değiştiriyor En son sürüm (06-05) henüz denenmedi, hemen önceki 05-06'da da aynı hata tekrarlandı
- Aslında o1-pro'nun da Gemini ile birlikte kişisel sıralamamın en üstlerinde olduğu vurgulanıyor Ama Gemini gereksiz yorumlar ve alakasız kod değişiklikleri çok yaptığı için gerçek işte kullanmak zor Fikir keşfi için yardımcı oluyor ama son çözüm için o1-pro kullanılıyor
- Gemini gerçekten saçma, çalışmayan yorumları da rastgele ekliyor # Added this function, # Changed this to fix the issue gibi Bunlar commit mesajında ya da PR'da daha uygun; koda yorum olarak eklenmesi rahatsız edici
- ChatGPT'nin de bazı talimatları tamamen görmezden geldiği çok oluyor Örneğin "em dash veya en dash kullanma" diye ne kadar vurgulansa da tam tersine daha fazla koyuyor Defalarca denense de bunu bir kez bile düzgün kontrol ettirememiş biri var
Hem ChatGPT Plus hem de Gemini Pro için ücret ödeyip kullanılıyor ChatGPT sürekli rate limit'e takıldığı için aboneliği iptal etmeyi düşünülüyor Gemini/AI Studio'da ise şimdiye kadar bir kez bile rate limit'e takılınmadı
- AI Studio'da aslında API hesabı backend'de kullanılıyor ve otomatik olarak Google Cloud free tier projesi oluşturuluyor "get an api key" sayfasının alt kısmından ödeme hesabı bağlanabiliyor Ücretsiz katman API'si, Google hizmet şartlarına göre ticari kullanım sayılmayabilir; prompt'lar insanlar tarafından incelenebilir ve eğitim verisi olarak kullanılabilir
- AI Studio API kullandığı için, sıradan bir kullanıcının ücretli preview modelde limite dayanması fiilen çok nadir
- Gemini, ChatGPT'den çok daha fazla beğenilmişti ama son dönemde Pro planına günlük 100 mesaj sınırı geldi AI Studio'da ise hâlâ bir sınır yok gibi görünüyor
- Neden openrouter gibi bir aracı üzerinden API kullanılmadığı soruluyor
Önceki Gemini modellerinin kodlama yardımı açısından Claude 3.7 Sonnet'ten zayıf olduğu düşünülüyordu (4 daha da kötü) Bu yeni sürüm de bağımsız değerlendirmeler çıkmadan denenmeyecek İnternetteki yoğun Gemini övgüsü kişisel deneyimle o kadar uyuşmuyor ki, bariz pazarlama ya da yapay bir hype karışmış olabilir diye şüphe ediliyor
- Her modelin değerlendirmesinin gerçekte ne yaptığınıza bağlı olduğu görüşü var Claude 3.5/3.7 Sonnet, C/C++/Make/CMake tarafında tamamen işe yaramaz düzeydeydi Yanlış bilgi, imkânsız kod, anlamsız söz dizimi/API üretimi, mantıksal çelişkiler gibi kötü deneyimler yaşandı Buna karşılık Gemini 2.5-pro ve o3 ezici biçimde iyiydi ve ekip genelinde de daha üstün bulundu Claude belki TypeScript ya da Ruby'de güçlü olabilir ama en azından benim işimde Gemini reklam abartısından fazlasıydı
- Claude hiç kullanılmamış olsa da, günlük sorularda Gemini her zaman ChatGPT veya Copilot'tan daha iyi yanıtlar verdi Özellikle arama amaçlı kullanımda (komut satırı yöntemleri, ürün bilgisi vb.) Gemini net biçimde güçlü
- Aider içinde Sonnet ile Gemini dönüşümlü kullanılıyor Garip şekilde bazı sorunları yalnızca bir model çözebiliyor ve önceden görülebilen bir desen yok
- Claude 3.7 Sonnet'in bir kodlama asistanı olarak Gemini'den daha iyi olduğu düşünülse de, veri bilimi ya da karmaşık Python ETL işlerinde Claude hayal kırıklığı yarattı ve o3 çok daha iyiydi
- Roo Code'da Claude araç kullanımında daha iyi ama Gemini'nin daha özlü kod stili daha çok beğeniliyor İkisi birlikte kullanılıyor ya da biri başarısız olursa diğeriyle sorun çözülüyor
Preview sürümlere sürekli tarih ekleyerek yayınlamak yerine patch numarasını artırmaları daha iyi olurdu düşüncesi var
- Mevcut sürümler üzerine kurulmuş ekosistemi etkilememek için, her büyük güncellemede yeni modeli ayırmak gerektiği söyleniyor
Aider'e göre 82.2 puan Gerçekte hâlâ o3 high'ın resmi puanının gerisinde kalıyor Aider liderlik tablosu bağlantısı
- 82.2'nin diğer modellerdeki Percent correct ile aynı ölçüt olup olmadığı soruluyor "pure" o3 (high) %79.6, "o3 (high) + gpt-4.1" kombinasyonu ise en yüksek %82.7'ye denk geliyor Eski Gemini 2.5 Pro Preview 05-06 ise %76.9 seviyesindeydi Bunun oldukça büyük bir sıçrama olduğu düşünülüyor Aider benchmark'larının şu an en güvenilir benchmark olduğu kabul ediliyor
- Çok daha ucuz ve hızlı olması özellikle şaşırtıcı bulunuyor
- Verilen puanın eski 05-06 preview'a ait olduğu, bugün çıkan yeni sürüme ait olmadığı hatırlatılıyor
06-05'in 03-25 ile 05-06 arasındaki boşluğu kapattığını söyleyen bir tweet'e atıf yapılıyor İlgili tweet
Claude 4 Sonnet ile kod karşılaştırması merak ediliyor Bu blog tablosu buna göre Claude 4 Sonnet'ten belirgin biçimde geride olduğunu gösteriyor
- Aslında benchmark'ların çoğu programlama ile ilgili ve yalnızca SWE-Bench'te Claude daha yüksek puan alıyor Hangi benchmark'ın gerçek işi en iyi yansıttığını anlamak zor ama toplulukta Aider Polyglot'un itibarı yüksek

Gemini-2.5-pro-preview-06-05

Başlıca benchmark'lara göre karşılaştırma

Fiyatlandırma ve desteklenen diller

Kullanım alanları ve ek özellikler

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri