- Gemini 2.5, karmaşık problem çözümü için tasarlanmış en akıllı muhakeme tabanlı yapay zeka modeli
- İlk sürüm olan Gemini 2.5 Pro Experimental, çeşitli yapay zeka benchmark'larında en yüksek performansı kaydetti
- Özellikle LMArena sıralamasında açık ara 1. sıraya yerleşti
- Mevcut modellerden farklı olarak, yanıt vermeden önce kendi düşünme sürecinden geçen bir yapı ile tasarlandığı için doğruluk ve performans artırıldı
Yapay zekada 'düşünme' yeteneği nedir?
- Basit sınıflandırma veya tahminin ötesinde, bilgi analizi, mantıksal sonuç çıkarma, bağlamı anlama, karar verme gibi yüksek düzey bilişsel yetenekleri içerir
- Bunun için DeepMind, pekiştirmeli öğrenme, Chain-of-Thought prompt tekniği gibi yöntemleri kullanarak yapay zekanın muhakeme yeteneğini araştırıyordu
- Mevcut Gemini 2.0 Flash Thinking modeline kıyasla bir adım daha ileri performans gösteriyor
Bundan sonraki yön
- Gemini 2.5 ile geliştirilmiş temel modeller ve son işlem teknikleri birleştirilerek yeni bir performans seviyesine ulaşılması hedefleniyor
- Gelecekte bu düşünme yeteneğinin tüm Gemini modellerine varsayılan olarak eklenmesiyle, daha karmaşık problem çözümü ve gelişmiş ajan desteği sağlanması planlanıyor
Gemini 2.5 Pro tanıtımı
- Gemini 2.5 Pro Experimental, şimdiye kadar geliştirilen modeller arasında en karmaşık görevleri yerine getirmede öne çıkıyor
- İnsan tercihlerini temel alan LMArena değerlendirmesinde açık ara 1. sırada yer aldı
- Kodlama, matematik, bilim benchmark'larında da güçlü performans sergiliyor
- Şu anda Google AI Studio ve Gemini uygulamasında kullanılabiliyor; yakında Vertex AI üzerinde de sunulacak
- İleride fiyatlandırma planı devreye alınarak daha yüksek çağrı limitleriyle ölçeklenebilir hizmet sunulması planlanıyor
Geliştirilmiş muhakeme performansı
- Karmaşık mantık problemlerini çözmede en üst düzey benchmark sonuçları kaydetti
- Ek maliyet gerektiren test teknikleri olmadan da (ör. çoğunluk oylaması) güçlü performansını koruyor
- GPQA, AIME 2025 gibi matematik ve bilim sorularında lider performans gösteriyor
- Yüzlerce uzman tarafından tasarlanan yüksek zorluk seviyeli muhakeme testi 'Humanity’s Last Exam'de araç kullanmadan %18,8 ile sektörün en iyi sonucunu elde etti
Gelişmiş kodlama performansı
- Kodlama performansı, Gemini 2.0'a kıyasla büyük ölçüde iyileştirildi
- Web uygulaması oluşturma, ajan tipi kod yazma, kod dönüştürme ve düzeltme konularında güçlü yetenekler sunuyor
- SWE-Bench Verified değerlendirmesinde özel bir ajan kullanıldığında %63,8 elde etti
- Tek satırlık bir prompt ile çalıştırılabilir bir video oyunu oluşturan örnekler de bulunuyor
Gemini model ailesinin güçlü yönlerini koruyor
- Gemini 2.5, mevcut Gemini modellerinin güçlü yönleri olan çok modlu işleme ve uzun bağlam penceresini koruyor
- 1 milyon token'lık bağlam penceresini destekliyor (yakında 2 milyona çıkarılacak)
- Metin, ses, görsel, video, tüm kod deposu gibi çeşitli bilgi kaynaklarını bütüncül biçimde işleyebiliyor
- Geliştiriciler ve kurumsal kullanıcılar, Google AI Studio, Gemini Advanced, Vertex AI gibi servisler üzerinden deney ve test yapabiliyor
3 yorum
Claude ve GPT-4.5’i geride bırakıyor ama Grok 3’ü birkaç kez denemeye kıyasla geçemiyor.
Grok 3 gerçekten etkileyici.
Google AI Studio'da Gemini 2.5 Pro çıkınca mevcut Gemini 2.0 Pro'ların hepsi ortadan kaybolmuş görünüyor.. Ücretsiz olarak epey faydalı şekilde kullanıyordum, o yüzden biraz üzücü. Gemini 2.5 Pro'nun dakika başına 2 kez sınırı ve günde yalnızca 50 çağrı yapılabilmesi gibi kısıtlamaları biraz fazla büyük görünüyor.
Hacker News görüşleri
LLM kullanarak roman gibi uzun metinler yazarken en büyük sorunlardan biri, ayrıntı verdiğinizde modelin buna aşırı tepki vermesi
Farklı modelleri kıyaslamak için matematik bulmacaları kullanıyordum
Ses transkripsiyonu ve karmaşık fotoğraflarda canlıların etrafına sınır kutusu çizme görevlerinde çok iyi performans gösterdi
Benchmark'larda eşi benzeri görülmemiş şekilde en yüksek performansı kaydetti
Gemini 2.5 Pro, aider polyglot leaderboard'da %73 skorla SOTA elde etti
Bu tür duyurular artık şablon gibi görünmeye başladı
Gemini 2.5, ciddi biçimde iyileştirilmiş bir temel modeli ve geliştirilmiş son işlemeyi birleştirerek yeni bir performans düzeyine ulaştı
Dart kütüphanesindeki bir bug'ın nedenini tespit etmek için, LLM'ye tüm kod tabanını ve bug açıklamasını veren bir test vakası kullandım
Gemini kullanmayı planlıyorsanız, şu uyarılara dikkat etmek gerekiyor
2.0 modeli henüz eski sayılmazken adına neden +0.5 eklendiğini merak ediyorum