Google, Gemini 2.5'i duyurdu

(blog.google)

9 puan yazan GN⁺ 2025-03-26 | 3 yorum | WhatsApp'ta paylaş

Gemini 2.5, karmaşık problem çözümü için tasarlanmış en akıllı muhakeme tabanlı yapay zeka modeli
İlk sürüm olan Gemini 2.5 Pro Experimental, çeşitli yapay zeka benchmark'larında en yüksek performansı kaydetti
Özellikle LMArena sıralamasında açık ara 1. sıraya yerleşti
Mevcut modellerden farklı olarak, yanıt vermeden önce kendi düşünme sürecinden geçen bir yapı ile tasarlandığı için doğruluk ve performans artırıldı

Yapay zekada 'düşünme' yeteneği nedir?

Basit sınıflandırma veya tahminin ötesinde, bilgi analizi, mantıksal sonuç çıkarma, bağlamı anlama, karar verme gibi yüksek düzey bilişsel yetenekleri içerir
Bunun için DeepMind, pekiştirmeli öğrenme, Chain-of-Thought prompt tekniği gibi yöntemleri kullanarak yapay zekanın muhakeme yeteneğini araştırıyordu
Mevcut Gemini 2.0 Flash Thinking modeline kıyasla bir adım daha ileri performans gösteriyor

Bundan sonraki yön

Gemini 2.5 ile geliştirilmiş temel modeller ve son işlem teknikleri birleştirilerek yeni bir performans seviyesine ulaşılması hedefleniyor
Gelecekte bu düşünme yeteneğinin tüm Gemini modellerine varsayılan olarak eklenmesiyle, daha karmaşık problem çözümü ve gelişmiş ajan desteği sağlanması planlanıyor

Gemini 2.5 Pro tanıtımı

Gemini 2.5 Pro Experimental, şimdiye kadar geliştirilen modeller arasında en karmaşık görevleri yerine getirmede öne çıkıyor
İnsan tercihlerini temel alan LMArena değerlendirmesinde açık ara 1. sırada yer aldı
Kodlama, matematik, bilim benchmark'larında da güçlü performans sergiliyor
Şu anda Google AI Studio ve Gemini uygulamasında kullanılabiliyor; yakında Vertex AI üzerinde de sunulacak
İleride fiyatlandırma planı devreye alınarak daha yüksek çağrı limitleriyle ölçeklenebilir hizmet sunulması planlanıyor

Geliştirilmiş muhakeme performansı

Karmaşık mantık problemlerini çözmede en üst düzey benchmark sonuçları kaydetti
Ek maliyet gerektiren test teknikleri olmadan da (ör. çoğunluk oylaması) güçlü performansını koruyor
GPQA, AIME 2025 gibi matematik ve bilim sorularında lider performans gösteriyor
Yüzlerce uzman tarafından tasarlanan yüksek zorluk seviyeli muhakeme testi 'Humanity’s Last Exam'de araç kullanmadan %18,8 ile sektörün en iyi sonucunu elde etti

Gelişmiş kodlama performansı

Kodlama performansı, Gemini 2.0'a kıyasla büyük ölçüde iyileştirildi
Web uygulaması oluşturma, ajan tipi kod yazma, kod dönüştürme ve düzeltme konularında güçlü yetenekler sunuyor
SWE-Bench Verified değerlendirmesinde özel bir ajan kullanıldığında %63,8 elde etti
Tek satırlık bir prompt ile çalıştırılabilir bir video oyunu oluşturan örnekler de bulunuyor

Gemini model ailesinin güçlü yönlerini koruyor

Gemini 2.5, mevcut Gemini modellerinin güçlü yönleri olan çok modlu işleme ve uzun bağlam penceresini koruyor
1 milyon token'lık bağlam penceresini destekliyor (yakında 2 milyona çıkarılacak)
Metin, ses, görsel, video, tüm kod deposu gibi çeşitli bilgi kaynaklarını bütüncül biçimde işleyebiliyor
Geliştiriciler ve kurumsal kullanıcılar, Google AI Studio, Gemini Advanced, Vertex AI gibi servisler üzerinden deney ve test yapabiliyor

3 yorum

wowfoot 2025-03-26

Claude ve GPT-4.5’i geride bırakıyor ama Grok 3’ü birkaç kez denemeye kıyasla geçemiyor.
Grok 3 gerçekten etkileyici.

zxshinxz 2025-03-26

Google AI Studio'da Gemini 2.5 Pro çıkınca mevcut Gemini 2.0 Pro'ların hepsi ortadan kaybolmuş görünüyor.. Ücretsiz olarak epey faydalı şekilde kullanıyordum, o yüzden biraz üzücü. Gemini 2.5 Pro'nun dakika başına 2 kez sınırı ve günde yalnızca 50 çağrı yapılabilmesi gibi kısıtlamaları biraz fazla büyük görünüyor.

GN⁺ 2025-03-26

Hacker News görüşleri

LLM kullanarak roman gibi uzun metinler yazarken en büyük sorunlardan biri, ayrıntı verdiğinizde modelin buna aşırı tepki vermesi
- Örneğin epik fantezideki aşk ilgisinin profilini verdiğinizde, ana karakter neredeyse her zaman 3 sayfa içinde onunla karşılaşıyor
- Bu mantıksız bir gelişme ve bunu değiştirmeye yönelik girişimler işe yaramıyor
- Mevcut model 19 sayfa ürettikten sonra bile doğal bir akış sergiliyor ve çok sayıda ayrıntı içeriyor
- Oldukça etkileyici
Farklı modelleri kıyaslamak için matematik bulmacaları kullanıyordum
- Bu bulmaca bilgisayarla çözmek için yaklaşık 3 gün sürdü ve matematik bölümü mezunu biri elle bir günde çözdü
- Gemini 2.5 bu bulmacayı çözen ilk model oldu; bu da LLM'lerin matematiksel akıl yürütmede nüfusun %95'inden fazlasından daha iyi olduğu anlamına geliyor
- Bulmaca şöyle: üç kişi dairesel şekilde duruyor ve her birinin başının üstünde pozitif bir tam sayı var; iki sayının toplamı üçüncü sayıya eşit
- Birinci kişi kendi sayısını bilmediğini söylüyor, ikinci kişi de bilmediğini söylüyor, üçüncü kişi de bilmediğini söylüyor
- İlk kişiye tekrar sorulduğunda 65 diye yanıt veriyor
- Soru, bu üç sayının çarpımının ne olduğu
Ses transkripsiyonu ve karmaşık fotoğraflarda canlıların etrafına sınır kutusu çizme görevlerinde çok iyi performans gösterdi
- Hatta bisiklete binen bir pelikan da çizdi
- İlgili notlara bağlantıdan ulaşılabilir
Benchmark'larda eşi benzeri görülmemiş şekilde en yüksek performansı kaydetti
- Yüksek kalite ve net sonuçlar gösteriyor ama biraz yavaş
- Google yine büyük bir iş başarıyor
Gemini 2.5 Pro, aider polyglot leaderboard'da %73 skorla SOTA elde etti
- Önceki Gemini modellerine göre büyük bir sıçrama gösteriyor
- Verimli diff-like düzenleme biçimini etkili şekilde kullanan ilk Gemini modeli
Bu tür duyurular artık şablon gibi görünmeye başladı
- En son teknoloji model
- X, Y, Z ile benchmark karşılaştırmaları
- "Daha iyi" akıl yürütme
- Harika bir model olabilir ama tekrar eden metin ilgiyi azaltıyor
Gemini 2.5, ciddi biçimde iyileştirilmiş bir temel modeli ve geliştirilmiş son işlemeyi birleştirerek yeni bir performans düzeyine ulaştı
- İleride bu düşünme yeteneklerini tüm modellere doğrudan yerleştirerek daha karmaşık problemleri ele alacak ve daha yetenekli, bağlam farkındalığı olan ajanları destekleyecek
- İnternete bağlı ve gerektiğinde akıl yürütme modeli olarak çalışıyor
- Yakın zamanda çıkan canvas modunun bu modelde de desteklenmesini umuyorum
Dart kütüphanesindeki bir bug'ın nedenini tespit etmek için, LLM'ye tüm kod tabanını ve bug açıklamasını veren bir test vakası kullandım
- Yaklaşık 360.000 token içeriyor
- Bunu bir ay önce önde gelen modellerle denedim ama doğru düzeltmeyi yalnızca bu model belirledi
Gemini kullanmayı planlıyorsanız, şu uyarılara dikkat etmek gerekiyor
- Gizli bilgileri ya da değerlendiricilerin görebileceği veya Google'ın kullanabileceği verileri girmeyin
- Google AI kalitesini artırmak ve ürünleri geliştirmek için insan değerlendiriciler konuşmaları okuyup açıklama ekleyerek işliyor
- Bu süreçte gizliliği korumak için konuşmalar Google hesabından ayrıştırılıyor
2.0 modeli henüz eski sayılmazken adına neden +0.5 eklendiğini merak ediyorum
- Bunun pazarlama nedeniyle mi, yeni bir model mimarisini mi gösterdiği, yoksa 2.0 tabanlı daha fazla eğitim verisi ya da yeni bir servis altyapısı mı olduğu merak konusu
- *.5 adlandırması ilk ortaya çıktığında bana biraz saçma gelmişti
- OpenAI, 3.5'i çıkardığında zaten 4'ü hazırladığını ve 3'ü ChatGPT'ye daha uygun hale getirmek için ayarladığını söylemişti
- Anthropic'in Sonnet 3, 3.5, 3.5 (new), 3.7 şeklindeki adlandırmasının bu yaklaşımın en kötü örneği olduğunu düşünüyorum
- semver, tarih tabanlı adlandırma ("Gemini Pro 2025") ya da anlamlı harf-rakam kombinasyonlarını (ör. 4o - "Omni") tercih ederim