- Karmaşık görevleri ele almak için geliştirilmiş çok modlu bir yapay zeka modeli olup, basit yanıtların ötesine geçen problem çözmeyi hedefliyor
- ARC-AGI-2 benchmark'ında %77,1 doğrulama puanı alarak önceki 3 Pro'ya kıyasla iki katın üzerinde çıkarım performansı elde etti
- Veri entegrasyonu, görsel açıklama, yaratıcı kodlama gibi yüksek zorluk seviyesindeki işlerde gelişmiş akıl yürütme yeteneği sergiliyor
- Metin, ses, görüntü, video, kod deposu gibi çeşitli girdi biçimlerini işliyor ve en fazla 1 milyon token bağlam ile 64K token çıktı destekliyor
- Google, bu preview ile agentic workflow'ları geliştirme ve ileride genel kullanıma sunmadan önce doğrulama yapma sürecini sürdürüyor
Gemini 3.1 Pro genel bakış
- Gemini 3.1 Pro, karmaşık görevleri ele almak için geliştirilmiş çok modlu bir yapay zeka modeli olup, basit yanıtların ötesine geçen problem çözmeyi hedefliyor
- Google bunu, Gemini 3 Deep Think başarısını mümkün kılan temel zekâ yükseltmesi olarak tanımlıyor
- Metin, ses, görüntü, video, kod deposu gibi çok modlu girdileri işliyor
- En fazla 1 milyon token bağlam penceresi ve 64K token çıktı destekliyor
- Bu sürüm şu anda tüketici, geliştirici ve kurumsal ürünlerin geneline kademeli olarak dağıtılıyor
- Dağıtım kanalları şu şekilde
Performans ve benchmark'lar
- Gemini 3.1 Pro, akıl yürütme (reasoning) yeteneği odaklı iyileştirmeler sayesinde karmaşık problem çözme için optimize edildi
- ARC-AGI-2 benchmark'ında %77,1 doğrulama puanı aldı; bu, önceki 3 Pro'ya göre iki katın üzerinde performans artışı anlamına geliyor
- Başlıca performans karşılaştırma sonuçları (Gemini 3 Pro'ya kıyasla):
- ARC-AGI-2: %77,1 (vs %31,1)
- GPQA Diamond: %94,3 (vs %91,9)
- Terminal-Bench 2.0: %68,5 (vs %56,9)
- LiveCodeBench Pro: Elo 2887 (vs 2439)
- BrowseComp: %85,9 (vs %59,2)
- Bu benchmark'lar, modelin tamamen yeni mantık kalıplarını çözme yeteneğini değerlendiriyor
- Google, bunu “daha akıllı ve daha yetkin bir temel model” olarak tanımlıyor ve karmaşık problem çözmenin temeli olarak sunuyor
Gerçek kullanım örnekleri
- Gemini 3.1 Pro, ileri düzey akıl yürütmeyi pratik biçimde uygulayarak çeşitli kullanım olasılıkları gösteriyor
- Görsel açıklama üretimi: Karmaşık konuları açık ve görsel olarak anlatma yeteneği
- Veri entegrasyonu: Birden çok veriyi tek bir birleşik görünümde sentezleme
- Yaratıcı proje geliştirme: Sanatsal ve tasarımsal fikirleri kodla hayata geçirme
- Somut örnekler
- Kod tabanlı animasyon: Metin istemiyle bir web sitesi için SVG animasyonu üretip çözünürlük kaybı olmadan dosya boyutunu en aza indirme
- Karmaşık sistem entegrasyonu: Uluslararası Uzay İstasyonu (ISS) yörüngesini gerçek zamanlı görselleştiren bir dashboard oluşturma
- Etkileşimli tasarım: 3D sığırcık sürüsü simülasyonu kodlayarak el takibi ve müziğe duyarlı bir arayüz oluşturma
- Yaratıcı kodlama:
Wuthering Heights'ın edebi atmosferini yansıtan modern bir portföy web sitesi tasarlama
Dağıtım ve erişim
- Gemini 3.1 Pro, kullanıcı geri bildirimi toplamak amacıyla preview olarak yayımlandı
- Google AI Pro ve Ultra planı kullanıcıları, Gemini uygulamasında daha yüksek kullanım limitlerinden yararlanabiliyor
- NotebookLM içinde Pro ve Ultra kullanıcılarına özel olarak sunuluyor
- Geliştiriciler ve kurumlar, AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio üzerinden erişebiliyor
Gelecek planları
- Google, Gemini 3 Pro'nun çıkışından sonra hızlı iyileştirme temposunu koruyor; bu 3.1 Pro preview ile güncellemeleri doğrulama ve agentic workflow'ları genişletme çalışmalarını sürdürüyor
- Genel kullanıma sunum (GA), doğrulama tamamlandıktan sonra yapılacak; Google ayrıca “kullanıcıların bu modelle neler inşa edip keşfedeceğini merakla bekliyoruz” dedi
4 yorum
Keşke kodlama performansı açısından Claude Opus seviyesine bir an önce yetişse.
Aynen öyle. 3.0 preview model CLI'a geldiğinde kullandığım ilk gün o kadar hoşuma gitmişti ki bloga izlenimlerimi bile yazmıştım ama sonra hızla ... Bu yüzden şu anda ağırlıklı olarak codex ve claude code kullanıyorum. Ama claude da biraz... 4.6 opus ya da sonnet iyi mi diye bakacağım; olmazsa kod için codex'i, diğer çeşitli işler için de gemini'yi sabitleyebilirim sanırım..
Hacker News görüşleri
Gemini 3.1 Pro gerçekten heyecan verici görünüyor
Şimdiye kadar neredeyse her zaman Claude tarafına kaydım ama Claude Opus özellikle kodlamada öne çıkıyor
Gemini de neredeyse harika, ancak hâlâ Claude seviyesinde değil
Her modelin güçlü yanlarını kaçırmamak için her ay ChatGPT Plus ↔ Gemini Pro ↔ Claude abonelikleri arasında dönüşümlü geçiş yapıyorum
Eski bir Googler olarak Gemini 3.1 Pro’nun 3.0’dan daha iyi olmasını umuyorum
Ama geliştirme için Gemini en sinir bozucu modeldi
Claude Opus, VS Code Copilot’ta düşünce akışı ve yanıtları dengeliyor; Gemini ise sadece thinking token kullanıyor ve sonucu açıklamıyor
Sık sık döngüye giriyor, araç kullanımında beceriksiz kalıyor ve dosyaları alakasız biçimde değiştiriyor
Bu yüzden “plan Gemini, uygulama Claude” stratejisini kullandım, ama sonunda sadece Claude kullanır oldum
Anthropic modellerini gerçek proje odaklı biçimde incelerken, Google’ın gerçek kullanım testleri yetersizmiş gibi görünüyor
int8’ifloatsanıyor ya da normalizasyon olup olmadığını unutuyorHafızası zayıf biri gibi hissettiriyor
Yine de mimari tasarım tartışmalarında oldukça yardımcı oluyor
Verimsizliğin zirvesiydi
Claude sanki “kodlama sürecinin” kendisini öğrenmiş gibi ve Anthropic kullanıcı geri bildirimini ince ayara yansıtıyor gibi görünüyor
Google ise genel amaçlı model peşinde koştuğu için “her şeyi biraz yapan ama hiçbir şeyi kusursuz yapmayan” bir durumda gibi duruyor
Claude ya da Codex probleme nasıl yaklaştığını açıklarken Gemini doğrudan işe girişiyor
Düzeltme isteklerini görmezden geliyor ve çalışma alanını kirletiyor
Ücretsiz kullanılabilmesine rağmen neredeyse hiç kullanmıyorum
Anthropic sanki erkenden “kullanıcının kontrol sahibi olması gerektiğini” fark etmiş gibi
OpenAI Claude seviyesine yaklaştı ama Google’ın hâlâ gidecek yolu var
İnsanlar Google’ın maliyet verimliliğini küçümsüyor
Opus’un yarı fiyatına ama performansı oldukça iyi
Artificial Analysis metriklerine göre 3.1, Opus’tan %40 daha ucuz ve %30 daha hızlı
Geliştirme içinse aylık 300 dolar olsa bile en iyi modeli kullanmaya değer
Tüketici odaklı yapay zekada bu hesabın farklı olacağı kesin
Yine de performans yetişirse fiyat avantajı çekici olur
Ama performans benzerse %50 maliyet düşüşü büyük bir avantajdır
Kişisel olarak hem işte hem hobi amaçlı kodlamada bende iyi çalışıyor
Buna rağmen toplulukta çok sert eleştiriler görmesi şaşırtıcı
Bu aralar modeller fazla güçlü
Eskisine göre çok daha kısa sürede tam teşekküllü yazılım üretmek mümkün
Ama sürümler arasındaki davranış farkı o kadar büyük ki her ay yeni bir ekibi yönetiyormuş gibi hissettiriyor
Modelin habersizce değiştirilmesi ya da ince biçimde farklılaşması yüzünden istikrarsız bir temel gibi duruyor
Bunu sqlite-chronicle issue sayfasında görmek mümkün
Sonrasında birkaç projedeki tıkanıklıkları da açtı
Yine de fikir edinmek ve bir kod tabanına başlamak için fazlasıyla yeterliler
Aynı kodda, onu üreten modelin tekrar çalışmasının daha kolay olduğu bir tür öz tutarlılık var gibi
Buna rağmen hâlâ inanılmaz bir teknoloji
Gemini 3.1 Pro’nun fiyatı değişmedi
Girdi $2/M, çıktı $12/M ve bu resmî belgede belirtiliyor
Bilgi kesim tarihi 2025 Ocak ve yeni bir “medium thinking” modu eklenmiş
Opus 4.6’nın $5/$25 fiyatına kıyasla fark büyük
IAM kuralları ayarlama, ödeme, ürün adını bulma gibi noktalarda takılıyorlar
OpenAI ve Anthropic çok daha basit
Buna rağmen aylık ücretler benzer
Anthropic full-stack optimizasyonla önde gidiyor
Opus 4.6 gibi thinking kapalıyken de hızlı ve akıllı bir model henüz yok
Gemini 3 hâlâ preview durumunda ve 2.5’in yakında kaldırılması planlanıyor
Resmî kaldırma takvimine bakınca bazı modellerin yerine bir alternatif bile sunulmadan kapatıldığı görülüyor
Google’ın gerçek üretim modeli ne zaman çıkaracağı belirsiz
Gerçekten çalışan sistemlerim olduğu için bu durum ciddi bir kaygı yaratıyor
Killed by Google bunun ne kadar boş bir beklenti olduğunu gösteriyor
3.0 preview ise 2.5 en az bir yıl daha kalır gibi görünüyor
Resmî belgede de “kesin bitiş tarihi önceden duyurularak paylaşılacaktır” deniyor
Gemini, UI ve veri senkronizasyonu race condition problemini tek seferde çözdü
Opus 4.6 ise ancak üç denemeden sonra çözebilmişti; bu yüzden şaşırtıcıydı
Öncekine göre daha az geveze ve doğrudan konuya giriyor
Bundan sonra R&D için Gemini, işi tamamlarken ise Opus/Sonnet 4.6 kullanmayı düşünebilirim
Birden fazla modeli destekleyen birleşik wrapper kullanınca hangi modeli seçeceğim derdi azalıyor
Sonuçta önemli olan “benim problemime en uygun model”
Gemini, “oto yıkama sorusuna” kusursuz cevap verdi
“Yürüyerek gidersen yıkatacak araban olmaz, dolayısıyla arabayla gitmelisin” şeklinde mantıksal bir yanıt verdi
Gemini, “fili de yanında götürmen gerekir” diye mantıklı biçimde açıklayıp ayrıntılı gerekçeler sundu
Oldukça etkileyici bir akıl yürütme örneğiydi
Ama Gemini’nin “yağmurlu günde araba yıkama tahmini” cümlesi sevimli olsa da biraz fazla özgüvenli geldi
“Pelikanın bisiklete bindiği SVG” testinde Gemini iyi sonuç verdi
Sonuç bağlantısına bakılabilir
ARC-AGI benchmark artışı sayesinde görsel üretim yeteneği gelişmiş gibi duruyor
Benchmark’ın kendisi anlamını yitirdi ve artık zevk meselesi gibi görünüyor
Yeni bir “vibe check” benchmark’ına ihtiyaç var
İlginç bir değişim
Sonunda yine insan tasarımcının eli gerekiyor
Muhtemelen Google’ın SVG’ye özel optimizasyon yapmasının sonucu
Simon Willison’ın blogunda paylaşılan pelikan SVG’si oldukça iyiydi ama üretilmesi 5 dakikadan uzun sürdü
Bu, lansman başlangıcındaki performans sorununa benziyor
Sadece pelikan ve bisiklet istenmişken bulut, güneş ve şapka da ekliyor
Kodlamada da aynı şekilde istenmeyen refactor ve yorum eklemeyi durduramıyor
Jeff Dean’in tweet’i da buna işaret ediyor
Diğer mekânsal kavrayışlarda zayıfken isabetli şekil üretiminde çok iyiler
Yani bu, genel yetenek artışından çok açıkça hedeflenmiş bir eğitim sonucuna benziyor
Muhtemelen çok geçmeden sessiz sedasız performansı kırpılacak gibi geliyor; en kritik nokta da ne kadar kırpılacağı olacak sanırım. (Çoğu yapay zeka modelinin zaman geçtikçe aptallaştığı hissi var gerçi ama Google bu konuda özellikle daha kötü gibi.)
3 Pro da ilk çıktığının hemen ardından iyiydi ama yaklaşık bir hafta sonra birden aptallaşmıştı; sonunda kullanmayı bıraktığımı hatırlıyorum.