Gemini 3 Pro: Görsel Yapay Zekanın Öncüsü

(blog.google)

3 puan yazan GN⁺ 2025-12-06 | 3 yorum | WhatsApp'ta paylaş

Gemini 3 Pro, yalnızca algılama adımının ötesine geçerek görsel ve mekânsal akıl yürütme yapan bir sonraki nesil çok modlu model
Belge, mekân, ekran ve video anlama gibi çeşitli alanlarda en ileri düzey performans kaydederken, karmaşık görsel akıl yürütme benchmarklarında en üst seviyeye ulaşır
Belge anlama tarafında, doğru OCR ve yapı yeniden kurma (derendering) ile çok aşamalı tablo/grafik analizi gibi geliştirilmiş akıl yürütme yetenekleri sunar
Mekân, ekran ve video anlama tarafında koordinat tabanlı işaretleme, yüksek hızlı kare analizi ve video neden-sonuç izleme ile gerçek dünya etkileşimi becerilerini artırır
Eğitim, sağlık, hukuk, finans gibi birçok sektörde özgün görsel anlama ve otomasyon sağlar; geliştiriciler media_resolution parametresi ile performans ile maliyet arasında ayar yapabilir

Gemini 3 Pro Genel Bakış

Gemini 3 Pro, yalnızca algılamadan görsel ve mekânsal akıl yürütmeye evrilmiş bir model olup Google tarafından geliştirilen en güçlü çok modlu modeldir
- Belge, mekân, ekran ve video anlama alanlarının her birinde en yeni benchmarklarda zirve noktası kaydetti
- MMMU Pro, Video MMMU gibi karmaşık görsel akıl yürütme testlerinde yeni bir en iyi performans elde etti

1. Belge Anlama

Gerçek belgeler, görüntü, el yazısı, tablo, formül gibi yapılandırılmamış bileşenlerin bir araya geldiği içeriklerdir; Gemini 3 Pro bunları doğru biçimde algılayıp yapılandırır
- OCR doğruluğu ve görsel çıkarım kapasitesi belirgin biçimde artmıştır
Derendering özelliği ile görsel belgeler HTML, LaTeX ve Markdown gibi yapısal koda dönüştürülebilir
- 1. yüzyıl tüccar defterini tabloya çevirmek veya formül görselini LaTeX kodu halinde yeniden yapılandırmak
- Florence Nightingale’in orijinal şemasını etkileşimli grafik olarak yeniden üretmek
Karmaşık akıl yürütme kapasitesi ile uzun bir rapordaki tablo ve grafikleri adım adım analiz eder
- CharXiv Reasoning benchmarkunda insan eşiği (80.5%) üzerinde performans
- ABD Nüfus Bürosu raporu örneğinde, Gini endeksinin değişimini sayısal ve politika analiziyle ilişkilendirerek nedeni (ARPA politikasının sona ermesi, ekonomik canlandırma ödemelerinin durması) doğru şekilde çıkardı
- En düşük gelirli beşinci dilimin payının arttığını tablo karşılaştırmalarından çıkarım yaptı

2. Mekân Anlama

Gemini 3 Pro, mekânsal algılama becerisinin en güçlü olduğu sürüm olarak fiziksel dünyayı anlamaya optimize edilmiştir
- Piksel düzeyinde koordinat çıktısı ile görsel içindeki belirli bir yeri hassas biçimde işaretler
- Art arda gelen 2D noktalarla vücut duruşu tahmini veya iz takibi gerçekleştirir
Open vocabulary referans özelliği ile nesneleri ve niyeti tanımlar
- Robot için “bu masadaki çöpü sınıflandır” gibi bir komutla mekânsal tabanlı plan üretimi sağlar
- AR/XR cihazlarında “kullanıcı kılavuzuna göre cıvatayı işaret et” gibi görsel yönergeleri yerine getirmeyi destekler

3. Ekran Anlama

Masaüstü ve mobil işletim sistemi ekranlarını doğru biçimde algılayarak bilgisayar kullanımı otomasyonunu destekler
- Tekrarlayan işlem otomasyonu, QA testi, kullanıcı başlangıç akışı ve UX analizi gibi kullanım senaryoları için uygundur
- UI öğelerini tanır ve tıklama konumlarını hassas biçimde belirler

4. Video Anlama

Video en karmaşık veri biçimlerinden biridir; Gemini 3 Pro bunu yüksek hız ve yüksek hassasiyetle işler
- Yüksek kare hızında (>1 FPS) işleme ile hızlı hareketleri algılar, golf vuruşu gibi ince hareket analizleri yapılır
- 10 FPS işleme ile kütle transferi ve vuruşun detaylı hareketleri bile yakalanır
‘Thinking’ modu ile basit nesne algılamadan, nedensel takip odaklı video akıl yürütmeye genişler
- Olayın sadece “ne” olduğunu değil, “neden”ini anlamayı hedefler
Uzun videoları uygulama koduna ya da yapılandırılmış bilgiye dönüştürme imkânı sunar; video ve kod arasında bağ kurar

5. Gerçek Kullanım Alanları

Eğitim: Matematik ve fen bilimlerinde diyagram merkezli problem çözme yeteneğini artırır
- Ortaöğretimden üniversite seviyesine kadar çok modlu akıl yürütme soruları çözebilir
- [Math Kangaroo] gibi görsel matematik bulmacaları ve karmaşık kimya-fizik diyagramlarını analiz eder
- [Nano Banana Pro] ile birlikte, öğrenci ödevindeki hataları görsel olarak işaretler
Sağlık ve Biyoloji: MedXpertQA-MM, VQA-RAD, MicroVQA gibi medikal görsel benchmarklarda en yüksek performans
- Radyoloji görüntü sorgulama, mikroskop temelli biyoloji araştırmaları gibi kullanımlarda rol alır
Hukuk ve Finans: Karmaşık rapor ve sözleşmelerdeki tablo ve grafiklerin analizini yaparak uzman belge işleme otomasyonunu destekler

6. Medya Çözünürlüğü Kontrolü

Görsel girdi işleme sırasında orijinal en-boy oranını koruyarak kaliteyi artırır
media_resolution parametresi ile performans ve maliyet arasında denge kurulabilir
- High resolution: ayrıntılı OCR ve karmaşık belge anlama için uygundur
- Low resolution: sahne algılama ve uzun bağlam işleme sırasında maliyet/gecikme optimizasyonu sağlar
Ayrıntılı ayarlar [Gemini 3.0 Documentation Guide] belgesinde bulunabilir

Geliştirici Erişimi

Gemini 3 Pro, Google AI Studio aracılığıyla doğrudan denenebilir
- Geliştirici Belgeleri ile API entegrasyonu ve model kullanımı desteği verilir

3 yorum

y15un 2025-12-06

Her şey iyi hoş da, kullanıcı talimatlarına rağmen sürekli YouTube videoları ekleme işini keşke düzeltseler. Yanıtın ortasında otomatik oynatmayla dikkati dağıtıyor; bu yüzden personal context içinde videoları yasakladım ama bazen bunu da görmezden gelip video dayatıyor. Sinir bozucu...

colus001 2025-12-08

Ben sadece bir liste yapmasını istedim, bir anda Google Drive’ı bağlamamı istedi lol

GN⁺ 2025-12-06

Hacker News görüşü

Hazırladığım LLM görsel testinde ilk kez kısmi puan alan bir model çıktı
Test, 5 bacaklı bir köpeğin bacak sayısını saymaktı ve LLM’lerin çoğu inatla 4 olduğunu iddia etti
GPT-5, “altın renkli köpek patileri” ile “parlak yeşil çimen” arasındaki sınırı bulmak için bizzat bir kenar algılama scripti yazıp bunun 4 olduğunu kanıtlamaya çalıştı, ama aslında 5 tanesini bulunca bunun bir bug olduğunu söyleyip hassasiyeti ayarladı
Gemini 3 ilk başta bacak sayısını yanlış bildi ama fotoğraftaki “erkek anatomik yapısını” fark etti. Yani 5. bacak o konumdaydı
Yine de buna hâlâ etkileyici demek zor
Bu arada Meta’nın image slicer aracı 5 bacağı doğru şekilde tespit etti. Çok bacaklı köpeklerin tamamı nano-banana ile üretilmişti
- Ben de Gemini’den 5 bacaklı bir köpek görseli oluşturmasını istedim ama beceremedi. Genelde normal bir köpek üretiyor ya da kuyruğu garip bir eklentiye dönüştürüyor
  Gemini ve Grok’a bacak sayısını saydırdığımda ikisi de 4 demekte ısrar etti
  Grok, yanlış olduğumu söyleyince ontolojik bir kafa karışıklığı yaşadı ve sonunda “bu, ünlü bir optik illüzyon fotoğrafı; başsız bir köpek gibi görünüyor ama aslında sadece üç bacağı var” sonucuna vardı
  Böyle testler, LLM’ler gerçekten ‘zeki’ gelmeye başladığında insanı yeniden gerçeğe döndürüyor
- Ben bir AI uzmanı değilim ama tüm modellerin başarısız olduğu bir labirent görsel testim var
  LLM’e en iyi rotayı çizmesini söylediğinizde hepsi başarısız oluyor
  Nano Banana’nın sonucu burada: test bağlantısı
- Bu testler bana, LLM’leri insan biliş biçimine göre değerlendiren önyargılı bir yaklaşım gibi geliyor
  Modellerin insanlar gibi düşünmediği dışında pek bir şey kanıtlamıyor
  Prompt’un modele “bu görseli çok kelimesi kelimesine yorumla” diye açıkça söyleyip söylemediğini ya da bilerek kandırmak amacıyla tasarlanıp tasarlanmadığını merak ediyorum
  Başarı ölçütünün sadece “5” cevabını vermek mi olduğu, yoksa konuşma bağlamını da içerip içermediği de belirsiz
  Sonuçta bu tür testler, LLM’lerin biliş düzeyini değerlendirmek için verimsiz bir analiz gibi görünüyor
- Nano Banana 2 aslında oldukça ikna edici bir 5 bacaklı köpek görseli üretti
  sonuç bağlantısı
  Ama model bunu kendisinin yaptığını ‘düşünmedi’
  Son akıl yürütme aşamasında “beşinci bacak sürekli eksik kalıyor” diyerek kendi sınırını kabul etti ve “kusuru fark ettim ama elimdeki en iyi görseli sunuyorum” sonucuna vardı
- Eğer eğitim verisinde dengesiz biçimde temsil edilen kavramların üstesinden gelmek gerekiyorsa, modeller zorlanıyor
  Mesela tek bacağı eksik bir örümcek, 9 köşeli yıldız, 5 yapraklı yonca ya da farklı sayıda parmağı olan insanlar üretmeyi denerseniz başarı oranı %25’in altına düşüyor
  Özellikle parmak meselesi, eski SD 1.5’in anatomik hatalarını düzeltmek için verilen emek düşünülünce ironik
Ben inşaat için elektrik çizimi işi yapıyorum ve LLM’lere basit görevler veriyorum
Dağınık bir harness vermeme rağmen neredeyse tek seferde odadaki priz yerleşimini tamamladı
Kontrol biraz daha ayrıntılı olursa yakında iş arkadaşlarımın yaptığı işin büyük kısmını ikame edebileceğini düşünüyorum
- AVEVA veya AutoCAD gibi araçları daha az acı verici hâle getirecek bir sihirli değnek olmasını isterdim
  Bu tür araçları iyileştirmesi gerekenler kullanıcı mühendisler değil, aracı yapan şirketlerin kendisi olmalı
  Güvenilirliği düşük üçüncü taraf hızlandırıcılara bel bağlamak riskli
- Hangi harness’i kullandığına dair bir örnek görmek isterim. Ben de denemek istiyorum
- “AI asla insan yaratıcılığının yerini alamaz” sözü giderek sürekli yer değiştiren bir kale direği gibi geliyor
  Dijital sanat, proje yönetimi, mühendislik ve mavi yakalı işler derken kapsadığı alan sürekli genişliyor
  Eskiden Turing testinin ciddi bir tartışma konusu olduğunu sanki kimse hatırlamıyor
OCR performansındaki gelişme Google Books’a uygulanırsa muazzam olur
Uzun vadede nadir kitapları $5,000’ın altında bir maliyetle sıkıştırılmış şekilde saklamayı mümkün kılabilir
Anna’s Archive blog yazısı da bakmaya değer
archive.org keşke Tesseract yerine bunu kullansa. Ama maliyeti merak ediyorum
- Bu, tipik bir data flywheel yapısı — daha iyi model → daha iyi veri → daha iyi model
- “Veri tanrısına daha fazla veri!”
ScreenSpot Pro sonuçları ilginç
```
72.7% Gemini 3 Pro
11.4% Gemini 2.5 Pro
49.9% Claude Opus 4.5
3.50% GPT-5.1
```
Bu, GUI tabanlı yüksek çözünürlüklü bilgisayar kullanım testi
makale bağlantısı
- Birkaç ay önce basit bir OCR testinde GPT-5’in Opus 4.1 ve Gemini 2.5’ten çok daha zayıf performans göstermesine şaşırmıştım
  En yeni modellerle tekrar test etmeyi planlıyorum
  ilgili blog
- GPT-5.1’in sonucu aşırı derecede düşük. Acaba downscaling yüzünden bilgi kaybı mı oluyor?
- Bu gidişle doğruluk oranı yakında %90’lar seviyesine ulaşacak gibi görünüyor
Yazının yazarına not — “HTML transcription” bağlantısı bozuk
Şirket içi bir Google adresine gidiyor
- Kurum içi portal tasarımlarının on yıllardır değişmemesi komik. O eski tarz nostaljik hissettiriyor
- Ben yazının yazarı Rohan’ım. Haber verdiğin için teşekkürler, şimdi düzelttim
- Giriş yardım bağlantısının giriş yapmadan açılması şaşırtıcı
- “See prompt in Google AI Studio” bağlantısı da özel bir prompt’a gidiyor
Nano Banana Pro hâlâ kelime bulmacayı kusursuz çözemiyor
Buna karşılık Code Execution özellikli Gemini 3 Pro tek seferde doğru cevabı verdi ve kelimelerin konumlarını da doğru işaretledi
bulmaca görseli, Nano Banana sonucu1, sonuç2
Nano Banana sadece iki kelimeyi doğru buldu ama bu, önceye göre büyük ilerleme
Büyük/küçük harf eşleştirme veya boşluk silme gibi ince ön işleme gerektiren bir problem
- Gemini web uygulamasını kullanırken baştan görsel üretim modunda başlamayın; önce normal sohbet modunda doğru prompt akışını kurup sonra görsel üretmesini istemek daha iyi
“Gemini 3 Pro, basit tanımadan mekânsal akıl yürütmeye doğru nesiller arası bir sıçrama” denmişti ama
“ağzına kadar dolu bir şarap kadehi” isteyince kadehi ancak 2/3 dolu çizdi
Gerçek mekânsal akıl yürütme için daha çok yol var
- Gemini 3 Pro, Nano Banana Pro ile aynı şey değil ve görsel decoding modelinin dayanıklılığı daha düşük olabilir
  Nano Banana Pro, görsel içindeki hata konumlarını akıl yürütmede daha iyi
- Ben de aynı prompt’u denedim; bir kez daha “bardağı taşmak üzere olana kadar doldur” deyince kusursuz dolu bir kadeh çıktı
- Tersine, görseli verip “bu kadeh dolu mu?” diye sorsanız muhtemelen doğru anlar. Qwen-VL zaten bu şekilde iyi çalışıyor
Bu duyuru yeni bir model değil, sadece Gemini 3’ün pratik görsel kullanım örneklerini öne çıkarıyor
Gemini 3’ün koordinat çıktısı özelliği ile poz tahmini veya yörünge takibi yapılabildiği söyleniyor ama
somut prompt’lar ya da dokümantasyon olmaması üzücü
- Bir CMS’te fotoğrafları otomatik oran bazlı kadrajlama yapan bir özellik istiyorum
  Mesela geniş, kare, dikey veya 4:3 oranında kırpma yapabilen bir model var mı? Hugging Face’te bulamadım
- Simon Willison’ın ilgili blogu yardımcı oluyor: Bounding Box Visualization
Sesli betimlemeli YouTube mümkün olursa gerçekten inanılmaz olur
Kendim oynamadan bile Gemini’nin sahneleri anlattığı bir anlatımlı playthrough dinleyebilirim
- Zelda TOTK videosunu 5 saniye aralıklarla analiz edip anlatı tarzı sesli açıklama oluşturdum
  orijinal video, script, TTS sesi
  Video 144p olduğu için ayrıntı betimlemeleri biraz sapmıştı ama sahne açıklamaları oldukça doğruydu
- Witcher 3’ün 1 saatlik videosunu da 144p’de işledim ve yaklaşık 300,000 token ile sahne sahne açıklamaları kolayca üretebildim
- Zelda: Breath of the Wild açılışının 5 dakikalık videosunu Gemini uygulamasına yükleyip sahne sahne açıklama istedim
  orijinal video, sonuç gist’i
  Görme engelliler için betimleme olarak oldukça isabetliydi