Gemini 3 Pro: Görsel Yapay Zekanın Öncüsü
(blog.google)- Gemini 3 Pro, yalnızca algılama adımının ötesine geçerek görsel ve mekânsal akıl yürütme yapan bir sonraki nesil çok modlu model
- Belge, mekân, ekran ve video anlama gibi çeşitli alanlarda en ileri düzey performans kaydederken, karmaşık görsel akıl yürütme benchmarklarında en üst seviyeye ulaşır
- Belge anlama tarafında, doğru OCR ve yapı yeniden kurma (derendering) ile çok aşamalı tablo/grafik analizi gibi geliştirilmiş akıl yürütme yetenekleri sunar
- Mekân, ekran ve video anlama tarafında koordinat tabanlı işaretleme, yüksek hızlı kare analizi ve video neden-sonuç izleme ile gerçek dünya etkileşimi becerilerini artırır
- Eğitim, sağlık, hukuk, finans gibi birçok sektörde özgün görsel anlama ve otomasyon sağlar; geliştiriciler media_resolution parametresi ile performans ile maliyet arasında ayar yapabilir
Gemini 3 Pro Genel Bakış
- Gemini 3 Pro, yalnızca algılamadan görsel ve mekânsal akıl yürütmeye evrilmiş bir model olup Google tarafından geliştirilen en güçlü çok modlu modeldir
- Belge, mekân, ekran ve video anlama alanlarının her birinde en yeni benchmarklarda zirve noktası kaydetti
- MMMU Pro, Video MMMU gibi karmaşık görsel akıl yürütme testlerinde yeni bir en iyi performans elde etti
1. Belge Anlama
- Gerçek belgeler, görüntü, el yazısı, tablo, formül gibi yapılandırılmamış bileşenlerin bir araya geldiği içeriklerdir; Gemini 3 Pro bunları doğru biçimde algılayıp yapılandırır
- OCR doğruluğu ve görsel çıkarım kapasitesi belirgin biçimde artmıştır
- Derendering özelliği ile görsel belgeler HTML, LaTeX ve Markdown gibi yapısal koda dönüştürülebilir
-
- yüzyıl tüccar defterini tabloya çevirmek veya formül görselini LaTeX kodu halinde yeniden yapılandırmak
- Florence Nightingale’in orijinal şemasını etkileşimli grafik olarak yeniden üretmek
-
- Karmaşık akıl yürütme kapasitesi ile uzun bir rapordaki tablo ve grafikleri adım adım analiz eder
- CharXiv Reasoning benchmarkunda insan eşiği (80.5%) üzerinde performans
- ABD Nüfus Bürosu raporu örneğinde, Gini endeksinin değişimini sayısal ve politika analiziyle ilişkilendirerek nedeni (ARPA politikasının sona ermesi, ekonomik canlandırma ödemelerinin durması) doğru şekilde çıkardı
- En düşük gelirli beşinci dilimin payının arttığını tablo karşılaştırmalarından çıkarım yaptı
2. Mekân Anlama
- Gemini 3 Pro, mekânsal algılama becerisinin en güçlü olduğu sürüm olarak fiziksel dünyayı anlamaya optimize edilmiştir
- Piksel düzeyinde koordinat çıktısı ile görsel içindeki belirli bir yeri hassas biçimde işaretler
- Art arda gelen 2D noktalarla vücut duruşu tahmini veya iz takibi gerçekleştirir
- Open vocabulary referans özelliği ile nesneleri ve niyeti tanımlar
- Robot için “bu masadaki çöpü sınıflandır” gibi bir komutla mekânsal tabanlı plan üretimi sağlar
- AR/XR cihazlarında “kullanıcı kılavuzuna göre cıvatayı işaret et” gibi görsel yönergeleri yerine getirmeyi destekler
3. Ekran Anlama
- Masaüstü ve mobil işletim sistemi ekranlarını doğru biçimde algılayarak bilgisayar kullanımı otomasyonunu destekler
- Tekrarlayan işlem otomasyonu, QA testi, kullanıcı başlangıç akışı ve UX analizi gibi kullanım senaryoları için uygundur
- UI öğelerini tanır ve tıklama konumlarını hassas biçimde belirler
4. Video Anlama
- Video en karmaşık veri biçimlerinden biridir; Gemini 3 Pro bunu yüksek hız ve yüksek hassasiyetle işler
- Yüksek kare hızında (>1 FPS) işleme ile hızlı hareketleri algılar, golf vuruşu gibi ince hareket analizleri yapılır
- 10 FPS işleme ile kütle transferi ve vuruşun detaylı hareketleri bile yakalanır
- ‘Thinking’ modu ile basit nesne algılamadan, nedensel takip odaklı video akıl yürütmeye genişler
- Olayın sadece “ne” olduğunu değil, “neden”ini anlamayı hedefler
- Uzun videoları uygulama koduna ya da yapılandırılmış bilgiye dönüştürme imkânı sunar; video ve kod arasında bağ kurar
5. Gerçek Kullanım Alanları
- Eğitim: Matematik ve fen bilimlerinde diyagram merkezli problem çözme yeteneğini artırır
- Ortaöğretimden üniversite seviyesine kadar çok modlu akıl yürütme soruları çözebilir
- [Math Kangaroo] gibi görsel matematik bulmacaları ve karmaşık kimya-fizik diyagramlarını analiz eder
- [Nano Banana Pro] ile birlikte, öğrenci ödevindeki hataları görsel olarak işaretler
- Sağlık ve Biyoloji: MedXpertQA-MM, VQA-RAD, MicroVQA gibi medikal görsel benchmarklarda en yüksek performans
- Radyoloji görüntü sorgulama, mikroskop temelli biyoloji araştırmaları gibi kullanımlarda rol alır
- Hukuk ve Finans: Karmaşık rapor ve sözleşmelerdeki tablo ve grafiklerin analizini yaparak uzman belge işleme otomasyonunu destekler
6. Medya Çözünürlüğü Kontrolü
- Görsel girdi işleme sırasında orijinal en-boy oranını koruyarak kaliteyi artırır
- media_resolution parametresi ile performans ve maliyet arasında denge kurulabilir
- High resolution: ayrıntılı OCR ve karmaşık belge anlama için uygundur
- Low resolution: sahne algılama ve uzun bağlam işleme sırasında maliyet/gecikme optimizasyonu sağlar
- Ayrıntılı ayarlar [Gemini 3.0 Documentation Guide] belgesinde bulunabilir
Geliştirici Erişimi
- Gemini 3 Pro, Google AI Studio aracılığıyla doğrudan denenebilir
- Geliştirici Belgeleri ile API entegrasyonu ve model kullanımı desteği verilir
3 yorum
Her şey iyi hoş da, kullanıcı talimatlarına rağmen sürekli YouTube videoları ekleme işini keşke düzeltseler. Yanıtın ortasında otomatik oynatmayla dikkati dağıtıyor; bu yüzden
personal contextiçinde videoları yasakladım ama bazen bunu da görmezden gelip video dayatıyor. Sinir bozucu...Ben sadece bir liste yapmasını istedim, bir anda Google Drive’ı bağlamamı istedi lol
Hacker News görüşü
Hazırladığım LLM görsel testinde ilk kez kısmi puan alan bir model çıktı
Test, 5 bacaklı bir köpeğin bacak sayısını saymaktı ve LLM’lerin çoğu inatla 4 olduğunu iddia etti
GPT-5, “altın renkli köpek patileri” ile “parlak yeşil çimen” arasındaki sınırı bulmak için bizzat bir kenar algılama scripti yazıp bunun 4 olduğunu kanıtlamaya çalıştı, ama aslında 5 tanesini bulunca bunun bir bug olduğunu söyleyip hassasiyeti ayarladı
Gemini 3 ilk başta bacak sayısını yanlış bildi ama fotoğraftaki “erkek anatomik yapısını” fark etti. Yani 5. bacak o konumdaydı
Yine de buna hâlâ etkileyici demek zor
Bu arada Meta’nın image slicer aracı 5 bacağı doğru şekilde tespit etti. Çok bacaklı köpeklerin tamamı nano-banana ile üretilmişti
Gemini ve Grok’a bacak sayısını saydırdığımda ikisi de 4 demekte ısrar etti
Grok, yanlış olduğumu söyleyince ontolojik bir kafa karışıklığı yaşadı ve sonunda “bu, ünlü bir optik illüzyon fotoğrafı; başsız bir köpek gibi görünüyor ama aslında sadece üç bacağı var” sonucuna vardı
Böyle testler, LLM’ler gerçekten ‘zeki’ gelmeye başladığında insanı yeniden gerçeğe döndürüyor
LLM’e en iyi rotayı çizmesini söylediğinizde hepsi başarısız oluyor
Nano Banana’nın sonucu burada: test bağlantısı
Modellerin insanlar gibi düşünmediği dışında pek bir şey kanıtlamıyor
Prompt’un modele “bu görseli çok kelimesi kelimesine yorumla” diye açıkça söyleyip söylemediğini ya da bilerek kandırmak amacıyla tasarlanıp tasarlanmadığını merak ediyorum
Başarı ölçütünün sadece “5” cevabını vermek mi olduğu, yoksa konuşma bağlamını da içerip içermediği de belirsiz
Sonuçta bu tür testler, LLM’lerin biliş düzeyini değerlendirmek için verimsiz bir analiz gibi görünüyor
sonuç bağlantısı
Ama model bunu kendisinin yaptığını ‘düşünmedi’
Son akıl yürütme aşamasında “beşinci bacak sürekli eksik kalıyor” diyerek kendi sınırını kabul etti ve “kusuru fark ettim ama elimdeki en iyi görseli sunuyorum” sonucuna vardı
Mesela tek bacağı eksik bir örümcek, 9 köşeli yıldız, 5 yapraklı yonca ya da farklı sayıda parmağı olan insanlar üretmeyi denerseniz başarı oranı %25’in altına düşüyor
Özellikle parmak meselesi, eski SD 1.5’in anatomik hatalarını düzeltmek için verilen emek düşünülünce ironik
Ben inşaat için elektrik çizimi işi yapıyorum ve LLM’lere basit görevler veriyorum
Dağınık bir harness vermeme rağmen neredeyse tek seferde odadaki priz yerleşimini tamamladı
Kontrol biraz daha ayrıntılı olursa yakında iş arkadaşlarımın yaptığı işin büyük kısmını ikame edebileceğini düşünüyorum
Bu tür araçları iyileştirmesi gerekenler kullanıcı mühendisler değil, aracı yapan şirketlerin kendisi olmalı
Güvenilirliği düşük üçüncü taraf hızlandırıcılara bel bağlamak riskli
Dijital sanat, proje yönetimi, mühendislik ve mavi yakalı işler derken kapsadığı alan sürekli genişliyor
Eskiden Turing testinin ciddi bir tartışma konusu olduğunu sanki kimse hatırlamıyor
OCR performansındaki gelişme Google Books’a uygulanırsa muazzam olur
Uzun vadede nadir kitapları $5,000’ın altında bir maliyetle sıkıştırılmış şekilde saklamayı mümkün kılabilir
Anna’s Archive blog yazısı da bakmaya değer
archive.org keşke Tesseract yerine bunu kullansa. Ama maliyeti merak ediyorum
ScreenSpot Pro sonuçları ilginç
Bu, GUI tabanlı yüksek çözünürlüklü bilgisayar kullanım testi
makale bağlantısı
En yeni modellerle tekrar test etmeyi planlıyorum
ilgili blog
Yazının yazarına not — “HTML transcription” bağlantısı bozuk
Şirket içi bir Google adresine gidiyor
Nano Banana Pro hâlâ kelime bulmacayı kusursuz çözemiyor
Buna karşılık Code Execution özellikli Gemini 3 Pro tek seferde doğru cevabı verdi ve kelimelerin konumlarını da doğru işaretledi
bulmaca görseli, Nano Banana sonucu1, sonuç2
Nano Banana sadece iki kelimeyi doğru buldu ama bu, önceye göre büyük ilerleme
Büyük/küçük harf eşleştirme veya boşluk silme gibi ince ön işleme gerektiren bir problem
“Gemini 3 Pro, basit tanımadan mekânsal akıl yürütmeye doğru nesiller arası bir sıçrama” denmişti ama
“ağzına kadar dolu bir şarap kadehi” isteyince kadehi ancak 2/3 dolu çizdi
Gerçek mekânsal akıl yürütme için daha çok yol var
Nano Banana Pro, görsel içindeki hata konumlarını akıl yürütmede daha iyi
Bu duyuru yeni bir model değil, sadece Gemini 3’ün pratik görsel kullanım örneklerini öne çıkarıyor
Gemini 3’ün koordinat çıktısı özelliği ile poz tahmini veya yörünge takibi yapılabildiği söyleniyor ama
somut prompt’lar ya da dokümantasyon olmaması üzücü
Mesela geniş, kare, dikey veya 4:3 oranında kırpma yapabilen bir model var mı? Hugging Face’te bulamadım
Sesli betimlemeli YouTube mümkün olursa gerçekten inanılmaz olur
Kendim oynamadan bile Gemini’nin sahneleri anlattığı bir anlatımlı playthrough dinleyebilirim
orijinal video, script, TTS sesi
Video 144p olduğu için ayrıntı betimlemeleri biraz sapmıştı ama sahne açıklamaları oldukça doğruydu
orijinal video, sonuç gist’i
Görme engelliler için betimleme olarak oldukça isabetliydi