3 puan yazan GN⁺ 2025-12-06 | 3 yorum | WhatsApp'ta paylaş
  • Gemini 3 Pro, yalnızca algılama adımının ötesine geçerek görsel ve mekânsal akıl yürütme yapan bir sonraki nesil çok modlu model
  • Belge, mekân, ekran ve video anlama gibi çeşitli alanlarda en ileri düzey performans kaydederken, karmaşık görsel akıl yürütme benchmarklarında en üst seviyeye ulaşır
  • Belge anlama tarafında, doğru OCR ve yapı yeniden kurma (derendering) ile çok aşamalı tablo/grafik analizi gibi geliştirilmiş akıl yürütme yetenekleri sunar
  • Mekân, ekran ve video anlama tarafında koordinat tabanlı işaretleme, yüksek hızlı kare analizi ve video neden-sonuç izleme ile gerçek dünya etkileşimi becerilerini artırır
  • Eğitim, sağlık, hukuk, finans gibi birçok sektörde özgün görsel anlama ve otomasyon sağlar; geliştiriciler media_resolution parametresi ile performans ile maliyet arasında ayar yapabilir

Gemini 3 Pro Genel Bakış

  • Gemini 3 Pro, yalnızca algılamadan görsel ve mekânsal akıl yürütmeye evrilmiş bir model olup Google tarafından geliştirilen en güçlü çok modlu modeldir
    • Belge, mekân, ekran ve video anlama alanlarının her birinde en yeni benchmarklarda zirve noktası kaydetti
    • MMMU Pro, Video MMMU gibi karmaşık görsel akıl yürütme testlerinde yeni bir en iyi performans elde etti

1. Belge Anlama

  • Gerçek belgeler, görüntü, el yazısı, tablo, formül gibi yapılandırılmamış bileşenlerin bir araya geldiği içeriklerdir; Gemini 3 Pro bunları doğru biçimde algılayıp yapılandırır
    • OCR doğruluğu ve görsel çıkarım kapasitesi belirgin biçimde artmıştır
  • Derendering özelliği ile görsel belgeler HTML, LaTeX ve Markdown gibi yapısal koda dönüştürülebilir
      1. yüzyıl tüccar defterini tabloya çevirmek veya formül görselini LaTeX kodu halinde yeniden yapılandırmak
    • Florence Nightingale’in orijinal şemasını etkileşimli grafik olarak yeniden üretmek
  • Karmaşık akıl yürütme kapasitesi ile uzun bir rapordaki tablo ve grafikleri adım adım analiz eder
    • CharXiv Reasoning benchmarkunda insan eşiği (80.5%) üzerinde performans
    • ABD Nüfus Bürosu raporu örneğinde, Gini endeksinin değişimini sayısal ve politika analiziyle ilişkilendirerek nedeni (ARPA politikasının sona ermesi, ekonomik canlandırma ödemelerinin durması) doğru şekilde çıkardı
    • En düşük gelirli beşinci dilimin payının arttığını tablo karşılaştırmalarından çıkarım yaptı

2. Mekân Anlama

  • Gemini 3 Pro, mekânsal algılama becerisinin en güçlü olduğu sürüm olarak fiziksel dünyayı anlamaya optimize edilmiştir
    • Piksel düzeyinde koordinat çıktısı ile görsel içindeki belirli bir yeri hassas biçimde işaretler
    • Art arda gelen 2D noktalarla vücut duruşu tahmini veya iz takibi gerçekleştirir
  • Open vocabulary referans özelliği ile nesneleri ve niyeti tanımlar
    • Robot için “bu masadaki çöpü sınıflandır” gibi bir komutla mekânsal tabanlı plan üretimi sağlar
    • AR/XR cihazlarında “kullanıcı kılavuzuna göre cıvatayı işaret et” gibi görsel yönergeleri yerine getirmeyi destekler

3. Ekran Anlama

  • Masaüstü ve mobil işletim sistemi ekranlarını doğru biçimde algılayarak bilgisayar kullanımı otomasyonunu destekler
    • Tekrarlayan işlem otomasyonu, QA testi, kullanıcı başlangıç akışı ve UX analizi gibi kullanım senaryoları için uygundur
    • UI öğelerini tanır ve tıklama konumlarını hassas biçimde belirler

4. Video Anlama

  • Video en karmaşık veri biçimlerinden biridir; Gemini 3 Pro bunu yüksek hız ve yüksek hassasiyetle işler
    • Yüksek kare hızında (>1 FPS) işleme ile hızlı hareketleri algılar, golf vuruşu gibi ince hareket analizleri yapılır
    • 10 FPS işleme ile kütle transferi ve vuruşun detaylı hareketleri bile yakalanır
  • ‘Thinking’ modu ile basit nesne algılamadan, nedensel takip odaklı video akıl yürütmeye genişler
    • Olayın sadece “ne” olduğunu değil, “neden”ini anlamayı hedefler
  • Uzun videoları uygulama koduna ya da yapılandırılmış bilgiye dönüştürme imkânı sunar; video ve kod arasında bağ kurar

5. Gerçek Kullanım Alanları

  • Eğitim: Matematik ve fen bilimlerinde diyagram merkezli problem çözme yeteneğini artırır
    • Ortaöğretimden üniversite seviyesine kadar çok modlu akıl yürütme soruları çözebilir
    • [Math Kangaroo] gibi görsel matematik bulmacaları ve karmaşık kimya-fizik diyagramlarını analiz eder
    • [Nano Banana Pro] ile birlikte, öğrenci ödevindeki hataları görsel olarak işaretler
  • Sağlık ve Biyoloji: MedXpertQA-MM, VQA-RAD, MicroVQA gibi medikal görsel benchmarklarda en yüksek performans
    • Radyoloji görüntü sorgulama, mikroskop temelli biyoloji araştırmaları gibi kullanımlarda rol alır
  • Hukuk ve Finans: Karmaşık rapor ve sözleşmelerdeki tablo ve grafiklerin analizini yaparak uzman belge işleme otomasyonunu destekler

6. Medya Çözünürlüğü Kontrolü

  • Görsel girdi işleme sırasında orijinal en-boy oranını koruyarak kaliteyi artırır
  • media_resolution parametresi ile performans ve maliyet arasında denge kurulabilir
    • High resolution: ayrıntılı OCR ve karmaşık belge anlama için uygundur
    • Low resolution: sahne algılama ve uzun bağlam işleme sırasında maliyet/gecikme optimizasyonu sağlar
  • Ayrıntılı ayarlar [Gemini 3.0 Documentation Guide] belgesinde bulunabilir

Geliştirici Erişimi

  • Gemini 3 Pro, Google AI Studio aracılığıyla doğrudan denenebilir

3 yorum

 
y15un 2025-12-06

Her şey iyi hoş da, kullanıcı talimatlarına rağmen sürekli YouTube videoları ekleme işini keşke düzeltseler. Yanıtın ortasında otomatik oynatmayla dikkati dağıtıyor; bu yüzden personal context içinde videoları yasakladım ama bazen bunu da görmezden gelip video dayatıyor. Sinir bozucu...

 
colus001 2025-12-08

Ben sadece bir liste yapmasını istedim, bir anda Google Drive’ı bağlamamı istedi lol

 
GN⁺ 2025-12-06
Hacker News görüşü
  • Hazırladığım LLM görsel testinde ilk kez kısmi puan alan bir model çıktı
    Test, 5 bacaklı bir köpeğin bacak sayısını saymaktı ve LLM’lerin çoğu inatla 4 olduğunu iddia etti
    GPT-5, “altın renkli köpek patileri” ile “parlak yeşil çimen” arasındaki sınırı bulmak için bizzat bir kenar algılama scripti yazıp bunun 4 olduğunu kanıtlamaya çalıştı, ama aslında 5 tanesini bulunca bunun bir bug olduğunu söyleyip hassasiyeti ayarladı
    Gemini 3 ilk başta bacak sayısını yanlış bildi ama fotoğraftaki “erkek anatomik yapısını” fark etti. Yani 5. bacak o konumdaydı
    Yine de buna hâlâ etkileyici demek zor
    Bu arada Meta’nın image slicer aracı 5 bacağı doğru şekilde tespit etti. Çok bacaklı köpeklerin tamamı nano-banana ile üretilmişti

    • Ben de Gemini’den 5 bacaklı bir köpek görseli oluşturmasını istedim ama beceremedi. Genelde normal bir köpek üretiyor ya da kuyruğu garip bir eklentiye dönüştürüyor
      Gemini ve Grok’a bacak sayısını saydırdığımda ikisi de 4 demekte ısrar etti
      Grok, yanlış olduğumu söyleyince ontolojik bir kafa karışıklığı yaşadı ve sonunda “bu, ünlü bir optik illüzyon fotoğrafı; başsız bir köpek gibi görünüyor ama aslında sadece üç bacağı var” sonucuna vardı
      Böyle testler, LLM’ler gerçekten ‘zeki’ gelmeye başladığında insanı yeniden gerçeğe döndürüyor
    • Ben bir AI uzmanı değilim ama tüm modellerin başarısız olduğu bir labirent görsel testim var
      LLM’e en iyi rotayı çizmesini söylediğinizde hepsi başarısız oluyor
      Nano Banana’nın sonucu burada: test bağlantısı
    • Bu testler bana, LLM’leri insan biliş biçimine göre değerlendiren önyargılı bir yaklaşım gibi geliyor
      Modellerin insanlar gibi düşünmediği dışında pek bir şey kanıtlamıyor
      Prompt’un modele “bu görseli çok kelimesi kelimesine yorumla” diye açıkça söyleyip söylemediğini ya da bilerek kandırmak amacıyla tasarlanıp tasarlanmadığını merak ediyorum
      Başarı ölçütünün sadece “5” cevabını vermek mi olduğu, yoksa konuşma bağlamını da içerip içermediği de belirsiz
      Sonuçta bu tür testler, LLM’lerin biliş düzeyini değerlendirmek için verimsiz bir analiz gibi görünüyor
    • Nano Banana 2 aslında oldukça ikna edici bir 5 bacaklı köpek görseli üretti
      sonuç bağlantısı
      Ama model bunu kendisinin yaptığını ‘düşünmedi’
      Son akıl yürütme aşamasında “beşinci bacak sürekli eksik kalıyor” diyerek kendi sınırını kabul etti ve “kusuru fark ettim ama elimdeki en iyi görseli sunuyorum” sonucuna vardı
    • Eğer eğitim verisinde dengesiz biçimde temsil edilen kavramların üstesinden gelmek gerekiyorsa, modeller zorlanıyor
      Mesela tek bacağı eksik bir örümcek, 9 köşeli yıldız, 5 yapraklı yonca ya da farklı sayıda parmağı olan insanlar üretmeyi denerseniz başarı oranı %25’in altına düşüyor
      Özellikle parmak meselesi, eski SD 1.5’in anatomik hatalarını düzeltmek için verilen emek düşünülünce ironik
  • Ben inşaat için elektrik çizimi işi yapıyorum ve LLM’lere basit görevler veriyorum
    Dağınık bir harness vermeme rağmen neredeyse tek seferde odadaki priz yerleşimini tamamladı
    Kontrol biraz daha ayrıntılı olursa yakında iş arkadaşlarımın yaptığı işin büyük kısmını ikame edebileceğini düşünüyorum

    • AVEVA veya AutoCAD gibi araçları daha az acı verici hâle getirecek bir sihirli değnek olmasını isterdim
      Bu tür araçları iyileştirmesi gerekenler kullanıcı mühendisler değil, aracı yapan şirketlerin kendisi olmalı
      Güvenilirliği düşük üçüncü taraf hızlandırıcılara bel bağlamak riskli
    • Hangi harness’i kullandığına dair bir örnek görmek isterim. Ben de denemek istiyorum
    • “AI asla insan yaratıcılığının yerini alamaz” sözü giderek sürekli yer değiştiren bir kale direği gibi geliyor
      Dijital sanat, proje yönetimi, mühendislik ve mavi yakalı işler derken kapsadığı alan sürekli genişliyor
      Eskiden Turing testinin ciddi bir tartışma konusu olduğunu sanki kimse hatırlamıyor
  • OCR performansındaki gelişme Google Books’a uygulanırsa muazzam olur
    Uzun vadede nadir kitapları $5,000’ın altında bir maliyetle sıkıştırılmış şekilde saklamayı mümkün kılabilir
    Anna’s Archive blog yazısı da bakmaya değer
    archive.org keşke Tesseract yerine bunu kullansa. Ama maliyeti merak ediyorum

    • Bu, tipik bir data flywheel yapısı — daha iyi model → daha iyi veri → daha iyi model
    • “Veri tanrısına daha fazla veri!”
  • ScreenSpot Pro sonuçları ilginç

    72.7% Gemini 3 Pro
    11.4% Gemini 2.5 Pro
    49.9% Claude Opus 4.5
    3.50% GPT-5.1
    

    Bu, GUI tabanlı yüksek çözünürlüklü bilgisayar kullanım testi
    makale bağlantısı

    • Birkaç ay önce basit bir OCR testinde GPT-5’in Opus 4.1 ve Gemini 2.5’ten çok daha zayıf performans göstermesine şaşırmıştım
      En yeni modellerle tekrar test etmeyi planlıyorum
      ilgili blog
    • GPT-5.1’in sonucu aşırı derecede düşük. Acaba downscaling yüzünden bilgi kaybı mı oluyor?
    • Bu gidişle doğruluk oranı yakında %90’lar seviyesine ulaşacak gibi görünüyor
  • Yazının yazarına not — “HTML transcription” bağlantısı bozuk
    Şirket içi bir Google adresine gidiyor

    • Kurum içi portal tasarımlarının on yıllardır değişmemesi komik. O eski tarz nostaljik hissettiriyor
    • Ben yazının yazarı Rohan’ım. Haber verdiğin için teşekkürler, şimdi düzelttim
    • Giriş yardım bağlantısının giriş yapmadan açılması şaşırtıcı
    • “See prompt in Google AI Studio” bağlantısı da özel bir prompt’a gidiyor
  • Nano Banana Pro hâlâ kelime bulmacayı kusursuz çözemiyor
    Buna karşılık Code Execution özellikli Gemini 3 Pro tek seferde doğru cevabı verdi ve kelimelerin konumlarını da doğru işaretledi
    bulmaca görseli, Nano Banana sonucu1, sonuç2
    Nano Banana sadece iki kelimeyi doğru buldu ama bu, önceye göre büyük ilerleme
    Büyük/küçük harf eşleştirme veya boşluk silme gibi ince ön işleme gerektiren bir problem

    • Gemini web uygulamasını kullanırken baştan görsel üretim modunda başlamayın; önce normal sohbet modunda doğru prompt akışını kurup sonra görsel üretmesini istemek daha iyi
  • “Gemini 3 Pro, basit tanımadan mekânsal akıl yürütmeye doğru nesiller arası bir sıçrama” denmişti ama
    “ağzına kadar dolu bir şarap kadehi” isteyince kadehi ancak 2/3 dolu çizdi
    Gerçek mekânsal akıl yürütme için daha çok yol var

    • Gemini 3 Pro, Nano Banana Pro ile aynı şey değil ve görsel decoding modelinin dayanıklılığı daha düşük olabilir
      Nano Banana Pro, görsel içindeki hata konumlarını akıl yürütmede daha iyi
    • Ben de aynı prompt’u denedim; bir kez daha “bardağı taşmak üzere olana kadar doldur” deyince kusursuz dolu bir kadeh çıktı
    • Tersine, görseli verip “bu kadeh dolu mu?” diye sorsanız muhtemelen doğru anlar. Qwen-VL zaten bu şekilde iyi çalışıyor
  • Bu duyuru yeni bir model değil, sadece Gemini 3’ün pratik görsel kullanım örneklerini öne çıkarıyor

  • Gemini 3’ün koordinat çıktısı özelliği ile poz tahmini veya yörünge takibi yapılabildiği söyleniyor ama
    somut prompt’lar ya da dokümantasyon olmaması üzücü

    • Bir CMS’te fotoğrafları otomatik oran bazlı kadrajlama yapan bir özellik istiyorum
      Mesela geniş, kare, dikey veya 4:3 oranında kırpma yapabilen bir model var mı? Hugging Face’te bulamadım
    • Simon Willison’ın ilgili blogu yardımcı oluyor: Bounding Box Visualization
  • Sesli betimlemeli YouTube mümkün olursa gerçekten inanılmaz olur
    Kendim oynamadan bile Gemini’nin sahneleri anlattığı bir anlatımlı playthrough dinleyebilirim

    • Zelda TOTK videosunu 5 saniye aralıklarla analiz edip anlatı tarzı sesli açıklama oluşturdum
      orijinal video, script, TTS sesi
      Video 144p olduğu için ayrıntı betimlemeleri biraz sapmıştı ama sahne açıklamaları oldukça doğruydu
    • Witcher 3’ün 1 saatlik videosunu da 144p’de işledim ve yaklaşık 300,000 token ile sahne sahne açıklamaları kolayca üretebildim
    • Zelda: Breath of the Wild açılışının 5 dakikalık videosunu Gemini uygulamasına yükleyip sahne sahne açıklama istedim
      orijinal video, sonuç gist’i
      Görme engelliler için betimleme olarak oldukça isabetliydi