OpenAI o3, Sahte EXIF verilerini de görmezden gelip Geoguessr ustasını yendi

(sampatt.com)

6 puan yazan GN⁺ 2025-04-30 | 1 yorum | WhatsApp'ta paylaş

En yeni o3 modeli, Geoguessr Master I seviye bir oyuncuya karşı galip geldi
- Master I seviyesi, yaklaşık ilk %1–2’lik dilime karşılık geliyor. En üst seviye olan Champion ise %0,1–0,5 aralığında
Görüntülere sahte EXIF GPS verileri eklense bile model, yalnızca görsel ipuçlarından gerçek konumu doğru biçimde çıkarabildi
Binalar, arazi yapısı, yol çizgileri, dil ve tabelalar gibi ayrıntılı özellikleri birlikte analiz eden Chain of Thought (COT) yaklaşımıyla akıl yürüttü
Bazı turlarda web araması kullandı, ancak yeniden test sonucunda arama olmadan da aynı doğru sonuca ulaşabildiği görüldü
Ortalama akıl yürütme süresinde o3 insandan daha uzun sürse de doğruluk seviyesi daha yüksekti

Yapay zeka vs insan: Geoguessr düellosunun başlangıcı

Yazıdaki kişi Geoguessr Master I seviye bir oyuncu ve gerçek oyun düzenine benzer şekilde AI ile 5 tur mücadele etti
Her turda yalnızca 2 Street View görüntüsü verildi ve meta veri olmadan konum tahmini yapıldı
Puanlama, standart Geoguessr sistemiyle aynıydı: tur başına en fazla 5.000 puan, toplamda 25.000 puan

Tur sonuçlarının özeti

1. tur (Bulgaristan): İnsan, az farkla daha yakın konumu bularak kazandı ancak puan farkı yalnızca yaklaşık 100 puandı
2. tur (Avusturya): o3, taksinin alan adını aratarak gerçek şehir adını tespit etti ve neredeyse kusursuz şekilde doğru konumu bularak 5.000’e yakın puan aldı
3. tur (İrlanda): İki taraf da güçlü analiz sergiledi; o3, yol çizgileri ve kireçtaşı arazisini temel alarak Burren bölgesini doğru biçimde çıkardı ve az farkla kazandı
4. tur (Kolombiya): o3, yol işaretleri, plakalar, mağaza tabelaları ve arazi yapısından hareketle insandan daha isabetli tahminde bulundu; web araması olmadan da etkileyici performans gösterdi
5. tur (Slovakya): İnsan, az farkla daha yakın konumu bularak kazandı ancak toplam puan farkını kapatamadı

Böylece o3, 5 ülkenin tamamını doğru biçimde tanımladı ve iki turda insandan yüzlerce kilometre daha isabetli tahmin yaparak yüksek doğruluk gösterdi.

EXIF manipülasyonu deneyi: AI kandırılmadı

Test için, gerçek konumla ilgisiz GPS koordinatları içeren EXIF verisi eklenmiş görüntüler kullanıldı; buna rağmen o3 bu bilginin görsel içerikle uyuşmadığını fark edip yok saydı
EXIF bilgisi metin olarak verilse bile fotoğraftaki çevreyi temel alarak tamamen farklı olan doğru konumu çıkarabildi
Bu durum, AI’ın yalnızca meta veriye dayanmadığını, görüntü içeriğini derinlemesine analiz ettiğini gösterdi

İnsan ile AI arasındaki fark

o3, her turda ortalama 2 ila 6 dakika akıl yürütme süresi harcadı; buna karşılık insan oyuncu çoğu tahmini 1–2 dakika içinde tamamladı
AI bazen reklam panoları gibi daha az önemli unsurlara zaman harcarken, insan önemli ipuçlarını hızla fark edip önceliklendirdi
Buna rağmen o3, yol tabelaları, plakalar, mimari tarz, arazi yapısı ve bitki örtüsü gibi çeşitli görsel bilgileri incelikli biçimde birleştirerek yüksek doğruluk elde etti

Sonuç

o3, yalnızca EXIF ya da aramaya dayanan bir hileyle değil, gerçek görsel analiz yeteneğiyle doğru sonuca ulaştı
Geoguessr Master I seviyesinin üstüne yaklaşan bir oyun performansı sergiledi
İnsan hâlâ hız ve sezgide üstünlüğünü korusa da doğrulukta AI artık ciddi biçimde tehditkâr bir seviyede
Bu, basit bir teknoloji demosunun ötesinde, gerçek kullanım potansiyeline sahip yüksek performanslı görsel yapay zekanın bugün geldiği noktayı gösteren bir örnek

1 yorum

GN⁺ 2025-04-30

Hacker News görüşleri

Araca "www.taxilinder.at"; yazılı bir çıkartma yapıştırılmış. Web aramasıyla Taxi Linder GmbH'nin Avusturya'nın Dornbirn kentinde bulunduğu anlaşılabiliyor
- Web araması kullanmak adil değil. Şehir içi GeoGuessr turlarında bazı işletmeleri aratıp mükemmel puan alınabilir, ancak oyunun amacı bu değil
Yazar, insanların bu konuyu ilginç bulmasına seviniyor
- Herkese GeoGuessr'ı denemesini tavsiye ediyor. Yazar bu oyunu seviyor
- o3 modelinin 5 turun 2'sinde web araması kullanmasının haksız olduğu ve sonuçları geçersiz kıldığı yönünde çok sayıda görüş var
- Bunu doğrulamak için arama kullanılan iki turu yeniden çalıştırıp sonuçları güncelliyor
- Sonuç: Sonuçlar neredeyse aynıydı. GPS koordinatlarına gönderiden bakılabilir
- Avusturya turunda, arka plandaki dağlara dayanarak modelin şehri nasıl tespit ettiğine dair bir örnek veriyor
- Zaten elinde çok fazla bilgi vardı, bu yüzden aramaya ihtiyaç duymadı
- Aramanın faydalı olduğu durumlar olabilir. Ancak bu vakada konu dışıydı
GeoGuessr'da master seviyesinde. Bu seviye kesinlikle ne yapılması gerektiğini bilmeyi gerektiriyor, ancak başlıktan duyulduğu kadar yüksek değil
- Master yaklaşık 800-1200 ELO, pro ise yaklaşık 1900-2000. Turların %95'inde ülkeyi hemen anlayabiliyorum, ama Rusya ya da Brezilya'da bilgi yoksa konumu bilemem. Bir scripter beni yenebilir
o3'ün, görüntü verileri de dahil olmak üzere çok modlu verilerle eğitildiğini anlıyor
- Eğitim verilerinde tam konumlar ve özelliklere ait görüntülerin bulunduğunu varsaymak mantıksız değil
- GeoGuesser Google Maps kullanıyor, Google Maps ise görüntülerin çoğunu üçüncü taraflardan satın alıyor. Bu üçüncü taraf aynı görüntüleri tüm büyük yapay zeka şirketlerine satmıyorsa bu çok şaşırtıcı olurdu
GeoGuessr'ın ötesinde, bu teknolojinin bir gün çocukları kurtarmaya yardımcı olmasını umuyor. Örneğin FBI'ın ECAP programına yardımcı olabilir
Önceki gönderideki yorumlar:
- Konum tahmininin korkutucu derecede isabetli olabileceği bölgeler olacaktır. Örneğin, yedek tahmin olarak doğru kasabayı tutturan makaledeki örnekte olduğu gibi
- Ancak düşünce akışına bakılırsa, doğruluğun düşeceği pek çok bölge de olacaktır. Kansas'taki bir treyler parkının fotoğrafını gösterirseniz model muhtemelen sadece eyaleti bilebilir
- Bu gönderi büyük bir örneklem değil, ama bu tür modellerin nasıl çalışacağına dair beklenen tabloyu yansıtıyor. Görsel bilgi çok az olan fotoğraflarda bile ülkeyi tahmin etmede güvenilirdi
- Önceki yazıda yalnızca tek bir fotoğraf test edilmişti; ikinci tahminde doğru kasaba bulunmuş ve yazar bunu "korkutucu derecede isabetli" diye nitelemişti. Bu bir yorum meselesi
- Web araması etkin o3, görünüşe göre GeoGuessr'ı yüksek seviyede oynayabiliyor. Şimdi o3 GeoGuessr botunun birden fazla maç oynayıp ELO'sunun görülmesini istiyorum
Bu hafta o3 ile biraz oynamayı denedim ve ilginç biçimde daha çok örüntü eşleştirmeye yöneldi
- Örneğin Avrupa ve ABD fotoğraflarını kolayca çıkarabiliyor
- Ancak internette çok fazla fotoğrafı olmayan yerlerde, daha derine inmek yerine kendi veritabanı/internette örüntü eşleştirmesi yapmaya çalışıyor
- Örneğin 2020'den sonra büyümüş bir adadaki popüler bir patika verilebilir. İlk başta adanın kayalarını ve Brezilya bitki örtüsünü anıyor, ama Rio de Janeiro'da bir yer bulmaya çalışıyor
- Bir başka örnek, gelgit çekildiğinde doğal yüzme havuzlarıyla ünlü bir plaj. Fotoğraf gelgit yükselmişken çekildiğinde bitki örtüsünü ve eyaleti doğru yakalıyor, ama yine daha popüler bir yeri bulmaya çalışıyor
Şaşırtıcı. Yapay zekaya olumlu bakıyorum ama burada insanın kazanacağını düşünmüştüm. "Bu gerçek akıl yürütme değil" şeklinde kale direklerinin taşınmasını bekliyorum
Kişisel olarak bunun daha az etkileyici LLM uygulamalarından biri olduğunu düşünüyorum. Zaten tüm bitkileri, yol işaretlerini vb. biliyor. Geleneksel sinir ağlarının da burada iyi iş çıkaracağını hayal ediyorum
OSINT (Bellingcat/Trace an object) tarzı işler için oyunun kurallarını değiştirebilir. Bunun şimdiden olup olmadığını merak ediyorum
- GeoGuessr tarzı yarışmalar düzenlenebilir ve bu, en azından yardımcı pilot olarak kitlesel tanımlamaya büyük katkı sağlayabilir