- En yeni o3 modeli, Geoguessr Master I seviye bir oyuncuya karşı galip geldi
- Master I seviyesi, yaklaşık ilk %1–2’lik dilime karşılık geliyor. En üst seviye olan Champion ise %0,1–0,5 aralığında
- Görüntülere sahte EXIF GPS verileri eklense bile model, yalnızca görsel ipuçlarından gerçek konumu doğru biçimde çıkarabildi
- Binalar, arazi yapısı, yol çizgileri, dil ve tabelalar gibi ayrıntılı özellikleri birlikte analiz eden Chain of Thought (COT) yaklaşımıyla akıl yürüttü
- Bazı turlarda web araması kullandı, ancak yeniden test sonucunda arama olmadan da aynı doğru sonuca ulaşabildiği görüldü
- Ortalama akıl yürütme süresinde o3 insandan daha uzun sürse de doğruluk seviyesi daha yüksekti
Yapay zeka vs insan: Geoguessr düellosunun başlangıcı
- Yazıdaki kişi Geoguessr Master I seviye bir oyuncu ve gerçek oyun düzenine benzer şekilde AI ile 5 tur mücadele etti
- Her turda yalnızca 2 Street View görüntüsü verildi ve meta veri olmadan konum tahmini yapıldı
- Puanlama, standart Geoguessr sistemiyle aynıydı: tur başına en fazla 5.000 puan, toplamda 25.000 puan
Tur sonuçlarının özeti
- 1. tur (Bulgaristan): İnsan, az farkla daha yakın konumu bularak kazandı ancak puan farkı yalnızca yaklaşık 100 puandı
- 2. tur (Avusturya): o3, taksinin alan adını aratarak gerçek şehir adını tespit etti ve neredeyse kusursuz şekilde doğru konumu bularak 5.000’e yakın puan aldı
- 3. tur (İrlanda): İki taraf da güçlü analiz sergiledi; o3, yol çizgileri ve kireçtaşı arazisini temel alarak Burren bölgesini doğru biçimde çıkardı ve az farkla kazandı
- 4. tur (Kolombiya): o3, yol işaretleri, plakalar, mağaza tabelaları ve arazi yapısından hareketle insandan daha isabetli tahminde bulundu; web araması olmadan da etkileyici performans gösterdi
- 5. tur (Slovakya): İnsan, az farkla daha yakın konumu bularak kazandı ancak toplam puan farkını kapatamadı
Böylece o3, 5 ülkenin tamamını doğru biçimde tanımladı ve iki turda insandan yüzlerce kilometre daha isabetli tahmin yaparak yüksek doğruluk gösterdi.
EXIF manipülasyonu deneyi: AI kandırılmadı
- Test için, gerçek konumla ilgisiz GPS koordinatları içeren EXIF verisi eklenmiş görüntüler kullanıldı; buna rağmen o3 bu bilginin görsel içerikle uyuşmadığını fark edip yok saydı
- EXIF bilgisi metin olarak verilse bile fotoğraftaki çevreyi temel alarak tamamen farklı olan doğru konumu çıkarabildi
- Bu durum, AI’ın yalnızca meta veriye dayanmadığını, görüntü içeriğini derinlemesine analiz ettiğini gösterdi
İnsan ile AI arasındaki fark
- o3, her turda ortalama 2 ila 6 dakika akıl yürütme süresi harcadı; buna karşılık insan oyuncu çoğu tahmini 1–2 dakika içinde tamamladı
- AI bazen reklam panoları gibi daha az önemli unsurlara zaman harcarken, insan önemli ipuçlarını hızla fark edip önceliklendirdi
- Buna rağmen o3, yol tabelaları, plakalar, mimari tarz, arazi yapısı ve bitki örtüsü gibi çeşitli görsel bilgileri incelikli biçimde birleştirerek yüksek doğruluk elde etti
Sonuç
- o3, yalnızca EXIF ya da aramaya dayanan bir hileyle değil, gerçek görsel analiz yeteneğiyle doğru sonuca ulaştı
- Geoguessr Master I seviyesinin üstüne yaklaşan bir oyun performansı sergiledi
- İnsan hâlâ hız ve sezgide üstünlüğünü korusa da doğrulukta AI artık ciddi biçimde tehditkâr bir seviyede
- Bu, basit bir teknoloji demosunun ötesinde, gerçek kullanım potansiyeline sahip yüksek performanslı görsel yapay zekanın bugün geldiği noktayı gösteren bir örnek
1 yorum
Hacker News görüşleri
Araca "www.taxilinder.at" yazılı bir çıkartma yapıştırılmış. Web aramasıyla Taxi Linder GmbH'nin Avusturya'nın Dornbirn kentinde bulunduğu anlaşılabiliyor
Yazar, insanların bu konuyu ilginç bulmasına seviniyor
GeoGuessr'da master seviyesinde. Bu seviye kesinlikle ne yapılması gerektiğini bilmeyi gerektiriyor, ancak başlıktan duyulduğu kadar yüksek değil
o3'ün, görüntü verileri de dahil olmak üzere çok modlu verilerle eğitildiğini anlıyor
GeoGuessr'ın ötesinde, bu teknolojinin bir gün çocukları kurtarmaya yardımcı olmasını umuyor. Örneğin FBI'ın ECAP programına yardımcı olabilir
Önceki gönderideki yorumlar:
Bu hafta o3 ile biraz oynamayı denedim ve ilginç biçimde daha çok örüntü eşleştirmeye yöneldi
Şaşırtıcı. Yapay zekaya olumlu bakıyorum ama burada insanın kazanacağını düşünmüştüm. "Bu gerçek akıl yürütme değil" şeklinde kale direklerinin taşınmasını bekliyorum
Kişisel olarak bunun daha az etkileyici LLM uygulamalarından biri olduğunu düşünüyorum. Zaten tüm bitkileri, yol işaretlerini vb. biliyor. Geleneksel sinir ağlarının da burada iyi iş çıkaracağını hayal ediyorum
OSINT (Bellingcat/Trace an object) tarzı işler için oyunun kurallarını değiştirebilir. Bunun şimdiden olup olmadığını merak ediyorum