6 puan yazan GN⁺ 2025-04-30 | 1 yorum | WhatsApp'ta paylaş
  • En yeni o3 modeli, Geoguessr Master I seviye bir oyuncuya karşı galip geldi
    • Master I seviyesi, yaklaşık ilk %1–2’lik dilime karşılık geliyor. En üst seviye olan Champion ise %0,1–0,5 aralığında
  • Görüntülere sahte EXIF GPS verileri eklense bile model, yalnızca görsel ipuçlarından gerçek konumu doğru biçimde çıkarabildi
  • Binalar, arazi yapısı, yol çizgileri, dil ve tabelalar gibi ayrıntılı özellikleri birlikte analiz eden Chain of Thought (COT) yaklaşımıyla akıl yürüttü
  • Bazı turlarda web araması kullandı, ancak yeniden test sonucunda arama olmadan da aynı doğru sonuca ulaşabildiği görüldü
  • Ortalama akıl yürütme süresinde o3 insandan daha uzun sürse de doğruluk seviyesi daha yüksekti

Yapay zeka vs insan: Geoguessr düellosunun başlangıcı

  • Yazıdaki kişi Geoguessr Master I seviye bir oyuncu ve gerçek oyun düzenine benzer şekilde AI ile 5 tur mücadele etti
  • Her turda yalnızca 2 Street View görüntüsü verildi ve meta veri olmadan konum tahmini yapıldı
  • Puanlama, standart Geoguessr sistemiyle aynıydı: tur başına en fazla 5.000 puan, toplamda 25.000 puan

Tur sonuçlarının özeti

  • 1. tur (Bulgaristan): İnsan, az farkla daha yakın konumu bularak kazandı ancak puan farkı yalnızca yaklaşık 100 puandı
  • 2. tur (Avusturya): o3, taksinin alan adını aratarak gerçek şehir adını tespit etti ve neredeyse kusursuz şekilde doğru konumu bularak 5.000’e yakın puan aldı
  • 3. tur (İrlanda): İki taraf da güçlü analiz sergiledi; o3, yol çizgileri ve kireçtaşı arazisini temel alarak Burren bölgesini doğru biçimde çıkardı ve az farkla kazandı
  • 4. tur (Kolombiya): o3, yol işaretleri, plakalar, mağaza tabelaları ve arazi yapısından hareketle insandan daha isabetli tahminde bulundu; web araması olmadan da etkileyici performans gösterdi
  • 5. tur (Slovakya): İnsan, az farkla daha yakın konumu bularak kazandı ancak toplam puan farkını kapatamadı

Böylece o3, 5 ülkenin tamamını doğru biçimde tanımladı ve iki turda insandan yüzlerce kilometre daha isabetli tahmin yaparak yüksek doğruluk gösterdi.

EXIF manipülasyonu deneyi: AI kandırılmadı

  • Test için, gerçek konumla ilgisiz GPS koordinatları içeren EXIF verisi eklenmiş görüntüler kullanıldı; buna rağmen o3 bu bilginin görsel içerikle uyuşmadığını fark edip yok saydı
  • EXIF bilgisi metin olarak verilse bile fotoğraftaki çevreyi temel alarak tamamen farklı olan doğru konumu çıkarabildi
  • Bu durum, AI’ın yalnızca meta veriye dayanmadığını, görüntü içeriğini derinlemesine analiz ettiğini gösterdi

İnsan ile AI arasındaki fark

  • o3, her turda ortalama 2 ila 6 dakika akıl yürütme süresi harcadı; buna karşılık insan oyuncu çoğu tahmini 1–2 dakika içinde tamamladı
  • AI bazen reklam panoları gibi daha az önemli unsurlara zaman harcarken, insan önemli ipuçlarını hızla fark edip önceliklendirdi
  • Buna rağmen o3, yol tabelaları, plakalar, mimari tarz, arazi yapısı ve bitki örtüsü gibi çeşitli görsel bilgileri incelikli biçimde birleştirerek yüksek doğruluk elde etti

Sonuç

  • o3, yalnızca EXIF ya da aramaya dayanan bir hileyle değil, gerçek görsel analiz yeteneğiyle doğru sonuca ulaştı
  • Geoguessr Master I seviyesinin üstüne yaklaşan bir oyun performansı sergiledi
  • İnsan hâlâ hız ve sezgide üstünlüğünü korusa da doğrulukta AI artık ciddi biçimde tehditkâr bir seviyede
  • Bu, basit bir teknoloji demosunun ötesinde, gerçek kullanım potansiyeline sahip yüksek performanslı görsel yapay zekanın bugün geldiği noktayı gösteren bir örnek

1 yorum

 
GN⁺ 2025-04-30
Hacker News görüşleri
  • Araca "www.taxilinder.at"; yazılı bir çıkartma yapıştırılmış. Web aramasıyla Taxi Linder GmbH'nin Avusturya'nın Dornbirn kentinde bulunduğu anlaşılabiliyor

    • Web araması kullanmak adil değil. Şehir içi GeoGuessr turlarında bazı işletmeleri aratıp mükemmel puan alınabilir, ancak oyunun amacı bu değil
  • Yazar, insanların bu konuyu ilginç bulmasına seviniyor

    • Herkese GeoGuessr'ı denemesini tavsiye ediyor. Yazar bu oyunu seviyor
    • o3 modelinin 5 turun 2'sinde web araması kullanmasının haksız olduğu ve sonuçları geçersiz kıldığı yönünde çok sayıda görüş var
    • Bunu doğrulamak için arama kullanılan iki turu yeniden çalıştırıp sonuçları güncelliyor
    • Sonuç: Sonuçlar neredeyse aynıydı. GPS koordinatlarına gönderiden bakılabilir
    • Avusturya turunda, arka plandaki dağlara dayanarak modelin şehri nasıl tespit ettiğine dair bir örnek veriyor
    • Zaten elinde çok fazla bilgi vardı, bu yüzden aramaya ihtiyaç duymadı
    • Aramanın faydalı olduğu durumlar olabilir. Ancak bu vakada konu dışıydı
  • GeoGuessr'da master seviyesinde. Bu seviye kesinlikle ne yapılması gerektiğini bilmeyi gerektiriyor, ancak başlıktan duyulduğu kadar yüksek değil

    • Master yaklaşık 800-1200 ELO, pro ise yaklaşık 1900-2000. Turların %95'inde ülkeyi hemen anlayabiliyorum, ama Rusya ya da Brezilya'da bilgi yoksa konumu bilemem. Bir scripter beni yenebilir
  • o3'ün, görüntü verileri de dahil olmak üzere çok modlu verilerle eğitildiğini anlıyor

    • Eğitim verilerinde tam konumlar ve özelliklere ait görüntülerin bulunduğunu varsaymak mantıksız değil
    • GeoGuesser Google Maps kullanıyor, Google Maps ise görüntülerin çoğunu üçüncü taraflardan satın alıyor. Bu üçüncü taraf aynı görüntüleri tüm büyük yapay zeka şirketlerine satmıyorsa bu çok şaşırtıcı olurdu
  • GeoGuessr'ın ötesinde, bu teknolojinin bir gün çocukları kurtarmaya yardımcı olmasını umuyor. Örneğin FBI'ın ECAP programına yardımcı olabilir

  • Önceki gönderideki yorumlar:

    • Konum tahmininin korkutucu derecede isabetli olabileceği bölgeler olacaktır. Örneğin, yedek tahmin olarak doğru kasabayı tutturan makaledeki örnekte olduğu gibi
    • Ancak düşünce akışına bakılırsa, doğruluğun düşeceği pek çok bölge de olacaktır. Kansas'taki bir treyler parkının fotoğrafını gösterirseniz model muhtemelen sadece eyaleti bilebilir
    • Bu gönderi büyük bir örneklem değil, ama bu tür modellerin nasıl çalışacağına dair beklenen tabloyu yansıtıyor. Görsel bilgi çok az olan fotoğraflarda bile ülkeyi tahmin etmede güvenilirdi
    • Önceki yazıda yalnızca tek bir fotoğraf test edilmişti; ikinci tahminde doğru kasaba bulunmuş ve yazar bunu "korkutucu derecede isabetli" diye nitelemişti. Bu bir yorum meselesi
    • Web araması etkin o3, görünüşe göre GeoGuessr'ı yüksek seviyede oynayabiliyor. Şimdi o3 GeoGuessr botunun birden fazla maç oynayıp ELO'sunun görülmesini istiyorum
  • Bu hafta o3 ile biraz oynamayı denedim ve ilginç biçimde daha çok örüntü eşleştirmeye yöneldi

    • Örneğin Avrupa ve ABD fotoğraflarını kolayca çıkarabiliyor
    • Ancak internette çok fazla fotoğrafı olmayan yerlerde, daha derine inmek yerine kendi veritabanı/internette örüntü eşleştirmesi yapmaya çalışıyor
    • Örneğin 2020'den sonra büyümüş bir adadaki popüler bir patika verilebilir. İlk başta adanın kayalarını ve Brezilya bitki örtüsünü anıyor, ama Rio de Janeiro'da bir yer bulmaya çalışıyor
    • Bir başka örnek, gelgit çekildiğinde doğal yüzme havuzlarıyla ünlü bir plaj. Fotoğraf gelgit yükselmişken çekildiğinde bitki örtüsünü ve eyaleti doğru yakalıyor, ama yine daha popüler bir yeri bulmaya çalışıyor
  • Şaşırtıcı. Yapay zekaya olumlu bakıyorum ama burada insanın kazanacağını düşünmüştüm. "Bu gerçek akıl yürütme değil" şeklinde kale direklerinin taşınmasını bekliyorum

  • Kişisel olarak bunun daha az etkileyici LLM uygulamalarından biri olduğunu düşünüyorum. Zaten tüm bitkileri, yol işaretlerini vb. biliyor. Geleneksel sinir ağlarının da burada iyi iş çıkaracağını hayal ediyorum

  • OSINT (Bellingcat/Trace an object) tarzı işler için oyunun kurallarını değiştirebilir. Bunun şimdiden olup olmadığını merak ediyorum

    • GeoGuessr tarzı yarışmalar düzenlenebilir ve bu, en azından yardımcı pilot olarak kitlesel tanımlamaya büyük katkı sağlayabilir