6 puan yazan GN⁺ 2025-04-27 | 2 yorum | WhatsApp'ta paylaş
  • OpenAI'nin yeni modeli o3, yalnızca fotoğrafa bakarak çekim yerini şaşırtıcı derecede doğru tahmin etme yeteneğine sahip
  • Fotoğraftaki görsel ipuçlarını analiz ediyor ve yakınlaştırma/kırpma işlemleriyle daha fazla ayrıntı ortaya çıkarma sürecini gösteriyor
  • İlk tahmin olarak Cambria, California dedi, ancak ikinci tahmini olan El Granada tam isabet çıktı
  • Araçlarla zenginleştirilmiş düşünme sistemini kullanarak fotoğrafı analiz etme süreci son derece yenilikçi bir örüntü sergiliyor
  • Teknolojinin iki yüzlü doğası konusunda uyarıyor ve fotoğraf paylaşmanın risklerine de dikkat çekiyor

o3 modelinin şaşırtıcı fotoğraf konumu tahmin yeteneği

  • OpenAI'nin o3 modeli, bir fotoğrafa bakıp bunun nerede çekildiğini şaşırtıcı bir doğrulukla tahmin edebiliyor
  • Kullanıcı, belirgin bir landmark olmadan sıradan bir sokak manzarası içeren bir fotoğraf verip "Bu fotoğraf sence nerede çekildi?" diye soruyor
  • Model başta görüntüyü göremediğini sanıyor, ancak kısa süre sonra görsel analize başlıyor
  • Evler, çiçek tarhları, tepeler, tabelalar ve benzeri çeşitli görsel ipuçlarını analiz ederek çekim yerini daraltıyor

o3'ün fotoğraf analiz süreci

  • Model, araç plakalarını kontrol etmek için fotoğrafı kırpıp yakınlaştırma yöntemini kullanıyor
  • Python kodu kullanarak görselin belirli bölümlerini kesiyor ve çıkan sonucu analiz ediyor
  • Plaka tasarımından bunun California olduğunu çıkarıyor; çevresel unsurlar ve mimari tarzı da inceliyor
  • Sonunda Cambria, California tahminine ulaşıyor ve ikinci alternatif olarak Half Moon Bay–El Granada öneriyor

Analiz doğruluğu ve ek deneyler

  • Gerçek çekim yeri El Granada'ydı; modelin ikinci tahmini doğru çıktı
  • EXIF meta verisi kullanılmadan da konum çıkarımı yapabildiği görüldü
  • Kullanıcı EXIF bilgisini kaldırılmış bir ekran görüntüsüyle deneme yaptığında da model doğru çıkarım yapabildi
  • Diğer bir model olan Claude 3.5/3.7 Sonnet de iyi performans gösterdi, ancak o3'teki gibi yakınlaştırma özelliğini desteklemiyor
  • Gemini modeli ise bazen konum bilgisini hatalı kullandı ya da yanlış tahminlerde bulundu

Araç destekli düşünme sistemi ve anlamı

  • o3, "düşünürken" ihtiyaç duyduğu araçları doğrudan kullanan yeni bir Tool-augmented Chain-of-Thought yaklaşımını benimsiyor
  • Bu örüntü, yalnızca fotoğraf analizi değil arama gibi çeşitli görevlerde de güçlü performans sergiliyor
  • İleride benzer yaklaşımın diğer yapay zeka modellerine de yayılması bekleniyor

Teknolojinin eğlenceli ve riskli tarafı

  • Modelin akıl yürütme sürecini izlemek çok eğlenceli ve içine çeken bir deneyim sunuyor
  • Aynı zamanda, fotoğraflar üzerinden konum takibinin mümkün hale geldiği konusunda ciddi bir uyarı niteliği taşıyor
  • Herkes yalnızca gündelik fotoğraflarla birinin konumunu takip edebilir; bu da gizlilik ve güvenlik sorunları konusunda farkındalık gerektiriyor

o3 modelinin konuma erişimi hakkında ek bilgiler

  • o3, kullanıcının yaklaşık konum bilgisine başvurabiliyor, ancak bu kesin konum çıkarımında ana etken değil
  • EXIF meta verisi olmadan da binlerce mil uzaktaki bölgelerin fotoğraflarını oldukça isabetli analiz etti
  • Farklı kullanıcılar da çeşitli yerlerde yaptığı deneylerle o3'ün analiz yeteneğini yeniden doğruladı

2 yorum

 
unsure4000 2025-04-27

Peki ya EXIF'e ters veri koyarsanız?

 
GN⁺ 2025-04-27
Hacker News yorumu
  • Rekabetçi Geoguessr'ı yüksek seviyede oynuyorum ve bu modeli test etmek istedim

    • şaşırtıcı derecede iyi
    • yaşadığım bölgenin fotoğrafını doğru bildi ve yakınlarda yaşadığıma dair bilgiyi kullandığını belirtti
    • eski tatil fotoğraflarını bile profesyonel insan oyunculardan daha iyi bildi
    • Avrupa, Orta Amerika ve ABD'deki çeşitli yerleri kapsıyordu
    • sonuca varma süreci insana benziyor
    • bitkileri, araziyi, mimariyi, yol altyapısını, tabelaları vb. analiz ediyor
    • insanlar da yapabilir ama binlerce oyun ya da derinlemesine çalışma gerekir
    • yol çizgilerini, elektrik direklerini, mimariyi vb. hatırlamak için yüzlerce bilgi kartı kullanıyorum
    • bu modeller, bir kişinin aklında tutabileceğinden daha fazla bilgiye sahip
  • EXIF verilerine bakmadığından eminim

    • baksaydı başlangıçta Cambria tahminini yapmazdı
    • bir keresinde görüntü verilerini hiç göremediğini söyledi
    • buna asla güvenilmez
    • EXIF verilerini kaldırıp tekrar çalıştırmak gerekiyor
  • Denediğim tüm görsellerde temel model, fotoğrafın konumunu yaklaşık %95 doğrulukla saptadı

    • OP'nin ilk görselinde 4o, Carmel-by-the-Sea tahminini daha isabetli yaptı
    • CoT içinde, ilk akıl yürütme adımında neredeyse tam doğru konumu görebiliyorsunuz
    • model bunu görmezden gelip başka bir yeri deniyor
    • temel model ipuçlarını bilmediğinde o3 akıllıca davranmıyor
    • model, kaç araç çağrısı kullandığından bağımsız olarak doğru cevaba yönlendirilecek şekilde RL-ed edilmiş
  • Aynı şeyi denedim ve sonuç komikti

    • ipuçlarından tamamen habersizdi
    • bulunduğum şehir olmadığını söyleyen prompt'u birkaç kez gördüm
    • en komik an, bulanık asfaltı analiz etmeye başlamasıydı
    • 6 dakika sonra o3 kendinden emin bir şekilde yanıldı
  • o3 kullanıcının konumunu kabaca modelliyor

    • bunun yeni arama özelliğini desteklemek için olduğuna inanıyorum
    • iki ek örnek sorgu çalıştırdım ve ikisi de ikna edici sonuçlar verdi
  • İnsanların YouTubeTV izlerken az önce konuştukları şeyle ilgili reklam görüp şaşırmasını hatırlatıyor

    • aslında modern ML; konum, veri ortakları ve yakın tarihli aramaları kullanarak reklam alakasını oldukça iyi tahmin edebiliyor
    • bunu anlatsanız bile hâlâ bilgisayarın onları dinlediğine inanan insanlar var
  • Konum tahmininin korkutucu derecede isabetli olabileceği alanlar olacaktır

    • ancak akıl yürütme sürecine bakınca daha az isabetli olduğu birçok alan da olacaktır
    • Kansas'taki bir trailer park fotoğrafı gösterirseniz model muhtemelen sadece eyaleti tutturur
    • robot kıyameti yaşanırsa ilk tehlikede olacak yer Kaliforniya olur
  • EXIF verilerine bakmadığından eminim

    • benzer bir görevde hile yapacak olsa biraz yanlış bir konum önerirdi
    • EXIF verileri kaldırılmış aynı görselde nasıl performans göstereceğini görmek ilginç olurdu
  • Başka bir gün o kadar etkileyici değildi

    • verdiğim görselleri bulamadı
    • görsel kırpma ve benzerlik aramasını tekrar tekrar yaptı
    • görsel üretim özelliğini kullanınca, büyük bir görsel veritabanını referans materyal olarak kullandığını anlayabiliyorsunuz
  • o4-mini'nin bu görevde başarısız olup olmadığından emin değilim

    • verdiğim fotoğraflarda iyi performans göstermedi
    • Basel Main Train Station'daki 'Sprüngli' yazısını içeren bir fotoğraf verdim, model Zurich önerdi
    • ikinci fotoğraf daha zordu
    • Metz'deki bir müzenin iç mekân fotoğrafıydı ve model en baştan ıskaladı
    • genel olarak görüntüleri anlayıp akıl yürütmesi hâlâ etkileyici, ama daha az bilinen yerlerde iyi performans göstermiyor