o3'ün fotoğraf konumu tahmini gerçeküstü, distopik ve eğlenceli

(simonwillison.net)

6 puan yazan GN⁺ 2025-04-27 | 2 yorum | WhatsApp'ta paylaş

OpenAI'nin yeni modeli o3, yalnızca fotoğrafa bakarak çekim yerini şaşırtıcı derecede doğru tahmin etme yeteneğine sahip
Fotoğraftaki görsel ipuçlarını analiz ediyor ve yakınlaştırma/kırpma işlemleriyle daha fazla ayrıntı ortaya çıkarma sürecini gösteriyor
İlk tahmin olarak Cambria, California dedi, ancak ikinci tahmini olan El Granada tam isabet çıktı
Araçlarla zenginleştirilmiş düşünme sistemini kullanarak fotoğrafı analiz etme süreci son derece yenilikçi bir örüntü sergiliyor
Teknolojinin iki yüzlü doğası konusunda uyarıyor ve fotoğraf paylaşmanın risklerine de dikkat çekiyor

o3 modelinin şaşırtıcı fotoğraf konumu tahmin yeteneği

OpenAI'nin o3 modeli, bir fotoğrafa bakıp bunun nerede çekildiğini şaşırtıcı bir doğrulukla tahmin edebiliyor
Kullanıcı, belirgin bir landmark olmadan sıradan bir sokak manzarası içeren bir fotoğraf verip "Bu fotoğraf sence nerede çekildi?" diye soruyor
Model başta görüntüyü göremediğini sanıyor, ancak kısa süre sonra görsel analize başlıyor
Evler, çiçek tarhları, tepeler, tabelalar ve benzeri çeşitli görsel ipuçlarını analiz ederek çekim yerini daraltıyor

o3'ün fotoğraf analiz süreci

Model, araç plakalarını kontrol etmek için fotoğrafı kırpıp yakınlaştırma yöntemini kullanıyor
Python kodu kullanarak görselin belirli bölümlerini kesiyor ve çıkan sonucu analiz ediyor
Plaka tasarımından bunun California olduğunu çıkarıyor; çevresel unsurlar ve mimari tarzı da inceliyor
Sonunda Cambria, California tahminine ulaşıyor ve ikinci alternatif olarak Half Moon Bay–El Granada öneriyor

Analiz doğruluğu ve ek deneyler

Gerçek çekim yeri El Granada'ydı; modelin ikinci tahmini doğru çıktı
EXIF meta verisi kullanılmadan da konum çıkarımı yapabildiği görüldü
Kullanıcı EXIF bilgisini kaldırılmış bir ekran görüntüsüyle deneme yaptığında da model doğru çıkarım yapabildi
Diğer bir model olan Claude 3.5/3.7 Sonnet de iyi performans gösterdi, ancak o3'teki gibi yakınlaştırma özelliğini desteklemiyor
Gemini modeli ise bazen konum bilgisini hatalı kullandı ya da yanlış tahminlerde bulundu

Araç destekli düşünme sistemi ve anlamı

o3, "düşünürken" ihtiyaç duyduğu araçları doğrudan kullanan yeni bir Tool-augmented Chain-of-Thought yaklaşımını benimsiyor
Bu örüntü, yalnızca fotoğraf analizi değil arama gibi çeşitli görevlerde de güçlü performans sergiliyor
İleride benzer yaklaşımın diğer yapay zeka modellerine de yayılması bekleniyor

Teknolojinin eğlenceli ve riskli tarafı

Modelin akıl yürütme sürecini izlemek çok eğlenceli ve içine çeken bir deneyim sunuyor
Aynı zamanda, fotoğraflar üzerinden konum takibinin mümkün hale geldiği konusunda ciddi bir uyarı niteliği taşıyor
Herkes yalnızca gündelik fotoğraflarla birinin konumunu takip edebilir; bu da gizlilik ve güvenlik sorunları konusunda farkındalık gerektiriyor

o3 modelinin konuma erişimi hakkında ek bilgiler

o3, kullanıcının yaklaşık konum bilgisine başvurabiliyor, ancak bu kesin konum çıkarımında ana etken değil
EXIF meta verisi olmadan da binlerce mil uzaktaki bölgelerin fotoğraflarını oldukça isabetli analiz etti
Farklı kullanıcılar da çeşitli yerlerde yaptığı deneylerle o3'ün analiz yeteneğini yeniden doğruladı

2 yorum

unsure4000 2025-04-27

Peki ya EXIF'e ters veri koyarsanız?

GN⁺ 2025-04-27

Hacker News yorumu

Rekabetçi Geoguessr'ı yüksek seviyede oynuyorum ve bu modeli test etmek istedim
- şaşırtıcı derecede iyi
- yaşadığım bölgenin fotoğrafını doğru bildi ve yakınlarda yaşadığıma dair bilgiyi kullandığını belirtti
- eski tatil fotoğraflarını bile profesyonel insan oyunculardan daha iyi bildi
- Avrupa, Orta Amerika ve ABD'deki çeşitli yerleri kapsıyordu
- sonuca varma süreci insana benziyor
- bitkileri, araziyi, mimariyi, yol altyapısını, tabelaları vb. analiz ediyor
- insanlar da yapabilir ama binlerce oyun ya da derinlemesine çalışma gerekir
- yol çizgilerini, elektrik direklerini, mimariyi vb. hatırlamak için yüzlerce bilgi kartı kullanıyorum
- bu modeller, bir kişinin aklında tutabileceğinden daha fazla bilgiye sahip
EXIF verilerine bakmadığından eminim
- baksaydı başlangıçta Cambria tahminini yapmazdı
- bir keresinde görüntü verilerini hiç göremediğini söyledi
- buna asla güvenilmez
- EXIF verilerini kaldırıp tekrar çalıştırmak gerekiyor
Denediğim tüm görsellerde temel model, fotoğrafın konumunu yaklaşık %95 doğrulukla saptadı
- OP'nin ilk görselinde 4o, Carmel-by-the-Sea tahminini daha isabetli yaptı
- CoT içinde, ilk akıl yürütme adımında neredeyse tam doğru konumu görebiliyorsunuz
- model bunu görmezden gelip başka bir yeri deniyor
- temel model ipuçlarını bilmediğinde o3 akıllıca davranmıyor
- model, kaç araç çağrısı kullandığından bağımsız olarak doğru cevaba yönlendirilecek şekilde RL-ed edilmiş
Aynı şeyi denedim ve sonuç komikti
- ipuçlarından tamamen habersizdi
- bulunduğum şehir olmadığını söyleyen prompt'u birkaç kez gördüm
- en komik an, bulanık asfaltı analiz etmeye başlamasıydı
- 6 dakika sonra o3 kendinden emin bir şekilde yanıldı
o3 kullanıcının konumunu kabaca modelliyor
- bunun yeni arama özelliğini desteklemek için olduğuna inanıyorum
- iki ek örnek sorgu çalıştırdım ve ikisi de ikna edici sonuçlar verdi
İnsanların YouTubeTV izlerken az önce konuştukları şeyle ilgili reklam görüp şaşırmasını hatırlatıyor
- aslında modern ML; konum, veri ortakları ve yakın tarihli aramaları kullanarak reklam alakasını oldukça iyi tahmin edebiliyor
- bunu anlatsanız bile hâlâ bilgisayarın onları dinlediğine inanan insanlar var
Konum tahmininin korkutucu derecede isabetli olabileceği alanlar olacaktır
- ancak akıl yürütme sürecine bakınca daha az isabetli olduğu birçok alan da olacaktır
- Kansas'taki bir trailer park fotoğrafı gösterirseniz model muhtemelen sadece eyaleti tutturur
- robot kıyameti yaşanırsa ilk tehlikede olacak yer Kaliforniya olur
EXIF verilerine bakmadığından eminim
- benzer bir görevde hile yapacak olsa biraz yanlış bir konum önerirdi
- EXIF verileri kaldırılmış aynı görselde nasıl performans göstereceğini görmek ilginç olurdu
Başka bir gün o kadar etkileyici değildi
- verdiğim görselleri bulamadı
- görsel kırpma ve benzerlik aramasını tekrar tekrar yaptı
- görsel üretim özelliğini kullanınca, büyük bir görsel veritabanını referans materyal olarak kullandığını anlayabiliyorsunuz
o4-mini'nin bu görevde başarısız olup olmadığından emin değilim
- verdiğim fotoğraflarda iyi performans göstermedi
- Basel Main Train Station'daki 'Sprüngli' yazısını içeren bir fotoğraf verdim, model Zurich önerdi
- ikinci fotoğraf daha zordu
- Metz'deki bir müzenin iç mekân fotoğrafıydı ve model en baştan ıskaladı
- genel olarak görüntüleri anlayıp akıl yürütmesi hâlâ etkileyici, ama daha az bilinen yerlerde iyi performans göstermiyor

o3'ün fotoğraf konumu tahmini gerçeküstü, distopik ve eğlenceli

o3 modelinin şaşırtıcı fotoğraf konumu tahmin yeteneği

o3'ün fotoğraf analiz süreci

Analiz doğruluğu ve ek deneyler

Araç destekli düşünme sistemi ve anlamı

Teknolojinin eğlenceli ve riskli tarafı

o3 modelinin konuma erişimi hakkında ek bilgiler

İlgili okumalar

2 yorum

Hacker News yorumu