- OpenAI'nin yeni modeli o3, yalnızca fotoğrafa bakarak çekim yerini şaşırtıcı derecede doğru tahmin etme yeteneğine sahip
- Fotoğraftaki görsel ipuçlarını analiz ediyor ve yakınlaştırma/kırpma işlemleriyle daha fazla ayrıntı ortaya çıkarma sürecini gösteriyor
- İlk tahmin olarak Cambria, California dedi, ancak ikinci tahmini olan El Granada tam isabet çıktı
- Araçlarla zenginleştirilmiş düşünme sistemini kullanarak fotoğrafı analiz etme süreci son derece yenilikçi bir örüntü sergiliyor
- Teknolojinin iki yüzlü doğası konusunda uyarıyor ve fotoğraf paylaşmanın risklerine de dikkat çekiyor
o3 modelinin şaşırtıcı fotoğraf konumu tahmin yeteneği
- OpenAI'nin o3 modeli, bir fotoğrafa bakıp bunun nerede çekildiğini şaşırtıcı bir doğrulukla tahmin edebiliyor
- Kullanıcı, belirgin bir landmark olmadan sıradan bir sokak manzarası içeren bir fotoğraf verip "Bu fotoğraf sence nerede çekildi?" diye soruyor
- Model başta görüntüyü göremediğini sanıyor, ancak kısa süre sonra görsel analize başlıyor
- Evler, çiçek tarhları, tepeler, tabelalar ve benzeri çeşitli görsel ipuçlarını analiz ederek çekim yerini daraltıyor
o3'ün fotoğraf analiz süreci
- Model, araç plakalarını kontrol etmek için fotoğrafı kırpıp yakınlaştırma yöntemini kullanıyor
- Python kodu kullanarak görselin belirli bölümlerini kesiyor ve çıkan sonucu analiz ediyor
- Plaka tasarımından bunun California olduğunu çıkarıyor; çevresel unsurlar ve mimari tarzı da inceliyor
- Sonunda Cambria, California tahminine ulaşıyor ve ikinci alternatif olarak Half Moon Bay–El Granada öneriyor
Analiz doğruluğu ve ek deneyler
- Gerçek çekim yeri El Granada'ydı; modelin ikinci tahmini doğru çıktı
- EXIF meta verisi kullanılmadan da konum çıkarımı yapabildiği görüldü
- Kullanıcı EXIF bilgisini kaldırılmış bir ekran görüntüsüyle deneme yaptığında da model doğru çıkarım yapabildi
- Diğer bir model olan Claude 3.5/3.7 Sonnet de iyi performans gösterdi, ancak o3'teki gibi yakınlaştırma özelliğini desteklemiyor
- Gemini modeli ise bazen konum bilgisini hatalı kullandı ya da yanlış tahminlerde bulundu
Araç destekli düşünme sistemi ve anlamı
- o3, "düşünürken" ihtiyaç duyduğu araçları doğrudan kullanan yeni bir Tool-augmented Chain-of-Thought yaklaşımını benimsiyor
- Bu örüntü, yalnızca fotoğraf analizi değil arama gibi çeşitli görevlerde de güçlü performans sergiliyor
- İleride benzer yaklaşımın diğer yapay zeka modellerine de yayılması bekleniyor
Teknolojinin eğlenceli ve riskli tarafı
- Modelin akıl yürütme sürecini izlemek çok eğlenceli ve içine çeken bir deneyim sunuyor
- Aynı zamanda, fotoğraflar üzerinden konum takibinin mümkün hale geldiği konusunda ciddi bir uyarı niteliği taşıyor
- Herkes yalnızca gündelik fotoğraflarla birinin konumunu takip edebilir; bu da gizlilik ve güvenlik sorunları konusunda farkındalık gerektiriyor
o3 modelinin konuma erişimi hakkında ek bilgiler
- o3, kullanıcının yaklaşık konum bilgisine başvurabiliyor, ancak bu kesin konum çıkarımında ana etken değil
- EXIF meta verisi olmadan da binlerce mil uzaktaki bölgelerin fotoğraflarını oldukça isabetli analiz etti
- Farklı kullanıcılar da çeşitli yerlerde yaptığı deneylerle o3'ün analiz yeteneğini yeniden doğruladı
2 yorum
Peki ya EXIF'e ters veri koyarsanız?
Hacker News yorumu
Rekabetçi Geoguessr'ı yüksek seviyede oynuyorum ve bu modeli test etmek istedim
EXIF verilerine bakmadığından eminim
Denediğim tüm görsellerde temel model, fotoğrafın konumunu yaklaşık %95 doğrulukla saptadı
Aynı şeyi denedim ve sonuç komikti
o3 kullanıcının konumunu kabaca modelliyor
İnsanların YouTubeTV izlerken az önce konuştukları şeyle ilgili reklam görüp şaşırmasını hatırlatıyor
Konum tahmininin korkutucu derecede isabetli olabileceği alanlar olacaktır
EXIF verilerine bakmadığından eminim
Başka bir gün o kadar etkileyici değildi
o4-mini'nin bu görevde başarısız olup olmadığından emin değilim