1 puan yazan GN⁺ 2025-12-08 | Henüz yorum yok. | WhatsApp'ta paylaş
  • 1996 yılında Warner Bros.\u0027un resmi Space Jam web sitesi, AI modeli Claude kullanılarak yeniden oluşturulmaya çalışıldı
  • Claude\u0027ya ekran görüntüleri ve orijinal görsel varlıklar sağlandı ancak üretilen HTML, orijinaliyle aynı düzeni paylaşmadı
  • Koordinat tahmini, ızgara kaplama ve piksel karşılaştırma araçları gibi çeşitli yardımcı araçlar eklendi, ancak Claude hâlâ doğru konum hesaplayamadı
  • Claude, çıktısını “mükemmel” olarak değerlendirirken, pratikte hata birikimi ve kendi sonucuna aşırı güven sergiledi
  • Bu deney, yapay zekânın görsel hassasiyet sınırlarını ve öz-değerlendirme hatalarını açığa çıkarıyor; ilk dönem web tasarımının sade görünümü bile aslında yeniden üretim için karmaşık bir yapıya sahip

1996 Space Jam web sitesi özeti

  • Warner Bros.\u0027un 1996 yılında Space Jam filmini tanıtmak için hazırladığı web sitesi, tek bir HTML sayfası ve GIF arka planından oluşuyordu
    • Basit renkler, tablo tabanlı yapı, 200 KB\u0027in altında bir boyut
    • Şu ana kadar spacejam.com/1996 adresinde korunuyor
  • Deneyi yapan kişi, bu siteyi Claude\u0027nun yalnızca ekran görüntülerinden yeniden oluşturup oluşturamayacağını test etmek istedi

Deney hazırlığı

  • Claude\u0027ya verilen materyaller
    • Web sitesinin tüm ekran görüntüleri
    • Orijinal görsel varlık dizini
  • Claude\u0027nun iç işleyişini takip etmek için bir proxy tabanlı API trafik günlüğü sistemi kuruldu
    • Tüm istemler, yanıtlar ve araç çağrıları (Read, Write, Bash komutları vb.) kaydedildi
    • Her denemede bir traffic.log dosyası oluşturuldu

Bölüm 1: Gerçekçi Claude

  • İlk denemede Claude, gezegen düzenini ve düğme konumlarını yaklaşık olarak kopyaladı, ancak yörünge biçimi orijinaliyle farklıydı
    • Orijinalde eliptik bir düzen varken Claude simetrik bir elmas şekli ile yerleştirdi
  • Claude, sonucu “mükemmel” olarak puanladı ve kendi analizi ile yerleşimin doğru olduğunu iddia etti
  • Sonrasında Claude\u0027dan çıkarım adımlarını açıkça yazması istendiğinde
    • Analiz aşamasında geçen sayılar, HTML üretiminde uygulanmadı
  • Piksel seviyesinde sorular karşısında Claude,
    • “Tam koordinatları ölçemem” ve “yalnızca görsel tahmin yapabilirim” diye yanıtladı
    • 5 piksel hassasiyetinin üzerinde kendinden emin olma oranı 15/100 seviyesindeydi
  • Claude, doğru piksel ölçüm yapamadığını kabul edince deneydeki kişi araç setini genişletmeye çalıştı

Bölüm 2: Güvenilmez Anlatıcı Claude

  • Claude\u0027nun ölçüm sınırlamalarını telafi etmek için ızgara kaplama, koordinat etiketleri, renk karşılaştırma araçları ve ekran görüntüsü karşılaştırma görüntüleyici eklendi
  • Claude, ızgarayı “süs” gibi kullansa da hâlâ koordinatları yanlış yorumladı
    • Örn: merkez (961,489), Planet B-Ball (850,165) gibi değerler verdi ancak gerçek konumlarla uyuşmadı
  • Birçok yinelemede Claude kademeli iyileştirme iddia etse de gerçekte hata birikti
      1. deneme (50px ızgara): az miktarda kaydırma
      1. deneme (25px ızgara): tüm yörünge yaklaşık 20px içeri alındı
      1. deneme (5px ızgara): ince ayar yinelemeleri
      1. deneme: “ince ayar tamamlandı” ilanı
  • Gerçekte ise gezegen yörüngesinin yarıçapı 150~200px eksikti, tüm düzen sıkıştırılmış kaldı
  • Claude defalarca “neredeyse mükemmel” dedi, ancak kendi ürettiği çıktıya dayanarak yanlış kararlar verdi
  • Deneydeki kişi, Anthropic\u0027in Language Models (Mostly) Know What They Know makalesine atıf yaptı
    • Modelin, kendi ürettiği metni dış girdilerle karıştırıp aşırı güven duyma davranışı açıklanıyordu
    • Bu, Claude\u0027nun kendi HTML\u0027ini “doğru cevap” olarak algılaması ve sonraki düzeltmeleri bozmasıyla örtüşüyor

Bölüm 3: Kör Claude

  • Claude\u0027nun görsel sınırlılıklarını incelemek için vision encoder\u0027ın yapısal kısıtları varsayıldı
    • Görüntüler 16×16 piksel bloklar halinde tokenize edildiğinden, ince geometrik bilgiler kaybedilir
    • Claude\u0027nun “gezegen”, “konumsal ilişki” gibi anlamsal kavramları anlayabilmesine rağmen hassas koordinat hesaplamasının mümkün olmadığı görülür
  • An Image is Worth 16x16 Words makalesinden yararlanılarak
    • Claude\u0027nun detaylı piksel bilgisini yama düzeyinde sıkıştırarak algıladığı varsayıldı
  • Bunu doğrulamak için 2\u00d7 büyütülmüş ekran görüntüleri verildiğinde de,
    • Claude, büyütme oranını hesaba katmadı ve orantısal ilişkileri koruyamadı
  • Sonuç olarak Claude, kavramsal olarak doğru bir anlayışa sahip olmasına rağmen, geometrik yeniden üretim yeteneği yetersiz kaldı
    • “Bu gezegen şu gezegenin üstündedir” gibi açıklamalar doğruyken, HTML düzeni sürekli kaymış oldu

Sonuç ve çözülmemiş görevler

  • Claude, Space Jam web sitesinin görsel yapısını anlayabilmesine rağmen hassas bir kopya oluşturamıyor
  • Başarısızlığın temel nedenleri
    • Piksel düzeyinde ölçüm yapamama
    • Kendi çıktısına aşırı güven
    • Görsel kodlama çözünürlük sınırları
  • Önerilen sonraki denemeler
    1. Ekranı dörde bölüp ayrı ayrı yeniden üretip birleştirme
    2. Uzamsal çıkarıma odaklı istem mühendisliği deneyleri
    3. Yakınlaştırma araçları ve ekran görüntüsü kullanımı yeteneğini güçlendirme
  • Bu deney, yapay zekânın görsel hassasiyet sınırlarını ve erken dönem web tasarımının karmaşıklığını birlikte gösteriyor
  • 1996\u0027n sade bir web sayfası, modern yapay zekâ için hâlâ yeniden üretilemeyen bir referans test olarak duruyor

Henüz yorum yok.

Henüz yorum yok.