4 puan yazan GN⁺ 2025-12-11 | 1 yorum | WhatsApp'ta paylaş
  • 10 yıl önceki Hacker News gönderi ve yorumlarını LLM ile analiz ederek ‘öngörü gücünü’ değerlendiren bir proje olarak, geçmiş tartışmaların iç görüsünü otomatik olarak puanlıyor
  • ChatGPT 5.1 Thinking ve Opus 4.5 kullanılarak, 2015 Aralık ayındaki bir aylık Hacker News ön sayfası (toplam 930 içerik) toplanıp analiz edildi
  • Her bir makale ve yorum dizisi temel alınarak özet, gerçekleşen sonuç, en doğru yorum ve en yanlış yorum ile ilgi puanı gibi çıktılar otomatik olarak üretiliyor
  • Sonuçlar statik HTML sayfalarına dönüştürülerek karpathy.ai/hncapsule üzerinden görüntülenebiliyor; ‘Hall of Fame’ bölümünde ise en iç görülü yorumcu sıralaması görülebiliyor
  • Geçmiş verilere yönelik LLM'nin büyük ölçekli retrospektif analiz potansiyeli ile “gelecekteki LLM'ler bizi izliyor” mesajı vurgulanıyor

Proje özeti

  • 2015 Aralık ayındaki Hacker News ön sayfasını hedefleyerek LLM ile otomatik retrospektif analiz sistemi kuruldu
    • Günlük 30 makale × 31 gün = toplam 930 makale
    • Her bir makale ve yorum dizisi Algolia API ile toplandıktan sonra ChatGPT 5.1 Thinking'e analiz için iletildi
  • Analiz sonuçları statik HTML sayfası olarak render edilip web sitesinde yayımlandı
Reklam

Analiz istemi yapısı

  • Her makale için 6 bölümden oluşan bir istem kullanıldı
    1. Makale ve tartışma özeti
    2. Sonrasında gerçekten neler olduğu
    3. En doğru ve en hatalı yorumu seçme
    4. Diğer ilginç unsurlar
    5. Yorumculara göre Final grades (son notlar) listesi
    6. Makale retrospektif ilgi puanı (0~10)
  • Örnek format katı şekilde tanımlandı; böylece programın otomatik olarak ayrıştırabilmesi sağlandı
  • Her hesabın ortalama puanı birikecek şekilde toplanarak en öngörülü kullanıcılar belirlendi

Uygulama ve maliyet

  • Opus 4.5 ile yaklaşık 3 saat içinde uygulandı; birkaç hatadan başka süreç sorunsuz ilerledi
  • Toplam 930 LLM isteğinin işleme maliyeti yaklaşık $58, işleme süresi ise yaklaşık 1 saat oldu
  • GitHub deposu: karpathy/hn-time-capsule
    • Sonuçlar, isteyen herkes tarafından yeniden üretilebilir veya değiştirilebilir
Reklam

Ana örnek diziler

  • 3 Aralık 2015: Swift'in açık kaynak olması
  • 6 Aralık 2015: Figma'nın lansmanı
  • 11 Aralık 2015: OpenAI'nin kuruluş duyurusu
  • 16 Aralık 2015: geohot'un Comma projesi
  • 22 Aralık 2015: SpaceX Orbcomm-2 fırlatması
  • 28 Aralık 2015: Theranos sorunları raporu
  • Her bağlantı ilgili tarihin analiz sayfasına giderek o dönemin tartışmalarıyla gerçek sonuçların karşılaştırılmasını sağlıyor

Hall of Fame

  • 2015 Aralık Hacker News'ında en iç görülü yorumcular, IMDb tarzı ortalama puanla sıralandı
  • Üst kullanıcılar: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
  • Alt bölümde ayrıca ‘HN gürültüsü’ olarak sınıflandırılan düşük puanlı kullanıcı listesi de yer alıyor

Felsefi mesaj

  • “Be good, future LLMs are watching” ifadesi alıntılanıyor ve
    gelecekteki LLM'lerin geçmişteki insan faaliyetlerini ince ayrıntısıyla analiz edebileceği bir çağın geleceği vurgulanıyor
  • Mevcut çevrimiçi davranışların, ‘zekânın çok ucuzlaştığı’ bir gelecekte tamamen yeniden üretilebileceği ima ediliyor
  • İnsan eylemlerinin, ‘görünmez gözetim’in değil, tamamen kayıt ve yeniden inşa edilebilir bir hedef haline gelme olasılığı öne sürülüyor

Sonuç

  • Bu deney, LLM'nin geçmiş verileri büyük ölçekte yeniden değerlendiren bir araç olarak kullanılabileceğini gösteriyor
  • Tarihi tartışmaların iç görüsünü otomatik olarak puanlama adına yeni bir uygulama örneği sunarak,
    yapay zekanın insan bilgisinin retrospektif analisti olarak evrimleşme potansiyelini ortaya koyuyor

1 yorum

 
GN⁺ 2025-12-11
Hacker News görüşleri
  • 2015’te bıraktığım yorumun böyle yeniden dikkat çekeceğini hiç düşünmezdim
    Eski yorum bağlantısına bakarken biraz gurur duyuyorum

  • Kodun, değerlendirme için thread gönderirken kullanıcı adlarını anonimleştirmemesi sorunlu görünüyor
    Bu yüzden belirli kullanıcıların itibarı puanlara önyargı katabilir
    Kullanıcı adlarını rastgele yeniden atamak ya da prosedürel olarak üretilmiş takma adlar kullanarak önyargıyı azaltmaya yönelik deneyler ilginç olabilir
    Ayrıca Gemini API gibi kaynak alıntılayan modeller kullanmak, değerlendirmenin güvenilirliğini artırabilir gibi görünüyor

  • Eski yorumları tekrar okumak gerçekten çok eğlenceli
    Eskiden tartışmaların nasıl geliştiğini görmek için bizzat bir replay sistemi yaptım
    Karpathy’nin değerlendirme yazıları listesini görselleştiren birkaç bağlantı paylaşıyorum

  • Her kullanıcı adının yanında gerçeklikle ne kadar örtüştüğünü gösteren bir puan veren bir Chrome eklentisi olsa güzel olurdu
    Kimin gerçekten isabetli öngörüler yaptığını, kimin yapamadığını puanla görmek olurdu bu
    Hatta kullanıcıları, doğru yorumlara verdikleri upvote oranına göre ağırlıklandırmak daha adil bir sıralama sağlayabilir

    • Reddit Enhancement Suite buna benzer bir işlevi dolaylı olarak sunuyor
      Sık upvote verdiğim kullanıcıları takip ederek, “bu kişi güvenilir” gibi bir ölçü oluşturuyorum
      Tamamen öznel ama şeffaflığı var
    • Bu tür bir puan sistemini genişletirseniz, “bu kişinin ahlaki inancı yok” gibi puanlar da üretilebilir
      Böyle sistemler topluluğu daha küçük ve daha samimi hale de getirebilir
    • Elon Twitter’ı satın almadan önce, gazeteciler için bir dijital güvenilirlik takip sistemi (Pravda) kurmak istemişti; bu aklıma geldi
      Aslında hepimiz de arkadaşlarımızın ya da gazetecilerin güvenilirliğini aklımızda tutarak yaşıyoruz
    • Benzer bir fikri hisse toplulukları için de düşünmüştüm
      WSB ya da Twitter’da hisse tahmini yapan kişilerin isabet oranlarını sıralamak gibi
      Ama genel yorumlarda, “neyin tahmin olduğu”nu tanımlamak çok daha zor
    • “Doğru yorum”un tanımı da belirsiz
      “Yarın güneş doğacak” gibi bir şey en yüksek puanı alabilir ama bunun pek anlamı yok
  • “pcwalton, gidiyor!” diye şaka yaptım ama, gerçekte thread bazlı değerlendirme biraz rastgele görünüyor
    Bu thread öngörü açısından çok güçlüydü ama sadece 11 yorumu vardı ve benimki tek satırlıktı
    Yine de startup hisselerine erişilebilirlik konusundaki görüşümün üst sıralara çıkması hoşuma gitti

    • Yorumumun değerlendirilmiş olduğunu görünce şaşırdım
      Sistemin “tahmin”i tanımlama biçimi oldukça öznel
      Ben aslında tahminden kaçınmaya çalışıyordum ama sanırım bu bir tahmin olarak değerlendirilmiş
  • Trilyon Tamagotchi” vizyonunun gerçekleşmediği yönünde değerlendirilince, düşük puanımı alçakgönüllülükle kabul ediyorum

  • Bu projeye bakınca bende kalan izlenim şu oldu: sonuçta en sıkıcı görüşler en doğru olanlar
    Kışkırtıcı ve kendinden emin yorumlar, zaman geçtikçe yanlış çıkmaya daha yatkın
    Örneğin “lityum-iyon pil fiyatı $108/kWh seviyesine düştü” gibi bir ifade, istikrarlı bir maliyet eğrisi tahmini olarak oldukça güvenilir
    Buna karşılık “LLM’ler ruh sağlığı alanında başarısız oldu” gibi bir başlık, hızla değişen benchmark’lara dayanıyor
    Sonuçta “sıkıcı ama doğru” görüşleri önceden bulmanın bir yolu olsa keşke

    • Bir görüşe göre “sıkıcı ama doğru” olan şeyler zaten dünyaya yansımış tahminler olduğu için puanlamak zor
    • “2035’te 1+1=2” gibi bir şakayla, fazla bariz tahminlerin anlamsızlığı tiye alınıyor
    • “LLM ve ruh sağlığı” bir tahmin değil, güncel bir haber
      Ama yapay zekanın istikrarlı ilerleyişi eninde sonunda insanların ekonomik rolünü aşındırabilir; bu açıdan ürkütücü derecede doğru bir öngörü de olabilir
    • Algoritmik feed’ler etkileşim temelli çalıştığı için, kışkırtıcı içerikler ödüllendiriliyor
      Bu yüzden sıkıcı ama temkinli görüşler kolayca görünmez hale geliyor
    • Tahminleri değerlendirirken o zamanki belirsizlik de ağırlığa katılmalı
      Tahmin piyasalarında olduğu gibi, o anki olasılığa göre ne kadar fark yaratıldığını puanlayan bir yöntem gerekli
  • Gmail’imde %90 doluluk uyarısı alınca, hafta sonu bir e-posta analiz projesi yaptım
    65 binden fazla e-postayı sınıflandırdım ve yarısından fazlası çöptü
    Başta gereksiz mailleri silmek istiyordum ama son zamanlarda tam tersine, kişisel ve değerli e-postaları silip
    Google’da sadece bültenler ya da fişler gibi işe yaramaz verileri bırakmanın daha güvenli olduğunu düşünmeye başladım

  • Ben sık sık HN yorumlarını LLM’lerle özetliyorum
    Çoğu zaman ortaya çıkan daha içgörülü özetler, orijinal metinden daha iyi oluyor; bence bu tam bir game changer

  • Yazarın bunun kalite kontrolünü geçtiğini düşünmesine şaşırdım
    LLM’nin değerlendirmeleri büyük ölçüde saçma sapan görünüyor
    Sitenin asıl incelemelerine bakınca, model sanki “tahmin doğru çıktı mı?” yerine “buna katılıyor muyum?” diye puanlamış gibi
    Sonuçta uyumlu görüşler yüksek puan alıyor

    • Örnek olarak tptacek’in DF hakkındaki yorumu ‘A’ almış ama
      LLM incelemesi
      bunun için “oyunun sert doğasını iyi tasvir etmiş” diyor
      Oysa bu, geleceğe dair bir öngörü değil; sadece o zamanki mevcut durumu tarif ediyor
      Üstelik gerçekte tam tersini ifade ediyor da olabilir
      Böyle örneklerin üst sıralarda yer alması, değerlendirme ölçütünün ne kadar dağınık olduğunu gösteriyor
    • Ama her incelemenin üçüncü bölümünde ayrıca “en içgörülü” ve “en yanlış” yorumlar da var
      Örneğin Kickstarter is Debt yazısında,
      Oculus ile Pebble’ın geleceğini karşılaştıran bir tahminin tam isabet ettiği söyleniyor
      Bu tür kısımlar oldukça doğru ve faydalı analizler gibi görünüyor
    • LLM değerlendirmeleri genel olarak isabetsiz ve tutarsız
      Talimatları görmezden geliyor, kendi görüşünü araya katıyor ve kalibrasyonu da yok
      “İyi” bir LLM değerlendirme sistemi, birden fazla basit ikili kararın (doğru/yanlış) toplamı gibi çalışmalı
      Bu proje eğlencelik olarak fena değil ama gerçek bir değerlendirme aracı olarak uygun değil diye düşünüyorum