10 yıl önceki Hacker News tartışmalarını LLM ile otomatik puanlama
(karpathy.bearblog.dev)- 10 yıl önceki Hacker News gönderi ve yorumlarını LLM ile analiz ederek ‘öngörü gücünü’ değerlendiren bir proje olarak, geçmiş tartışmaların iç görüsünü otomatik olarak puanlıyor
- ChatGPT 5.1 Thinking ve Opus 4.5 kullanılarak, 2015 Aralık ayındaki bir aylık Hacker News ön sayfası (toplam 930 içerik) toplanıp analiz edildi
- Her bir makale ve yorum dizisi temel alınarak özet, gerçekleşen sonuç, en doğru yorum ve en yanlış yorum ile ilgi puanı gibi çıktılar otomatik olarak üretiliyor
- Sonuçlar statik HTML sayfalarına dönüştürülerek karpathy.ai/hncapsule üzerinden görüntülenebiliyor; ‘Hall of Fame’ bölümünde ise en iç görülü yorumcu sıralaması görülebiliyor
- Geçmiş verilere yönelik LLM'nin büyük ölçekli retrospektif analiz potansiyeli ile “gelecekteki LLM'ler bizi izliyor” mesajı vurgulanıyor
Proje özeti
- 2015 Aralık ayındaki Hacker News ön sayfasını hedefleyerek LLM ile otomatik retrospektif analiz sistemi kuruldu
- Günlük 30 makale × 31 gün = toplam 930 makale
- Her bir makale ve yorum dizisi Algolia API ile toplandıktan sonra ChatGPT 5.1 Thinking'e analiz için iletildi
- Analiz sonuçları statik HTML sayfası olarak render edilip web sitesinde yayımlandı
- Sonuç sayfası: https://karpathy.ai/hncapsule/
- Ham veri (
data.zip) da aynı yolda sunuluyor
Analiz istemi yapısı
- Her makale için 6 bölümden oluşan bir istem kullanıldı
- Makale ve tartışma özeti
- Sonrasında gerçekten neler olduğu
- En doğru ve en hatalı yorumu seçme
- Diğer ilginç unsurlar
- Yorumculara göre Final grades (son notlar) listesi
- Makale retrospektif ilgi puanı (0~10)
- Örnek format katı şekilde tanımlandı; böylece programın otomatik olarak ayrıştırabilmesi sağlandı
- Her hesabın ortalama puanı birikecek şekilde toplanarak en öngörülü kullanıcılar belirlendi
Uygulama ve maliyet
- Opus 4.5 ile yaklaşık 3 saat içinde uygulandı; birkaç hatadan başka süreç sorunsuz ilerledi
- Toplam 930 LLM isteğinin işleme maliyeti yaklaşık $58, işleme süresi ise yaklaşık 1 saat oldu
- GitHub deposu: karpathy/hn-time-capsule
- Sonuçlar, isteyen herkes tarafından yeniden üretilebilir veya değiştirilebilir
Ana örnek diziler
- 3 Aralık 2015: Swift'in açık kaynak olması
- 6 Aralık 2015: Figma'nın lansmanı
- 11 Aralık 2015: OpenAI'nin kuruluş duyurusu
- 16 Aralık 2015: geohot'un Comma projesi
- 22 Aralık 2015: SpaceX Orbcomm-2 fırlatması
- 28 Aralık 2015: Theranos sorunları raporu
- Her bağlantı ilgili tarihin analiz sayfasına giderek o dönemin tartışmalarıyla gerçek sonuçların karşılaştırılmasını sağlıyor
Hall of Fame
- 2015 Aralık Hacker News'ında en iç görülü yorumcular, IMDb tarzı ortalama puanla sıralandı
- Üst kullanıcılar: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
- Alt bölümde ayrıca ‘HN gürültüsü’ olarak sınıflandırılan düşük puanlı kullanıcı listesi de yer alıyor
Felsefi mesaj
- “Be good, future LLMs are watching” ifadesi alıntılanıyor ve
gelecekteki LLM'lerin geçmişteki insan faaliyetlerini ince ayrıntısıyla analiz edebileceği bir çağın geleceği vurgulanıyor - Mevcut çevrimiçi davranışların, ‘zekânın çok ucuzlaştığı’ bir gelecekte tamamen yeniden üretilebileceği ima ediliyor
- İnsan eylemlerinin, ‘görünmez gözetim’in değil, tamamen kayıt ve yeniden inşa edilebilir bir hedef haline gelme olasılığı öne sürülüyor
Sonuç
- Bu deney, LLM'nin geçmiş verileri büyük ölçekte yeniden değerlendiren bir araç olarak kullanılabileceğini gösteriyor
- Tarihi tartışmaların iç görüsünü otomatik olarak puanlama adına yeni bir uygulama örneği sunarak,
yapay zekanın insan bilgisinin retrospektif analisti olarak evrimleşme potansiyelini ortaya koyuyor
1 yorum
Hacker News görüşleri
2015’te bıraktığım yorumun böyle yeniden dikkat çekeceğini hiç düşünmezdim
Eski yorum bağlantısına bakarken biraz gurur duyuyorum
Kodun, değerlendirme için thread gönderirken kullanıcı adlarını anonimleştirmemesi sorunlu görünüyor
Bu yüzden belirli kullanıcıların itibarı puanlara önyargı katabilir
Kullanıcı adlarını rastgele yeniden atamak ya da prosedürel olarak üretilmiş takma adlar kullanarak önyargıyı azaltmaya yönelik deneyler ilginç olabilir
Ayrıca Gemini API gibi kaynak alıntılayan modeller kullanmak, değerlendirmenin güvenilirliğini artırabilir gibi görünüyor
Eski yorumları tekrar okumak gerçekten çok eğlenceli
Eskiden tartışmaların nasıl geliştiğini görmek için bizzat bir replay sistemi yaptım
Karpathy’nin değerlendirme yazıları listesini görselleştiren birkaç bağlantı paylaşıyorum
Sabah ve akşam görüşleri arasında epey fark var gibi görünüyor; bunu sayısal olarak doğrulamak ilginç olabilir
Her kullanıcı adının yanında gerçeklikle ne kadar örtüştüğünü gösteren bir puan veren bir Chrome eklentisi olsa güzel olurdu
Kimin gerçekten isabetli öngörüler yaptığını, kimin yapamadığını puanla görmek olurdu bu
Hatta kullanıcıları, doğru yorumlara verdikleri upvote oranına göre ağırlıklandırmak daha adil bir sıralama sağlayabilir
Sık upvote verdiğim kullanıcıları takip ederek, “bu kişi güvenilir” gibi bir ölçü oluşturuyorum
Tamamen öznel ama şeffaflığı var
Böyle sistemler topluluğu daha küçük ve daha samimi hale de getirebilir
Aslında hepimiz de arkadaşlarımızın ya da gazetecilerin güvenilirliğini aklımızda tutarak yaşıyoruz
WSB ya da Twitter’da hisse tahmini yapan kişilerin isabet oranlarını sıralamak gibi
Ama genel yorumlarda, “neyin tahmin olduğu”nu tanımlamak çok daha zor
“Yarın güneş doğacak” gibi bir şey en yüksek puanı alabilir ama bunun pek anlamı yok
“pcwalton, gidiyor!” diye şaka yaptım ama, gerçekte thread bazlı değerlendirme biraz rastgele görünüyor
Bu thread öngörü açısından çok güçlüydü ama sadece 11 yorumu vardı ve benimki tek satırlıktı
Yine de startup hisselerine erişilebilirlik konusundaki görüşümün üst sıralara çıkması hoşuma gitti
Sistemin “tahmin”i tanımlama biçimi oldukça öznel
Ben aslında tahminden kaçınmaya çalışıyordum ama sanırım bu bir tahmin olarak değerlendirilmiş
“Trilyon Tamagotchi” vizyonunun gerçekleşmediği yönünde değerlendirilince, düşük puanımı alçakgönüllülükle kabul ediyorum
Bu projeye bakınca bende kalan izlenim şu oldu: sonuçta en sıkıcı görüşler en doğru olanlar
Kışkırtıcı ve kendinden emin yorumlar, zaman geçtikçe yanlış çıkmaya daha yatkın
Örneğin “lityum-iyon pil fiyatı $108/kWh seviyesine düştü” gibi bir ifade, istikrarlı bir maliyet eğrisi tahmini olarak oldukça güvenilir
Buna karşılık “LLM’ler ruh sağlığı alanında başarısız oldu” gibi bir başlık, hızla değişen benchmark’lara dayanıyor
Sonuçta “sıkıcı ama doğru” görüşleri önceden bulmanın bir yolu olsa keşke
Ama yapay zekanın istikrarlı ilerleyişi eninde sonunda insanların ekonomik rolünü aşındırabilir; bu açıdan ürkütücü derecede doğru bir öngörü de olabilir
Bu yüzden sıkıcı ama temkinli görüşler kolayca görünmez hale geliyor
Tahmin piyasalarında olduğu gibi, o anki olasılığa göre ne kadar fark yaratıldığını puanlayan bir yöntem gerekli
Gmail’imde %90 doluluk uyarısı alınca, hafta sonu bir e-posta analiz projesi yaptım
65 binden fazla e-postayı sınıflandırdım ve yarısından fazlası çöptü
Başta gereksiz mailleri silmek istiyordum ama son zamanlarda tam tersine, kişisel ve değerli e-postaları silip
Google’da sadece bültenler ya da fişler gibi işe yaramaz verileri bırakmanın daha güvenli olduğunu düşünmeye başladım
Ben sık sık HN yorumlarını LLM’lerle özetliyorum
Çoğu zaman ortaya çıkan daha içgörülü özetler, orijinal metinden daha iyi oluyor; bence bu tam bir game changer
Yazarın bunun kalite kontrolünü geçtiğini düşünmesine şaşırdım
LLM’nin değerlendirmeleri büyük ölçüde saçma sapan görünüyor
Sitenin asıl incelemelerine bakınca, model sanki “tahmin doğru çıktı mı?” yerine “buna katılıyor muyum?” diye puanlamış gibi
Sonuçta uyumlu görüşler yüksek puan alıyor
LLM incelemesi
bunun için “oyunun sert doğasını iyi tasvir etmiş” diyor
Oysa bu, geleceğe dair bir öngörü değil; sadece o zamanki mevcut durumu tarif ediyor
Üstelik gerçekte tam tersini ifade ediyor da olabilir
Böyle örneklerin üst sıralarda yer alması, değerlendirme ölçütünün ne kadar dağınık olduğunu gösteriyor
Örneğin Kickstarter is Debt yazısında,
Oculus ile Pebble’ın geleceğini karşılaştıran bir tahminin tam isabet ettiği söyleniyor
Bu tür kısımlar oldukça doğru ve faydalı analizler gibi görünüyor
Talimatları görmezden geliyor, kendi görüşünü araya katıyor ve kalibrasyonu da yok
“İyi” bir LLM değerlendirme sistemi, birden fazla basit ikili kararın (doğru/yanlış) toplamı gibi çalışmalı
Bu proje eğlencelik olarak fena değil ama gerçek bir değerlendirme aracı olarak uygun değil diye düşünüyorum