10 yıl önceki Hacker News tartışmalarını LLM ile otomatik puanlama

(karpathy.bearblog.dev)

4 puan yazan GN⁺ 2025-12-11 | 1 yorum | WhatsApp'ta paylaş

10 yıl önceki Hacker News gönderi ve yorumlarını LLM ile analiz ederek ‘öngörü gücünü’ değerlendiren bir proje olarak, geçmiş tartışmaların iç görüsünü otomatik olarak puanlıyor
ChatGPT 5.1 Thinking ve Opus 4.5 kullanılarak, 2015 Aralık ayındaki bir aylık Hacker News ön sayfası (toplam 930 içerik) toplanıp analiz edildi
Her bir makale ve yorum dizisi temel alınarak özet, gerçekleşen sonuç, en doğru yorum ve en yanlış yorum ile ilgi puanı gibi çıktılar otomatik olarak üretiliyor
Sonuçlar statik HTML sayfalarına dönüştürülerek karpathy.ai/hncapsule üzerinden görüntülenebiliyor; ‘Hall of Fame’ bölümünde ise en iç görülü yorumcu sıralaması görülebiliyor
Geçmiş verilere yönelik LLM'nin büyük ölçekli retrospektif analiz potansiyeli ile “gelecekteki LLM'ler bizi izliyor” mesajı vurgulanıyor

Proje özeti

2015 Aralık ayındaki Hacker News ön sayfasını hedefleyerek LLM ile otomatik retrospektif analiz sistemi kuruldu
- Günlük 30 makale × 31 gün = toplam 930 makale
- Her bir makale ve yorum dizisi Algolia API ile toplandıktan sonra ChatGPT 5.1 Thinking'e analiz için iletildi
Analiz sonuçları statik HTML sayfası olarak render edilip web sitesinde yayımlandı
- Sonuç sayfası: https://karpathy.ai/hncapsule/
- Ham veri (data.zip) da aynı yolda sunuluyor

Analiz istemi yapısı

Her makale için 6 bölümden oluşan bir istem kullanıldı
1. Makale ve tartışma özeti
2. Sonrasında gerçekten neler olduğu
3. En doğru ve en hatalı yorumu seçme
4. Diğer ilginç unsurlar
5. Yorumculara göre Final grades (son notlar) listesi
6. Makale retrospektif ilgi puanı (0~10)
Örnek format katı şekilde tanımlandı; böylece programın otomatik olarak ayrıştırabilmesi sağlandı
Her hesabın ortalama puanı birikecek şekilde toplanarak en öngörülü kullanıcılar belirlendi

Uygulama ve maliyet

Opus 4.5 ile yaklaşık 3 saat içinde uygulandı; birkaç hatadan başka süreç sorunsuz ilerledi
Toplam 930 LLM isteğinin işleme maliyeti yaklaşık $58, işleme süresi ise yaklaşık 1 saat oldu
GitHub deposu: karpathy/hn-time-capsule
- Sonuçlar, isteyen herkes tarafından yeniden üretilebilir veya değiştirilebilir

Ana örnek diziler

3 Aralık 2015: Swift'in açık kaynak olması
6 Aralık 2015: Figma'nın lansmanı
11 Aralık 2015: OpenAI'nin kuruluş duyurusu
16 Aralık 2015: geohot'un Comma projesi
22 Aralık 2015: SpaceX Orbcomm-2 fırlatması
28 Aralık 2015: Theranos sorunları raporu
Her bağlantı ilgili tarihin analiz sayfasına giderek o dönemin tartışmalarıyla gerçek sonuçların karşılaştırılmasını sağlıyor

Hall of Fame

2015 Aralık Hacker News'ında en iç görülü yorumcular, IMDb tarzı ortalama puanla sıralandı
Üst kullanıcılar: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
Alt bölümde ayrıca ‘HN gürültüsü’ olarak sınıflandırılan düşük puanlı kullanıcı listesi de yer alıyor

Felsefi mesaj

“Be good, future LLMs are watching” ifadesi alıntılanıyor ve
gelecekteki LLM'lerin geçmişteki insan faaliyetlerini ince ayrıntısıyla analiz edebileceği bir çağın geleceği vurgulanıyor
Mevcut çevrimiçi davranışların, ‘zekânın çok ucuzlaştığı’ bir gelecekte tamamen yeniden üretilebileceği ima ediliyor
İnsan eylemlerinin, ‘görünmez gözetim’in değil, tamamen kayıt ve yeniden inşa edilebilir bir hedef haline gelme olasılığı öne sürülüyor

Sonuç

Bu deney, LLM'nin geçmiş verileri büyük ölçekte yeniden değerlendiren bir araç olarak kullanılabileceğini gösteriyor
Tarihi tartışmaların iç görüsünü otomatik olarak puanlama adına yeni bir uygulama örneği sunarak,
yapay zekanın insan bilgisinin retrospektif analisti olarak evrimleşme potansiyelini ortaya koyuyor

1 yorum

GN⁺ 2025-12-11

Hacker News görüşleri

2015’te bıraktığım yorumun böyle yeniden dikkat çekeceğini hiç düşünmezdim
Eski yorum bağlantısına bakarken biraz gurur duyuyorum
Kodun, değerlendirme için thread gönderirken kullanıcı adlarını anonimleştirmemesi sorunlu görünüyor
Bu yüzden belirli kullanıcıların itibarı puanlara önyargı katabilir
Kullanıcı adlarını rastgele yeniden atamak ya da prosedürel olarak üretilmiş takma adlar kullanarak önyargıyı azaltmaya yönelik deneyler ilginç olabilir
Ayrıca Gemini API gibi kaynak alıntılayan modeller kullanmak, değerlendirmenin güvenilirliğini artırabilir gibi görünüyor
Eski yorumları tekrar okumak gerçekten çok eğlenceli
Eskiden tartışmaların nasıl geliştiğini görmek için bizzat bir replay sistemi yaptım
Karpathy’nin değerlendirme yazıları listesini görselleştiren birkaç bağlantı paylaşıyorum
- Swift is Open Source
- Launch of Figma
- Introducing OpenAI
- Self-driving car by iPhone hacker
- SpaceX Orbcomm-2 Mission
- At Theranos, Many Strategies and Snags
- Günün farklı saatlerine göre duygu analizi de yapmak istiyorum
  Sabah ve akşam görüşleri arasında epey fark var gibi görünüyor; bunu sayısal olarak doğrulamak ilginç olabilir
- Site gerçekten çok eğlenceli. Teşekkürler
Her kullanıcı adının yanında gerçeklikle ne kadar örtüştüğünü gösteren bir puan veren bir Chrome eklentisi olsa güzel olurdu
Kimin gerçekten isabetli öngörüler yaptığını, kimin yapamadığını puanla görmek olurdu bu
Hatta kullanıcıları, doğru yorumlara verdikleri upvote oranına göre ağırlıklandırmak daha adil bir sıralama sağlayabilir
- Reddit Enhancement Suite buna benzer bir işlevi dolaylı olarak sunuyor
  Sık upvote verdiğim kullanıcıları takip ederek, “bu kişi güvenilir” gibi bir ölçü oluşturuyorum
  Tamamen öznel ama şeffaflığı var
- Bu tür bir puan sistemini genişletirseniz, “bu kişinin ahlaki inancı yok” gibi puanlar da üretilebilir
  Böyle sistemler topluluğu daha küçük ve daha samimi hale de getirebilir
- Elon Twitter’ı satın almadan önce, gazeteciler için bir dijital güvenilirlik takip sistemi (Pravda) kurmak istemişti; bu aklıma geldi
  Aslında hepimiz de arkadaşlarımızın ya da gazetecilerin güvenilirliğini aklımızda tutarak yaşıyoruz
- Benzer bir fikri hisse toplulukları için de düşünmüştüm
  WSB ya da Twitter’da hisse tahmini yapan kişilerin isabet oranlarını sıralamak gibi
  Ama genel yorumlarda, “neyin tahmin olduğu”nu tanımlamak çok daha zor
- “Doğru yorum”un tanımı da belirsiz
  “Yarın güneş doğacak” gibi bir şey en yüksek puanı alabilir ama bunun pek anlamı yok
“pcwalton, gidiyor!” diye şaka yaptım ama, gerçekte thread bazlı değerlendirme biraz rastgele görünüyor
Bu thread öngörü açısından çok güçlüydü ama sadece 11 yorumu vardı ve benimki tek satırlıktı
Yine de startup hisselerine erişilebilirlik konusundaki görüşümün üst sıralara çıkması hoşuma gitti
- Yorumumun değerlendirilmiş olduğunu görünce şaşırdım
  Sistemin “tahmin”i tanımlama biçimi oldukça öznel
  Ben aslında tahminden kaçınmaya çalışıyordum ama sanırım bu bir tahmin olarak değerlendirilmiş
“Trilyon Tamagotchi” vizyonunun gerçekleşmediği yönünde değerlendirilince, düşük puanımı alçakgönüllülükle kabul ediyorum
Bu projeye bakınca bende kalan izlenim şu oldu: sonuçta en sıkıcı görüşler en doğru olanlar
Kışkırtıcı ve kendinden emin yorumlar, zaman geçtikçe yanlış çıkmaya daha yatkın
Örneğin “lityum-iyon pil fiyatı $108/kWh seviyesine düştü” gibi bir ifade, istikrarlı bir maliyet eğrisi tahmini olarak oldukça güvenilir
Buna karşılık “LLM’ler ruh sağlığı alanında başarısız oldu” gibi bir başlık, hızla değişen benchmark’lara dayanıyor
Sonuçta “sıkıcı ama doğru” görüşleri önceden bulmanın bir yolu olsa keşke
- Bir görüşe göre “sıkıcı ama doğru” olan şeyler zaten dünyaya yansımış tahminler olduğu için puanlamak zor
- “2035’te 1+1=2” gibi bir şakayla, fazla bariz tahminlerin anlamsızlığı tiye alınıyor
- “LLM ve ruh sağlığı” bir tahmin değil, güncel bir haber
  Ama yapay zekanın istikrarlı ilerleyişi eninde sonunda insanların ekonomik rolünü aşındırabilir; bu açıdan ürkütücü derecede doğru bir öngörü de olabilir
- Algoritmik feed’ler etkileşim temelli çalıştığı için, kışkırtıcı içerikler ödüllendiriliyor
  Bu yüzden sıkıcı ama temkinli görüşler kolayca görünmez hale geliyor
- Tahminleri değerlendirirken o zamanki belirsizlik de ağırlığa katılmalı
  Tahmin piyasalarında olduğu gibi, o anki olasılığa göre ne kadar fark yaratıldığını puanlayan bir yöntem gerekli
Gmail’imde %90 doluluk uyarısı alınca, hafta sonu bir e-posta analiz projesi yaptım
65 binden fazla e-postayı sınıflandırdım ve yarısından fazlası çöptü
Başta gereksiz mailleri silmek istiyordum ama son zamanlarda tam tersine, kişisel ve değerli e-postaları silip
Google’da sadece bültenler ya da fişler gibi işe yaramaz verileri bırakmanın daha güvenli olduğunu düşünmeye başladım
Ben sık sık HN yorumlarını LLM’lerle özetliyorum
Çoğu zaman ortaya çıkan daha içgörülü özetler, orijinal metinden daha iyi oluyor; bence bu tam bir game changer
Yazarın bunun kalite kontrolünü geçtiğini düşünmesine şaşırdım
LLM’nin değerlendirmeleri büyük ölçüde saçma sapan görünüyor
Sitenin asıl incelemelerine bakınca, model sanki “tahmin doğru çıktı mı?” yerine “buna katılıyor muyum?” diye puanlamış gibi
Sonuçta uyumlu görüşler yüksek puan alıyor
- Örnek olarak tptacek’in DF hakkındaki yorumu ‘A’ almış ama
  LLM incelemesi
  bunun için “oyunun sert doğasını iyi tasvir etmiş” diyor
  Oysa bu, geleceğe dair bir öngörü değil; sadece o zamanki mevcut durumu tarif ediyor
  Üstelik gerçekte tam tersini ifade ediyor da olabilir
  Böyle örneklerin üst sıralarda yer alması, değerlendirme ölçütünün ne kadar dağınık olduğunu gösteriyor
- Ama her incelemenin üçüncü bölümünde ayrıca “en içgörülü” ve “en yanlış” yorumlar da var
  Örneğin Kickstarter is Debt yazısında,
  Oculus ile Pebble’ın geleceğini karşılaştıran bir tahminin tam isabet ettiği söyleniyor
  Bu tür kısımlar oldukça doğru ve faydalı analizler gibi görünüyor
- LLM değerlendirmeleri genel olarak isabetsiz ve tutarsız
  Talimatları görmezden geliyor, kendi görüşünü araya katıyor ve kalibrasyonu da yok
  “İyi” bir LLM değerlendirme sistemi, birden fazla basit ikili kararın (doğru/yanlış) toplamı gibi çalışmalı
  Bu proje eğlencelik olarak fena değil ama gerçek bir değerlendirme aracı olarak uygun değil diye düşünüyorum

10 yıl önceki Hacker News tartışmalarını LLM ile otomatik puanlama

Proje özeti

Analiz istemi yapısı

Uygulama ve maliyet

Ana örnek diziler

Hall of Fame

Felsefi mesaj

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri