5 puan yazan GN⁺ 2026-01-13 | 1 yorum | WhatsApp'ta paylaş
  • TimeCapsuleLLM, yalnızca belirli bir döneme (1800~1875) ait materyallerle eğitilmiş bir büyük dil modeli (LLM) olup, modern önyargıları en aza indirmeyi ve o dönemin dilini ile dünya görüşünü yeniden üretmeyi amaçlıyor
  • Model, Londra bölgesine ait tarihsel belgeler, kitaplar, gazeteler ve hukuk belgelerinden oluşan bir veri kümesini kullanarak döneme özgü dil stili ve sözcük dağarcığını yansıtıyor
  • İlk sürümler nanoGPT, sonraki sürümler ise Microsoft Phi 1.5 tabanlı olarak inşa edildi; veri ölçeği en fazla 90GB, model parametreleri ise en fazla 700M
  • Selective Temporal Training(STT) yöntemiyle yalnızca belirli bir dönemin verileri seçilerek eğitildi ve modern kavramların modele girmemesi hedeflendi
  • Tarihsel dil modeli araştırmaları ile dönemsel yapay zeka dil yeniden üretimi olasılığını gösteren deneysel bir proje

Proje özeti

  • TimeCapsuleLLM, yalnızca belirli bir zaman ve mekâna ait verilerle eğitilmiş bir dil modeli olarak, modern önyargıları azaltmayı ve ilgili dönemin sözcük dağarcığı, üslubu ve dünya görüşünü yeniden üretmeyi hedefliyor
    • “Yapay zekanın yalnızca tarihî kişileri taklit etmesi değil, gerçekten o dönemin dilini kullanan bir model olması” fikrini ortaya koyuyor
  • İlk sürümler (v0, v0.5) Andrej Karpathy'nin nanoGPT projesi temel alınarak, v1 ise Microsoft Phi 1.5 tabanlı olarak geliştirildi
  • Model Hugging Face üzerinde yayımlanmış durumda

Sürümlere göre model özellikleri

  • v0
    • Yaklaşık 187MB veriyle eğitildi
    • 1800'ler söz varlığını kullanıyor ancak cümleler çoğunlukla bozuk yapıda
    • Hiçbir modern kavram görünmüyor
  • v0.5
    • Dil bilgisi ve noktalama iyileştirilerek Viktorya dönemi üslubu yeniden üretildi
    • Olgusal hata oranı yüksek ve OCR gürültüsü içeriyor (ör. “Digitized by Google”)
  • v1
    • Gerçek tarihî olaylar ile kişileri ilişkilendiren yanıtlar üretiyor
    • Örnek: “It was the year of our Lord 1834” istemine karşılık Londra'daki protestolar ve dilekçelerden söz eden bir cümle üretiyor
  • v2mini-eval1 / eval2
    • 90GB içinden alınan 15GB örnekle 10K adım eğitim yapıldı
    • Tokenizer sorunu nedeniyle kelimeler bölünmüş biçimde çıktı, ancak düzeltmeden sonra cümle yapısı korundu
    • “Charles Dickens”, “Charles Darwin” gibi istemlere karşılık 19. yüzyıl tarzı anlatımlar üretti

Veri kümesinin yapısı

  • v2 veri kümesi
    • 1800~1875 dönemine ait Londra metinlerinden 90GB, toplam 136,344 belge
    • Tüm tokenization işlemi henüz tamamlanmadı; 15GB örnek Hugging Face'te yayımlandı
  • Veri kaynakları arasında public domain kitaplar, gazeteler, hukuk belgeleri vb. bulunuyor
  • Sürümlere göre veri boyutu
    • v0: 187MB
    • v0.5: 435MB
    • v1: 6.25GB
    • v2mini-eval1: 15GB

Selective Temporal Training(STT)

  • STT, yalnızca belirli bir tarihsel döneme ait veriler kullanılarak eğitim yapılması yöntemidir
    • Modern kavramların etkisini dışlayıp yalnızca ilgili dönemin bilgisi ve dilini yansıtmayı amaçlar
    • TimeCapsuleLLM v0.5, 1800~1875 verileriyle sıfırdan (from scratch) eğitildi
  • Mevcut bir modeli fine-tuning yapmak yerine, tamamen yeniden eğitilerek modern bilginin kalıntıları ortadan kaldırılmaya çalışıldı

Model boyutu ve eğitim ortamı

  • Model parametre sayısı
    • v0: 16M
    • v0.5: 123M
    • v1: 700M
    • v2mini-eval1: 300M
  • Eğitim donanımı
    • v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
    • v1, v2mini-eval1: kiralık A100 SXM GPU kullanıldı

Kullanım yöntemi

  • Proje, tarihsel veri toplama, temizleme ve tokenizer oluşturma süreçlerine odaklanıyor
  • Adım adım süreç
    1. Tarihsel metin toplama: public domain belgeler, kitaplar vb. kaynaklardan döneme ait metinlerin toplanması
    2. Tokenizer oluşturma: train_tokenizer.py çalıştırılarak vocab.json ve merges.txt dosyalarının üretilmesi
    3. Model eğitimi: nanoGPT veya seçilen mimarinin belgelerine başvurulması

Önyargı analizi

  • v2mini-eval1 sonuçları için zamir, coğrafi ve zamansal önyargı görselleştirmeleri sunuluyor
  • Ayrıntılı istatistikler v2_bias_report.json dosyasında görülebilir

Lisans ve yayımlanma bilgileri

  • MIT License ile yayımlandı
  • GitHub'da 1.2k Stars, 41 Forks kaydedildi
  • Başlıca dil Python 100%
  • En güncel sürüm: v2mini-eval2 — London (1800–1875)

1 yorum

 
GN⁺ 2026-01-13
Hacker News görüşleri
  • 1900 yılını sınır alıp son teknoloji bir modeli eğitmenin ve ona kuantum mekaniği (QM) ile görelilik hakkında sorular sormanın nasıl olacağını düşündüm
    Eğer model az da olsa doğru yanıtlar verebilirse, bu LLM'lerin daha büyük bir zekâya giden yolda olduğuna dair güçlü bir kanıt olurdu

    • O dönemde bile QM ve göreliliğe yakın kavramlar zaten vardı
      Michelson-Morley deneyi (1887), Lorentz dönüşümleri (1889), fotoelektrik etki (1887) buna örnek
      William Clifford 1889'da öldü ama uzayın eğriliği ile kuvvet ve maddeyi açıklama fikrini öne sürmüştü
      Bilim bir anda ortaya çıkmaz; dönemin makaleleri bir araya getirilirse bu tür teoriler doğal biçimde ortaya çıkabilirdi
    • 1904 öncesi Almanca bilim literatürünü merkeze alan bir model eğitme projesi yürütüyorum
      OCR kalitesi kötü olduğu için çoğunu elle işlemem gerekiyor ama 700M parametreli bir model evde de mümkün
      Yine de gerçek muhakeme gücü için 70B sınıfı bir model gerekiyor
      Ayrıca fine-tuning ve RL sürecine 2026 bilgisinin karışmamasını sağlamak büyük bir mesele
    • Kimya alanı da ilginç bir deney konusu
      19. yüzyılın sonları kimyanın altın çağıydı ve LLM'in termodinamik tahminler ya da yeni hipotezler üretip üretemeyeceğini merak ediyorum
    • Benzer bir deneme yapan bir proje zaten var: history-llms
      İlgili tartışma HN başlığında görülebilir
    • Li ve arkadaşlarının 2024 tarihli "Evaluating Large Language Models for Generalization and Robustness via Data Compression" makalesine de bakmaya değer
      Veri sıkıştırma oranı (perplexity) üzerinden modelin genelleme ve sağlamlığını ölçen yaklaşım oldukça etkileyici
  • “Who art Henry” ifadesini 19. yüzyıl İngilizcesi sanmak, tarihsel dil sezgisinin eksikliğine örnek gibi görünüyor
    Aslında hiçbir dönemde dilbilgisel olarak doğru değil

    • 17.-19. yüzyıl Hristiyanlık metinlerini çok okumuş biri olarak, o ifadenin tuhaf geldiğine katılıyorum
    • Eğer prompt “Who art Henry” ise, gerçekten 19. yüzyıla uygun ifadenin ne olması gerektiğini merak ediyorum
  • Bu deneyin AGI olasılığını gösteren bir test olup olamayacağı ilginç
    Soru şu: modele yalnızca belli bir yılın (X) öncesindeki veriler verildiğinde, daha sonraki bir keşfi (Y) kendi başına türetebilir mi?

    • Önce AGI tanımını netleştirmek gerekiyor
      Bazı keşifler mevcut fikirlerin birleşimiyle mümkün olabilir ama görelilik ya da kuantum mekaniği için deneyler zorunluydu
      Örneğin o döneme ait bir model matematiksel olarak genel göreliliği geliştirebilse bile, Merkür'ün günberi kaymasını Vulcan gezegenine bağlaması daha olasıydı (Vulcan Vikipedi)
    • Veri sızıntısını tamamen engellemek neredeyse imkânsız
      Yanlış sınıflandırılmış belgeler, açıklamalar ve metadata gibi unsurlar yüzünden bilginin içeri sızma riski büyük
    • Temelde yalnızca eski verilerle SoTA bir model eğitmek için veri miktarı yetersiz
    • Bu deneyin gerçekten mümkün olması için GPT-5 düzeyinde bir model gerekir
      Çok büyük metin kümeleri, devasa parametreler ve 19. yüzyıla uygun bir RLHF süreci gerektirir
    • Böyle bir deney, LLM'in yaratıcı düşünce üretip üretmediğini, yoksa sadece tekrar mı ettiğini anlamak için gerçek bir sınav olur
  • 1800~1875 verisiyle eğitilmiş bir model ile 1800~2025 verisiyle eğitilmiş bir modeli karşılaştırıp
    iki olasılık dağılımı arasındaki farkı kullanarak 2040 tahmini yapma fikri öne sürülüyor
    Pratikte doğru tahmin zor olabilir ama olasılık dağılımı enterpolasyonu/ekstrapolasyonu deneyi olarak eğlenceli olabilir

    • Hatta bunun kulağa sadece Gen Alpha kuşağı argosu gibi gelebileceğine dair bir şaka da yapılıyor
  • İlginç bir kavram ama dönemin kayıtlı verileri bilgi elitleri merkezli bir önyargı taşıyor
    Bugünkü gibi herkesin kayıt bıraktığı bir çağ değildi
    Modern modeller onlarca TB metinle eğitilirken, 19. yüzyıl verileri hem çok daha az hem de çeşitlilik açısından daha zayıf
    Bu yüzden “1834'te ne oldu?” gibi bir soruya gazete haberi üslubunda cevap vermesi doğal bir sonuç

    • Yine de bu tür tutarlı önyargı belki de bir avantaj olabilir
      Bugünün LLM'leri çok fazla insanın düşüncesini karıştırdığı için bazen gürültülü çıktılar üretiyor
      Belirli bir dönemin tutarlı bakış açısıyla eğitilmiş bir model, öngörülebilir bir yanıt üslubuna sahip olabilir
    • Yapay kısıtlarla görünür hale gelen önyargılar, güncel modellerdeki gizli önyargıları ortaya çıkarmaya da yardımcı olabilir
    • Modern modeller İngilizce merkezli, Batılı ve 1990'lar sonrası bakış açısına eğilimli
      Üstelik alignment sürecinde sağlayıcının değerleri de yansıyor
      Buna karşılık geçmiş veri tabanlı bir model, dönemin önyargılarını “kazara” yansıtmış oluyor
  • En azından böyle bir model emoji selini engelleyebilir gibi görünüyor
    Ama tokenization'ın nasıl değişeceğini merak ediyorum
    Kodlama bilgisi olmazdı ama modern bir LLM ile birleştirilirse 19. yüzyıl tarzında kod açıklamaları üretebilir belki
    Eski style transfer modellerinde olduğu gibi katmanları karıştırmaya benzer bir yöntem mümkün mü diye düşünüyorum

    • “İki modeli birbirleriyle konuşturmak yeterli olmaz mı?” önerisi de geliyor
  • Yalnızca bilgi çağı öncesi belgelerle bir model eğitip, sonra o modele ‘bilgisayar nedir’ öğretmeye çalışmak sevimli geliyor
    Ama şu anki çıktı ChatGPT'den çok Markov chain düzeyine daha yakın

  • HN'de yakın zamanda paylaşılan başka bir “zaman kilitli LLM projesini” hatırlatıyor
    Ortaya çıkan sonuçlar şıktı ama kötüye kullanım ve yanlış anlamaları nasıl önleyeceklerini düşündüklerini söylüyorlardı
    Ayrıntı için ilgili başlığa bakılabilir

  • Eğer bu model tutarlı çıktı verebilirse, LLM eğitimi için telifli materyalin zorunlu olduğu iddiasını çürütebilir
    Ancak şimdilik o seviyede görünmüyor

    • Bu arada yalnızca açık verilerle de epey iyi model yapılabildiğine dair örnekler var
      The Common Pile v0.1, 8TB açık metinle 7B parametreli bir model kurdu
  • Ben de benzer bir deney yaptım: transformer projesi
    İncil, Don Kişot, Kafka gibi farklı metinlerle ayrı ayrı modeller eğittim
    (Şarkı sözü üretici ve çeviri aracı da vardı ama kalite pek iyi değildi)