TimeCapsuleLLM: Yalnızca 1800~1875 verileriyle eğitilmiş büyük dil modeli

(github.com/haykgrigo3)

5 puan yazan GN⁺ 2026-01-13 | 1 yorum | WhatsApp'ta paylaş

TimeCapsuleLLM, yalnızca belirli bir döneme (1800~1875) ait materyallerle eğitilmiş bir büyük dil modeli (LLM) olup, modern önyargıları en aza indirmeyi ve o dönemin dilini ile dünya görüşünü yeniden üretmeyi amaçlıyor
Model, Londra bölgesine ait tarihsel belgeler, kitaplar, gazeteler ve hukuk belgelerinden oluşan bir veri kümesini kullanarak döneme özgü dil stili ve sözcük dağarcığını yansıtıyor
İlk sürümler nanoGPT, sonraki sürümler ise Microsoft Phi 1.5 tabanlı olarak inşa edildi; veri ölçeği en fazla 90GB, model parametreleri ise en fazla 700M
Selective Temporal Training(STT) yöntemiyle yalnızca belirli bir dönemin verileri seçilerek eğitildi ve modern kavramların modele girmemesi hedeflendi
Tarihsel dil modeli araştırmaları ile dönemsel yapay zeka dil yeniden üretimi olasılığını gösteren deneysel bir proje

Proje özeti

TimeCapsuleLLM, yalnızca belirli bir zaman ve mekâna ait verilerle eğitilmiş bir dil modeli olarak, modern önyargıları azaltmayı ve ilgili dönemin sözcük dağarcığı, üslubu ve dünya görüşünü yeniden üretmeyi hedefliyor
- “Yapay zekanın yalnızca tarihî kişileri taklit etmesi değil, gerçekten o dönemin dilini kullanan bir model olması” fikrini ortaya koyuyor
İlk sürümler (v0, v0.5) Andrej Karpathy'nin nanoGPT projesi temel alınarak, v1 ise Microsoft Phi 1.5 tabanlı olarak geliştirildi
Model Hugging Face üzerinde yayımlanmış durumda

Sürümlere göre model özellikleri

v0
- Yaklaşık 187MB veriyle eğitildi
- 1800'ler söz varlığını kullanıyor ancak cümleler çoğunlukla bozuk yapıda
- Hiçbir modern kavram görünmüyor
v0.5
- Dil bilgisi ve noktalama iyileştirilerek Viktorya dönemi üslubu yeniden üretildi
- Olgusal hata oranı yüksek ve OCR gürültüsü içeriyor (ör. “Digitized by Google”)
v1
- Gerçek tarihî olaylar ile kişileri ilişkilendiren yanıtlar üretiyor
- Örnek: “It was the year of our Lord 1834” istemine karşılık Londra'daki protestolar ve dilekçelerden söz eden bir cümle üretiyor
v2mini-eval1 / eval2
- 90GB içinden alınan 15GB örnekle 10K adım eğitim yapıldı
- Tokenizer sorunu nedeniyle kelimeler bölünmüş biçimde çıktı, ancak düzeltmeden sonra cümle yapısı korundu
- “Charles Dickens”, “Charles Darwin” gibi istemlere karşılık 19. yüzyıl tarzı anlatımlar üretti

Veri kümesinin yapısı

v2 veri kümesi
- 1800~1875 dönemine ait Londra metinlerinden 90GB, toplam 136,344 belge
- Tüm tokenization işlemi henüz tamamlanmadı; 15GB örnek Hugging Face'te yayımlandı
Veri kaynakları arasında public domain kitaplar, gazeteler, hukuk belgeleri vb. bulunuyor
Sürümlere göre veri boyutu
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB

Selective Temporal Training(STT)

STT, yalnızca belirli bir tarihsel döneme ait veriler kullanılarak eğitim yapılması yöntemidir
- Modern kavramların etkisini dışlayıp yalnızca ilgili dönemin bilgisi ve dilini yansıtmayı amaçlar
- TimeCapsuleLLM v0.5, 1800~1875 verileriyle sıfırdan (from scratch) eğitildi
Mevcut bir modeli fine-tuning yapmak yerine, tamamen yeniden eğitilerek modern bilginin kalıntıları ortadan kaldırılmaya çalışıldı

Model boyutu ve eğitim ortamı

Model parametre sayısı
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
Eğitim donanımı
- v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
- v1, v2mini-eval1: kiralık A100 SXM GPU kullanıldı

Kullanım yöntemi

Proje, tarihsel veri toplama, temizleme ve tokenizer oluşturma süreçlerine odaklanıyor
Adım adım süreç
1. Tarihsel metin toplama: public domain belgeler, kitaplar vb. kaynaklardan döneme ait metinlerin toplanması
2. Tokenizer oluşturma: train_tokenizer.py çalıştırılarak vocab.json ve merges.txt dosyalarının üretilmesi
3. Model eğitimi: nanoGPT veya seçilen mimarinin belgelerine başvurulması

Önyargı analizi

v2mini-eval1 sonuçları için zamir, coğrafi ve zamansal önyargı görselleştirmeleri sunuluyor
Ayrıntılı istatistikler v2_bias_report.json dosyasında görülebilir

Lisans ve yayımlanma bilgileri

MIT License ile yayımlandı
GitHub'da 1.2k Stars, 41 Forks kaydedildi
Başlıca dil Python 100%
En güncel sürüm: v2mini-eval2 — London (1800–1875)

1 yorum

GN⁺ 2026-01-13

Hacker News görüşleri

1900 yılını sınır alıp son teknoloji bir modeli eğitmenin ve ona kuantum mekaniği (QM) ile görelilik hakkında sorular sormanın nasıl olacağını düşündüm
Eğer model az da olsa doğru yanıtlar verebilirse, bu LLM'lerin daha büyük bir zekâya giden yolda olduğuna dair güçlü bir kanıt olurdu
- O dönemde bile QM ve göreliliğe yakın kavramlar zaten vardı
  Michelson-Morley deneyi (1887), Lorentz dönüşümleri (1889), fotoelektrik etki (1887) buna örnek
  William Clifford 1889'da öldü ama uzayın eğriliği ile kuvvet ve maddeyi açıklama fikrini öne sürmüştü
  Bilim bir anda ortaya çıkmaz; dönemin makaleleri bir araya getirilirse bu tür teoriler doğal biçimde ortaya çıkabilirdi
- 1904 öncesi Almanca bilim literatürünü merkeze alan bir model eğitme projesi yürütüyorum
  OCR kalitesi kötü olduğu için çoğunu elle işlemem gerekiyor ama 700M parametreli bir model evde de mümkün
  Yine de gerçek muhakeme gücü için 70B sınıfı bir model gerekiyor
  Ayrıca fine-tuning ve RL sürecine 2026 bilgisinin karışmamasını sağlamak büyük bir mesele
- Kimya alanı da ilginç bir deney konusu
  19. yüzyılın sonları kimyanın altın çağıydı ve LLM'in termodinamik tahminler ya da yeni hipotezler üretip üretemeyeceğini merak ediyorum
- Benzer bir deneme yapan bir proje zaten var: history-llms
  İlgili tartışma HN başlığında görülebilir
- Li ve arkadaşlarının 2024 tarihli "Evaluating Large Language Models for Generalization and Robustness via Data Compression" makalesine de bakmaya değer
  Veri sıkıştırma oranı (perplexity) üzerinden modelin genelleme ve sağlamlığını ölçen yaklaşım oldukça etkileyici
“Who art Henry” ifadesini 19. yüzyıl İngilizcesi sanmak, tarihsel dil sezgisinin eksikliğine örnek gibi görünüyor
Aslında hiçbir dönemde dilbilgisel olarak doğru değil
- 17.-19. yüzyıl Hristiyanlık metinlerini çok okumuş biri olarak, o ifadenin tuhaf geldiğine katılıyorum
- Eğer prompt “Who art Henry” ise, gerçekten 19. yüzyıla uygun ifadenin ne olması gerektiğini merak ediyorum
Bu deneyin AGI olasılığını gösteren bir test olup olamayacağı ilginç
Soru şu: modele yalnızca belli bir yılın (X) öncesindeki veriler verildiğinde, daha sonraki bir keşfi (Y) kendi başına türetebilir mi?
- Önce AGI tanımını netleştirmek gerekiyor
  Bazı keşifler mevcut fikirlerin birleşimiyle mümkün olabilir ama görelilik ya da kuantum mekaniği için deneyler zorunluydu
  Örneğin o döneme ait bir model matematiksel olarak genel göreliliği geliştirebilse bile, Merkür'ün günberi kaymasını Vulcan gezegenine bağlaması daha olasıydı (Vulcan Vikipedi)
- Veri sızıntısını tamamen engellemek neredeyse imkânsız
  Yanlış sınıflandırılmış belgeler, açıklamalar ve metadata gibi unsurlar yüzünden bilginin içeri sızma riski büyük
- Temelde yalnızca eski verilerle SoTA bir model eğitmek için veri miktarı yetersiz
- Bu deneyin gerçekten mümkün olması için GPT-5 düzeyinde bir model gerekir
  Çok büyük metin kümeleri, devasa parametreler ve 19. yüzyıla uygun bir RLHF süreci gerektirir
- Böyle bir deney, LLM'in yaratıcı düşünce üretip üretmediğini, yoksa sadece tekrar mı ettiğini anlamak için gerçek bir sınav olur
1800~1875 verisiyle eğitilmiş bir model ile 1800~2025 verisiyle eğitilmiş bir modeli karşılaştırıp
iki olasılık dağılımı arasındaki farkı kullanarak 2040 tahmini yapma fikri öne sürülüyor
Pratikte doğru tahmin zor olabilir ama olasılık dağılımı enterpolasyonu/ekstrapolasyonu deneyi olarak eğlenceli olabilir
- Hatta bunun kulağa sadece Gen Alpha kuşağı argosu gibi gelebileceğine dair bir şaka da yapılıyor
İlginç bir kavram ama dönemin kayıtlı verileri bilgi elitleri merkezli bir önyargı taşıyor
Bugünkü gibi herkesin kayıt bıraktığı bir çağ değildi
Modern modeller onlarca TB metinle eğitilirken, 19. yüzyıl verileri hem çok daha az hem de çeşitlilik açısından daha zayıf
Bu yüzden “1834'te ne oldu?” gibi bir soruya gazete haberi üslubunda cevap vermesi doğal bir sonuç
- Yine de bu tür tutarlı önyargı belki de bir avantaj olabilir
  Bugünün LLM'leri çok fazla insanın düşüncesini karıştırdığı için bazen gürültülü çıktılar üretiyor
  Belirli bir dönemin tutarlı bakış açısıyla eğitilmiş bir model, öngörülebilir bir yanıt üslubuna sahip olabilir
- Yapay kısıtlarla görünür hale gelen önyargılar, güncel modellerdeki gizli önyargıları ortaya çıkarmaya da yardımcı olabilir
- Modern modeller İngilizce merkezli, Batılı ve 1990'lar sonrası bakış açısına eğilimli
  Üstelik alignment sürecinde sağlayıcının değerleri de yansıyor
  Buna karşılık geçmiş veri tabanlı bir model, dönemin önyargılarını “kazara” yansıtmış oluyor
En azından böyle bir model emoji selini engelleyebilir gibi görünüyor
Ama tokenization'ın nasıl değişeceğini merak ediyorum
Kodlama bilgisi olmazdı ama modern bir LLM ile birleştirilirse 19. yüzyıl tarzında kod açıklamaları üretebilir belki
Eski style transfer modellerinde olduğu gibi katmanları karıştırmaya benzer bir yöntem mümkün mü diye düşünüyorum
- “İki modeli birbirleriyle konuşturmak yeterli olmaz mı?” önerisi de geliyor
Yalnızca bilgi çağı öncesi belgelerle bir model eğitip, sonra o modele ‘bilgisayar nedir’ öğretmeye çalışmak sevimli geliyor
Ama şu anki çıktı ChatGPT'den çok Markov chain düzeyine daha yakın
HN'de yakın zamanda paylaşılan başka bir “zaman kilitli LLM projesini” hatırlatıyor
Ortaya çıkan sonuçlar şıktı ama kötüye kullanım ve yanlış anlamaları nasıl önleyeceklerini düşündüklerini söylüyorlardı
Ayrıntı için ilgili başlığa bakılabilir
Eğer bu model tutarlı çıktı verebilirse, LLM eğitimi için telifli materyalin zorunlu olduğu iddiasını çürütebilir
Ancak şimdilik o seviyede görünmüyor
- Bu arada yalnızca açık verilerle de epey iyi model yapılabildiğine dair örnekler var
  The Common Pile v0.1, 8TB açık metinle 7B parametreli bir model kurdu
Ben de benzer bir deney yaptım: transformer projesi
İncil, Don Kişot, Kafka gibi farklı metinlerle ayrı ayrı modeller eğittim
(Şarkı sözü üretici ve çeviri aracı da vardı ama kalite pek iyi değildi)

TimeCapsuleLLM: Yalnızca 1800~1875 verileriyle eğitilmiş büyük dil modeli

Proje özeti

Sürümlere göre model özellikleri

Veri kümesinin yapısı

Selective Temporal Training(STT)

Model boyutu ve eğitim ortamı

Kullanım yöntemi

Önyargı analizi

Lisans ve yayımlanma bilgileri

İlgili okumalar

1 yorum

Hacker News görüşleri