- TimeCapsuleLLM, yalnızca belirli bir döneme (1800~1875) ait materyallerle eğitilmiş bir büyük dil modeli (LLM) olup, modern önyargıları en aza indirmeyi ve o dönemin dilini ile dünya görüşünü yeniden üretmeyi amaçlıyor
- Model, Londra bölgesine ait tarihsel belgeler, kitaplar, gazeteler ve hukuk belgelerinden oluşan bir veri kümesini kullanarak döneme özgü dil stili ve sözcük dağarcığını yansıtıyor
- İlk sürümler nanoGPT, sonraki sürümler ise Microsoft Phi 1.5 tabanlı olarak inşa edildi; veri ölçeği en fazla 90GB, model parametreleri ise en fazla 700M
- Selective Temporal Training(STT) yöntemiyle yalnızca belirli bir dönemin verileri seçilerek eğitildi ve modern kavramların modele girmemesi hedeflendi
- Tarihsel dil modeli araştırmaları ile dönemsel yapay zeka dil yeniden üretimi olasılığını gösteren deneysel bir proje
Proje özeti
- TimeCapsuleLLM, yalnızca belirli bir zaman ve mekâna ait verilerle eğitilmiş bir dil modeli olarak, modern önyargıları azaltmayı ve ilgili dönemin sözcük dağarcığı, üslubu ve dünya görüşünü yeniden üretmeyi hedefliyor
- “Yapay zekanın yalnızca tarihî kişileri taklit etmesi değil, gerçekten o dönemin dilini kullanan bir model olması” fikrini ortaya koyuyor
- İlk sürümler (v0, v0.5) Andrej Karpathy'nin nanoGPT projesi temel alınarak, v1 ise Microsoft Phi 1.5 tabanlı olarak geliştirildi
- Model Hugging Face üzerinde yayımlanmış durumda
Sürümlere göre model özellikleri
- v0
- Yaklaşık 187MB veriyle eğitildi
- 1800'ler söz varlığını kullanıyor ancak cümleler çoğunlukla bozuk yapıda
- Hiçbir modern kavram görünmüyor
- v0.5
- Dil bilgisi ve noktalama iyileştirilerek Viktorya dönemi üslubu yeniden üretildi
- Olgusal hata oranı yüksek ve OCR gürültüsü içeriyor (ör. “Digitized by Google”)
- v1
- Gerçek tarihî olaylar ile kişileri ilişkilendiren yanıtlar üretiyor
- Örnek: “It was the year of our Lord 1834” istemine karşılık Londra'daki protestolar ve dilekçelerden söz eden bir cümle üretiyor
- v2mini-eval1 / eval2
- 90GB içinden alınan 15GB örnekle 10K adım eğitim yapıldı
- Tokenizer sorunu nedeniyle kelimeler bölünmüş biçimde çıktı, ancak düzeltmeden sonra cümle yapısı korundu
- “Charles Dickens”, “Charles Darwin” gibi istemlere karşılık 19. yüzyıl tarzı anlatımlar üretti
Veri kümesinin yapısı
- v2 veri kümesi
- 1800~1875 dönemine ait Londra metinlerinden 90GB, toplam 136,344 belge
- Tüm tokenization işlemi henüz tamamlanmadı; 15GB örnek Hugging Face'te yayımlandı
- Veri kaynakları arasında public domain kitaplar, gazeteler, hukuk belgeleri vb. bulunuyor
- Sürümlere göre veri boyutu
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB
Selective Temporal Training(STT)
- STT, yalnızca belirli bir tarihsel döneme ait veriler kullanılarak eğitim yapılması yöntemidir
- Modern kavramların etkisini dışlayıp yalnızca ilgili dönemin bilgisi ve dilini yansıtmayı amaçlar
- TimeCapsuleLLM v0.5, 1800~1875 verileriyle sıfırdan (from scratch) eğitildi
- Mevcut bir modeli fine-tuning yapmak yerine, tamamen yeniden eğitilerek modern bilginin kalıntıları ortadan kaldırılmaya çalışıldı
Model boyutu ve eğitim ortamı
- Model parametre sayısı
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
- Eğitim donanımı
- v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
- v1, v2mini-eval1: kiralık A100 SXM GPU kullanıldı
Kullanım yöntemi
- Proje, tarihsel veri toplama, temizleme ve tokenizer oluşturma süreçlerine odaklanıyor
- Adım adım süreç
- Tarihsel metin toplama: public domain belgeler, kitaplar vb. kaynaklardan döneme ait metinlerin toplanması
- Tokenizer oluşturma:
train_tokenizer.py çalıştırılarak vocab.json ve merges.txt dosyalarının üretilmesi
- Model eğitimi: nanoGPT veya seçilen mimarinin belgelerine başvurulması
Önyargı analizi
- v2mini-eval1 sonuçları için zamir, coğrafi ve zamansal önyargı görselleştirmeleri sunuluyor
- Ayrıntılı istatistikler
v2_bias_report.json dosyasında görülebilir
Lisans ve yayımlanma bilgileri
- MIT License ile yayımlandı
- GitHub'da 1.2k Stars, 41 Forks kaydedildi
- Başlıca dil Python 100%
- En güncel sürüm: v2mini-eval2 — London (1800–1875)
1 yorum
Hacker News görüşleri
1900 yılını sınır alıp son teknoloji bir modeli eğitmenin ve ona kuantum mekaniği (QM) ile görelilik hakkında sorular sormanın nasıl olacağını düşündüm
Eğer model az da olsa doğru yanıtlar verebilirse, bu LLM'lerin daha büyük bir zekâya giden yolda olduğuna dair güçlü bir kanıt olurdu
Michelson-Morley deneyi (1887), Lorentz dönüşümleri (1889), fotoelektrik etki (1887) buna örnek
William Clifford 1889'da öldü ama uzayın eğriliği ile kuvvet ve maddeyi açıklama fikrini öne sürmüştü
Bilim bir anda ortaya çıkmaz; dönemin makaleleri bir araya getirilirse bu tür teoriler doğal biçimde ortaya çıkabilirdi
OCR kalitesi kötü olduğu için çoğunu elle işlemem gerekiyor ama 700M parametreli bir model evde de mümkün
Yine de gerçek muhakeme gücü için 70B sınıfı bir model gerekiyor
Ayrıca fine-tuning ve RL sürecine 2026 bilgisinin karışmamasını sağlamak büyük bir mesele
19. yüzyılın sonları kimyanın altın çağıydı ve LLM'in termodinamik tahminler ya da yeni hipotezler üretip üretemeyeceğini merak ediyorum
İlgili tartışma HN başlığında görülebilir
Veri sıkıştırma oranı (perplexity) üzerinden modelin genelleme ve sağlamlığını ölçen yaklaşım oldukça etkileyici
“Who art Henry” ifadesini 19. yüzyıl İngilizcesi sanmak, tarihsel dil sezgisinin eksikliğine örnek gibi görünüyor
Aslında hiçbir dönemde dilbilgisel olarak doğru değil
Bu deneyin AGI olasılığını gösteren bir test olup olamayacağı ilginç
Soru şu: modele yalnızca belli bir yılın (X) öncesindeki veriler verildiğinde, daha sonraki bir keşfi (Y) kendi başına türetebilir mi?
Bazı keşifler mevcut fikirlerin birleşimiyle mümkün olabilir ama görelilik ya da kuantum mekaniği için deneyler zorunluydu
Örneğin o döneme ait bir model matematiksel olarak genel göreliliği geliştirebilse bile, Merkür'ün günberi kaymasını Vulcan gezegenine bağlaması daha olasıydı (Vulcan Vikipedi)
Yanlış sınıflandırılmış belgeler, açıklamalar ve metadata gibi unsurlar yüzünden bilginin içeri sızma riski büyük
Çok büyük metin kümeleri, devasa parametreler ve 19. yüzyıla uygun bir RLHF süreci gerektirir
1800~1875 verisiyle eğitilmiş bir model ile 1800~2025 verisiyle eğitilmiş bir modeli karşılaştırıp
iki olasılık dağılımı arasındaki farkı kullanarak 2040 tahmini yapma fikri öne sürülüyor
Pratikte doğru tahmin zor olabilir ama olasılık dağılımı enterpolasyonu/ekstrapolasyonu deneyi olarak eğlenceli olabilir
İlginç bir kavram ama dönemin kayıtlı verileri bilgi elitleri merkezli bir önyargı taşıyor
Bugünkü gibi herkesin kayıt bıraktığı bir çağ değildi
Modern modeller onlarca TB metinle eğitilirken, 19. yüzyıl verileri hem çok daha az hem de çeşitlilik açısından daha zayıf
Bu yüzden “1834'te ne oldu?” gibi bir soruya gazete haberi üslubunda cevap vermesi doğal bir sonuç
Bugünün LLM'leri çok fazla insanın düşüncesini karıştırdığı için bazen gürültülü çıktılar üretiyor
Belirli bir dönemin tutarlı bakış açısıyla eğitilmiş bir model, öngörülebilir bir yanıt üslubuna sahip olabilir
Üstelik alignment sürecinde sağlayıcının değerleri de yansıyor
Buna karşılık geçmiş veri tabanlı bir model, dönemin önyargılarını “kazara” yansıtmış oluyor
En azından böyle bir model emoji selini engelleyebilir gibi görünüyor
Ama tokenization'ın nasıl değişeceğini merak ediyorum
Kodlama bilgisi olmazdı ama modern bir LLM ile birleştirilirse 19. yüzyıl tarzında kod açıklamaları üretebilir belki
Eski style transfer modellerinde olduğu gibi katmanları karıştırmaya benzer bir yöntem mümkün mü diye düşünüyorum
Yalnızca bilgi çağı öncesi belgelerle bir model eğitip, sonra o modele ‘bilgisayar nedir’ öğretmeye çalışmak sevimli geliyor
Ama şu anki çıktı ChatGPT'den çok Markov chain düzeyine daha yakın
HN'de yakın zamanda paylaşılan başka bir “zaman kilitli LLM projesini” hatırlatıyor
Ortaya çıkan sonuçlar şıktı ama kötüye kullanım ve yanlış anlamaları nasıl önleyeceklerini düşündüklerini söylüyorlardı
Ayrıntı için ilgili başlığa bakılabilir
Eğer bu model tutarlı çıktı verebilirse, LLM eğitimi için telifli materyalin zorunlu olduğu iddiasını çürütebilir
Ancak şimdilik o seviyede görünmüyor
The Common Pile v0.1, 8TB açık metinle 7B parametreli bir model kurdu
Ben de benzer bir deney yaptım: transformer projesi
İncil, Don Kişot, Kafka gibi farklı metinlerle ayrı ayrı modeller eğittim
(Şarkı sözü üretici ve çeviri aracı da vardı ama kalite pek iyi değildi)