1930’dan 13B vintage dil modeli Talkie
(talkie-lm.com)- Yalnızca 1931 öncesi İngilizce metinlerden oluşan 260B token ile eğitilmiş 13B’lik bir dil modeli; modern dünyayı bilmeyen bir modelle diyalog kurma ve genelleme deneyleri yapmayı mümkün kılıyor
- Bilgi cutoff’undan sonra artan şaşkınlık ve düşük kirlenme içeren değerlendirme ortamı sayesinde, gelecekteki olayları tahmin etme ve yeni fikirlere ulaşma olasılığı daha doğrudan test edilebiliyor
- Aynı mimaride modern web verisiyle eğitilmiş modelle karşılaştırıldığında standart değerlendirme performansı genel olarak daha düşük, ancak anakronik sorular ayıklandığında fark azalıyor ve dil anlama ile sayısal görevlerde benzer düzey görülüyor
- En büyük zorluk zamansal sızıntı ve veri kalitesi; yanlış tarih metaverileri ya da sonradan eklenmiş editör notları cutoff’u bozabiliyor ve tarihsel belge transkripsiyon kalitesi performansı ciddi biçimde etkiliyor
- Modern instruction verisi olmadan etkileşimli sonradan eğitim ayrı olarak kurulmuş ve daha büyük model eğitimi, korpus genişletme, yeniden OCR ve daha güçlü sızıntı tespitiyle devam edecek uzun vadeli bir araştırma temeline sahip
Neden vintage dil modeli?
- Vintage dil modeli, yalnızca belirli bir tarihsel dönemin öncesine ait metinlerle eğitilerek modern dünyayı bilmeyen bir modelle konuşma deneyimi yaratmayı amaçlayan bir yaklaşım
- Bu tür modeller yalnızca ilginç birer konuşma partneri değil, aynı zamanda yapay zekayı genel olarak anlama açısından da araştırma aracı olarak kullanılabiliyor
- 1931 öncesi metinlerle eğitilmiş 13B modeline New York Times’ın “On This Day” olay açıklamalarından yaklaşık 5.000 örnek verilerek, metin baytı başına bit cinsinden şaşkınlık ölçülüyor
- Bilgi cutoff’undan sonra şaşkınlık artıyor; bu artış özellikle 1950’ler ve 1960’larda belirginleşip sonra yataylaşıyor
- Gelecek tahmini değerlendirmesi, performansın model boyutuna göre nasıl arttığını ve daha uzun zaman aralıklarında nasıl zayıfladığını ölçmeye uzanıyor
- Yeni fikirlere ulaşabilme yeteneği de, cutoff’tan sonra gerçekten ortaya çıkmış icat ve bilimsel keşiflerin model tarafından bağımsız biçimde düşünülebilip düşünülemeyeceğiyle sınanabiliyor
- Kirlenmemiş değerlendirme ortamı da önemli bir avantaj
- Contamination, dil modellerinin yeteneğini olduğundan yüksek göstermeye yol açan kalıcı bir sorun olarak ele alınıyor
- Vintage modeller yapısal olarak daha az kirlenmeye sahip olduğundan, ön eğitim verisi dışındaki genellemeyi daha doğrudan test etmeyi mümkün kılıyor
Talkie’ye genel bakış
- talkie-1930-13b-base, 1931 öncesi İngilizce metinlerden oluşan 260B token ile eğitilmiş 13B’lik bir dil modeli
- talkie-1930-13b-it, bu temel modelin konuşma odaklı hale getirilmiş sonraki checkpoint’i
- Modern sohbet kayıtlarına ya da modern instruction-tuning verisine dayanmaması için tasarlanmış
- Üstteki widget’taki 24 saatlik canlı akış, Claude Sonnet 4.6’nın talkie-1930-13b-it modelini prompt’layarak bilgi, yetenek ve eğilimlerini keşfetmesi şeklinde yürütülüyor
- Talkie, metne göre bugüne kadarki en büyük vintage dil modeli olarak tanıtılıyor
- Bir sonraki adım olarak GPT-3 düzeyinde bir model eğitiliyor ve yazın yayımlanması hedefleniyor
- Tarihsel metin korpusunun 1 trilyon tokenın üzerine çıkarılabileceğine dair ön tahmin de paylaşılıyor
- Bu ölçeğin, orijinal ChatGPT’ye benzer yetenekte GPT-3.5 düzeyinde bir model üretmek için yeterli olabileceği belirtiliyor
Performans değerlendirmesi ve genelleme
- Modern ikiz model olarak talkie-web-13b-base oluşturulmuş; mimari aynı, ancak FineWeb tabanlı modern web verisiyle eğitilmiş
- Aynı FLOPs ile eğitilse bile Talkie, standart LM değerlendirmelerinde modern modelden ortalama olarak daha düşük performans gösteriyor
- Soruların anakronik niteliği düzeltildikten sonra da bu fark sürüyor
- Buna karşın temel dil anlama ve sayısal akıl yürütme görevlerinde benzer performans görüldüğü belirtiliyor
- Figure 4’e göre anakronik sorular ayıklandığında performans farkı yaklaşık yarıya iniyor
- Kod genelleme deneyi de yapılmış
- HumanEval kullanılarak, 1931 öncesi metinlerle eğitilmiş vintage model ile web tabanlı modern model çifti karşılaştırılıyor
- Rastgele Python fonksiyon örnekleri bağlam içi öğrenme için verilerek, 100 denemede en az bir kez doğru çözülen problem oranı ölçülüyor
- Vintage model web verisiyle eğitilmiş modelin belirgin biçimde gerisinde, ancak ölçek büyüdükçe bu görevde de yavaş ama istikrarlı bir ilerleme görülüyor
- Şu an doğru çözümler çoğunlukla çok basit tek satırlık programlar ya da bağlam içi örneklerin küçük varyasyonlarıyla sınırlı
- Döndürmeli şifreleme kodlama fonksiyonu verildiğinde, çözme fonksiyonunu yazdığı bir örnek de yer alıyor
- Bu, toplamayı çıkarmaya çeviren tek karakterlik bir değişiklik düzeyinde olsa da, ters fonksiyon kavrayışına işaret eden bir sinyal olarak yorumlanıyor
Veri toplama ve eğitim zorlukları
- On milyarlar değil, yüz milyarlar ölçeğinde 1931 öncesi İngilizce token toplandığı belirtiliyor
- Veri; kitaplar, gazeteler, süreli yayınlar, bilimsel dergiler, patentler ve mahkeme kararlarını içeriyor
- Cutoff’un 1930 sonu olarak seçilme nedeni, ABD’de bu tarihin eserlerin public domain’e girmesi açısından bir eşik olması
- Bu sürüm ağırlıklı olarak İngilizce metinle sınırlı
- Veri hattını doğrulamak için kaynak belgelere derin aşinalık gerektiği ve geliştirme ekibinin ana dilinin İngilizce olduğu belirtiliyor
- Çok dilli genişleme yüksek öncelik olarak sunuluyor
- Amaç hem korpus boyutunu artırmak hem de kapsanan perspektif çeşitliliğini genişletmek
-
Zamansal sızıntı
- En önemli hedef, bilgi cutoff’undan sonraki verinin eğitim korpusuna sızmasını engellemek
- Sızıntı; tarihi yanlış işaretlenmiş modern belgelerden ya da eski belgelerin içine sonradan eklenmiş editör önsözleri ve dipnotlardan kaynaklanabiliyor
- Talkie-1930’da ön eğitim korpusu, belge düzeyinde n-gram tabanlı anakronizm sınıflandırıcısı ile filtreleniyor
- Bu filtreleme kusursuz değil
- İlk 7B sürümü, Roosevelt başkanlığını ve New Deal yasalarını açıkça biliyordu
- 13B sürümü de II. Dünya Savaşı ve savaş sonrası düzenin bazı bölümlerini, yani United Nations ve Almanya’nın bölünmesine ilişkin ayrıntıları biliyor
- Sonraki sürümlerde daha gelişmiş sınıflandırıcılar kullanan sızıntı tespiti ve filtreleme yöntemleri geliştiriliyor
-
Veri kalitesi
- 1930’da dijital yayıncılık olmadığından, veri kümesindeki tüm metinlerin fiziksel kaynaklardan transkribe edilmesi gerekti
- Bu süreç, başlangıçta dijital üretilmiş metinlerde bulunmayan türde gürültü ekliyor
- Klasik OCR sistemleri, basit düzenler ve temiz taramalar dışındaki tarihsel belgelerde iyi sonuç vermiyor
- Modern VLM tabanlı OCR, daha doğru olsa da korpusa modern gerçekleri halüsinasyon olarak sokup deneyi bozabiliyor
- Kontrollü deneylerde, mevcut OCR ile transkribe edilmiş 1931 öncesi metinlerle bir LM eğitildiğinde, aynı hesaplama bütçesiyle insan transkripsiyonu performansının yalnızca %30’una ulaşılıyor
- Basit regex temizliği uygulanınca bu oran %70’e çıkıyor, ancak hâlâ büyük bir fark kalıyor
- Bu farkı kapatmak için Talkie korpusunu vintage bir OCR sistemiyle yeniden transkribe etme planı var
-
Vintage sonradan eğitim
- Hazır kullanılabilir post-training verisinin azlığı da büyük bir sorun
- Genel instruction-response çiftleriyle fine-tuning yapıldığında anakronik bilgi, üslup ve sohbet asistanı beklentileri aynen taşınıyor
- Bunu önlemek için post-training hattı sıfırdan yeniden kurulmuş
- Önce görgü kuralları kitapları, mektup yazma kılavuzları, yemek kitapları, sözlükler, ansiklopediler, şiir ve fabl derlemeleri gibi düzenli yapıya sahip tarihsel metinlerden instruction-response çiftleri üretilip basit sohbet formatında fine-tuning uygulanıyor
- Ardından belge özetleme, doğrudan bilgi istemlerine yanıt verme ve çok turlu sohbeti sürdürme gibi görevleri kapsayan sentetik prompt’lar oluşturuluyor ve Claude Sonnet 4.6’nın hakem olduğu online direct preference optimization uygulanıyor
- Ayrı değerlendirme setinde hakemin ortalama instruction-following puanı 5 üzerinden 2.0’dan 3.4’e yükseliyor
- Son olarak Claude Opus 4.6 ile Talkie arasındaki rejection-sampled çok turlu sentetik diyaloglar kullanılarak bir tur daha supervised fine-tuning yapılıyor
- Yapay zeka geri bildirimiyle pekiştirmeli öğrenmenin kaçınılmaz olarak modern etkiler bıraktığı belirtiliyor
- Talkie’nin 7B sürümü RL sonrasında zaman zaman listicle tarzında konuşuyordu
- Ölçek büyüdükçe, vintage temel modelin kendisinin hakem olarak kullanıldığı döneme uygun, tamamen bootstrapped bir post-training sürecinin mümkün olacağı umuluyor
Gelecek genişleme planları
- İngilizce korpusun büyütülmesi ve İngilizce dışı dillere açılım birlikte ilerletiliyor
- Yeni OCR sistemiyle mümkün olduğunca çok 1931 öncesi metnin yeniden OCR’dan geçirilmesi planlanıyor
- Yeni anakronizm sınıflandırma yöntemleriyle sızıntı tespiti hattının güçlendirilmesi hedefleniyor
- Tarihçilerle iş birliği yapılarak vintage post-training hattının genişletilip rafine edilmesi planlanıyor
- Buna tarihsel olarak doğru persona oluşturma metodolojileri de dahil
Kullanım ve iş birliği çağrısı
- GitHub: proje kodu ve araştırma iş birliği kanalı
- Hugging Face: model checkpoint’lerinin yayımlandığı yer
- 💬 Chat: Talkie sohbet arayüzü
- hello@talkie-lm.com: iş birliği iletişim adresi
- Tarihsel metinlere sahip araştırmacı ve kurumlarla iş birliği isteniyor; buna OCR uygulanarak erişilebilirliğin artırılması da dahil
- Finansman veya hesaplama desteğine de açık oldukları, ayrıca bu alandaki başka ekiplerle bağlantı kurabilecekleri belirtiliyor
- Beşeri bilimler araştırmacılarıyla vintage dil modellerinin ve bunları eğiten veri ile altyapının kullanım olanakları tartışılmak isteniyor
- Yapay zeka araştırmacılarıyla ise vintage dil modellerinin eğitimi ve araştırma iş birliği hedefleniyor
- Sanatçılar ve yazarlar için de deneysel araç olarak kullanılabileceği ifade ediliyor
Dikkat edilmesi gerekenler
- Talkie, eğitildiği metinlerin kültürünü ve değerlerini yansıtıyor
- Bu nedenle kullanıcılar için rahatsız edici olabilecek çıktılar üretebilir
1 yorum
Hacker News yorumları
Gelecekteki computer kelimesini bir insan mesleği olarak yorumlaması çok eğlenceli
"digital computers" ifadesini parmaklarıyla hesap yapan insanlar olarak açması da hoş; o dönemde computer insan meslek adıydı bağlamı eklenince tadı daha da çıkıyor
Oldukça ilginç bir zihinsel dağınıklık çıkabilir gibi
Bu, 1930'lardan ziyade 1900 öncesi kaynakları daha çok çekiyor gibi
Büyük Buhran'ı bilmiyor gibi görünüyor; 1. Dünya Savaşı'nı doğrudan sorarsan biliyor ama Avrupa siyasetinden 1900 civarıymış gibi söz ediyor
Teknoloji tarafında da Edison'u Wikipedia düzeyinde biliyor gibi durup sonra saatte 125 mil yapan otomobil başarısını ona yazıyor, kadranlı telefon konusunda da kendinden emin biçimde yanlış konuşuyor
London Underground'ın havai hat voltajını tutturuyor ama voltaj ve direnç açıklamasında tamamen yanlış şeyler söylüyor
Genel olarak ilk bir iki cümlede aramayla bulunabilecek bilgileri veriyor, sonra kulağa makul gelen saçmalıklara kayıyor
Doğru cevabını bilmediğiniz soruları bu modele sormamak daha iyi. Beyni kirletiyor
O sıralarda artık çürütülmüş bir kavram olması gerekirdi
Otomasyon ve sanayileşmeye karşı çıkanları sorunca, makinelerin işçi sınıfının işlerini elinden alacağı ve aşırı üretim yüzünden işten çıkarmalara yol açacağı cevabını vermesi ilginçti
Ucuz gıda nedeniyle yabancı üreticilerle rekabetin artması, zanaatkârın manevi terbiyesinin zayıflaması ve çalışkanlıkla tembellik arasındaki farkın bulanıklaşması gibi dönemin makine karşıtı mantığı iyi yansıtılmış
2025 dünyası sorulunca, 6,6 milyarlık nüfus, Avrupa çapında demiryolu ağı, Londra-İstanbul arası 40 saat, tek para birimi, evrensel barış, güneş ve hidroelektriğe geçiş, hastalıkların ortadan kalkması, hatta estetik ilerlemeye uzanan gelecek tasviri epey güzeldi
O zamana gelindiğinde çoktan Istanbul olmuştu
Yine de bir gün oraya varacağımızı düşünüyorum
Ay yolculuğunun sonunda mümkün olacağı, Ay'a sadece 6 saatte varılacağı ve bunun Santos Dumont tarzı bir hava aracıyla Fransa'nın doğusundan yapılacağı cevabı çok hoştu
Ay'ı hava gözlemi için kullanıp fırtına uyarısını 6 saat önce almak fikri özellikle etkileyiciydi
2026'daki Hindistan sorulunca, Britanya İmparatorluğu egemenliği altında özerk bir federasyon olarak kalacağını ve Kalküta'nın siyasi başkent olacağını söylüyor; sömürgeci bakış açısı fazla açık
Demiryolları, sulama, Himalaya eteklerindeki ormanlar, sadık prensler ve memnun tebaa ile tam bir emperyal iyimserlik havası var
Yalnızca 1930 öncesi tokenlarla bile epey zeki bir model çıkmış olması şaşırtıcı
Dünyayı belli ölçüde anlamak ve sıkıştırmak için çok büyük veri gerekir sanıyordum ama o dönemin dijitalleştirilmiş literatür hacmini hafife almış olabilirim
Bu, geçmişten biriyle konuşmaktan çok mektuplaşmaya daha yakın görünüyor
O dönemden kayıtlı ses çok olmadığı için sonuçta mecburen yazılı kayıtlara dayanarak yapılabiliyor; bu yüzden bugüne kıyasla daha resmi ve cilalı bir dil yansıyor olabilir
Yine de harika bir çalışma
Kısa süre önce 200 yıllık bir kitabı OCR ile çıkarmam gerekmişti; o döneme özgü zor puntoya rağmen şaşırtıcı derecede kolay ve doğruydu
Sonradan bunun OCR ya da son işleme hatası olduğunu, aslında "doth" olması gerektiğini fark ettim
Birisi X'te bu modelin eğitim setinde gelecekten veri sızıntısı olduğunu düşünmüş
https://xcancel.com/deredleritt3r/status/2048977698832241060
Winston Churchill'i anlatmasını isteyince, aile kökeni, eğitimi, askerlik kariyeri, yazarlığı ve ikamet ettiği yere kadar sıralama biçimi tam bir dönem işi gibiydi
Hindistan'ın bağımsızlık ihtimalini sorunca da demiryolları, ortak dil, Batı tarzı eğitim, meclis talebi ve ulusal kimlik oluşumuna uzanan bir mantık kuruyor; sömürgeci ton gerçekten çok belirgin
Oldham'ın görevdeki milletvekiliyken daha önce Colonies Müsteşar Yardımcısı olmuş olmasıyla kurulan kombinasyonun denk geldiği doğru bir zaman yok
Üstelik 1. Dünya Savaşı dönemindeki First Lord of the Admiralty ya da Minister of Munitions gibi temel görevleri de eksik
Bu, içeriğe epey büyük bir temporal leakage karıştığının işareti gibi görünüyor