1930’dan 13B vintage dil modeli Talkie

(talkie-lm.com)

1 puan yazan GN⁺ 2 일 전 | 1 yorum | WhatsApp'ta paylaş

Yalnızca 1931 öncesi İngilizce metinlerden oluşan 260B token ile eğitilmiş 13B’lik bir dil modeli; modern dünyayı bilmeyen bir modelle diyalog kurma ve genelleme deneyleri yapmayı mümkün kılıyor
Bilgi cutoff’undan sonra artan şaşkınlık ve düşük kirlenme içeren değerlendirme ortamı sayesinde, gelecekteki olayları tahmin etme ve yeni fikirlere ulaşma olasılığı daha doğrudan test edilebiliyor
Aynı mimaride modern web verisiyle eğitilmiş modelle karşılaştırıldığında standart değerlendirme performansı genel olarak daha düşük, ancak anakronik sorular ayıklandığında fark azalıyor ve dil anlama ile sayısal görevlerde benzer düzey görülüyor
En büyük zorluk zamansal sızıntı ve veri kalitesi; yanlış tarih metaverileri ya da sonradan eklenmiş editör notları cutoff’u bozabiliyor ve tarihsel belge transkripsiyon kalitesi performansı ciddi biçimde etkiliyor
Modern instruction verisi olmadan etkileşimli sonradan eğitim ayrı olarak kurulmuş ve daha büyük model eğitimi, korpus genişletme, yeniden OCR ve daha güçlü sızıntı tespitiyle devam edecek uzun vadeli bir araştırma temeline sahip

Neden vintage dil modeli?

Vintage dil modeli, yalnızca belirli bir tarihsel dönemin öncesine ait metinlerle eğitilerek modern dünyayı bilmeyen bir modelle konuşma deneyimi yaratmayı amaçlayan bir yaklaşım
Bu tür modeller yalnızca ilginç birer konuşma partneri değil, aynı zamanda yapay zekayı genel olarak anlama açısından da araştırma aracı olarak kullanılabiliyor
- 1931 öncesi metinlerle eğitilmiş 13B modeline New York Times’ın “On This Day” olay açıklamalarından yaklaşık 5.000 örnek verilerek, metin baytı başına bit cinsinden şaşkınlık ölçülüyor
- Bilgi cutoff’undan sonra şaşkınlık artıyor; bu artış özellikle 1950’ler ve 1960’larda belirginleşip sonra yataylaşıyor
Gelecek tahmini değerlendirmesi, performansın model boyutuna göre nasıl arttığını ve daha uzun zaman aralıklarında nasıl zayıfladığını ölçmeye uzanıyor
Yeni fikirlere ulaşabilme yeteneği de, cutoff’tan sonra gerçekten ortaya çıkmış icat ve bilimsel keşiflerin model tarafından bağımsız biçimde düşünülebilip düşünülemeyeceğiyle sınanabiliyor
Kirlenmemiş değerlendirme ortamı da önemli bir avantaj
- Contamination, dil modellerinin yeteneğini olduğundan yüksek göstermeye yol açan kalıcı bir sorun olarak ele alınıyor
- Vintage modeller yapısal olarak daha az kirlenmeye sahip olduğundan, ön eğitim verisi dışındaki genellemeyi daha doğrudan test etmeyi mümkün kılıyor

Talkie’ye genel bakış

talkie-1930-13b-base, 1931 öncesi İngilizce metinlerden oluşan 260B token ile eğitilmiş 13B’lik bir dil modeli
talkie-1930-13b-it, bu temel modelin konuşma odaklı hale getirilmiş sonraki checkpoint’i
- Modern sohbet kayıtlarına ya da modern instruction-tuning verisine dayanmaması için tasarlanmış
Üstteki widget’taki 24 saatlik canlı akış, Claude Sonnet 4.6’nın talkie-1930-13b-it modelini prompt’layarak bilgi, yetenek ve eğilimlerini keşfetmesi şeklinde yürütülüyor
Talkie, metne göre bugüne kadarki en büyük vintage dil modeli olarak tanıtılıyor
Bir sonraki adım olarak GPT-3 düzeyinde bir model eğitiliyor ve yazın yayımlanması hedefleniyor
Tarihsel metin korpusunun 1 trilyon tokenın üzerine çıkarılabileceğine dair ön tahmin de paylaşılıyor
- Bu ölçeğin, orijinal ChatGPT’ye benzer yetenekte GPT-3.5 düzeyinde bir model üretmek için yeterli olabileceği belirtiliyor

Performans değerlendirmesi ve genelleme

Modern ikiz model olarak talkie-web-13b-base oluşturulmuş; mimari aynı, ancak FineWeb tabanlı modern web verisiyle eğitilmiş
Aynı FLOPs ile eğitilse bile Talkie, standart LM değerlendirmelerinde modern modelden ortalama olarak daha düşük performans gösteriyor
- Soruların anakronik niteliği düzeltildikten sonra da bu fark sürüyor
- Buna karşın temel dil anlama ve sayısal akıl yürütme görevlerinde benzer performans görüldüğü belirtiliyor
Figure 4’e göre anakronik sorular ayıklandığında performans farkı yaklaşık yarıya iniyor
Kod genelleme deneyi de yapılmış
- HumanEval kullanılarak, 1931 öncesi metinlerle eğitilmiş vintage model ile web tabanlı modern model çifti karşılaştırılıyor
- Rastgele Python fonksiyon örnekleri bağlam içi öğrenme için verilerek, 100 denemede en az bir kez doğru çözülen problem oranı ölçülüyor
Vintage model web verisiyle eğitilmiş modelin belirgin biçimde gerisinde, ancak ölçek büyüdükçe bu görevde de yavaş ama istikrarlı bir ilerleme görülüyor
Şu an doğru çözümler çoğunlukla çok basit tek satırlık programlar ya da bağlam içi örneklerin küçük varyasyonlarıyla sınırlı
- Döndürmeli şifreleme kodlama fonksiyonu verildiğinde, çözme fonksiyonunu yazdığı bir örnek de yer alıyor
- Bu, toplamayı çıkarmaya çeviren tek karakterlik bir değişiklik düzeyinde olsa da, ters fonksiyon kavrayışına işaret eden bir sinyal olarak yorumlanıyor

Veri toplama ve eğitim zorlukları

On milyarlar değil, yüz milyarlar ölçeğinde 1931 öncesi İngilizce token toplandığı belirtiliyor
Veri; kitaplar, gazeteler, süreli yayınlar, bilimsel dergiler, patentler ve mahkeme kararlarını içeriyor
Cutoff’un 1930 sonu olarak seçilme nedeni, ABD’de bu tarihin eserlerin public domain’e girmesi açısından bir eşik olması
Bu sürüm ağırlıklı olarak İngilizce metinle sınırlı
- Veri hattını doğrulamak için kaynak belgelere derin aşinalık gerektiği ve geliştirme ekibinin ana dilinin İngilizce olduğu belirtiliyor
Çok dilli genişleme yüksek öncelik olarak sunuluyor
- Amaç hem korpus boyutunu artırmak hem de kapsanan perspektif çeşitliliğini genişletmek
Zamansal sızıntı
- En önemli hedef, bilgi cutoff’undan sonraki verinin eğitim korpusuna sızmasını engellemek
- Sızıntı; tarihi yanlış işaretlenmiş modern belgelerden ya da eski belgelerin içine sonradan eklenmiş editör önsözleri ve dipnotlardan kaynaklanabiliyor
- Talkie-1930’da ön eğitim korpusu, belge düzeyinde n-gram tabanlı anakronizm sınıflandırıcısı ile filtreleniyor
- Bu filtreleme kusursuz değil
  - İlk 7B sürümü, Roosevelt başkanlığını ve New Deal yasalarını açıkça biliyordu
  - 13B sürümü de II. Dünya Savaşı ve savaş sonrası düzenin bazı bölümlerini, yani United Nations ve Almanya’nın bölünmesine ilişkin ayrıntıları biliyor
- Sonraki sürümlerde daha gelişmiş sınıflandırıcılar kullanan sızıntı tespiti ve filtreleme yöntemleri geliştiriliyor
Veri kalitesi
- 1930’da dijital yayıncılık olmadığından, veri kümesindeki tüm metinlerin fiziksel kaynaklardan transkribe edilmesi gerekti
- Bu süreç, başlangıçta dijital üretilmiş metinlerde bulunmayan türde gürültü ekliyor
- Klasik OCR sistemleri, basit düzenler ve temiz taramalar dışındaki tarihsel belgelerde iyi sonuç vermiyor
- Modern VLM tabanlı OCR, daha doğru olsa da korpusa modern gerçekleri halüsinasyon olarak sokup deneyi bozabiliyor
- Kontrollü deneylerde, mevcut OCR ile transkribe edilmiş 1931 öncesi metinlerle bir LM eğitildiğinde, aynı hesaplama bütçesiyle insan transkripsiyonu performansının yalnızca %30’una ulaşılıyor
- Basit regex temizliği uygulanınca bu oran %70’e çıkıyor, ancak hâlâ büyük bir fark kalıyor
- Bu farkı kapatmak için Talkie korpusunu vintage bir OCR sistemiyle yeniden transkribe etme planı var
Vintage sonradan eğitim
- Hazır kullanılabilir post-training verisinin azlığı da büyük bir sorun
- Genel instruction-response çiftleriyle fine-tuning yapıldığında anakronik bilgi, üslup ve sohbet asistanı beklentileri aynen taşınıyor
- Bunu önlemek için post-training hattı sıfırdan yeniden kurulmuş
- Önce görgü kuralları kitapları, mektup yazma kılavuzları, yemek kitapları, sözlükler, ansiklopediler, şiir ve fabl derlemeleri gibi düzenli yapıya sahip tarihsel metinlerden instruction-response çiftleri üretilip basit sohbet formatında fine-tuning uygulanıyor
- Ardından belge özetleme, doğrudan bilgi istemlerine yanıt verme ve çok turlu sohbeti sürdürme gibi görevleri kapsayan sentetik prompt’lar oluşturuluyor ve Claude Sonnet 4.6’nın hakem olduğu online direct preference optimization uygulanıyor
- Ayrı değerlendirme setinde hakemin ortalama instruction-following puanı 5 üzerinden 2.0’dan 3.4’e yükseliyor
- Son olarak Claude Opus 4.6 ile Talkie arasındaki rejection-sampled çok turlu sentetik diyaloglar kullanılarak bir tur daha supervised fine-tuning yapılıyor
- Yapay zeka geri bildirimiyle pekiştirmeli öğrenmenin kaçınılmaz olarak modern etkiler bıraktığı belirtiliyor
  - Talkie’nin 7B sürümü RL sonrasında zaman zaman listicle tarzında konuşuyordu
- Ölçek büyüdükçe, vintage temel modelin kendisinin hakem olarak kullanıldığı döneme uygun, tamamen bootstrapped bir post-training sürecinin mümkün olacağı umuluyor

Gelecek genişleme planları

İngilizce korpusun büyütülmesi ve İngilizce dışı dillere açılım birlikte ilerletiliyor
Yeni OCR sistemiyle mümkün olduğunca çok 1931 öncesi metnin yeniden OCR’dan geçirilmesi planlanıyor
Yeni anakronizm sınıflandırma yöntemleriyle sızıntı tespiti hattının güçlendirilmesi hedefleniyor
Tarihçilerle iş birliği yapılarak vintage post-training hattının genişletilip rafine edilmesi planlanıyor
- Buna tarihsel olarak doğru persona oluşturma metodolojileri de dahil

Kullanım ve iş birliği çağrısı

GitHub: proje kodu ve araştırma iş birliği kanalı
Hugging Face: model checkpoint’lerinin yayımlandığı yer
💬 Chat: Talkie sohbet arayüzü
hello@talkie-lm.com: iş birliği iletişim adresi
Tarihsel metinlere sahip araştırmacı ve kurumlarla iş birliği isteniyor; buna OCR uygulanarak erişilebilirliğin artırılması da dahil
Finansman veya hesaplama desteğine de açık oldukları, ayrıca bu alandaki başka ekiplerle bağlantı kurabilecekleri belirtiliyor
Beşeri bilimler araştırmacılarıyla vintage dil modellerinin ve bunları eğiten veri ile altyapının kullanım olanakları tartışılmak isteniyor
Yapay zeka araştırmacılarıyla ise vintage dil modellerinin eğitimi ve araştırma iş birliği hedefleniyor
Sanatçılar ve yazarlar için de deneysel araç olarak kullanılabileceği ifade ediliyor

Dikkat edilmesi gerekenler

Talkie, eğitildiği metinlerin kültürünü ve değerlerini yansıtıyor
Bu nedenle kullanıcılar için rahatsız edici olabilecek çıktılar üretebilir

1 yorum

GN⁺ 2 일 전

Hacker News yorumları

Gelecekteki computer kelimesini bir insan mesleği olarak yorumlaması çok eğlenceli
"digital computers" ifadesini parmaklarıyla hesap yapan insanlar olarak açması da hoş; o dönemde computer insan meslek adıydı bağlamı eklenince tadı daha da çıkıyor
- Tersini de görmek isterim. Yalnızca son birkaç hafta ya da birkaç dakikalık bilgiyle eğitilmiş bir model, ya da sadece son 1-2 yılın bilimsel makaleleriyle eğitilmiş bir model mesela
  Oldukça ilginç bir zihinsel dağınıklık çıkabilir gibi
- Ben de bunu ancak iki kez kadar okuduktan sonra anlayabildim, biraz utandım doğrusu
- Roman dillerinde digital modern dijital anlamına geliyor ama aynı zamanda parmakla ilgili bir sıfat anlamı da var
Bu, 1930'lardan ziyade 1900 öncesi kaynakları daha çok çekiyor gibi
Büyük Buhran'ı bilmiyor gibi görünüyor; 1. Dünya Savaşı'nı doğrudan sorarsan biliyor ama Avrupa siyasetinden 1900 civarıymış gibi söz ediyor
Teknoloji tarafında da Edison'u Wikipedia düzeyinde biliyor gibi durup sonra saatte 125 mil yapan otomobil başarısını ona yazıyor, kadranlı telefon konusunda da kendinden emin biçimde yanlış konuşuyor
London Underground'ın havai hat voltajını tutturuyor ama voltaj ve direnç açıklamasında tamamen yanlış şeyler söylüyor
Genel olarak ilk bir iki cümlede aramayla bulunabilecek bilgileri veriyor, sonra kulağa makul gelen saçmalıklara kayıyor
Doğru cevabını bilmediğiniz soruları bu modele sormamak daha iyi. Beyni kirletiyor
- 1929'da zaten Great Depression ifadesi kullanılıyor muydu?
- aether hakkında da soru sormak iyi olurdu
  O sıralarda artık çürütülmüş bir kavram olması gerekirdi
- Yani kısacası tüm LLM'ler gibi diyorsun
- İlk cümlesi makul, sonrası gittikçe saçmalıyor; bu haliyle neredeyse 2026 model insan simülatörü gibi
Otomasyon ve sanayileşmeye karşı çıkanları sorunca, makinelerin işçi sınıfının işlerini elinden alacağı ve aşırı üretim yüzünden işten çıkarmalara yol açacağı cevabını vermesi ilginçti
Ucuz gıda nedeniyle yabancı üreticilerle rekabetin artması, zanaatkârın manevi terbiyesinin zayıflaması ve çalışkanlıkla tembellik arasındaki farkın bulanıklaşması gibi dönemin makine karşıtı mantığı iyi yansıtılmış
- Bu modelin yazı üslubunu ve tonunu gerçekten çok beğendim
2025 dünyası sorulunca, 6,6 milyarlık nüfus, Avrupa çapında demiryolu ağı, Londra-İstanbul arası 40 saat, tek para birimi, evrensel barış, güneş ve hidroelektriğe geçiş, hastalıkların ortadan kalkması, hatta estetik ilerlemeye uzanan gelecek tasviri epey güzeldi
- 1930'lar ölçüsüne göre Constantinople fazla eski bir ad
  O zamana gelindiğinde çoktan Istanbul olmuştu
- Hem güzel hem de bir yandan epey hüzünlü
- Öyle bir dünyada yaşamak isterdim
- 1920-1950'ler tarzı gelecek tasvirleri, diyalektik salınımdan çok, alternatif enerji gibi en iyi çözümün gecikmeden her yere yayıldığı üstel ilerlemeyi gizlice varsayıyor gibi
  Yine de bir gün oraya varacağımızı düşünüyorum
- Gerçekten çok güzel
Ay yolculuğunun sonunda mümkün olacağı, Ay'a sadece 6 saatte varılacağı ve bunun Santos Dumont tarzı bir hava aracıyla Fransa'nın doğusundan yapılacağı cevabı çok hoştu
Ay'ı hava gözlemi için kullanıp fırtına uyarısını 6 saat önce almak fikri özellikle etkileyiciydi
- Ay'ı bir hava durumu uydusu gibi kullanma fikri epey yaratıcı
2026'daki Hindistan sorulunca, Britanya İmparatorluğu egemenliği altında özerk bir federasyon olarak kalacağını ve Kalküta'nın siyasi başkent olacağını söylüyor; sömürgeci bakış açısı fazla açık
Demiryolları, sulama, Himalaya eteklerindeki ormanlar, sadık prensler ve memnun tebaa ile tam bir emperyal iyimserlik havası var
Yalnızca 1930 öncesi tokenlarla bile epey zeki bir model çıkmış olması şaşırtıcı
Dünyayı belli ölçüde anlamak ve sıkıştırmak için çok büyük veri gerekir sanıyordum ama o dönemin dijitalleştirilmiş literatür hacmini hafife almış olabilirim
Bu, geçmişten biriyle konuşmaktan çok mektuplaşmaya daha yakın görünüyor
O dönemden kayıtlı ses çok olmadığı için sonuçta mecburen yazılı kayıtlara dayanarak yapılabiliyor; bu yüzden bugüne kıyasla daha resmi ve cilalı bir dil yansıyor olabilir
Yine de harika bir çalışma
Kısa süre önce 200 yıllık bir kitabı OCR ile çıkarmam gerekmişti; o döneme özgü zor puntoya rağmen şaşırtıcı derecede kolay ve doğruydu
- Bir zamanlar Burton çevirisi The Arabian Nights ücretsiz e-kitabını okurken "cloth" kelimesi fiil olarak geçiyordu ve anlamını bir türlü çıkaramayınca sonunda bırakmıştım
  Sonradan bunun OCR ya da son işleme hatası olduğunu, aslında "doth" olması gerektiğini fark ettim
- O dönemden kayıtlı sesin hiç olmaması da söz konusu değil
  1. Dünya Savaşı civarı ve sonrasından epey newsreel ve radyo yayını var; metin modeline eklenecek bir style transfer ses modeli yapmaya yetecek kadar olduğunu düşünüyorum
Birisi X'te bu modelin eğitim setinde gelecekten veri sızıntısı olduğunu düşünmüş
https://xcancel.com/deredleritt3r/status/2048977698832241060
- Haberde de FDR bilgisi bağlamında bu konu ele alınıyor
Winston Churchill'i anlatmasını isteyince, aile kökeni, eğitimi, askerlik kariyeri, yazarlığı ve ikamet ettiği yere kadar sıralama biçimi tam bir dönem işi gibiydi
Hindistan'ın bağımsızlık ihtimalini sorunca da demiryolları, ortak dil, Batı tarzı eğitim, meclis talebi ve ulusal kimlik oluşumuna uzanan bir mantık kuruyor; sömürgeci ton gerçekten çok belirgin
- Churchill maddesindeki dönem tutarlılığı garip
  Oldham'ın görevdeki milletvekiliyken daha önce Colonies Müsteşar Yardımcısı olmuş olmasıyla kurulan kombinasyonun denk geldiği doğru bir zaman yok
  Üstelik 1. Dünya Savaşı dönemindeki First Lord of the Admiralty ya da Minister of Munitions gibi temel görevleri de eksik
- Hindistan'a meclis talebinden söz ederken hükümdara queen diyor ama 1900-1950 arası Britanya hükümdarı erkekti
  Bu, içeriğe epey büyük bir temporal leakage karıştığının işareti gibi görünüyor

1930’dan 13B vintage dil modeli Talkie

Neden vintage dil modeli?

Talkie’ye genel bakış

Performans değerlendirmesi ve genelleme

Veri toplama ve eğitim zorlukları

Zamansal sızıntı

Veri kalitesi

Vintage sonradan eğitim

Gelecek genişleme planları

Kullanım ve iş birliği çağrısı

Dikkat edilmesi gerekenler

İlgili okumalar

1 yorum

Hacker News yorumları