- Voynich Elyazmasının dil yapısını SBERT gibi modern NLP teknikleri ile analiz eden bir açık kaynak proje
- Sonek kaldırma ve kümeleme gibi konulara odaklanarak, sahte örüntüler yerine gerçek dil benzeri yapıların olup olmadığını doğruluyor
- İşlev sözcükleri ve içerik sözcükleri rolleri, geçiş matrisleri gibi çok yönlü yapısal analizlerin sonucunda anlamlı örüntüler gözlemleniyor
- Geleneksel istatistiksel ya da tahmin odaklı yaklaşımlardan farklı olarak, hesaplamalı dilbilim yöntemiyle yapısal dil özelliklerini analiz etmeyi deniyor
- Anlamsal çeviri denemesi olmadan yalnızca yapısal modellemeye odaklanan bir proje; ek araştırma ve karşılaştırmalı deneyler için uygun
📜 Voynich Elyazması Yapı Analizi Projesine Giriş
🔍 Genel Bakış
- Bu proje, modern doğal dil işleme (NLP) araçlarını kullanarak Voynich Elyazmasının yapısını analiz etmeye yönelik kişisel bir deney olarak başladı
- Kümeleme, sözcük türü çıkarımı, Markov geçişleri, bölüm bazlı örüntü çıkarımı gibi gerçek dil modelleme yöntemlerini uygular
- Anlam çözümleme ya da çeviri denemeleri veya abartılı örüntü tahminleri olmadan, yalnızca dil gibi işleyen bir yapı olup olmadığını doğrular
- Sonek kaldırma, SBERT gömmeleri, sözlük hipotezi üretimi gibi tüm aşamalar açık şekilde sunuluyor
🧠 Önemi
- Voynich Elyazması, hâlâ çözülememiş gizemli bir belge ve buna yönelik kesin bir dilbilimsel/kriptografik çözüm yok
- Mevcut analizler çoğunlukla istatistiksel entropi incelemeleri ile bilimsel olmayan tahminler arasında bölünmüş durumda
- Bu proje, hesaplamalı dilbilim temelinde, gerçek dillere benzeyen yapısal örüntülerin varlığını tarafsız biçimde araştırıyor
📁 Proje Yapısı
- /data/
- Elyazmasının tam transkripsiyonu, kök sözcük türleri, küme kimlikleri, kaldırılan sonek listesi, her satırın küme dizisi gibi veriler sağlanır
- /scripts/
- SBERT tabanlı sözcük kümeleme, sözcük türü tahmini, Markov geçiş matrisi oluşturma, sözlük adayı üretimi gibi çekirdek analiz betikleri sağlanır
- /results/
- Küme görselleştirmeleri, geçiş matrisi ısı haritaları, küme bazlı özetler gibi analiz sonuçları sunulur
✅ Başlıca Katkılar
- Çok dilli SBERT ile sonekleri kaldırılmış kök sözcüklerin kümelenmesi
- İşlev sözcüğü benzeri kümeler ile içerik sözcüğü benzeri kümelerin ayrıştırılması
- Markov yaklaşımıyla küme geçiş yapısının modellenmesi
- Bölüm bazlı sözdizimsel yapıların (ör. Botanical, Biological vb.) analizi
- Veri temelli sözlük hipotezi tabloları üretimi
🔧 Ön İşleme Kararları
- Kümelemeden önce yinelenen sonekler (ör. aiin, dy, chy vb.) kaldırılır
- Böylece sözcüklerin kök biçimleri çıkarılır ve küme yoğunluğu ile yapısal örüntüler daha net hale gelir
- Sonekler sesbilimsel dolgu, dilbilgisel biçimbirim, ezberleme, tekrar ya da anlamsız gürültü olabilir
- Ancak bu tercihin biçimbirimsel bilgi kaybı, anlamlı çekim bilgisinin gizlenmesi, işlev sözcüğü yanlılığı gibi sınırlamaları vardır
- Sonek kaldırma olmadan yapılacak karşılaştırmalı deneyler de değerlidir — herkes türev deneyler yapabilir
📈 Başlıca Analiz Sonuçları
- Cluster 8: Çok sık görülür, çeşitliliği düşüktür ve satır başında sık çıkar — işlev sözcüğü kümesi adayıdır
- Cluster 3: Çeşitliliği yüksektir ve konumu serbesttir — kök içerik sözcüğü kümesi adayıdır
- Geçiş matrisi: Rastgelelikten uzak, güçlü bir iç yapıya işaret eder
- Küme ve sözcük türü örüntüleri: Elyazması bölümlerine (ör. Biological, Botanical vb.) göre değişir
🧬 Hipotez
- Elyazması, hece tekrarı ve konumsal tekrarı kullanan yapılandırılmış yapay/ezber odaklı bir dildir
- Sözdizimi, işlev/içerik ayrımı, bölüm tepkili dil geçişleri gibi dilsel yapıları açık biçimde gösterir
📊 Örnek Görselleştirmeler
- Figure 1: SBERT küme gömmeleri (PCA ile indirgenmiş)
- Figure 2: Geçiş matrisi ısı haritası
📌 Sınırlamalar
- Küme-sözcük eşlemesi dolaylı olduğu için frekans tahminlerinde çakışma görülebilir
- Sonek kaldırma ölçütü sezgiseldir; gerçekte anlam taşıyan son sesler de kaybolabilir
- Anlamsal yorumlama denemeden, yalnızca yapısal analize odaklanır
✍️ Yazar Notu
- Bu proje, AI, NLP, yapısal analiz öğrenme amacıyla başlatıldı
- Amaç elyazmasını çözmekten çok, modern araçlarla yapıyı anlamanın daha geliştirici olduğu düşüncesi
- Rosetta Stone tarzı bir çözüm beklentisinden ziyade, “modellemenin kendisi anlamlıdır” yaklaşımıyla ilgilenenler memnuniyetle karşılanır
🤝 Katkı Rehberi
- Bu proje; dilbilimciler, kriptograflar, yapay dil araştırmacıları ve hesaplamalı dilbilim topluluğunun iş birliği ve katkılarını memnuniyetle karşılar
1 yorum
Hacker News görüşleri
PCA projeksiyonu içinde kümeler aradığını gördüm — daha derin yapılar bulmak için PaCMAP veya LocalMAP gibi daha yeni boyut indirgeme algoritmalarını önermek isterim. Pol.is adlı görüş araştırma aracının verilerini alıp PCA yerine bu tür boyut indirgeme algoritmalarıyla yeniden projelendirdiğim bir proje üzerinde çalışıyorum. Bu yeni algoritmaların daha önce görmediğimiz içgörüler sunmasına hayran kaldım. Grupları renklendirerek görsel olarak gösterdiğim sonuçlar da var; masaüstünde bakmanı öneririm. Pol.is'in ne olduğunu merak ediyorsan ilgili makaleyi de tavsiye ederim
Burada kullanılan metin gömme modeli paraphrase-multilingual-MiniLM-L12-v2; yaklaşık 4 yıllık bir model. Doğal dil işleme dünyasında bu gerçekten çok eski sayılır. Son dönemde LLM'lerin gelişmesiyle gömme modellerinin bilgi temsil gücü ve gömme uzayındaki ayırt ediciliği dramatik biçimde arttı. Çok dilli destek için tasarlanmamış güncel gömme modelleri bile bu tür verilerde harika performans gösteriyor. Bu yüzden nispeten az bilinen bir dil olan Voynich Manuscript için de daha iyi sonuç verebilirler. Geleneksel NLP tekniklerinin (ek kaldırma, sözcük türü belirleme vb.) ise gerekli bağlamsal bilgiyi kaybettirip gömme kalitesini düşürme riski taşıdığını düşünüyorum
NLP hakkında çok bilgim yok. Süreci, kontrol grubu gibi bir karşılaştırma üzerinden sınamanın mantıklı olup olmayacağını merak ediyorum. Örneğin insanlardan, dile benzer görünen ama aslında dil olmayan cümleler yazmalarını isteyip sonra aynı süreci uygulayarak (ek silme, kümeleme denemesi vb.) benzer sonuçlar çıkıp çıkmadığını görmek ilginç olabilir
PCA'da zaten temiz bir ayrışma görünse bile UMAP veya t-SNE ile analiz etmek iyi olur diye düşünüyorum. Kümeleri birbirine referans vererek eşlemek de analizde açıklanmamış bir değişkenlik kalmadığını göstermek için iyi bir yol gibi duruyor
Bence en ilginç hipotez şu: Bir yazar Voynichese'i Cermen dil ailesinden bir dil olarak ele almış ve epey ilerleme kaydetmiş gibi görünüyor. Ural ya da Fin-Ugor dil ailesi olduğu yönünde iddialar da gördüm. Yönteminin çok iyi olduğunu düşünüyorum; belirli dil ailelerine göre özelleştirilirse daha iyi sonuç verip vermeyeceğini merak ediyorum
Bunun eski Türkçe olduğunu düşünüyordum
README'de kaçırmış olabilirim ama “kelime”lerin ilk kodlamasının nasıl yapıldığını merak ediyorum. Örneğin
okeeodairgibi bir sözcük özgün sembollere nasıl geri eşleniyor?okeeodairgibi sözcükler doğrudan EVA transkripsiyon dosyasından geliyor. Özgün Voynich sembollerinin ASCII ile gösterimi için EVA (European Voynich Alphabet) sistemi kullanılıyor. Bu projede sembollerin kendisiyle uğraşmak yerine doğrudan EVA transkripsiyonundaki sözcükleri kullandım. Veri kümesindeokeeodairvarsa, bu, birilerinin (uzmanların) o sembol birleşimine bu adı vermeyi kabul ettiği anlamına geliyor. Transkripsiyon hakkında bilgiyi bu sitede bulabilirsinBenim aklıma gelen şu: Eğer bu gerçekten sadece anlamsız karalamalardan ibaretse ve şifreli metin bile değilse, elyazmasının doğası gereği üslubun, el yazısının, kullanılan kelimelerin, hatta harflerin bile ilk sayfadan son sayfaya kadar evrilmesi gerekirdi. Elbette sayfaların sırası karışmış olabilir ama yine de bir tür fark görünmeli diye düşünüyorum. Yazar aynı tarzda onlarca kitap yazıp hepsi de kaybolmadıysa tabii. Bu yeni bir fikir değil ama bu tür desenler üzerine analiz yapılıp yapılmadığını merak ediyorum; sayfalar arası tutarlılığa dair pek bir şey gördüğümü hatırlamıyorum
“Brute force” yöntemiyle deşifre etmeye kalksak ne kadar kaynak gerekeceğini merak ediyorum. Örneğin bilinen dillerdeki sözcüklerle tek tek eşleyip skoru yükselten açık bir süreç izlemek nasıl olurdu diye düşünüyorum
Benzer uzunlukta, bilinen dillerde yazılmış metinler üzerinde bu analiz yapıldığında benzer desenlerin ortaya çıkıp çıkmadığını merak ediyorum. Başka bir deyişle, bu analiz tekniğinin çeşitli metin türlerine uygulanmasının, bu yazı sisteminin ne anlama geldiğini anlamaya yardımcı olup olmayacağını soruyorum