1 puan yazan GN⁺ 2025-05-19 | 1 yorum | WhatsApp'ta paylaş
  • Voynich Elyazmasının dil yapısını SBERT gibi modern NLP teknikleri ile analiz eden bir açık kaynak proje
  • Sonek kaldırma ve kümeleme gibi konulara odaklanarak, sahte örüntüler yerine gerçek dil benzeri yapıların olup olmadığını doğruluyor
  • İşlev sözcükleri ve içerik sözcükleri rolleri, geçiş matrisleri gibi çok yönlü yapısal analizlerin sonucunda anlamlı örüntüler gözlemleniyor
  • Geleneksel istatistiksel ya da tahmin odaklı yaklaşımlardan farklı olarak, hesaplamalı dilbilim yöntemiyle yapısal dil özelliklerini analiz etmeyi deniyor
  • Anlamsal çeviri denemesi olmadan yalnızca yapısal modellemeye odaklanan bir proje; ek araştırma ve karşılaştırmalı deneyler için uygun

📜 Voynich Elyazması Yapı Analizi Projesine Giriş

🔍 Genel Bakış

  • Bu proje, modern doğal dil işleme (NLP) araçlarını kullanarak Voynich Elyazmasının yapısını analiz etmeye yönelik kişisel bir deney olarak başladı
  • Kümeleme, sözcük türü çıkarımı, Markov geçişleri, bölüm bazlı örüntü çıkarımı gibi gerçek dil modelleme yöntemlerini uygular
  • Anlam çözümleme ya da çeviri denemeleri veya abartılı örüntü tahminleri olmadan, yalnızca dil gibi işleyen bir yapı olup olmadığını doğrular
  • Sonek kaldırma, SBERT gömmeleri, sözlük hipotezi üretimi gibi tüm aşamalar açık şekilde sunuluyor

🧠 Önemi

  • Voynich Elyazması, hâlâ çözülememiş gizemli bir belge ve buna yönelik kesin bir dilbilimsel/kriptografik çözüm yok
  • Mevcut analizler çoğunlukla istatistiksel entropi incelemeleri ile bilimsel olmayan tahminler arasında bölünmüş durumda
  • Bu proje, hesaplamalı dilbilim temelinde, gerçek dillere benzeyen yapısal örüntülerin varlığını tarafsız biçimde araştırıyor

📁 Proje Yapısı

  • /data/
    • Elyazmasının tam transkripsiyonu, kök sözcük türleri, küme kimlikleri, kaldırılan sonek listesi, her satırın küme dizisi gibi veriler sağlanır
  • /scripts/
    • SBERT tabanlı sözcük kümeleme, sözcük türü tahmini, Markov geçiş matrisi oluşturma, sözlük adayı üretimi gibi çekirdek analiz betikleri sağlanır
  • /results/
    • Küme görselleştirmeleri, geçiş matrisi ısı haritaları, küme bazlı özetler gibi analiz sonuçları sunulur

✅ Başlıca Katkılar

  • Çok dilli SBERT ile sonekleri kaldırılmış kök sözcüklerin kümelenmesi
  • İşlev sözcüğü benzeri kümeler ile içerik sözcüğü benzeri kümelerin ayrıştırılması
  • Markov yaklaşımıyla küme geçiş yapısının modellenmesi
  • Bölüm bazlı sözdizimsel yapıların (ör. Botanical, Biological vb.) analizi
  • Veri temelli sözlük hipotezi tabloları üretimi

🔧 Ön İşleme Kararları

  • Kümelemeden önce yinelenen sonekler (ör. aiin, dy, chy vb.) kaldırılır
  • Böylece sözcüklerin kök biçimleri çıkarılır ve küme yoğunluğu ile yapısal örüntüler daha net hale gelir
    • Sonekler sesbilimsel dolgu, dilbilgisel biçimbirim, ezberleme, tekrar ya da anlamsız gürültü olabilir
  • Ancak bu tercihin biçimbirimsel bilgi kaybı, anlamlı çekim bilgisinin gizlenmesi, işlev sözcüğü yanlılığı gibi sınırlamaları vardır
  • Sonek kaldırma olmadan yapılacak karşılaştırmalı deneyler de değerlidir — herkes türev deneyler yapabilir

📈 Başlıca Analiz Sonuçları

  • Cluster 8: Çok sık görülür, çeşitliliği düşüktür ve satır başında sık çıkar — işlev sözcüğü kümesi adayıdır
  • Cluster 3: Çeşitliliği yüksektir ve konumu serbesttir — kök içerik sözcüğü kümesi adayıdır
  • Geçiş matrisi: Rastgelelikten uzak, güçlü bir iç yapıya işaret eder
  • Küme ve sözcük türü örüntüleri: Elyazması bölümlerine (ör. Biological, Botanical vb.) göre değişir

🧬 Hipotez

  • Elyazması, hece tekrarı ve konumsal tekrarı kullanan yapılandırılmış yapay/ezber odaklı bir dildir
  • Sözdizimi, işlev/içerik ayrımı, bölüm tepkili dil geçişleri gibi dilsel yapıları açık biçimde gösterir

📊 Örnek Görselleştirmeler

  • Figure 1: SBERT küme gömmeleri (PCA ile indirgenmiş)
  • Figure 2: Geçiş matrisi ısı haritası

📌 Sınırlamalar

  • Küme-sözcük eşlemesi dolaylı olduğu için frekans tahminlerinde çakışma görülebilir
  • Sonek kaldırma ölçütü sezgiseldir; gerçekte anlam taşıyan son sesler de kaybolabilir
  • Anlamsal yorumlama denemeden, yalnızca yapısal analize odaklanır

✍️ Yazar Notu

  • Bu proje, AI, NLP, yapısal analiz öğrenme amacıyla başlatıldı
  • Amaç elyazmasını çözmekten çok, modern araçlarla yapıyı anlamanın daha geliştirici olduğu düşüncesi
  • Rosetta Stone tarzı bir çözüm beklentisinden ziyade, “modellemenin kendisi anlamlıdır” yaklaşımıyla ilgilenenler memnuniyetle karşılanır

🤝 Katkı Rehberi

  • Bu proje; dilbilimciler, kriptograflar, yapay dil araştırmacıları ve hesaplamalı dilbilim topluluğunun iş birliği ve katkılarını memnuniyetle karşılar

1 yorum

 
GN⁺ 2025-05-19
Hacker News görüşleri
  • PCA projeksiyonu içinde kümeler aradığını gördüm — daha derin yapılar bulmak için PaCMAP veya LocalMAP gibi daha yeni boyut indirgeme algoritmalarını önermek isterim. Pol.is adlı görüş araştırma aracının verilerini alıp PCA yerine bu tür boyut indirgeme algoritmalarıyla yeniden projelendirdiğim bir proje üzerinde çalışıyorum. Bu yeni algoritmaların daha önce görmediğimiz içgörüler sunmasına hayran kaldım. Grupları renklendirerek görsel olarak gösterdiğim sonuçlar da var; masaüstünde bakmanı öneririm. Pol.is'in ne olduğunu merak ediyorsan ilgili makaleyi de tavsiye ederim

    • PaCMAP veya LocalMAP'ı ilk kez duymamı sağladığın için teşekkürler — yapıyı iyi koruyan bu tür boyut indirgeme yaklaşımları bu veri için PCA'dan daha uygun olabilir gibi görünüyor. İlgimi çekti, daha derin incelemeyi planlıyorum
    • Gömme indirgemede PCA veya t-SNE'ye kıyasla UMAP'ın bana çok daha iyi sonuç verdiğini deneyimledim
  • Burada kullanılan metin gömme modeli paraphrase-multilingual-MiniLM-L12-v2; yaklaşık 4 yıllık bir model. Doğal dil işleme dünyasında bu gerçekten çok eski sayılır. Son dönemde LLM'lerin gelişmesiyle gömme modellerinin bilgi temsil gücü ve gömme uzayındaki ayırt ediciliği dramatik biçimde arttı. Çok dilli destek için tasarlanmamış güncel gömme modelleri bile bu tür verilerde harika performans gösteriyor. Bu yüzden nispeten az bilinen bir dil olan Voynich Manuscript için de daha iyi sonuç verebilirler. Geleneksel NLP tekniklerinin (ek kaldırma, sözcük türü belirleme vb.) ise gerekli bağlamsal bilgiyi kaybettirip gömme kalitesini düşürme riski taşıdığını düşünüyorum

    • paraphrase-multilingual-MiniLM-L12-v2'yi çoğunlukla hız ve uyumluluk nedeniyle seçtim, ama bugünün ölçütleriyle eski bir model olduğu konusunda kesinlikle katılıyorum. Ekleri de koruyarak all-mpnet-base-v2 veya text-embedding-ada-002 gibi daha güncel modellerle tam bağlam gömmeleri denemek daha ilginç sonuçlar verebilir. Bu tespitin sayesinde bunu bir sonraki yinelemede olumlu biçimde değerlendireceğim
  • NLP hakkında çok bilgim yok. Süreci, kontrol grubu gibi bir karşılaştırma üzerinden sınamanın mantıklı olup olmayacağını merak ediyorum. Örneğin insanlardan, dile benzer görünen ama aslında dil olmayan cümleler yazmalarını isteyip sonra aynı süreci uygulayarak (ek silme, kümeleme denemesi vb.) benzer sonuçlar çıkıp çıkmadığını görmek ilginç olabilir

    • Aynen öyle. Neden 100 kişiye Voynich elyazmasını yazdırıp sonra bu veri üzerinde eğitmediklerini merak ediyorum
  • PCA'da zaten temiz bir ayrışma görünse bile UMAP veya t-SNE ile analiz etmek iyi olur diye düşünüyorum. Kümeleri birbirine referans vererek eşlemek de analizde açıklanmamış bir değişkenlik kalmadığını göstermek için iyi bir yol gibi duruyor

    • İyi nokta — PCA ile ilk başta beklenmedik ölçüde temiz bir ayrışma görünce başlangıçta onunla devam ettim. Ama dediğin gibi UMAP veya t-SNE uygulamak, doğrusal olmayan açıdan daha ince desenleri ya da sorunları ortaya çıkarabilir. Kümeler arası benzerlik matrisi de oluşturmadım ama önerini duyunca, sinyalin ne kadar gerçek anlamda yakalandığını doğrulamak için doğal bir sonraki adım gibi geliyor. Bunu takip çalışması olarak kesinlikle denemem gerektiğini düşünüyorum. Düşündürttüğün için teşekkürler
    • Bu referans eşlemenin nasıl yapıldığına dair bir örneğin varsa merak ederim. Bunu başka modalitelerdeki gömmelere uygulamak isterim ama NLP tarafında fazla deneyimim yok
    • PCA ile ayrışma zaten yeterince iyiyse, tek tek noktalar arasındaki mesafeleri yorumlamak daha kolay olduğu için ben UMAP'tan kaçınırım. t-SNE'de ise mesafe yorumunun neredeyse anlamsız olduğunu düşündüğüm için her zaman uzak dururum. Tabii bu tamamen kişisel tercihim
  • Bence en ilginç hipotez şu: Bir yazar Voynichese'i Cermen dil ailesinden bir dil olarak ele almış ve epey ilerleme kaydetmiş gibi görünüyor. Ural ya da Fin-Ugor dil ailesi olduğu yönünde iddialar da gördüm. Yönteminin çok iyi olduğunu düşünüyorum; belirli dil ailelerine göre özelleştirilirse daha iyi sonuç verip vermeyeceğini merak ediyorum

    • Edward Kelly'nin doğru zamanda doğru yerde olduğu ve Cardan grille'i bildiğine dair kanıtlar da daha önce görmüştüm. Bu yüzden onun yazarı olma ihtimalinin yüksek olduğunu ve kitabın da dolandırıcılık ya da şaka amacıyla üretilmiş olabileceğini düşünüyorum
    • Bu başlık çeşitli “deşifre” iddialarını tartışıyor. Bernholz sitesi fena değil ama Child'ın çalışması gerçekte deşifreye pek yardımcı olmuyor
  • Bunun eski Türkçe olduğunu düşünüyordum

    • Elyazmasının İngilizce çevirisini burada görebilirsin
  • README'de kaçırmış olabilirim ama “kelime”lerin ilk kodlamasının nasıl yapıldığını merak ediyorum. Örneğin okeeodair gibi bir sözcük özgün sembollere nasıl geri eşleniyor?

    • Evet, okeeodair gibi sözcükler doğrudan EVA transkripsiyon dosyasından geliyor. Özgün Voynich sembollerinin ASCII ile gösterimi için EVA (European Voynich Alphabet) sistemi kullanılıyor. Bu projede sembollerin kendisiyle uğraşmak yerine doğrudan EVA transkripsiyonundaki sözcükleri kullandım. Veri kümesinde okeeodair varsa, bu, birilerinin (uzmanların) o sembol birleşimine bu adı vermeyi kabul ettiği anlamına geliyor. Transkripsiyon hakkında bilgiyi bu sitede bulabilirsin
  • Benim aklıma gelen şu: Eğer bu gerçekten sadece anlamsız karalamalardan ibaretse ve şifreli metin bile değilse, elyazmasının doğası gereği üslubun, el yazısının, kullanılan kelimelerin, hatta harflerin bile ilk sayfadan son sayfaya kadar evrilmesi gerekirdi. Elbette sayfaların sırası karışmış olabilir ama yine de bir tür fark görünmeli diye düşünüyorum. Yazar aynı tarzda onlarca kitap yazıp hepsi de kaybolmadıysa tabii. Bu yeni bir fikir değil ama bu tür desenler üzerine analiz yapılıp yapılmadığını merak ediyorum; sayfalar arası tutarlılığa dair pek bir şey gördüğümü hatırlamıyorum

    • Sayfalar arası tutarlılık üzerine çok sayıda çalışma var. İki (ya da beş) kâtibin bulunduğu yönünde uzmanlar arasında iddialar mevcut. Lisa Fagin Davis'in öne sürdüğü görüşe dayanan deney tartışmalarına da bakarsan faydalı olabilir
  • “Brute force” yöntemiyle deşifre etmeye kalksak ne kadar kaynak gerekeceğini merak ediyorum. Örneğin bilinen dillerdeki sözcüklerle tek tek eşleyip skoru yükselten açık bir süreç izlemek nasıl olurdu diye düşünüyorum

    • Böyle bir yaklaşım, her kelimenin 1:1 eşlendiğini varsaymayı gerektirir; ama dillerin doğası her zaman böyle değildir. Örneğin birleşik sözcükleri bu şekilde eşlemek zor olur. Kültürel farklardan kaynaklanan daha temel anlam yapısı farklılıkları da var
    • İlginç soru — aslında ben de benzer bir şey düşünmüştüm. Kriptografi uzmanı değilim, bu yüzden gerçekten büyük ölçekte bir “brute force” yaklaşımının ne kadar gerçekçi olduğunu bilmiyorum. Ama her Voynich “kelimesini” gerçek bir dildeki kelimelerle eşleyip tutarlılığı optimize etmeye çalışma fikri, pek çok deneysel girişim ve yönelimle örtüşüyor. Zorluk şu ki söz varlığı çok büyük ve “kelime” biriminin gerçek dil kelimeleriyle 1:1 eşlenip eşlenmediği de belirsiz. Voynich “kelimesi” gerçekten tek bir sözlükbirim mi, bir parça mı, yoksa kök-ek birleşimi mi, belli değil. Bu yüzden basit eşleme oldukça zor görünüyor. Yine de tekil token'lar yerine küme kimlikleriyle denemek ve sonuçları bir dil modeliyle puanlamak oldukça iyi bir fikir olabilir. Optimizasyon ya da evrimsel yöntemlerle denenmeye değer olduğunu düşünüyorum. Bu, yapının ne kadar “dil benzeri” göründüğüne dair ipuçları da verebilir. Güzel fikir, teşekkürler. Umarım ilgili alandan bir uzman bu yorumu görür ve dener
  • Benzer uzunlukta, bilinen dillerde yazılmış metinler üzerinde bu analiz yapıldığında benzer desenlerin ortaya çıkıp çıkmadığını merak ediyorum. Başka bir deyişle, bu analiz tekniğinin çeşitli metin türlerine uygulanmasının, bu yazı sisteminin ne anlama geldiğini anlamaya yardımcı olup olmayacağını soruyorum