Versor: Matris çarpımı yerine geometrik dönüşler (Rotor) kullanan PyTorch çerçevesi
(github.com/Concode0)Derin öğrenmenin etkileyici başarılarının arkasında her zaman 'matris çarpımı (Wx+b)' vardı. Ancak Versor bu standardı sorguluyor. Buna göre "matrisler, veriyi işlerken manifold'u yırtan veya buruşturan türden bozulmalar üretir."
Versor, bu "Doğrusal Cebir Tavanı (Linear Algebra Ceiling)"nı aşmak için geliştirilmiş, Geometric Algebra tabanlı bir PyTorch çerçevesidir. Matrisler yerine rotor kullanarak verinin doğal topolojik yapısını koruyan yeni bir derin öğrenme paradigması sunar.
Temel felsefe: Unbending (açma) ardından Filtering (ayıklama)
Versor'un yaklaşımı basitçe "boyutu düşürmeden her şeyi olduğu gibi almak" değildir. Esas nokta, "veriyi bozmadan hizalayıp (Align), ardından yalnızca gerekli bilgiyi temiz biçimde ayıklamak"tır.
-
Unbending (Rotor)
Sıradan matrisler shear ve stretch içerirken, rotorun sandwich çarpımı bir izometridir (Isometry). Tıpkı buruşturulmuş bir kağıdı ütüler gibi, veriyi uzaklıkları ve açıları eksiksiz koruyarak döndürür ve açar.
-
Geometric Filtering (BladeSelector)
Veri geometrik olarak doğru biçimde açıldığında, bilgi belirli eksenlere (Basis Blade) veya derecelere (Grade) hizalanır. Bu noktada
BladeSelector, gürültüyü atıp yalnızca temel geometrik bilgiyi (ör. vektör bileşenleri) bırakarak boyutu küçültür. Bu, boyutu zorla ezip büzerek azaltan geleneksel yöntemlerden (Projection) niteliksel olarak farklı bir sıkıştırmadır.
Başlıca özellikler
-
Metric-Agnostic Kernel: Öklidyen (Cl(3,0)) geometriden uzay-zamana (Cl(1,3)) ve konformal geometriye (Cl(4,1)) kadar, yalnızca signature değiştirilerek aynı kodla çalışır.
-
White-Box AI: Öğrenilen parametreler anlamı belirsiz sayılar değil, "dönüş düzlemleri (Bivector)" dir. Modelin veriyi "hangi düzlemde ne kadar döndürerek hizaladığını" yorumlamak mümkündür.
-
Yüksek performanslı hafif yapı: O(n) ölçeklenmeyi destekler ve M4 CPU üzerinde bile gerçek zamanlı çıkarım (molekül başına 5.8ms) yapabilecek kadar hafiftir.
Akademide son dönemde dikkat çeken GATr gibi çalışmalar, transformer yapısı içinde GA kullanan bir "mimari yaklaşım" benimsiyorsa; Versor, işlem biriminin en alt seviyesinden itibaren rotorları devreye sokarak uzamsal bozulmayı kökten engelleyen "geometrik öz"e odaklanır. Bu sayede çok daha az parametreyle gerçek zamanlı çıkarım yapılabilen hafif bir yapı elde eder.
Benchmark sonuçları
-
QM9 (moleküler özellikler): 3D Öklidyen geometri (Cl(3,0)) uygulandığında, tek bir 4090 GPU üzerinde yalnızca 1 saatlik eğitimle 14.42 meV MAE elde edildi.
-
Motion Alignment (UCI-HAR): Yüksek boyutlu hareket verisi, yalnızca dönüşlerle doğrusal olarak ayrılabilir bir gizil uzaya hizalanarak yaklaşık %100 doğruluk elde edildi.
-
Semantic Disentanglement (NLP): 20 Newsgroups veri kümesinde geometrik ayrıştırma yoluyla %100 Grade Purity elde edildi. (Grade Purity %100, karmaşık biçimde iç içe geçmiş verinin gürültü olmadan yalnızca 'vektör (Vector)' bileşenleri halinde kusursuz biçimde ayrılıp hizalandığı anlamına gelir; bu da geometrik yapı öğreniminin başarılı olduğunu matematiksel olarak gösterir.)
Bu overfitting değil mi?
Hızlı yakınsama ve yüksek doğruluk nedeniyle böyle bir şüphe doğabilir; ancak bunun nedeni güçlü bir geometrik tümevarımsal önyargı (Geometric Inductive Bias) olmasıdır.
-
Sıradan matrisler (n x n) çok fazla serbestlik derecesine sahip olduğundan gürültüyü bile öğrenebilir,
-
Versor'un rotorları ise matematiksel olarak yalnızca 'dönüşe (Rotation)' izin verecek şekilde kısıtlanmıştır.
-
Shear veya stretch yapamayan bir yapı oldukları için, model verinin özsel yapısı (Structure) dışında bir şeyi öğrenmek istese bile öğrenemez. Bu sayede az sayıda parametreyle bile güçlü bir genelleme performansı sunar.
Versor, Pytorch üzerinde çalıştığı için benzer arayüzleri aynen kullanabilirsiniz. Ayrıca şu anda yeni görevler ve metrikler de aktif biçimde geliştiriliyor; bu yüzden bol bol geri bildirim paylaşırsanız memnun oluruz.
10 yorum
Paylaştığınız projenin aşağıdaki makaleyle nasıl ilişkilendiğini açıklayabilir misiniz?
Versor: A Geometric Sequence Architecture
https://arxiv.org/abs/2602.10195
https://github.com/VersorAI/Versor
İsmi de aynı ve kullanılan kavramlar da benzer gibi görünüyor, ancak bu alanı çok iyi bilmediğim için nasıl bir ilişki olduğunu tam anlayamadım.
Somut demoların farklı olmasına bakılırsa, muhtemelen benzer bir dönemde benzer fikirlerin eşzamanlı olarak ortaya çıktığı bir örnek gibi duruyor; bu alandaki güncel eğilimlerin genel olarak bu yöne mi kaydığını merak ettiğim için soruyorum.
İlginiz için teşekkür ederim. Sorduğunuz makaleden zaten haberdardım ve bizzat ayrıntılı bir teknik inceleme yürüttüm.
İnceleme sonucunda, söz konusu makalenin öne sürdüğü performans metriklerinin fiziksel olarak imkânsız olması ve veri manipülasyonu gibi ciddi araştırma suistimali (Research Misconduct) belirtilerini çok sayıda tespit ettim. Bunun üzerine yazarların bağlı bulunduğu kurum olan QMUL (Queen Mary University of London) araştırma etiği kuruluna resmî bildirimde bulunmuş durumdayım.
Şu anda üniversite tarafından bildirimin usulüne uygun şekilde alındığı ve resmî soruşturma sürecinin (Triage stage) başlatıldığı yönünde geri dönüş aldım. Bu nedenle, ilgili makalenin fikirlerin tesadüfen çakıştığı bir örnekten ziyade, araştırma etiği açısından kusurlar tespit edildiği ve hakkında resmî inceleme yürütülen bir konu olarak anlaşılmasını rica ederim.
Orijinal projenin değerini fark edip soru bıraktığınız için tekrar teşekkür ederim
Anlıyorum. Her ne olursa olsun işlerin doğal akışında yoluna girmesini umuyorum.
Ooo, ilginçmiş.
"Üstün" gibi belirsiz ölçütler yerine, sayılarla kanıtlanabilecek sonuçlar var mı?
Geri bildiriminiz için teşekkür ederiz. Metinde belirtilen sayılar size biraz alışılmadık geldiği için bunu "muğlak" olarak hissetmiş olabilirsiniz; ancak Versor bütünüyle sayısal kanıtlara dayanarak geliştirilmiştir. Temel göstergeleri bir kez daha özetleyelim.
QM9 görevinde tek bir 4090 ile 1 saatten kısa sürede 14.42 meV elde edildi. Bu, günler süren büyük ölçekli küme hesaplamaları gerektiren mevcut SOTA modellerle karşılaştırıldığında, kaynak verimliliğinde onlarca kat üstünlük gösteren bir değerdir.
CPU ortamında (M4) da 5.8ms/molecule çıkarım hızı kaydedilerek diğer modellere kıyasla verimlilik doğrulandı.
UCI-HAR görevinde de geometrik hizalama sayesinde %100 doğruluk ve Grade Purity sağlandı. Bu, basit bir istatistiksel tahmin değil, verinin topolojik yapısının kusursuz biçimde hizalandığını gösteren en açık sayıdır.
Versor, geometrik kısıtlar denilen matematiksel gerçekliği kanıtlamaktadır. İleride yayımlanacak benchmark'larda da sayılarla yanıt vermeye devam edeceğiz; ilginiz için teşekkürler.
Sayıları da iyi vermişsiniz ama karşılaştırmalı değerleri de paylaşırsanız güzel olur. Aynı donanımda benzer bir şeyi çalıştırdığınızda hızın ne kadar arttığını merak ediyoruz; çünkü hızın tam olarak “kaç” olduğu birçok kişiye pek bir şey ifade etmiyor ve açıkçası o kadar da merak edilmiyor olabilir.
Karşılaştırma verileri elbette eklenecek. Ancak, daha önce sunulan tek GPU için saatlik verimlilik ölçümlerinin bile mimarinin yenilikçiliğini açıklamak için yeterli olduğunu düşündük. Daha sezgisel bir karşılaştırma istiyorsanız, yakında güncellenecek grafikleri beklemenizi rica ederiz.
Böyle bir yaklaşım gerçekten çok iyi görünüyor
Cebirsel topoloji tarafının anlamlı olabileceğini düşünmüştüm ama bu taraf çok daha basitmiş
Empatiniz için gerçekten çok teşekkür ederim. Ben de araştırma sürecinde cebirsel topoloji tarafındaki yaklaşımı düşündüm, ancak sonunda mühendislik bakış açısından geometrik cebirin açıklığının derin öğrenmeyle daha iyi örtüştüğü sonucuna vardım. O "basitliğin" değerini fark etmeniz sayesinde, yaklaşımıma dair büyük bir güven kazanmış olarak ayrılıyorum.