ProofBench — Yapay zeka hibrit benchmark’ı: sembolik hesaplama + anlamsal tabanlı ispat doğrulama sistemi

(github.com/Flamehaven)

1 puan yazan flamehaven01 2025-10-17 | Henüz yorum yok. | WhatsApp'ta paylaş

TL;DR

ProofBench, sembolik matematiği (SymPy/Pyodide) ve yapay zeka anlamsal analizini (çoklu LLM uzlaşması) birleştiren yeni nesil bir yapay zeka hibrit benchmark ve ispat doğrulama sistemidir.

İspatların mantıksal yapısını ve anlamsal geçerliliğini aynı anda değerlendirerek, “yüzeyde doğru görünen” akıl yürütmeleri tespit eder ve bunu Logic Integrity Index (LII) ile nicelleştirir.

🎯 Neden yapıldı

Geleneksel ispat doğrulayıcılar

biçimsel mantık tabanlı oldukları için fazla katı ve pratikten uzak kalabiliyor,
sözdizimi düzeyinde durup anlamsal hataları yakalayamıyor,
hesaplama maliyetleri yüksek olduğu için gerçek zamanlı geri bildirim vermekte zorlanıyor.

ProofBench, “%70 sembolik + %30 anlamsal” hibrit yaklaşımıyla sembolik doğrulamanın titizliğini ve yapay zekanın esnek anlama yeteneğini bir araya getiren bir yapay zeka hibrit benchmark çerçevesidir.

📊 ProofBench şu tür soruları doğrular

“Yapay zeka mantıksal tutarlılığı anlayabiliyor mu?”
“İspat yapısını graf tabanlı görselleştirince hata örüntüleri görünür hale geliyor mu?”
“Anlamsal tabanlı değerlendirme ne kadar güvenilir?”
“Sembolik-anlamsal birleşik benchmark’lar eğitim, araştırma ve yapay zeka değerlendirmesinde faydalı mı?”

🧩 Yapay zeka hibrit benchmark metrikleri

LII (Logic Integrity Index): mantıksal bütünlüğün temel ölçütü
Coherence Variance: çoklu modeller arasındaki uyum düzeyi
Symbolic Pass Rate: matematiksel tutarlılık oranı
Semantic Stability: bağlamsal tutarlılığı koruma oranı

Bu değerler ileride yapay zeka modellerinin “mantık yetisi, tutarlılık ve anlam yorumlama becerisi”ni değerlendirmek için ortak bir standart haline gelebilir.

🔍 Mimariye genel bakış

Symbolic Layer — SymPy’yi Pyodide ile çalıştırarak tarayıcı içinde deterministik doğrulama
Semantic Layer — birden fazla LLM yanıtını uzlaşma (consensus) temelli değerlendirme
Hybrid Orchestrator — varsayılan 70/30 ağırlık (ayarlanabilir), nihai skoru üretir
LII Engine — mantıksal bütünlük endeksi + güven aralığı hesaplama
Justification Analyzer — bağımlılık grafiği + döngü tespiti
Feedback Generator — doğal dil tabanlı adım adım değerlendirme raporu üretimi

⚙️ Temel özellikler (v3.7.2)

Hibrit doğrulama motoru: tarayıcı içi Pyodide ile SymPy çalıştırma + çoklu LLM uzlaşmasına dayalı anlamsal analiz
LII (Logic Integrity Index): 0–100 puan ve %95 güven aralığı ile mantıksal tutarlılığın nicel ölçümü
Justification Graph: ispatlar arası bağımlılık ilişkilerini görselleştirme ve döngüsel akıl yürütmeyi otomatik tespit
Consensus Manager: birden fazla model arasındaki uyumu hesaplar ve coherence tabanlı ortalama skor üretir
Natural Feedback Generator: her adım için hata ve gerekçeleri doğal dille geri bildirim olarak sunar
UI / Dashboard: ispat adımı bazında sonuçlar, grafik görünümü, raporlar ve LII skoru görselleştirmesi
Docker tek tıkla çalıştırma: tek satırlık docker run ile hemen kullanılabilir

docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest  
# → http://localhost:3000

🧱 Sınırlamalar

Anlamsal katman karmaşık dilsel tuzaklardan etkilenebilir (sembolik katman bunu dengeler)
LII resmî bir ispat sertifikası değil, bir kalite göstergesidir
Düşük donanımlı cihazlarda Pyodide’ın ilk başlatma maliyeti vardır

⚡ Geri bildirim alınmak istenen noktalar

Varsayılan 70/30 ağırlığı makul mü? (adaptive weight gerekli mi?)
LII + güven aralığı eğitim ve araştırma benchmark’ı olarak anlamlı mı?
Döngüsel akıl yürütme tespiti gerçek matematik/mantık görevlerinde faydalı mı?
Tarayıcı (Pyodide) performans darboğazlarını iyileştirmek için fikirler?
“Doğru gibi görünüp yanlış olan” ispat örnekleri memnuniyetle karşılanır 🧩

🗺️ Yol haritası

Bölüm bazlı değişken ağırlıklandırma (adaptive weighting)
Farklı ispat formatları desteği (Lean, Coq, Markdown formülleri vb.)
LII + grafik tabanlı rapor dışa aktarma şablonlarını güçlendirme
Red-team benchmark yapısı (“makul görünüp yanlış olan” ispat kümelerinin yayımlanması)

🔗 Bağlantılar

GitHub: https://github.com/Flamehaven/proofbench
Lisans: MIT

✍️ Geliştirici yorumu

ProofBench, yapay zekanın “doğru cevap”tan çok “gerekçelendirme”yi anlayıp anlayamadığını sınamak için tasarlanmış bir araçtır; mantıksal yapı, anlamsal tutarlılık ve açıklanabilirliği tek bir benchmark altında birleştirir.

Bu, yalnızca basit bir doğrulayıcı değil — yapay zekanın düşünme yetisini ölçen yeni bir deney zemini olmayı hedefliyor.