ProofBench — Yapay zeka hibrit benchmark’ı: sembolik hesaplama + anlamsal tabanlı ispat doğrulama sistemi
(github.com/Flamehaven)TL;DR
ProofBench, sembolik matematiği (SymPy/Pyodide) ve yapay zeka anlamsal analizini (çoklu LLM uzlaşması) birleştiren yeni nesil bir yapay zeka hibrit benchmark ve ispat doğrulama sistemidir.
İspatların mantıksal yapısını ve anlamsal geçerliliğini aynı anda değerlendirerek, “yüzeyde doğru görünen” akıl yürütmeleri tespit eder ve bunu Logic Integrity Index (LII) ile nicelleştirir.
🎯 Neden yapıldı
Geleneksel ispat doğrulayıcılar
- biçimsel mantık tabanlı oldukları için fazla katı ve pratikten uzak kalabiliyor,
- sözdizimi düzeyinde durup anlamsal hataları yakalayamıyor,
- hesaplama maliyetleri yüksek olduğu için gerçek zamanlı geri bildirim vermekte zorlanıyor.
ProofBench, “%70 sembolik + %30 anlamsal” hibrit yaklaşımıyla sembolik doğrulamanın titizliğini ve yapay zekanın esnek anlama yeteneğini bir araya getiren bir yapay zeka hibrit benchmark çerçevesidir.
📊 ProofBench şu tür soruları doğrular
- “Yapay zeka mantıksal tutarlılığı anlayabiliyor mu?”
- “İspat yapısını graf tabanlı görselleştirince hata örüntüleri görünür hale geliyor mu?”
- “Anlamsal tabanlı değerlendirme ne kadar güvenilir?”
- “Sembolik-anlamsal birleşik benchmark’lar eğitim, araştırma ve yapay zeka değerlendirmesinde faydalı mı?”
🧩 Yapay zeka hibrit benchmark metrikleri
- LII (Logic Integrity Index): mantıksal bütünlüğün temel ölçütü
- Coherence Variance: çoklu modeller arasındaki uyum düzeyi
- Symbolic Pass Rate: matematiksel tutarlılık oranı
- Semantic Stability: bağlamsal tutarlılığı koruma oranı
Bu değerler ileride yapay zeka modellerinin “mantık yetisi, tutarlılık ve anlam yorumlama becerisi”ni değerlendirmek için ortak bir standart haline gelebilir.
🔍 Mimariye genel bakış
- Symbolic Layer — SymPy’yi Pyodide ile çalıştırarak tarayıcı içinde deterministik doğrulama
- Semantic Layer — birden fazla LLM yanıtını uzlaşma (consensus) temelli değerlendirme
- Hybrid Orchestrator — varsayılan 70/30 ağırlık (ayarlanabilir), nihai skoru üretir
- LII Engine — mantıksal bütünlük endeksi + güven aralığı hesaplama
- Justification Analyzer — bağımlılık grafiği + döngü tespiti
- Feedback Generator — doğal dil tabanlı adım adım değerlendirme raporu üretimi
⚙️ Temel özellikler (v3.7.2)
- Hibrit doğrulama motoru: tarayıcı içi Pyodide ile SymPy çalıştırma + çoklu LLM uzlaşmasına dayalı anlamsal analiz
- LII (Logic Integrity Index): 0–100 puan ve %95 güven aralığı ile mantıksal tutarlılığın nicel ölçümü
- Justification Graph: ispatlar arası bağımlılık ilişkilerini görselleştirme ve döngüsel akıl yürütmeyi otomatik tespit
- Consensus Manager: birden fazla model arasındaki uyumu hesaplar ve coherence tabanlı ortalama skor üretir
- Natural Feedback Generator: her adım için hata ve gerekçeleri doğal dille geri bildirim olarak sunar
- UI / Dashboard: ispat adımı bazında sonuçlar, grafik görünümü, raporlar ve LII skoru görselleştirmesi
- Docker tek tıkla çalıştırma: tek satırlık
docker runile hemen kullanılabilir
docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest
# → http://localhost:3000
🧱 Sınırlamalar
- Anlamsal katman karmaşık dilsel tuzaklardan etkilenebilir (sembolik katman bunu dengeler)
- LII resmî bir ispat sertifikası değil, bir kalite göstergesidir
- Düşük donanımlı cihazlarda Pyodide’ın ilk başlatma maliyeti vardır
⚡ Geri bildirim alınmak istenen noktalar
- Varsayılan 70/30 ağırlığı makul mü? (adaptive weight gerekli mi?)
- LII + güven aralığı eğitim ve araştırma benchmark’ı olarak anlamlı mı?
- Döngüsel akıl yürütme tespiti gerçek matematik/mantık görevlerinde faydalı mı?
- Tarayıcı (Pyodide) performans darboğazlarını iyileştirmek için fikirler?
- “Doğru gibi görünüp yanlış olan” ispat örnekleri memnuniyetle karşılanır 🧩
🗺️ Yol haritası
- Bölüm bazlı değişken ağırlıklandırma (adaptive weighting)
- Farklı ispat formatları desteği (Lean, Coq, Markdown formülleri vb.)
- LII + grafik tabanlı rapor dışa aktarma şablonlarını güçlendirme
- Red-team benchmark yapısı (“makul görünüp yanlış olan” ispat kümelerinin yayımlanması)
🔗 Bağlantılar
- GitHub: https://github.com/Flamehaven/proofbench
- Lisans: MIT
✍️ Geliştirici yorumu
ProofBench, yapay zekanın “doğru cevap”tan çok “gerekçelendirme”yi anlayıp anlayamadığını sınamak için tasarlanmış bir araçtır; mantıksal yapı, anlamsal tutarlılık ve açıklanabilirliği tek bir benchmark altında birleştirir.
Bu, yalnızca basit bir doğrulayıcı değil — yapay zekanın düşünme yetisini ölçen yeni bir deney zemini olmayı hedefliyor.
Henüz yorum yok.