Leanstral: Güvenilir kod ve biçimsel ispat mühendisliği için açık kaynak bir ajan

(mistral.ai)

1 puan yazan GN⁺ 2026-03-17 | 1 yorum | WhatsApp'ta paylaş

Lean 4 için tasarlanan ilk açık kaynak kod ajanı; biçimsel ispat (formal proof) süreçlerini otomatikleştirerek insan doğrulama yükünü azaltmayı hedefliyor
Model ağırlıkları Apache 2.0 lisansı ile yayımlandı ve Mistral Vibe ortamı ile ücretsiz API endpoint üzerinden hemen kullanılabiliyor
6B aktif parametreli seyrek bir mimari kullanarak verimlilik ve maliyet tasarrufu sağlıyor; lean-lsp-mcp gibi MCP entegrasyonlarını destekliyor
FLTEval benchmark'ında Qwen3.5, GLM5, Kimi-K2.5 gibi büyük açık kaynak modellerden daha yüksek puan alırken, Claude Sonnet'e benzer performansı 15 kattan düşük maliyetle sunuyor
Biçimsel ispat otomasyonu ile kod güvenilirliğinin artırılmasını birleştiren yeni bir yaklaşımla, hem araştırma matematiği hem de görev kritik yazılım geliştirme için kullanım potansiyeli gösteriyor

Leanstral genel bakış

Leanstral, Lean 4 için geliştirilen ilk açık kaynak kod ajanı ve biçimsel ispat yardımcısı (proof assistant) ortamında çalışıyor
- Lean 4, karmaşık matematiksel nesneleri (ör. perfectoid uzaylar) ve yazılım belirtimlerini ifade edebiliyor
- Mevcut ispat sistemleri genel model wrapper'larına ya da tekil problemlere odaklanırken, Leanstral gerçekçi biçimsel depolarda (formal repositories) verimli çalışacak şekilde eğitildi
6B aktif parametreye sahip seyrek (sparse) bir mimari benimseyerek paralel çıkarımı (parallel inference) Lean'in doğrulama yetenekleriyle birleştiriyor
MCP entegrasyon desteği sayesinde lean-lsp-mcp gibi yaygın kullanılan protokollerle uyumlu

Yayınlanma ve erişilebilirlik

Model ağırlıkları Apache 2.0 lisansı ile yayımlandı ve Mistral Vibe içinde ajan modu olarak sunuluyor
Ücretsiz API endpoint'i (labs-leanstral-2603) üzerinden herkes erişebiliyor; kullanıcı geri bildirimleri toplanarak sonraki model iyileştirmelerinde kullanılacak
Teknik rapor ve değerlendirme aracı FLTEval birlikte yayımlandı; böylece mevcut matematik odaklı değerlendirmelerin ötesine geçilip gerçek ispat mühendisliği performansı ölçülüyor

Performans değerlendirmesi (Evaluation)

Değerlendirme, FLT projesindeki Pull Request düzeyinde tüm biçimsel ispatları ve yeni matematiksel kavram tanımlarını tamamlama yeteneğine göre yapıldı
Karşılaştırılan modeller: Claude Opus 4.6, Sonnet 4.6, Haiku 4.5, Qwen3.5 397B-A17B, Kimi-K2.5 1T-A32B, GLM5 744B-A40B

Leanstral ve açık kaynak modeller

Leanstral-120B-A6B, GLM5'in (16.6 puan) ve Kimi-K2.5'in (20.1 puan) üstünde 26.3 puan (pass@2) aldı
Qwen3.5, 4 çalıştırmada (pass@4) 25.4 puan alırken Leanstral bunun yarısı kadar çalıştırmayla daha yüksek puana ulaştı
Aynı maliyet seviyesinde doğrusal biçimde 29.3 puana (pass@4) kadar ölçeklenebiliyor

Leanstral ve Claude ürün ailesi

Sonnet'e karşı 2.6 puan üstünlük (26.3 puan vs 23.7 puan) gösterirken, çalıştırma maliyeti $36 vs $549 ile 15 kattan fazla daha ucuz
pass@16 ölçümünde 31.9 puan alarak Sonnet'ten 8 puan daha yüksek sonuç verdi
En yüksek performanslı model olan Claude Opus 4.6 39.6 puan aldı, ancak maliyeti $1,650 ile Leanstral'ın 92 katı oldu
Tüm benchmark'lar Mistral Vibe ortamında herhangi bir değişiklik yapılmadan yürütüldü

Model	Maliyet($)	Puan
Haiku	184	23.0
Sonnet	549	23.7
Opus	1,650	39.6
Leanstral	18	21.9
Leanstral pass@2	36	26.3
Leanstral pass@4	72	29.3
Leanstral pass@8	145	31.0
Leanstral pass@16	290	31.9

Vaka incelemeleri (Case Studies)

Lean sürüm değişikliğine uyum

Lean 4.29.0-rc6'da ortaya çıkan tür takma adıyla ilgili bir StackExchange sorusu girdi olarak verildi
Leanstral, problem ortamını yeniden üretti ve tanımsal eşitlik (definitional equality) sorununu doğru şekilde teşhis etti
def yerine abbrev kullanılmasını önererek rw taktiğinin (tactic) yeniden düzgün çalışmasını sağladı
Sorunun nedenini ve çözümün niçin işe yaradığını kullanıcıya açık biçimde anlattı

Program akıl yürütme ve dönüşüm

Rocq içindeki program tanımını Lean'e dönüştürdü ve kullanıcı tanımlı gösterimi de uyguladı
Örnek olarak plus2 komutunun X değişkenine 2 ekleme işlemini yaptığını ispatladı
Yalnızca verilen Rocq belirtiminden yola çıkarak Lean içinde teoremi (theorem) tamamlayıp ispatı gerçekleştirdi

Kullanım şekli

Mistral Vibe entegrasyonu: /leanstall komutuyla hemen kullanılabiliyor
Labs API: ücretsiz ya da düşük maliyetle erişim sağlanabiliyor
Model indirme: Apache 2.0 lisansı ile doğrudan çalıştırılabiliyor

Önemi

Leanstral, kod üretimi ile biçimsel ispat otomasyonunu birleştiren ilk açık kaynak girişim
Araştırma matematiği, doğrulanabilir yazılım geliştirme, yüksek güvenilirlikli sistem tasarımı gibi alanlarda kullanım potansiyeli gösteriyor
Maliyet verimliliği ve açıklığı aynı anda sunan yeni bir kod doğrulama altyapısı olarak değerlendiriliyor

1 yorum

GN⁺ 2026-03-17

Hacker News görüşleri

İnsanların artık ajanın istenen davranışını belirtip, buna uygun kod yazdırabildiği örüntüyü fark etmeye başlaması ilginç
TDD ya da doğrulama araçları gibi hangi yöntem kullanılırsa kullanılsın, zamanla bu tür doğrulama paketleri “nasıl çalışması gerektiğini” gösteren çalıştırılabilir bir dokümantasyon deposu olarak birikiyor
Bu yaklaşım, basit bir Markdown spesifikasyonundan çok daha güçlü. Çünkü niyeti değil, ayrıntılı davranışı kodla ifade ediyor
Yazılım karmaşıklaştıkça “onu Jim'e sor” tarzı sözlü aktarımın sınırları ortaya çıkıyor
- Aradaki farkın çok büyük olmadığını düşünüyorum. Kod da sonuçta .md dosyasına yazılacak bilginin başka bir ifadesi sadece
  Ayrıntı ve bağlam, çözünürlük değişimi sırasında kayboluyor
  TDD ya da doğrulama odaklı geliştirmeye katılıyorum, ama bunu kodla yazmak nihai amaç değil
  Zaten milyonlarca satır test mevcut; gerçekçi olan, bunları temel alarak geliştirmek
- Yapay zekanın ortaya çıkmasıyla birlikte nihayet TDD'nin hayal ettiği gerçekliğin mümkün hale geldiğini düşünüyorum
- Bu yaklaşım ilgi çekici ama blog yazısı kafa karıştırıcıydı
  Lean'ın pratikte tam olarak ne sağladığını merak ediyorum.
  Örneğin Lean ile bir durum makinesi kanıtlanıp sonra bunun Dart'a aktarılması gibi mi?
  Lean'ı iyi bilmediğim için bunun ne kadar gerçekçi bir yaklaşım olduğunu kestiremiyorum
Yakın zamanda Jack Clark'ın (Anthropic kurucu ortağı) ve Ezra Klein'ın podcast'inde de değinildiği gibi, model hizalaması (alignment) göreceli ve çeşitlilik önemli yönünde çok tartışma var
Mistral'ın modelinin diğer frontier modellere kıyasla geride kaldığını söyleyenler olsa da, farklı hizalama teknikleri ve şirketlerin denenmesi ekosistem için önemli
- Sonuçta bunu zamanın çözeceğini düşünüyorum
Gerçek başarı örneği Simon Willison'ın Red Green TDD yaklaşımını hatırlattı
Leanstral'ın hata ortamını yeniden üreten test kodu üretmesi ve tanımsal eşitlik (definitional equality) sorununu bulması etkileyiciydi
- Eğer ajan kendi testlerini yazıyorsa, kod ve testleri ayrı ayrı yazmaya kıyasla doğruluk güvencesi daha mı yüksek olur diye merak ediyorum
- Bence TDD sonuçta prompt engineering ile aynı şey. Çünkü ajana net bir hedef verme süreci bu
Bu model belirli görevlere uygun şekilde eğitilmiş olsa da Opus'tan daha düşük performans gösteriyor
Opus 6 kat daha pahalı ama buna değiyor gibi görünüyor
- Fikir iyi ama sonuçta kalite güvenden önce gelir
  Sermayesi kısıtlı bir Avrupa girişiminin böyle bir nişi hedeflemesini anlıyorum ama bunun büyük gelire dönüşmesi zor görünüyor
- Benchmark'ların güvenilirliği belirsiz ama pass@2 ya da pass@3 sonuçlarına bakınca izlenim değişiyor
  Bunu Codex gibi modellerle karşılaştırmak daha ilginç olabilir
- Model açık kaynak ve yerelde çalıştırılabiliyor. Bu oldukça önemli bir nokta değil mi?
“Güvenilir kod” konseptini sevdim
Ama karşılaştırma ölçütü kafa karıştırıcı. Haiku'dan daha ucuz olduğu vurgulanıyor ama Haiku zaten bu işte zayıf, Leanstral ise ondan da zayıf
Hedef doğruluksa, “ucuz ama kötü”nün neden önemli olduğunu anlamıyorum
Yine de Opus da kusursuz değil; ölçek büyütülürse daha iyi sonuçlar çıkabilir gibi
- Grafiğe bakınca pass sayısı arttıkça performansın yükseldiği görülüyor
  2 denemede Haiku ve Sonnet'ten daha iyi, 16 denemede ise Opus'a yaklaşırken maliyet verimliliği de yüksek
- Aslında basit — prompt'a sadece “yalnızca güvenilir çıktı” istemek yeterli
Lean'ı bilmeyen biri olarak, bunun doğrudan bir değeri olup olmadığını merak ediyorum
Go gibi dillerdeki koda otomatik olarak ispat mı ekliyor, yoksa sadece açık modellerde çeşitliliği desteklemek mi gerekiyor?
- Muhtemelen yapı, ajanın Lean4 spesifikasyonları üretip yazılımı bu spesifikasyonlara göre değerlendirmesi şeklinde
  Ama sonuçta Lean4 spesifikasyonunun kendisi de bir yazılım artefaktı haline geliyor
  O zaman tekrar bu spesifikasyonun doğru olup olmadığını doğrulama sorununa dönüyoruz — yani yine insan incelemesi gerekiyor
Birkaç haftadır bu yönelimi bekliyordum; gerçekten gerçekleştiğini görmek sevindirici
LLM çağında kodun insan dostu olmasındansa ispatlanabilirlik ve token verimliliği daha önemli hale gelebilir gibi görünüyor
Lean ile Rust birleştirilerek, “yalnızca ispatlanmış kodun derlendiği” bir dünya gelebilir
İlgili tartışmayı önceki yorumda özetlemiştim
- Ancak hiçbir ispat sistemi “doğru ispatı” garanti etmez
  Sadece mantıksal olarak geçerli (valid) olduğunu garanti eder
  Bir ispatın neyi ispat ettiğini tam olarak anlamak, bir programı anlamak kadar zordur; ama bu süreçte düşüncenin derinleşmesi gibi bir fayda da vardır
“Açık kaynak” ifadesinin sadece lafta kalmayıp gerçekten Apache-2.0 lisanslı ağırlıklar olarak yayımlanmış olması sevindirici
- Ancak topluluk ölçütlerine göre, model yeniden üretilemiyorsa bu “open weights”tir, “open source” değil
Mistral resmi haberi'ne göre
Claude Opus 1.650 dolar maliyetle 39.6 puan alırken,
Leanstral pass@8 145 dolara 31.0, pass@16 ise 290 dolara 31.9 alıyor;
maliyet başına performans verimliliği oldukça yüksek

Leanstral: Güvenilir kod ve biçimsel ispat mühendisliği için açık kaynak bir ajan

Leanstral genel bakış

Yayınlanma ve erişilebilirlik

Performans değerlendirmesi (Evaluation)

Leanstral ve açık kaynak modeller

Leanstral ve Claude ürün ailesi

Vaka incelemeleri (Case Studies)

Lean sürüm değişikliğine uyum

Program akıl yürütme ve dönüşüm

Kullanım şekli

Önemi

İlgili okumalar

1 yorum

Hacker News görüşleri