- Büyük dil modellerinin matematiksel çıkarım yeteneğini geliştirmeyi hedefleyerek, yalnızca doğru cevap doğruluğunun ötesinde çıkarım sürecinin doğrulanabilirliğini artıran bir model
- Mevcut pekiştirmeli öğrenmeye dayalı yaklaşımın yalnızca nihai cevap ödülü odaklı doğasını iyileştirerek öz-doğrulama (self-verification) mekanizmasını ekledi
- Teorem kanıtlama (theorem proving) gibi adım adım mantıksal geliştirme gerektiren problemlerde, oluşturucu modelin kendi hatalarını bularak düzeltmesini sağlayacak şekilde tasarlandı
- Doğrulayıcıyı (verifier) bir ödül modeli olarak kullanıp, doğrulama hesaplamasını genişleterek (scale verification compute) zor kanıt verisini otomatik etiketleme ile sürekli performans artışı sağlandı
- IMO 2025, CMO 2024, Putnam 2024 gibi yarışmalarda en yüksek düzeyde puan alarak, öz-doğrulanabilir matematik yapay zekâsının uygulanabilirliğini gösterdi
1. Giriş (Introduction)
- Büyük dil modelleri (LLM), matematiksel çıkarım alanında önemli bir ilerleme kaydetti ve bu, AI araştırmalarının önemli bir prova alanı oldu
- Pekiştirmeli öğrenme ile doğru cevap ödülüne dayalı öğrenme gerçekleştirilerek AIME, HMMT gibi yarışmalarda bir yıl içinde üst sıralara çıkıldı
- Ancak yalnızca nihai cevabın doğruluğunu artırmaya odaklanan yaklaşımın bir sınırı vardır
- Cevap doğru olsa bile çıkarım sürecinin tutarlılığı garanti edilmez ve teorem kanıtlamada olduğu gibi adım adım mantıksal çıkarımın gerekli olduğu problemlere uygulanamaz
- Bu sorunu çözmek için öz-doğrulama (self-verification) kavramı getirildi ve çıkarımın kapsamı ile katılığını ölçmek üzere tasarlandı
- Özellikle açık problemler (open problems) için testte hesaplama genişletmesi için zorunlu bir unsur olarak gösterildi
- Araştırma ekibi doğru ve güvenilir bir LLM tabanlı doğrulayıcı (verifier) eğitti ve bunu ödül modeli olarak kullanarak bir kanıt oluşturucu (generator) eğitti
- Oluşturucunun, kanıt içinde hataları bulup düzeltmesi teşvik edildi
- Oluşturucunun performansı iyileştikçe doğrulama zorluğu da arttığı için, doğrulama hesaplamasını genişleterek (scale verification compute) yeni zor kanıtlar otomatik olarak etiketlendi
- Böylece doğrulayıcı performansı sürekli geliştirilerek
- Sonuç model DeepSeekMath-V2, IMO 2025 ve CMO 2024'te altın madalya seviyesinde, Putnam 2024'te 118/120 puan kaydetti
- Bu sonuçlar, öz-doğrulanabilir matematiksel akıl yürütmenin uygulanabilir bir araştırma yönü olduğunu gösteriyor
2. Değerlendirme Sonuçları (Evaluation Results)
- Değerlendirme için DeepMind'in DeepThink IMO-Gold ekibi tarafından geliştirilen IMO-ProofBench ve yeni matematik yarışmaları (IMO 2025, CMO 2024, Putnam 2024) kullanıldı
- Spesifik sayılar veya ayrıntılı sonuçlar metinde belirtilmemiştir
3. Model Mimarisi (Model Architecture)
- DeepSeekMath-V2, DeepSeek-V3.2-Exp-Base modelini temel alarak oluşturuldu
- Çıkarıma (inference) ilişkin destek için DeepSeek-V3.2-Exp GitHub deposuna bakın
4. Lisans (License)
- Model ve ağırlıklar Apache License 2.0 altında yayımlanıyor
5. Atıf Bilgisi (Citation)
- Araştırmacıların ve makale bilgisinin detayları belirtilmiş olup başlık
“DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)
6. Diğer Bilgiler (Additional Information)
- Son bir ay içinde indirme sayısı 4.434
- Model ağacı kurulumunda, temel modelin kendi kendine referans döngüsü oluşturması nedeniyle ağaç oluşturulamıyor olarak işaretlendi
1 yorum
Hacker News yorumu
Bu kez yayımlanan model, ağırlıkları Apache 2.0 lisansı ile açık kaynak olarak yayımladı
OpenAI ve DeepMind’ın IMO altın madalya modelleri ise hâlâ kapalı durumda
Önceki tartışma bu bağlantıda
Açık ağırlıklı modellerin matematik ya da akıl yürütme gibi özelleşmiş alanlarda hızla yetişmesi etkileyici
Karmaşık mantık ya da kodlama ile ilgili testler de yapan biri olup olmadığını merak ediyorum. Matematikte iyi olan modeller çoğu zaman debugging ya da algoritma üretiminde de güçlü oluyor
Bu modelin başarısına karşı şüpheci bir bakış da gerektiğini düşünüyorum
İnternetten toplanan soruları aynen eğittiğini açıkça belirtmiş, ama benchmark kirlenmesinin giderilmesi ya da 2024/2025 sorularının hariç tutulup tutulmadığına değinmemiş
OpenAI ve Google ise 2025 sorularına önceden erişmeden deneysel modellerini test etti
OpenAI’ın altın madalya modelinin neden hâlâ yayımlanmadığını merak ediyorum
Burada önemli olan, bunun genel amaçlı bir model olmaması. Google ve OpenAI’ın modelleri genel amaçlı modeller kullandı
Böyle bir modeli evde çalıştırmak için ne gerektiğini merak ediyorum
CPU tabanlı olarak yaklaşık 1 TB RAM yeter mi diye soruyorum
Acaba bu model OpenAI ya da Google çıktılarından doğrudan distill edilmiş olabilir mi diye şüpheleniyorum
Bu modelin OpenRouter’a gelmesi planlanıyor mu diye merak ediyorum
OpenAI ChatGPT’ye reklam koyarsa, insanlar hemen başka modellere geçmez mi diye düşünüyorum