5 puan yazan GN⁺ 2025-12-02 | 1 yorum | WhatsApp'ta paylaş
  • Büyük dil modellerinin matematiksel çıkarım yeteneğini geliştirmeyi hedefleyerek, yalnızca doğru cevap doğruluğunun ötesinde çıkarım sürecinin doğrulanabilirliğini artıran bir model
  • Mevcut pekiştirmeli öğrenmeye dayalı yaklaşımın yalnızca nihai cevap ödülü odaklı doğasını iyileştirerek öz-doğrulama (self-verification) mekanizmasını ekledi
  • Teorem kanıtlama (theorem proving) gibi adım adım mantıksal geliştirme gerektiren problemlerde, oluşturucu modelin kendi hatalarını bularak düzeltmesini sağlayacak şekilde tasarlandı
  • Doğrulayıcıyı (verifier) bir ödül modeli olarak kullanıp, doğrulama hesaplamasını genişleterek (scale verification compute) zor kanıt verisini otomatik etiketleme ile sürekli performans artışı sağlandı
  • IMO 2025, CMO 2024, Putnam 2024 gibi yarışmalarda en yüksek düzeyde puan alarak, öz-doğrulanabilir matematik yapay zekâsının uygulanabilirliğini gösterdi

1. Giriş (Introduction)

  • Büyük dil modelleri (LLM), matematiksel çıkarım alanında önemli bir ilerleme kaydetti ve bu, AI araştırmalarının önemli bir prova alanı oldu
    • Pekiştirmeli öğrenme ile doğru cevap ödülüne dayalı öğrenme gerçekleştirilerek AIME, HMMT gibi yarışmalarda bir yıl içinde üst sıralara çıkıldı
  • Ancak yalnızca nihai cevabın doğruluğunu artırmaya odaklanan yaklaşımın bir sınırı vardır
    • Cevap doğru olsa bile çıkarım sürecinin tutarlılığı garanti edilmez ve teorem kanıtlamada olduğu gibi adım adım mantıksal çıkarımın gerekli olduğu problemlere uygulanamaz
  • Bu sorunu çözmek için öz-doğrulama (self-verification) kavramı getirildi ve çıkarımın kapsamı ile katılığını ölçmek üzere tasarlandı
    • Özellikle açık problemler (open problems) için testte hesaplama genişletmesi için zorunlu bir unsur olarak gösterildi
  • Araştırma ekibi doğru ve güvenilir bir LLM tabanlı doğrulayıcı (verifier) eğitti ve bunu ödül modeli olarak kullanarak bir kanıt oluşturucu (generator) eğitti
    • Oluşturucunun, kanıt içinde hataları bulup düzeltmesi teşvik edildi
  • Oluşturucunun performansı iyileştikçe doğrulama zorluğu da arttığı için, doğrulama hesaplamasını genişleterek (scale verification compute) yeni zor kanıtlar otomatik olarak etiketlendi
    • Böylece doğrulayıcı performansı sürekli geliştirilerek
  • Sonuç model DeepSeekMath-V2, IMO 2025 ve CMO 2024'te altın madalya seviyesinde, Putnam 2024'te 118/120 puan kaydetti
    • Bu sonuçlar, öz-doğrulanabilir matematiksel akıl yürütmenin uygulanabilir bir araştırma yönü olduğunu gösteriyor

2. Değerlendirme Sonuçları (Evaluation Results)

  • Değerlendirme için DeepMind'in DeepThink IMO-Gold ekibi tarafından geliştirilen IMO-ProofBench ve yeni matematik yarışmaları (IMO 2025, CMO 2024, Putnam 2024) kullanıldı
    • Spesifik sayılar veya ayrıntılı sonuçlar metinde belirtilmemiştir

3. Model Mimarisi (Model Architecture)

  • DeepSeekMath-V2, DeepSeek-V3.2-Exp-Base modelini temel alarak oluşturuldu
    • Çıkarıma (inference) ilişkin destek için DeepSeek-V3.2-Exp GitHub deposuna bakın

4. Lisans (License)

  • Model ve ağırlıklar Apache License 2.0 altında yayımlanıyor

5. Atıf Bilgisi (Citation)

  • Araştırmacıların ve makale bilgisinin detayları belirtilmiş olup başlık “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. Diğer Bilgiler (Additional Information)

  • Son bir ay içinde indirme sayısı 4.434
  • Model ağacı kurulumunda, temel modelin kendi kendine referans döngüsü oluşturması nedeniyle ağaç oluşturulamıyor olarak işaretlendi

1 yorum

 
GN⁺ 2025-12-02
Hacker News yorumu
  • Bu kez yayımlanan model, ağırlıkları Apache 2.0 lisansı ile açık kaynak olarak yayımladı
    OpenAI ve DeepMind’ın IMO altın madalya modelleri ise hâlâ kapalı durumda

    • Yapay zeka şirketlerinin eğitim verilerinin telif hakkını ele alma biçimi gibi, bizim de ağırlıkların telif hakkını öyle ele almamız gerektiğini düşünüyorum
    • Ancak yalnızca ağırlıkları yayımlayıp eğitim kodunu ya da verileri paylaşmazsanız, model yine kapalı kalmış olur
  • Önceki tartışma bu bağlantıda

    • O bağlantıyı kaçırmışım, paylaştığın için teşekkürler
  • Açık ağırlıklı modellerin matematik ya da akıl yürütme gibi özelleşmiş alanlarda hızla yetişmesi etkileyici
    Karmaşık mantık ya da kodlama ile ilgili testler de yapan biri olup olmadığını merak ediyorum. Matematikte iyi olan modeller çoğu zaman debugging ya da algoritma üretiminde de güçlü oluyor

    • Belirli bir domaine özelleşmiş modellerin ticari değeri daha düşüktür ve büyük ölçekli LLM eğitimi genelliği tercih ettiği için bu doğal bir durum
    • kimi-k2 kodlamada epey iyi, ama Anthropic, OpenAI ve Google’ın SOTA modelleri seviyesine ulaşmıyor
  • Bu modelin başarısına karşı şüpheci bir bakış da gerektiğini düşünüyorum
    İnternetten toplanan soruları aynen eğittiğini açıkça belirtmiş, ama benchmark kirlenmesinin giderilmesi ya da 2024/2025 sorularının hariç tutulup tutulmadığına değinmemiş
    OpenAI ve Google ise 2025 sorularına önceden erişmeden deneysel modellerini test etti

  • OpenAI’ın altın madalya modelinin neden hâlâ yayımlanmadığını merak ediyorum

    • Bu sadece reklam amaçlıydı. Oradan alınan dersleri bir sonraki genel amaçlı modele yansıtacaklar
  • Burada önemli olan, bunun genel amaçlı bir model olmaması. Google ve OpenAI’ın modelleri genel amaçlı modeller kullandı

    • Aslında hem OpenAI hem de Google IMO için özelleştirilmiş araştırma modelleri kullandı
      • OpenAI, GPT-5’in çıkışını ima eden bu tweette, IMO modelinin deneysel olduğunu ve bir süre yayımlanmasının planlanmadığını söyledi
      • DeepMind, resmî blogunda Gemini’yi pekiştirmeli öğrenmeye dayalı çok adımlı akıl yürütme ve teorem ispatı verileri ile eğittiğini açıkladı
    • DeepSeek’in resmî gönderisi de paylaşıldı
  • Böyle bir modeli evde çalıştırmak için ne gerektiğini merak ediyorum
    CPU tabanlı olarak yaklaşık 1 TB RAM yeter mi diye soruyorum

    • İndirilecek veri bile 690 GB olduğu için muhtemelen 1 TB RAM gerekir. Bende iki Strix Halo makine var, onlarla bile mümkün değil
    • ik_llama.cpp, yeterli RAM ve tek bir GPU ile yavaş da olsa çalıştırılabilir. Normal llama.cpp de olur ama ik fork’u daha verimli
    • Thunderbolt 5 ile bağlı iki adet 512 GB Mac Studio ile de mümkün olduğu söyleniyor
  • Acaba bu model OpenAI ya da Google çıktılarından doğrudan distill edilmiş olabilir mi diye şüpheleniyorum

  • Bu modelin OpenRouter’a gelmesi planlanıyor mu diye merak ediyorum

  • OpenAI ChatGPT’ye reklam koyarsa, insanlar hemen başka modellere geçmez mi diye düşünüyorum

    • Aslında birden fazla sağlayıcının piyasa fiyatıyla rekabet eden genel amaçlı modeller sunması daha iyi olur
    • Reklam olsun olmasın OpenAI’a güvenmiyorum. Adını CloseAI yapmadan önce ona güvenmek zor
    • ChatGPT sonuçta sadece bir web sitesi. Web sitelerinde reklam olması garip bir şey değil. Instagram da öyle
    • GPU veri merkezleri ve API üzerinden zaten bir gelir modeli var. Rekabet ortaya çıksa bile bir süre daha birinci tercih olmaya devam eder
    • Google da onlarca yıldır reklam gösteriyor ama kimse bu yüzden başka bir arama motoruna geçmedi