17 puan yazan GN⁺ 2025-01-29 | 1 yorum | WhatsApp'ta paylaş
  • DeepSeek-R1, OpenAI'nin O1 Reasoning modeliyle karşılaştırılan performans gösteren açık kaynaklı bir modeldir
  • Başlangıçta 720GB olan model 131GB'a küçültülerek %80 boyut azalması sağlandı
  • Dinamik nicemleme tekniği kullanılarak bazı katmanlar yüksek bit düzeyinde (ör. 4bit) tutulurken MoE(Mixture of Experts) katmanlarının çoğu 1.58bit olarak işlendi

Başlıca özellikler

  • Minimum gereksinimler: CPU üzerinde 20GB RAM ile çalıştırılabilir, ancak hız düşüktür
  • En iyi performans: VRAM ve RAM toplamının en az 80GB olması gerekir, önerilen VRAM ise 160GB'tır (2 adet H100 80GB GPU)
  • Dinamik nicemleme sürümleri (131GB~212GB) Hugging Face üzerinden sunuluyor: DeepSeek-R1-GGUF

Dinamik nicemleme model türleri

  • Toplam 4 nicemleme sürümü sunuluyor:
    • 131GB, 158GB, 183GB, 212GB (genel 2bit)
  • Nicemleme optimizasyonu için önem matrisi (imatrix) kullanılıyor
  • Nicemleme yöntemi ve donanım gereksinimleri modele göre farklılık gösteriyor

Benchmark ve performans testleri

  • Flappy Bird oyunu üretimi (pass@3) temel alınarak 10 değerlendirme kaleminin puanı ölçüldü
  • 1.58bit dinamik nicemleme modelinin puanları şöyle:
    • 131GB model: 6.92
    • 158GB model: 9.08
    • 183GB model: 9.17
  • Dinamik olmayan nicemleme modelleri tekrar eden hatalar veya yanlış sonuçlar üretiyor

DeepSeek-R1 mimarisinden yararlanma

  • DeepSeek-R1 mimarisi analiz edilerek nicemlemeye duyarlılığı yüksek bölümler yüksek çözünürlükte korundu
    • İlk 3 dense katman 4~6bit olarak korundu
    • MoE katmanlarının çoğu 1.58bit olarak nicemlendi
    • MLA(Memory Layers Attention) modülü ve down_proj kısmı yüksek hassasiyette korundu
  • Ağırlıkların yaklaşık %88'i 1.58bit olarak nicemlenerek model boyutu küçültüldü

Sohbet şablonu ve token işleme sorunlarının giderilmesi

  • Tüm sürümlerde sohbet şablonunda <|begin_of_sentence|> ve <|end_of_sentence|> token'ları kullanılıyor
  • EOS token'ının yanlış ayarlanması nedeniyle sonsuz üretim sorunu yaşanıyordu, bu sorun giderildi

1 yorum

 
GN⁺ 2025-01-29
Hacker News yorumu
  • %80 boyut küçülmesi şaşırtıcı bir başarı ve 1,58 bit sürümün çift H100 üzerinde 140 token/saniye hızında çalışması etkileyici. Ancak bunun çoğu kişi için pratik olup olmadığı şüpheli. 24GB VRAM veya 20GB RAM ile çalıştırılabiliyor, fakat hız çok düşük. Tekrarlama sorunu da var. Pygame'deki tekrarlar, kuantizasyonun anlamını gölgeliyor. Çözümler var ama bunlar temel sorunu ortadan kaldırmıyor. Hugging Face üzerinde erişilebilir hale getirilmesi ve dinamik kuantizasyon yaklaşımı harika. Küçük ekipler için avantajlı. Ancak pahalı donanım gerekiyor.

  • DeepSeek RTX 4090'da çalıştırıldığında modelin VRAM'e sığması gerekiyor ama yavaş kalıyor. Apple'ın birleşik bellek mimarisi avantaj sağlıyor. 192GB Mx Ultra büyük modelleri verimli şekilde işleyebilir. OpenAI aboneliğini iptal etme zamanı gelmiş olabilir.

  • DeepSeek-R1'in %80 boyut küçülmesi şaşırtıcı. Büyük modeller daha fazla kişi için erişilebilir hale geliyor. 1,58 bit kuantizasyonla çift H100 üzerinde 140 token/saniye hızı etkileyici. Küçük veya orta ölçekli şirketler bunu yerel uygulamalar için kullanabilir. Düşük gecikme gerektiren ajan işleri için büyük avantaj.

  • En iyi performans için VRAM + RAM toplamının en az 80GB olması gerekiyor. Düşük güç/t düşük maliyetli sunucularda denenebilir. Ryzen 5500 + 64GB RAM + 7x RTX 3060 12GB sistem 1600 avroya kurulabilir. Güç tüketimi yaklaşık 520 watt. AM4 anakart ve ikinci el RTX 3060 12GB ile başlanabilir. Ek GPU'lar pcie riser/extender ile bağlanabilir. Öğrenmek ve deneyim kazanmak için iyi.

  • Tüm katmanlar 1,58 bit'e kuantize edildiğinde sonsuz tekrar oluşuyor. Bu blog yazısının yazarlarının belirli bir seed bulma süreci ilginç. Güzel çalışma.

  • R1 hakkındaki değerlendirme henüz net değil. 5 milyon dolara eğitildiği iddiası piyasada büyük etki yaratıyor. Doğrulanıp doğrulanmadığını merak ediyorum.

  • 100x makineye yatırım yaptıysan ama bunun 10x ile de yapılabildiği ortaya çıkıyorsa, neden 10x makineden 10 tane bulundurulmadığını anlamıyorum. Donanım ve veriler yeniden kullanılarak daha verimli modelin birden fazla örneği oluşturulabilir.

  • Danielhanchen'in çalışması etkileyici. Unsloth harika ve yeni modellere hızla uyum sağlama, ayrıca temel implementasyondaki hataları düzeltme becerisi şaşırtıcı. Ciddi araştırma laboratuvarları birkaç saatlik ön hazırlık süresi tanımalı.

  • Modelin boyutundaki küçülme ve tutarlılığın korunması şaşırtıcı. Ancak etkinin ne kadar korunduğu belirsiz. Flappy bird bilinen bir oyun, fakat R1 ve o1'in diğer modellerin çözemediği sorunları çözüp çözemediği daha iyi bir test olur.

  • Yeni nesil temel modelin 128GB VRAM'de 8 bit kuantizasyonla çıkarım yapabilecek şekilde tasarlanması iyi olurdu. Örneğin, 16 milyar etkin parametreye ve 6~7 uzmana sahip güçlü bir MoE tabanı 128GB RAM'li bir MacBook'ta çalışabilir.