DS4 Hakkında Birkaç Söz

(antirez.com)

1 puan yazan GN⁺ 5 시간 전 | 1 yorum | WhatsApp'ta paylaş

DwarfStar 4, beklenenden daha hızlı yayıldı ve tek model merkezli yerel yapay zeka deneyimine yönelik talebi ortaya koydu
Hızlı yayılımda DeepSeek v4 Flash ile 2/8 bit asimetrik kuantizasyon etkili oldu ve 96GB veya 128GB RAM ile çalıştırma mümkün hale geldi
DS4, belirli bir modele bağlı bir proje değil; GPU in a box cihazlarda hızlı çalışan en güncel açık ağırlıklı modelleri merkeze almayı hedefliyor
Yerel çıkarımda, soruya göre ds4-coding, ds4-legal, ds4-medical gibi uzman modelleri çağırıp kullanma yaklaşımı anlamlı görünüyor
Gelecekte odak noktaları kalite benchmark'ları, kodlama ajanları, ev donanımı tabanlı CI, daha fazla port ve seri·paralel dağıtık çıkarım olacak

DS4'ün Hızlı Yayılımı ve Arka Planı

DwarfStar 4, beklenenden daha hızlı popüler oldu ve tek model entegrasyonuna odaklanan yerel yapay zeka deneyimine yönelik talebi gösterdi
Hızlı yayılımda DeepSeek v4 Flash gibi yarı frontier modellerin ortaya çıkması, yerel çıkarım dengesini değiştirecek kadar büyük performans ve hız, ayrıca 2/8 bit güçlü asimetrik kuantizasyon birleşimi birlikte etkili oldu
Bu kombinasyon sayesinde modelin yalnızca 96GB veya 128GB RAM ile çalıştırılması mümkün hale geldi
Son birkaç yılda biriken yerel yapay zeka hareketi deneyimi, DS4'ün geliştirme hızını etkiledi; GPT 5.5'in yardımı olmasaydı bunun bir haftada yapılması zor görünüyordu
İlk hafta eğlenceliydi ama yorucuydu; günde ortalama 14 saat çalışıldı ve yoğunluk Redis'in ilk aylarına benziyordu

İleriye Dönük Yön

DS4, DeepSeek v4 Flash ile başlayıp biten bir proje değil; zamanla merkezdeki model değişebilir
Amaç, yüksek performanslı Mac'lerde veya DGX Spark gibi “GPU in a box” cihazlarda gerçekten hızlı çalışan en güncel açık ağırlıklı modelleri DS4'ün merkezine koymak
Sıradaki aday, yeni checkpoint olarak yayımlanacak DeepSeek v4 Flash; ayrıca kodlama sürümü ya da hukuk ve tıp gibi uzmanlaşmış varyantlar da mümkün
Yerel çıkarımda, soruya göre ds4-coding, ds4-legal, ds4-medical gibi modelleri çağırıp kullanma yaklaşımı anlamlı görünüyor
Claude ya da GPT'ye sorulan ciddi işleri yerel modellere emanet etmek, bunun ilk örneği sayılabilir
Vektör yönlendirme (vector steering) ile LLM'leri daha özgür kullanma deneyimi de mümkün hale geldi ve DS4, küçük yerel modellerden çok çevrimiçi frontier modellere daha yakın bir deneyim sunuyor
İlk birkaç kaotik günün ardından proje, kalite benchmark'ları, kodlama ajanları, ev donanımı tabanlı CI testleri, daha fazla port ve dağıtık çıkarıma odaklanacak
Dağıtık çıkarım, hem seri (serial) hem de paralel (parallel) yöntemleri kapsıyor ve geleceğin önemli görevlerinden biri olarak duruyor
Yapay zeka, yalnızca bir hizmet olarak sunulup geçiştirilemeyecek kadar önemli

1 yorum

GN⁺ 5 시간 전

Hacker News görüşleri

DwarfStar4, DeepSeek 4’ü çalıştırabilen küçük bir LLM çıkarım çalışma zamanı ve blog yazısına bakılırsa şu anda 96GB VRAM gerektiriyor gibi görünüyor
Bağlamı olmayanlar için açıklama yapıyorum :-)
- Bu tam model değil, Flash sürümü ve kuantizasyon da yaklaşık Q2~Q3 seviyesinde; etkileyici olsa da tam modelden oldukça farklı
- 96GB VRAM gerektiği söyleniyor; daha az RAM’li bir Mac’te çalıştırınca ne olduğunu test eden biri var mı merak ediyorum
  Çalışır ama model katmanlarını depodan çekerken biraz yavaşlayabilir gibi görünüyor
- DwarfStar4’ün llama.cpp’den nasıl farklı olduğunu merak ediyorum
Kodlama için gereken zekânın hangi noktada “yeterli” seviyeye ulaşacağını çok merak ediyorum
Bir noktadan sonra daha az akıllı bir modeli bir problem üzerinde daha uzun süre çalıştırarak aynı sonuca ulaşabilirsiniz ve ben devreye girmiyorsam sonuçta bu aynı şey sayılır
DeepSeek V4 Pro neredeyse o noktaya gelmiş gibi hissettiriyor, Flash da öyle olabilir
O noktaya gelinince Anthropic’in mevcut iş modelinin ne kadarının çökeceğini de merak ediyorum
Şimdiye kadar en akıllı modele para ödemek açıkça değerliydi, ama artık bu kavramın büyüme alanının sınırlı olduğu net görünüyor
Soru, kalan pistin ne kadar uzun olduğu; Anthropic’in kurumsal/verimlilik tarafına aceleyle açılmasının sebebi de belki bu gidişatı şimdiden görmeleri olabilir mi diye düşünüyorum
- Daha akıllı modellerin, küçük modellerin yapamadığı şeyleri doğrudan yaptığı durumlar var
  Bu sadece daha uzun bekleme meselesi değil gibi görünüyor
- Sonuçta mesele her zaman maliyet olacak
  Geliştirici zamanı, geliştirici maliyeti, AI maliyeti ve geliştirici verimliliği arasındaki denge bu
  4.6’ya bakınca tipik bir şirket için maliyet toleransının sınırına yakın görünüyor; bu yüzden başka değişkenlerin değişmesi gerekecek gibi
- Açık kaynak kodlama ajanı Kilo, Deepseek v4 Pro ve Flash’ı Opus 4.7 ve Kimi K2 ile karşılaştırmalı test etti[1]
  Sonuçlar iyiydi ama puanlar Opus’tan epey düşüktü ve Deepseek’in mevcut lansman promosyon fiyatı uygulansa bile maliyet neredeyse aynıydı
  Bu maliyet yapısı ilginç; Sonnet ve Opus’ta da benzerini gördüm ve kendi benchmark’larımda da fiyatı iyi görünen ama o kadar çok token kullanan, sonunda “daha pahalı” modelle aynı maliyete gelen modeller oldu
  [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
- Hobi amaçlı programcılar için oldukça hızlı biçimde yeterince iyi seviyesine ulaşacaktır, ama şirketler hâlâ daha hızlı ve daha akıllı modellere para ödeyecek gibi görünüyor
  Programcıları neden bekletesinler ki
Böyle dar odaklı bir araç görmek hoş
Desteklenen backend’lerde ana hedef Metal ve başlangıç noktası da 96GB RAM’li MacBook’lar
NVIDIA CUDA tarafında özellikle DGX Spark’a odaklanıyor, AMD ROCm ise yalnızca rocm branch’inde destekleniyor
antirez’in bu donanıma doğrudan erişimi olmadığı için ana dal ile ayrı tutuluyor ve topluluk ihtiyaç duyduğunda rebase ediyor
Bu proje llama.cpp ve GGML olmadan var olamazdı; teşekkür bölümünü okuyun da deniyor
Ama henüz sistem RAM’ine offload desteği yok gibi görünüyor[0]
Bu yüzden llama.cpp issue’sunu da takip etmeye devam etmek gerekiyor[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
- AMD ROCm’in sadece rocm branch’inde desteklendiği söyleniyor; bunu gerçekten deneyen biri var mı merak ediyorum
  Bu başlıkta çok MacBook Pro konuşuluyor ama ben bunu 128GB unified memory’li AMD Halo Strix üzerinde denemek isterdim
- O kadar RAM’li bir Mac’i hâlâ satın alabiliyor olsam keşke
Mac Studio’da yerel ağ üzerinden Q4 sürümünü denedim, güzeldi
Birkaç ajanla birlikte kullanırken işi o kadar iyi yaptı ki, ilk kez yerel bir model kullandığımı unuttum
Ama gerçekten bir ajan daha gerekip gerekmediğinden emin değilim
Pi ile çalıştırdım; Claude Code’un system prompt’u prefill hızı düşünülünce fazla ağır ama sonuçlar harikaydı
OpenCode da iyi bir seçenek
Sadece Deepseek 4’e özel benzer bir araç daha yapmanın ek bir faydası olur mu merak ediyorum
- İşlevsel olarak bir ajan daha gerekmiyor
  Ama DS4’ün kendi fikrini takip ederseniz, API ajanları DSML sözdizimini JSON’a çevirmek gibi tuhaf işler yapıyor ve bunun sonucunda normalizasyon ya da KV cache checkpointing sorunları çıkıyor
  Gerçekte durum böyle olsun ya da olmasın, daha düzgün bir alternatif sunmanın da anlamı var
  Bu alanda neden daha fazla şeyi C/Go/Rust ile yazıp daha fazla kontrol, hız ve daha az bağımlılık elde etmeye çalışmadığımızı da pek anlamıyorum
  TUI tarafında da hayal edilebilecek çok şey var
  Projelerin çoğunda sorun, insanların gördüklerini birebir kopyalaması; örneğin 20 dakikada şöyle bir şey yaptım: https://x.com/antirez/status/2055190821373116619
  Artık kod ucuzladı ve fikirlerin değeri arttı
  Bugün hâlâ “bir tane daha XYZ’ye gerek var mı?” diye düşünmenin doğru olduğundan emin değilim
  Sırf yeni fikirleri keşfetmek için bile buna değer olabilir
  Ben şahsen kod tarafında JavaScript / Node ekosistemini kullanmayı sevmiyorum; bu yüzden yeni bir TUI veya ajan iş akışını keşfederken daha rahat olduğum araçları kullanmak, hem sonucu hem de iterasyon sürecini değiştiriyor
- DS4 bir çıkarım motoru, bir execution harness değil
  Bir inference API sunucusu sağlıyor ve siz de kodlama harness’inizi ona bağlıyorsunuz
Şu an donanımım yetmediği için kullanamıyorum ama hoşuma gidiyor. Bende sadece 96GB’li bir M2 Max var
Genel kullanıcılar ya da kitlesel bilgisayarlar için çalışmamasını veya daha kötü görünmesini de anlıyorum
Bu bana, eski ev bilgisayarlarının kişisel bilgisayarlara dönüşmeden önce oyuncak gibi görülmesini hatırlatıyor
Şu an benim donanımımda işe yarayan tek kombinasyon pi agent + llama.cpp + nemotron cascade-2 modeli gibi görünüyor
1M bağlama kadar çıkabiliyor ve hibrit mimari sayesinde kod ajanlarının kullandığı 10K, 50K, 100K bağlam derinliklerinde 1/N² gibi çökmüyor
Birkaç gün önce uçakta internetsizken bile pi agent’i llama.cpp serving ile çalıştırabildim; yaklaşık 40~30 token/saniye ile zar zor kullanılabilir olması beni güldürdü
API’deyse bunun yaklaşık iki katı, yani 60~80 token/saniye civarı görüyorum
Çıkarım sırasında sensörler 60W tüketim gösteriyordu ve pil muhtemelen 3 saatten fazla dayanmazdı
Model yalnızca 30B boyutunda olduğu için KV cache ve diğer programlar için yeterince alan kalıyor; cömert bir 8 bit kuantizasyonda bile iyi
Aynı anda etkin olan parametre sayısı sadece 3B olan MoE A3B, yaşlanmış M2 Max’in kaldırabileceği üst sınır gibi görünüyor
- macOS’te farklı çalışıp çalışmadığını bilmiyorum ama CUDA ile DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf kombinasyonu, bağlam dahil 96GB VRAM içine sığıyor
  Dolayısıyla macOS varsayılan olarak OS ya da ekran için birkaç GB RAM/VRAM ayırmıyorsa teoride mümkün olmalı
- O bilgisayarda da çalışacak gibi görünüyor
  Birkaç olumlu rapor var
- 96GB ile özellikle sınırlı bağlamlarda çalışması gerekir
  Ama M2 Max biraz yavaş kalıyor
Claude’a çok yakın hissettirmesine şaşırdım
Elbette çok daha yavaş ama çok daha aptal olup olmadığından emin değilim
İlginç biçimde imatrix kuantizasyonu, OpenRouter’daki zdr inference backend’inin kullandığı kuantizasyonlardan daha iyi görünüyor
Dün, kendi sunucu sürecinin kendisi olduğunu ben söylemeden fark etti; yerel bir modelde bunu ilk kez gördüm
- Hangi prompt’u verdiğini merak ediyorum
- Açıkça anekdot düzeyinde bir test ama DeepseekV4 Pro, kodlamada Sonnet’ten daha iyiydi
  Çok daha yavaş ama mevcut promosyonda özellikle birkaç kat daha ucuz
Modele özel bir inference engine’i neden yeniden yazdıkları açıklanmamış gibi görünüyor
Sonuçta sadece llama.cpp kullanabilirlerdi ve zaten birçok kişi llama.cpp entegrasyonu üzerinde çalışıyor
Tek bir modele çok fazla emek harcanmış oluyor ve daha iyi başka bir model çıkarsa hızla eskiyebilir
Bazı tartışmalarda insanlar hem llama.cpp branch’ine hem de ds4’e PR açıyor; yani bu modele harcanan kıt geliştirme kaynağı parçalanıyor
- Sahip olmadığınız, olgun ama uğraştırıcı bir C++ kod tabanı yerine, bizzat sahip olduğunuz odaklı bir C kod tabanı üzerinde çalışmak çok daha kolay
  Bu yine de sorun değil. İnsanlar bu çalışmayı llama.cpp’ye port edecektir ve herkes kazanır
  ds4’ün kullanıcı deneyimi de harika. Doğrulanmış modeli ve iyi kuantizasyonu edinmek çok kolay
  llama.cpp’de o kadar çok ayar düğmesi var ki daha çok çorak arazide hackliyormuşsun gibi hissettiriyor
- Varsayım sanırım şu: “kod ucuz, işbirliği — örneğin upstream’e alma — pahalıdır”
  Bunun doğru olup olmadığını birkaç yıl içinde göreceğiz
- Yazarın defalarca söylediği gibi, llama.cpp bakımcıları insan tarafından incelenmemiş AI yazımı kodun geniş ölçekte içeri alınmasını istemiyor
  Birisi bu desteği o projeye upstream etmek istiyorsa elbette özgürce yapabilir; kod MIT lisansı altında
- Bir noktadan sonra llama.cpp ya da Linux gibi büyük ve esnek projelerin ihtiyaç duyduğu soyutlama/genelleme düzeyi dosya sayısını çok artırıyor
  Daha yeni ve daha küçük projeler daha hızlı hareket edebilir
DeepSeekV4 Pro gerçekten çok yetenekli bir model ve özellikle sunulan fiyat düzeyinde çok iyi
C’de raylib üzerinde 2.5D bir motorla uğraşırken DeepSeek’i yardımcı olarak kullanıyorum
OpenaCode’da düşünce süreci kaydının şeffaf biçimde görünmesi çok etkileyici
Okuması çok uzun ama içinde işe yaramaz ya da anlamsız hiçbir bölüm olmadı
DeepSeek, benim düşünmediğim ya da yanlış kurduğum varsayımları düşünce sürecinde hep işaretledi ve sonra nihai çıktıda benim flawed request’ime uyum sağlamaya çalıştı
Ben de sonra “bir dakika, sen de öyle düşündün değil mi, doğru olan o ve hatayı ben yaptım, o hâlde o yönü de hesaba katalım” diye yeniden yönlendirdim
Bunun yalnızca kendi bilgisayarımda değil, istemci projelerinde ya da cloud GPU üzerinde de çalışabilmesini isterim
Güçlü bir modeli cluster olmadan verimli şekilde kullanabilme ana fikri, birçok iş senaryosu için hâlâ geçerli
Bunun batch modunda da çalışmasını umuyorum
Şu anda H200 üzerinde akıllı ses ajanlarının ajansal tool calling işleri için MTP’li 4 bit Qwen 3.6 27B en iyilerden biri gibi hissettiriyor
Eğer DS4 Flash, 2 bit 80B, 13B active ve MTP mimarisindeyse; daha hızlı, daha akıllı olup aynı anda daha fazla sequence’a izin verebilir mi diye merak ediyorum
Bu özel 2 bit kuantizasyon gerçekten oldukça önemli görünüyor
Yerel modellerde “zeka” dediğimiz şey her neyse, performansın ve hızın bu kadar hızlı artmasını görünce bu alanın büyüme oranı ve tavanı nerede olacak diye merak ediyorum
Birkaç yıl içinde örneğin 16GB RAM üzerinde de bu düzeyde zeka ve performans mümkün olabilir mi?
Burada yeni bir tür Moore yasası tanımlayabilir miyiz?
- Bu tür modelleri, o “büyük model kokusu”nu da koruyarak 16GB içine sıkıştırmak açıkçası bugün için mümkün değil ya da pratikte gerçekçi değil
  Mimari yenilik, donanım yeniliği ya da bir kuantizasyon tekniği atılımı gerekiyor
  Sorun şu ki etkinleşmeyen parametrelerin bile bellekte durması gerekiyor
  Mixture-of-experts modellerinde bile parametreleri RAM içine/dışına taşıma işi fazla yavaş
- Bu alanın ön saflarında çalışan insanlar, farklı sorunları çözen paralel modeller gerektiğini düşünüyor gibi görünüyor
  Kargalar, insanlara kıyasla çok küçük beyinlerle belli bir zekâ gösterebiliyor ve en az zeki insanlarla en zeki kargaların problem çözme yeteneklerinde bir örtüşme var
  Bu yüzden soru bunun ne olduğu
  Yann LeCun, bunun şu anda world model dediğimiz şey olduğunu düşünüyor gibi
  World model, dil gibi yapılandırılmış veriyi değil eylemleri tahmin ediyor
  Bir dünyanın nasıl çalıştığını tahmin edebiliyorsanız, teorik olarak neden-sonuç ilişkisini de çıkarabilirsiniz
  Eğer neden-sonuç çıkarımını dille birleştirebilirseniz, gerçek zekâya daha yakın bir şey ortaya çıkabilir
  Görünüşe göre yön o tarafa gidiyor
  Böyle bir sistemin prototipi çıkarsa gerçekte ne kadar veri gerektiğiyle ilgili pek çok soru doğacak
  1 bit kuantizasyonla küçültülmüş LLM’lerin bile dil anlayışında oldukça güçlü kalabildiğini şimdiden gördük
  Önümüzdeki birkaç yıl içinde görece düşük bellekle bile çok zeki AI sistemleri görmemizin mantıksız olduğunu düşünmüyorum

DS4 Hakkında Birkaç Söz

DS4'ün Hızlı Yayılımı ve Arka Planı

İleriye Dönük Yön

İlgili okumalar

1 yorum

Hacker News görüşleri