DS4 Hakkında Birkaç Söz
(antirez.com)- DwarfStar 4, beklenenden daha hızlı yayıldı ve tek model merkezli yerel yapay zeka deneyimine yönelik talebi ortaya koydu
- Hızlı yayılımda DeepSeek v4 Flash ile 2/8 bit asimetrik kuantizasyon etkili oldu ve 96GB veya 128GB RAM ile çalıştırma mümkün hale geldi
- DS4, belirli bir modele bağlı bir proje değil; GPU in a box cihazlarda hızlı çalışan en güncel açık ağırlıklı modelleri merkeze almayı hedefliyor
- Yerel çıkarımda, soruya göre ds4-coding, ds4-legal, ds4-medical gibi uzman modelleri çağırıp kullanma yaklaşımı anlamlı görünüyor
- Gelecekte odak noktaları kalite benchmark'ları, kodlama ajanları, ev donanımı tabanlı CI, daha fazla port ve seri·paralel dağıtık çıkarım olacak
DS4'ün Hızlı Yayılımı ve Arka Planı
- DwarfStar 4, beklenenden daha hızlı popüler oldu ve tek model entegrasyonuna odaklanan yerel yapay zeka deneyimine yönelik talebi gösterdi
- Hızlı yayılımda DeepSeek v4 Flash gibi yarı frontier modellerin ortaya çıkması, yerel çıkarım dengesini değiştirecek kadar büyük performans ve hız, ayrıca 2/8 bit güçlü asimetrik kuantizasyon birleşimi birlikte etkili oldu
- Bu kombinasyon sayesinde modelin yalnızca 96GB veya 128GB RAM ile çalıştırılması mümkün hale geldi
- Son birkaç yılda biriken yerel yapay zeka hareketi deneyimi, DS4'ün geliştirme hızını etkiledi; GPT 5.5'in yardımı olmasaydı bunun bir haftada yapılması zor görünüyordu
- İlk hafta eğlenceliydi ama yorucuydu; günde ortalama 14 saat çalışıldı ve yoğunluk Redis'in ilk aylarına benziyordu
İleriye Dönük Yön
- DS4, DeepSeek v4 Flash ile başlayıp biten bir proje değil; zamanla merkezdeki model değişebilir
- Amaç, yüksek performanslı Mac'lerde veya DGX Spark gibi “GPU in a box” cihazlarda gerçekten hızlı çalışan en güncel açık ağırlıklı modelleri DS4'ün merkezine koymak
- Sıradaki aday, yeni checkpoint olarak yayımlanacak DeepSeek v4 Flash; ayrıca kodlama sürümü ya da hukuk ve tıp gibi uzmanlaşmış varyantlar da mümkün
- Yerel çıkarımda, soruya göre ds4-coding, ds4-legal, ds4-medical gibi modelleri çağırıp kullanma yaklaşımı anlamlı görünüyor
- Claude ya da GPT'ye sorulan ciddi işleri yerel modellere emanet etmek, bunun ilk örneği sayılabilir
- Vektör yönlendirme (vector steering) ile LLM'leri daha özgür kullanma deneyimi de mümkün hale geldi ve DS4, küçük yerel modellerden çok çevrimiçi frontier modellere daha yakın bir deneyim sunuyor
- İlk birkaç kaotik günün ardından proje, kalite benchmark'ları, kodlama ajanları, ev donanımı tabanlı CI testleri, daha fazla port ve dağıtık çıkarıma odaklanacak
- Dağıtık çıkarım, hem seri (serial) hem de paralel (parallel) yöntemleri kapsıyor ve geleceğin önemli görevlerinden biri olarak duruyor
- Yapay zeka, yalnızca bir hizmet olarak sunulup geçiştirilemeyecek kadar önemli
1 yorum
Hacker News görüşleri
DwarfStar4, DeepSeek 4’ü çalıştırabilen küçük bir LLM çıkarım çalışma zamanı ve blog yazısına bakılırsa şu anda 96GB VRAM gerektiriyor gibi görünüyor
Bağlamı olmayanlar için açıklama yapıyorum :-)
Çalışır ama model katmanlarını depodan çekerken biraz yavaşlayabilir gibi görünüyor
Kodlama için gereken zekânın hangi noktada “yeterli” seviyeye ulaşacağını çok merak ediyorum
Bir noktadan sonra daha az akıllı bir modeli bir problem üzerinde daha uzun süre çalıştırarak aynı sonuca ulaşabilirsiniz ve ben devreye girmiyorsam sonuçta bu aynı şey sayılır
DeepSeek V4 Pro neredeyse o noktaya gelmiş gibi hissettiriyor, Flash da öyle olabilir
O noktaya gelinince Anthropic’in mevcut iş modelinin ne kadarının çökeceğini de merak ediyorum
Şimdiye kadar en akıllı modele para ödemek açıkça değerliydi, ama artık bu kavramın büyüme alanının sınırlı olduğu net görünüyor
Soru, kalan pistin ne kadar uzun olduğu; Anthropic’in kurumsal/verimlilik tarafına aceleyle açılmasının sebebi de belki bu gidişatı şimdiden görmeleri olabilir mi diye düşünüyorum
Bu sadece daha uzun bekleme meselesi değil gibi görünüyor
Geliştirici zamanı, geliştirici maliyeti, AI maliyeti ve geliştirici verimliliği arasındaki denge bu
4.6’ya bakınca tipik bir şirket için maliyet toleransının sınırına yakın görünüyor; bu yüzden başka değişkenlerin değişmesi gerekecek gibi
Sonuçlar iyiydi ama puanlar Opus’tan epey düşüktü ve Deepseek’in mevcut lansman promosyon fiyatı uygulansa bile maliyet neredeyse aynıydı
Bu maliyet yapısı ilginç; Sonnet ve Opus’ta da benzerini gördüm ve kendi benchmark’larımda da fiyatı iyi görünen ama o kadar çok token kullanan, sonunda “daha pahalı” modelle aynı maliyete gelen modeller oldu
[1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
Programcıları neden bekletesinler ki
Böyle dar odaklı bir araç görmek hoş
Desteklenen backend’lerde ana hedef Metal ve başlangıç noktası da 96GB RAM’li MacBook’lar
NVIDIA CUDA tarafında özellikle DGX Spark’a odaklanıyor, AMD ROCm ise yalnızca
rocmbranch’inde destekleniyorantirez’in bu donanıma doğrudan erişimi olmadığı için ana dal ile ayrı tutuluyor ve topluluk ihtiyaç duyduğunda rebase ediyor
Bu proje llama.cpp ve GGML olmadan var olamazdı; teşekkür bölümünü okuyun da deniyor
Ama henüz sistem RAM’ine offload desteği yok gibi görünüyor[0]
Bu yüzden llama.cpp issue’sunu da takip etmeye devam etmek gerekiyor[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
rocmbranch’inde desteklendiği söyleniyor; bunu gerçekten deneyen biri var mı merak ediyorumBu başlıkta çok MacBook Pro konuşuluyor ama ben bunu 128GB unified memory’li AMD Halo Strix üzerinde denemek isterdim
Mac Studio’da yerel ağ üzerinden Q4 sürümünü denedim, güzeldi
Birkaç ajanla birlikte kullanırken işi o kadar iyi yaptı ki, ilk kez yerel bir model kullandığımı unuttum
Ama gerçekten bir ajan daha gerekip gerekmediğinden emin değilim
Pi ile çalıştırdım; Claude Code’un system prompt’u prefill hızı düşünülünce fazla ağır ama sonuçlar harikaydı
OpenCode da iyi bir seçenek
Sadece Deepseek 4’e özel benzer bir araç daha yapmanın ek bir faydası olur mu merak ediyorum
Ama DS4’ün kendi fikrini takip ederseniz, API ajanları DSML sözdizimini JSON’a çevirmek gibi tuhaf işler yapıyor ve bunun sonucunda normalizasyon ya da KV cache checkpointing sorunları çıkıyor
Gerçekte durum böyle olsun ya da olmasın, daha düzgün bir alternatif sunmanın da anlamı var
Bu alanda neden daha fazla şeyi C/Go/Rust ile yazıp daha fazla kontrol, hız ve daha az bağımlılık elde etmeye çalışmadığımızı da pek anlamıyorum
TUI tarafında da hayal edilebilecek çok şey var
Projelerin çoğunda sorun, insanların gördüklerini birebir kopyalaması; örneğin 20 dakikada şöyle bir şey yaptım: https://x.com/antirez/status/2055190821373116619
Artık kod ucuzladı ve fikirlerin değeri arttı
Bugün hâlâ “bir tane daha XYZ’ye gerek var mı?” diye düşünmenin doğru olduğundan emin değilim
Sırf yeni fikirleri keşfetmek için bile buna değer olabilir
Ben şahsen kod tarafında JavaScript / Node ekosistemini kullanmayı sevmiyorum; bu yüzden yeni bir TUI veya ajan iş akışını keşfederken daha rahat olduğum araçları kullanmak, hem sonucu hem de iterasyon sürecini değiştiriyor
Bir inference API sunucusu sağlıyor ve siz de kodlama harness’inizi ona bağlıyorsunuz
Şu an donanımım yetmediği için kullanamıyorum ama hoşuma gidiyor. Bende sadece 96GB’li bir M2 Max var
Genel kullanıcılar ya da kitlesel bilgisayarlar için çalışmamasını veya daha kötü görünmesini de anlıyorum
Bu bana, eski ev bilgisayarlarının kişisel bilgisayarlara dönüşmeden önce oyuncak gibi görülmesini hatırlatıyor
Şu an benim donanımımda işe yarayan tek kombinasyon pi agent + llama.cpp + nemotron cascade-2 modeli gibi görünüyor
1M bağlama kadar çıkabiliyor ve hibrit mimari sayesinde kod ajanlarının kullandığı 10K, 50K, 100K bağlam derinliklerinde 1/N² gibi çökmüyor
Birkaç gün önce uçakta internetsizken bile pi agent’i llama.cpp serving ile çalıştırabildim; yaklaşık 40~30 token/saniye ile zar zor kullanılabilir olması beni güldürdü
API’deyse bunun yaklaşık iki katı, yani 60~80 token/saniye civarı görüyorum
Çıkarım sırasında sensörler 60W tüketim gösteriyordu ve pil muhtemelen 3 saatten fazla dayanmazdı
Model yalnızca 30B boyutunda olduğu için KV cache ve diğer programlar için yeterince alan kalıyor; cömert bir 8 bit kuantizasyonda bile iyi
Aynı anda etkin olan parametre sayısı sadece 3B olan MoE A3B, yaşlanmış M2 Max’in kaldırabileceği üst sınır gibi görünüyor
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.ggufkombinasyonu, bağlam dahil 96GB VRAM içine sığıyorDolayısıyla macOS varsayılan olarak OS ya da ekran için birkaç GB RAM/VRAM ayırmıyorsa teoride mümkün olmalı
Birkaç olumlu rapor var
Ama M2 Max biraz yavaş kalıyor
Claude’a çok yakın hissettirmesine şaşırdım
Elbette çok daha yavaş ama çok daha aptal olup olmadığından emin değilim
İlginç biçimde imatrix kuantizasyonu, OpenRouter’daki zdr inference backend’inin kullandığı kuantizasyonlardan daha iyi görünüyor
Dün, kendi sunucu sürecinin kendisi olduğunu ben söylemeden fark etti; yerel bir modelde bunu ilk kez gördüm
Çok daha yavaş ama mevcut promosyonda özellikle birkaç kat daha ucuz
Modele özel bir inference engine’i neden yeniden yazdıkları açıklanmamış gibi görünüyor
Sonuçta sadece llama.cpp kullanabilirlerdi ve zaten birçok kişi llama.cpp entegrasyonu üzerinde çalışıyor
Tek bir modele çok fazla emek harcanmış oluyor ve daha iyi başka bir model çıkarsa hızla eskiyebilir
Bazı tartışmalarda insanlar hem llama.cpp branch’ine hem de ds4’e PR açıyor; yani bu modele harcanan kıt geliştirme kaynağı parçalanıyor
Bu yine de sorun değil. İnsanlar bu çalışmayı llama.cpp’ye port edecektir ve herkes kazanır
ds4’ün kullanıcı deneyimi de harika. Doğrulanmış modeli ve iyi kuantizasyonu edinmek çok kolay
llama.cpp’de o kadar çok ayar düğmesi var ki daha çok çorak arazide hackliyormuşsun gibi hissettiriyor
Bunun doğru olup olmadığını birkaç yıl içinde göreceğiz
Birisi bu desteği o projeye upstream etmek istiyorsa elbette özgürce yapabilir; kod MIT lisansı altında
Daha yeni ve daha küçük projeler daha hızlı hareket edebilir
DeepSeekV4 Pro gerçekten çok yetenekli bir model ve özellikle sunulan fiyat düzeyinde çok iyi
C’de raylib üzerinde 2.5D bir motorla uğraşırken DeepSeek’i yardımcı olarak kullanıyorum
OpenaCode’da düşünce süreci kaydının şeffaf biçimde görünmesi çok etkileyici
Okuması çok uzun ama içinde işe yaramaz ya da anlamsız hiçbir bölüm olmadı
DeepSeek, benim düşünmediğim ya da yanlış kurduğum varsayımları düşünce sürecinde hep işaretledi ve sonra nihai çıktıda benim flawed request’ime uyum sağlamaya çalıştı
Ben de sonra “bir dakika, sen de öyle düşündün değil mi, doğru olan o ve hatayı ben yaptım, o hâlde o yönü de hesaba katalım” diye yeniden yönlendirdim
Bunun yalnızca kendi bilgisayarımda değil, istemci projelerinde ya da cloud GPU üzerinde de çalışabilmesini isterim
Güçlü bir modeli cluster olmadan verimli şekilde kullanabilme ana fikri, birçok iş senaryosu için hâlâ geçerli
Bunun batch modunda da çalışmasını umuyorum
Şu anda H200 üzerinde akıllı ses ajanlarının ajansal tool calling işleri için MTP’li 4 bit Qwen 3.6 27B en iyilerden biri gibi hissettiriyor
Eğer DS4 Flash, 2 bit 80B, 13B active ve MTP mimarisindeyse; daha hızlı, daha akıllı olup aynı anda daha fazla sequence’a izin verebilir mi diye merak ediyorum
Bu özel 2 bit kuantizasyon gerçekten oldukça önemli görünüyor
Yerel modellerde “zeka” dediğimiz şey her neyse, performansın ve hızın bu kadar hızlı artmasını görünce bu alanın büyüme oranı ve tavanı nerede olacak diye merak ediyorum
Birkaç yıl içinde örneğin 16GB RAM üzerinde de bu düzeyde zeka ve performans mümkün olabilir mi?
Burada yeni bir tür Moore yasası tanımlayabilir miyiz?
Mimari yenilik, donanım yeniliği ya da bir kuantizasyon tekniği atılımı gerekiyor
Sorun şu ki etkinleşmeyen parametrelerin bile bellekte durması gerekiyor
Mixture-of-experts modellerinde bile parametreleri RAM içine/dışına taşıma işi fazla yavaş
Kargalar, insanlara kıyasla çok küçük beyinlerle belli bir zekâ gösterebiliyor ve en az zeki insanlarla en zeki kargaların problem çözme yeteneklerinde bir örtüşme var
Bu yüzden soru bunun ne olduğu
Yann LeCun, bunun şu anda world model dediğimiz şey olduğunu düşünüyor gibi
World model, dil gibi yapılandırılmış veriyi değil eylemleri tahmin ediyor
Bir dünyanın nasıl çalıştığını tahmin edebiliyorsanız, teorik olarak neden-sonuç ilişkisini de çıkarabilirsiniz
Eğer neden-sonuç çıkarımını dille birleştirebilirseniz, gerçek zekâya daha yakın bir şey ortaya çıkabilir
Görünüşe göre yön o tarafa gidiyor
Böyle bir sistemin prototipi çıkarsa gerçekte ne kadar veri gerektiğiyle ilgili pek çok soru doğacak
1 bit kuantizasyonla küçültülmüş LLM’lerin bile dil anlayışında oldukça güçlü kalabildiğini şimdiden gördük
Önümüzdeki birkaç yıl içinde görece düşük bellekle bile çok zeki AI sistemleri görmemizin mantıksız olduğunu düşünmüyorum