1 puan yazan GN⁺ 5 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • DwarfStar 4, beklenenden daha hızlı yayıldı ve tek model merkezli yerel yapay zeka deneyimine yönelik talebi ortaya koydu
  • Hızlı yayılımda DeepSeek v4 Flash ile 2/8 bit asimetrik kuantizasyon etkili oldu ve 96GB veya 128GB RAM ile çalıştırma mümkün hale geldi
  • DS4, belirli bir modele bağlı bir proje değil; GPU in a box cihazlarda hızlı çalışan en güncel açık ağırlıklı modelleri merkeze almayı hedefliyor
  • Yerel çıkarımda, soruya göre ds4-coding, ds4-legal, ds4-medical gibi uzman modelleri çağırıp kullanma yaklaşımı anlamlı görünüyor
  • Gelecekte odak noktaları kalite benchmark'ları, kodlama ajanları, ev donanımı tabanlı CI, daha fazla port ve seri·paralel dağıtık çıkarım olacak

DS4'ün Hızlı Yayılımı ve Arka Planı

  • DwarfStar 4, beklenenden daha hızlı popüler oldu ve tek model entegrasyonuna odaklanan yerel yapay zeka deneyimine yönelik talebi gösterdi
  • Hızlı yayılımda DeepSeek v4 Flash gibi yarı frontier modellerin ortaya çıkması, yerel çıkarım dengesini değiştirecek kadar büyük performans ve hız, ayrıca 2/8 bit güçlü asimetrik kuantizasyon birleşimi birlikte etkili oldu
  • Bu kombinasyon sayesinde modelin yalnızca 96GB veya 128GB RAM ile çalıştırılması mümkün hale geldi
  • Son birkaç yılda biriken yerel yapay zeka hareketi deneyimi, DS4'ün geliştirme hızını etkiledi; GPT 5.5'in yardımı olmasaydı bunun bir haftada yapılması zor görünüyordu
  • İlk hafta eğlenceliydi ama yorucuydu; günde ortalama 14 saat çalışıldı ve yoğunluk Redis'in ilk aylarına benziyordu

İleriye Dönük Yön

  • DS4, DeepSeek v4 Flash ile başlayıp biten bir proje değil; zamanla merkezdeki model değişebilir
  • Amaç, yüksek performanslı Mac'lerde veya DGX Spark gibi “GPU in a box” cihazlarda gerçekten hızlı çalışan en güncel açık ağırlıklı modelleri DS4'ün merkezine koymak
  • Sıradaki aday, yeni checkpoint olarak yayımlanacak DeepSeek v4 Flash; ayrıca kodlama sürümü ya da hukuk ve tıp gibi uzmanlaşmış varyantlar da mümkün
  • Yerel çıkarımda, soruya göre ds4-coding, ds4-legal, ds4-medical gibi modelleri çağırıp kullanma yaklaşımı anlamlı görünüyor
  • Claude ya da GPT'ye sorulan ciddi işleri yerel modellere emanet etmek, bunun ilk örneği sayılabilir
  • Vektör yönlendirme (vector steering) ile LLM'leri daha özgür kullanma deneyimi de mümkün hale geldi ve DS4, küçük yerel modellerden çok çevrimiçi frontier modellere daha yakın bir deneyim sunuyor
  • İlk birkaç kaotik günün ardından proje, kalite benchmark'ları, kodlama ajanları, ev donanımı tabanlı CI testleri, daha fazla port ve dağıtık çıkarıma odaklanacak
  • Dağıtık çıkarım, hem seri (serial) hem de paralel (parallel) yöntemleri kapsıyor ve geleceğin önemli görevlerinden biri olarak duruyor
  • Yapay zeka, yalnızca bir hizmet olarak sunulup geçiştirilemeyecek kadar önemli

1 yorum

 
GN⁺ 5 시간 전
Hacker News görüşleri
  • DwarfStar4, DeepSeek 4’ü çalıştırabilen küçük bir LLM çıkarım çalışma zamanı ve blog yazısına bakılırsa şu anda 96GB VRAM gerektiriyor gibi görünüyor
    Bağlamı olmayanlar için açıklama yapıyorum :-)

    • Bu tam model değil, Flash sürümü ve kuantizasyon da yaklaşık Q2~Q3 seviyesinde; etkileyici olsa da tam modelden oldukça farklı
    • 96GB VRAM gerektiği söyleniyor; daha az RAM’li bir Mac’te çalıştırınca ne olduğunu test eden biri var mı merak ediyorum
      Çalışır ama model katmanlarını depodan çekerken biraz yavaşlayabilir gibi görünüyor
    • DwarfStar4’ün llama.cpp’den nasıl farklı olduğunu merak ediyorum
  • Kodlama için gereken zekânın hangi noktada “yeterli” seviyeye ulaşacağını çok merak ediyorum
    Bir noktadan sonra daha az akıllı bir modeli bir problem üzerinde daha uzun süre çalıştırarak aynı sonuca ulaşabilirsiniz ve ben devreye girmiyorsam sonuçta bu aynı şey sayılır
    DeepSeek V4 Pro neredeyse o noktaya gelmiş gibi hissettiriyor, Flash da öyle olabilir
    O noktaya gelinince Anthropic’in mevcut iş modelinin ne kadarının çökeceğini de merak ediyorum
    Şimdiye kadar en akıllı modele para ödemek açıkça değerliydi, ama artık bu kavramın büyüme alanının sınırlı olduğu net görünüyor
    Soru, kalan pistin ne kadar uzun olduğu; Anthropic’in kurumsal/verimlilik tarafına aceleyle açılmasının sebebi de belki bu gidişatı şimdiden görmeleri olabilir mi diye düşünüyorum

    • Daha akıllı modellerin, küçük modellerin yapamadığı şeyleri doğrudan yaptığı durumlar var
      Bu sadece daha uzun bekleme meselesi değil gibi görünüyor
    • Sonuçta mesele her zaman maliyet olacak
      Geliştirici zamanı, geliştirici maliyeti, AI maliyeti ve geliştirici verimliliği arasındaki denge bu
      4.6’ya bakınca tipik bir şirket için maliyet toleransının sınırına yakın görünüyor; bu yüzden başka değişkenlerin değişmesi gerekecek gibi
    • Açık kaynak kodlama ajanı Kilo, Deepseek v4 Pro ve Flash’ı Opus 4.7 ve Kimi K2 ile karşılaştırmalı test etti[1]
      Sonuçlar iyiydi ama puanlar Opus’tan epey düşüktü ve Deepseek’in mevcut lansman promosyon fiyatı uygulansa bile maliyet neredeyse aynıydı
      Bu maliyet yapısı ilginç; Sonnet ve Opus’ta da benzerini gördüm ve kendi benchmark’larımda da fiyatı iyi görünen ama o kadar çok token kullanan, sonunda “daha pahalı” modelle aynı maliyete gelen modeller oldu
      [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
    • Hobi amaçlı programcılar için oldukça hızlı biçimde yeterince iyi seviyesine ulaşacaktır, ama şirketler hâlâ daha hızlı ve daha akıllı modellere para ödeyecek gibi görünüyor
      Programcıları neden bekletesinler ki
  • Böyle dar odaklı bir araç görmek hoş
    Desteklenen backend’lerde ana hedef Metal ve başlangıç noktası da 96GB RAM’li MacBook’lar
    NVIDIA CUDA tarafında özellikle DGX Spark’a odaklanıyor, AMD ROCm ise yalnızca rocm branch’inde destekleniyor
    antirez’in bu donanıma doğrudan erişimi olmadığı için ana dal ile ayrı tutuluyor ve topluluk ihtiyaç duyduğunda rebase ediyor
    Bu proje llama.cpp ve GGML olmadan var olamazdı; teşekkür bölümünü okuyun da deniyor
    Ama henüz sistem RAM’ine offload desteği yok gibi görünüyor[0]
    Bu yüzden llama.cpp issue’sunu da takip etmeye devam etmek gerekiyor[1]
    [0] https://github.com/antirez/ds4/issues/108
    [1] https://github.com/ggml-org/llama.cpp/issues/22319

    • AMD ROCm’in sadece rocm branch’inde desteklendiği söyleniyor; bunu gerçekten deneyen biri var mı merak ediyorum
      Bu başlıkta çok MacBook Pro konuşuluyor ama ben bunu 128GB unified memory’li AMD Halo Strix üzerinde denemek isterdim
    • O kadar RAM’li bir Mac’i hâlâ satın alabiliyor olsam keşke
  • Mac Studio’da yerel ağ üzerinden Q4 sürümünü denedim, güzeldi
    Birkaç ajanla birlikte kullanırken işi o kadar iyi yaptı ki, ilk kez yerel bir model kullandığımı unuttum
    Ama gerçekten bir ajan daha gerekip gerekmediğinden emin değilim
    Pi ile çalıştırdım; Claude Code’un system prompt’u prefill hızı düşünülünce fazla ağır ama sonuçlar harikaydı
    OpenCode da iyi bir seçenek
    Sadece Deepseek 4’e özel benzer bir araç daha yapmanın ek bir faydası olur mu merak ediyorum

    • İşlevsel olarak bir ajan daha gerekmiyor
      Ama DS4’ün kendi fikrini takip ederseniz, API ajanları DSML sözdizimini JSON’a çevirmek gibi tuhaf işler yapıyor ve bunun sonucunda normalizasyon ya da KV cache checkpointing sorunları çıkıyor
      Gerçekte durum böyle olsun ya da olmasın, daha düzgün bir alternatif sunmanın da anlamı var
      Bu alanda neden daha fazla şeyi C/Go/Rust ile yazıp daha fazla kontrol, hız ve daha az bağımlılık elde etmeye çalışmadığımızı da pek anlamıyorum
      TUI tarafında da hayal edilebilecek çok şey var
      Projelerin çoğunda sorun, insanların gördüklerini birebir kopyalaması; örneğin 20 dakikada şöyle bir şey yaptım: https://x.com/antirez/status/2055190821373116619
      Artık kod ucuzladı ve fikirlerin değeri arttı
      Bugün hâlâ “bir tane daha XYZ’ye gerek var mı?” diye düşünmenin doğru olduğundan emin değilim
      Sırf yeni fikirleri keşfetmek için bile buna değer olabilir
      Ben şahsen kod tarafında JavaScript / Node ekosistemini kullanmayı sevmiyorum; bu yüzden yeni bir TUI veya ajan iş akışını keşfederken daha rahat olduğum araçları kullanmak, hem sonucu hem de iterasyon sürecini değiştiriyor
    • DS4 bir çıkarım motoru, bir execution harness değil
      Bir inference API sunucusu sağlıyor ve siz de kodlama harness’inizi ona bağlıyorsunuz
  • Şu an donanımım yetmediği için kullanamıyorum ama hoşuma gidiyor. Bende sadece 96GB’li bir M2 Max var
    Genel kullanıcılar ya da kitlesel bilgisayarlar için çalışmamasını veya daha kötü görünmesini de anlıyorum
    Bu bana, eski ev bilgisayarlarının kişisel bilgisayarlara dönüşmeden önce oyuncak gibi görülmesini hatırlatıyor
    Şu an benim donanımımda işe yarayan tek kombinasyon pi agent + llama.cpp + nemotron cascade-2 modeli gibi görünüyor
    1M bağlama kadar çıkabiliyor ve hibrit mimari sayesinde kod ajanlarının kullandığı 10K, 50K, 100K bağlam derinliklerinde 1/N² gibi çökmüyor
    Birkaç gün önce uçakta internetsizken bile pi agent’i llama.cpp serving ile çalıştırabildim; yaklaşık 40~30 token/saniye ile zar zor kullanılabilir olması beni güldürdü
    API’deyse bunun yaklaşık iki katı, yani 60~80 token/saniye civarı görüyorum
    Çıkarım sırasında sensörler 60W tüketim gösteriyordu ve pil muhtemelen 3 saatten fazla dayanmazdı
    Model yalnızca 30B boyutunda olduğu için KV cache ve diğer programlar için yeterince alan kalıyor; cömert bir 8 bit kuantizasyonda bile iyi
    Aynı anda etkin olan parametre sayısı sadece 3B olan MoE A3B, yaşlanmış M2 Max’in kaldırabileceği üst sınır gibi görünüyor

    • macOS’te farklı çalışıp çalışmadığını bilmiyorum ama CUDA ile DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf kombinasyonu, bağlam dahil 96GB VRAM içine sığıyor
      Dolayısıyla macOS varsayılan olarak OS ya da ekran için birkaç GB RAM/VRAM ayırmıyorsa teoride mümkün olmalı
    • O bilgisayarda da çalışacak gibi görünüyor
      Birkaç olumlu rapor var
    • 96GB ile özellikle sınırlı bağlamlarda çalışması gerekir
      Ama M2 Max biraz yavaş kalıyor
  • Claude’a çok yakın hissettirmesine şaşırdım
    Elbette çok daha yavaş ama çok daha aptal olup olmadığından emin değilim
    İlginç biçimde imatrix kuantizasyonu, OpenRouter’daki zdr inference backend’inin kullandığı kuantizasyonlardan daha iyi görünüyor
    Dün, kendi sunucu sürecinin kendisi olduğunu ben söylemeden fark etti; yerel bir modelde bunu ilk kez gördüm

    • Hangi prompt’u verdiğini merak ediyorum
    • Açıkça anekdot düzeyinde bir test ama DeepseekV4 Pro, kodlamada Sonnet’ten daha iyiydi
      Çok daha yavaş ama mevcut promosyonda özellikle birkaç kat daha ucuz
  • Modele özel bir inference engine’i neden yeniden yazdıkları açıklanmamış gibi görünüyor
    Sonuçta sadece llama.cpp kullanabilirlerdi ve zaten birçok kişi llama.cpp entegrasyonu üzerinde çalışıyor
    Tek bir modele çok fazla emek harcanmış oluyor ve daha iyi başka bir model çıkarsa hızla eskiyebilir
    Bazı tartışmalarda insanlar hem llama.cpp branch’ine hem de ds4’e PR açıyor; yani bu modele harcanan kıt geliştirme kaynağı parçalanıyor

    • Sahip olmadığınız, olgun ama uğraştırıcı bir C++ kod tabanı yerine, bizzat sahip olduğunuz odaklı bir C kod tabanı üzerinde çalışmak çok daha kolay
      Bu yine de sorun değil. İnsanlar bu çalışmayı llama.cpp’ye port edecektir ve herkes kazanır
      ds4’ün kullanıcı deneyimi de harika. Doğrulanmış modeli ve iyi kuantizasyonu edinmek çok kolay
      llama.cpp’de o kadar çok ayar düğmesi var ki daha çok çorak arazide hackliyormuşsun gibi hissettiriyor
    • Varsayım sanırım şu: “kod ucuz, işbirliği — örneğin upstream’e alma — pahalıdır”
      Bunun doğru olup olmadığını birkaç yıl içinde göreceğiz
    • Yazarın defalarca söylediği gibi, llama.cpp bakımcıları insan tarafından incelenmemiş AI yazımı kodun geniş ölçekte içeri alınmasını istemiyor
      Birisi bu desteği o projeye upstream etmek istiyorsa elbette özgürce yapabilir; kod MIT lisansı altında
    • Bir noktadan sonra llama.cpp ya da Linux gibi büyük ve esnek projelerin ihtiyaç duyduğu soyutlama/genelleme düzeyi dosya sayısını çok artırıyor
      Daha yeni ve daha küçük projeler daha hızlı hareket edebilir
  • DeepSeekV4 Pro gerçekten çok yetenekli bir model ve özellikle sunulan fiyat düzeyinde çok iyi
    C’de raylib üzerinde 2.5D bir motorla uğraşırken DeepSeek’i yardımcı olarak kullanıyorum
    OpenaCode’da düşünce süreci kaydının şeffaf biçimde görünmesi çok etkileyici
    Okuması çok uzun ama içinde işe yaramaz ya da anlamsız hiçbir bölüm olmadı
    DeepSeek, benim düşünmediğim ya da yanlış kurduğum varsayımları düşünce sürecinde hep işaretledi ve sonra nihai çıktıda benim flawed request’ime uyum sağlamaya çalıştı
    Ben de sonra “bir dakika, sen de öyle düşündün değil mi, doğru olan o ve hatayı ben yaptım, o hâlde o yönü de hesaba katalım” diye yeniden yönlendirdim

  • Bunun yalnızca kendi bilgisayarımda değil, istemci projelerinde ya da cloud GPU üzerinde de çalışabilmesini isterim
    Güçlü bir modeli cluster olmadan verimli şekilde kullanabilme ana fikri, birçok iş senaryosu için hâlâ geçerli
    Bunun batch modunda da çalışmasını umuyorum
    Şu anda H200 üzerinde akıllı ses ajanlarının ajansal tool calling işleri için MTP’li 4 bit Qwen 3.6 27B en iyilerden biri gibi hissettiriyor
    Eğer DS4 Flash, 2 bit 80B, 13B active ve MTP mimarisindeyse; daha hızlı, daha akıllı olup aynı anda daha fazla sequence’a izin verebilir mi diye merak ediyorum
    Bu özel 2 bit kuantizasyon gerçekten oldukça önemli görünüyor

  • Yerel modellerde “zeka” dediğimiz şey her neyse, performansın ve hızın bu kadar hızlı artmasını görünce bu alanın büyüme oranı ve tavanı nerede olacak diye merak ediyorum
    Birkaç yıl içinde örneğin 16GB RAM üzerinde de bu düzeyde zeka ve performans mümkün olabilir mi?
    Burada yeni bir tür Moore yasası tanımlayabilir miyiz?

    • Bu tür modelleri, o “büyük model kokusu”nu da koruyarak 16GB içine sıkıştırmak açıkçası bugün için mümkün değil ya da pratikte gerçekçi değil
      Mimari yenilik, donanım yeniliği ya da bir kuantizasyon tekniği atılımı gerekiyor
      Sorun şu ki etkinleşmeyen parametrelerin bile bellekte durması gerekiyor
      Mixture-of-experts modellerinde bile parametreleri RAM içine/dışına taşıma işi fazla yavaş
    • Bu alanın ön saflarında çalışan insanlar, farklı sorunları çözen paralel modeller gerektiğini düşünüyor gibi görünüyor
      Kargalar, insanlara kıyasla çok küçük beyinlerle belli bir zekâ gösterebiliyor ve en az zeki insanlarla en zeki kargaların problem çözme yeteneklerinde bir örtüşme var
      Bu yüzden soru bunun ne olduğu
      Yann LeCun, bunun şu anda world model dediğimiz şey olduğunu düşünüyor gibi
      World model, dil gibi yapılandırılmış veriyi değil eylemleri tahmin ediyor
      Bir dünyanın nasıl çalıştığını tahmin edebiliyorsanız, teorik olarak neden-sonuç ilişkisini de çıkarabilirsiniz
      Eğer neden-sonuç çıkarımını dille birleştirebilirseniz, gerçek zekâya daha yakın bir şey ortaya çıkabilir
      Görünüşe göre yön o tarafa gidiyor
      Böyle bir sistemin prototipi çıkarsa gerçekte ne kadar veri gerektiğiyle ilgili pek çok soru doğacak
      1 bit kuantizasyonla küçültülmüş LLM’lerin bile dil anlayışında oldukça güçlü kalabildiğini şimdiden gördük
      Önümüzdeki birkaç yıl içinde görece düşük bellekle bile çok zeki AI sistemleri görmemizin mantıksız olduğunu düşünmüyorum