5 puan yazan GN⁺ 6 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Qwen 3.6 27B, yerel modellere şüpheyle yaklaşan kullanıcılar için bile genel amaçlı işlerde anlamlı bir seçenek gibi görünüyor; 35B A3B'den daha yavaş olsa da daha güçlü bir dense model olarak öneriliyor
  • Yaratıcı üretim ve kodlama testlerinde kısıt koşullarına uyma güçlü yanı olarak öne çıktı; OpenCode'da pnpm tabanlı altıgen mayın tarlası oyunu tek bir istemle Node paketi biçiminde üretildi
  • llama.cpp ile Hugging Face'in 8-bit GGUF kuantizasyonu birleştirildiğinde yerelde çalıştırmak mümkün; MTP, GPU katman yükleme, flash attention ve 64k bağlam ayarıyla bir ajan kodlama ortamı da kurulabiliyor
  • Macbook Max M5 128GB testinde Qwen3.6-27B 8-bit, llama.cpp + MTP ile 32 tok/s hızına ulaştı ve yaklaşık 42GB RAM kullandı; daha hızlı olan 35B A3B'ye kıyasla kod kalitesi daha iyi olduğu için 27B tercih edildi
  • Artificial Analysis'e göre Qwen3.6-27B, 37 puan ile GPT-5 / Claude Sonnet 4.5 ile aynı mid 2025 seviyesinde yer alıyor; hassas veriler, çevrimdışı işler ve geri çağrılamayan kurum içi model işletimi için pratik bir seçenek sunuyor

Qwen 3.6 27B neden öneriliyor?

  • Qwen 3.6 iki varyantla sunuluyor
  • Qwen 3.6 27B için sıkça “boyutunun üzerinde performans veriyor” yorumu yapılıyor; buna örnek olarak Will it Mythos? gösteriliyor
  • Yerelde çalıştırırken bilgisayar ısınabilir, ancak sunduğu performans buna değiyor

Kısa testler ve gerçek iş sonuçları

  • Basit bir smoke test olarak Simon Willison'ın “penguins on a bicycle” istemi yerine kısıtlı yazma görevi kullanıldı
  • Zouk dansı ve kuantum fiziği hakkında 8 dizelik bir şiir istendiğinde, modelin kuantum terimleri ve uyak düzeniyle ilgili düşünce akışı doğal şekilde ilerledi
    • İlgili konuşma transcript bağlantısında yer alıyor
  • OpenCode'da pnpm kullanarak altıgen mayın tarlası oluşturması istendiğinde, tek bir istemle düzgün bir Node paketi üretti
  • Qwen 3.6 35B A3B daha hızlıydı, ancak paket oluşturma talimatına uymayıp bunu tek bir index.html olarak gerçekleştirdi
  • Genel iş odaklı görevlerde de kısa istemlerle işe yarar çıktılar üretti; tepki süresi ve varsayılan davranışları da fena değil
    • frontier modelleriyle karşılaştırıldığında olağanüstü sayılmaz, ancak yerel model olarak artık pratik düzeye ulaşmış durumda

llama.cpp ile yerelde çalıştırma

  • Yerel model çalıştırmak birkaç satırlık CLI ile mümkün ve önerilen araç llama.cpp

  • Hugging Face üzerinden daha küçük boyutlu kuantize model indirilip çalıştırılıyor

    • Popüler kuantize model sağlayıcıları arasında unsloth ve bartowski var
    • Temel model genellikle BF16 hassasiyetinde oluyor
    • 8-bit kuantizasyon, kalite kaybını neredeyse hiç artırmadan alan kullanımını yarıya indiriyor
    • Daha düşük bitli kuantizasyonlar modeli daha küçük ve potansiyel olarak daha hızlı hale getiriyor, ancak kalite maliyeti getiriyor
    • 27B karşılaştırması için Reddit benchmark, 35B A3B karşılaştırması için Hugging Face discussion bağlantıları veriliyor
  • Sunucuyu çalıştırma örneği

    llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
        --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
    
    • -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: Modeli Hugging Face'den alır; sonraki çalıştırmalarda yeniden kullanılır
    • -m ~/models/Qwen3.6-27B-Q8_0.gguf: Model dosyası zaten varsa bunun yerine kullanılabilir
    • draft-mtp: Hızı artırmak için daha hızlı bir modelle sonraki token'ları tahmin eden multi-token prediction kullanılır
    • -ngl 999: Tüm katmanları GPU'ya yükler
    • -fa on: flash attention'ı açar
    • -c 65536: Bağlam boyutunu 64k token olarak ayarlar
    • Qwen 3.6 27B'nin yerel bağlam sınırı 256k'dır
    • --port 8080: Diğer ayarlarda kullanılacak portu sabitler
    • http://127.0.0.1:8080 açılarak doğrudan sohbet edilebilir
  • OpenCode ayarı

    • Aynı sunucu vibe coding için de kullanılabilir
    • OpenCode'da ~/.config/opencode/opencode.jsonc dosyasına aşağıdaki ayar eklenir
    {
      "$schema": "https://opencode.ai/config.json";,
      "provider": {
        "llama": {
          "name": "llama.cpp (local)",
          "npm": "@ai-sdk/openai-compatible",
          "options": {
            "baseURL": "http://127.0.0.1:8080/v1";,
            "apiKey": "local"
          },
          "models": {
            "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
          }
        }
      },
      "model": "llama/qwen3.6-27b"
    }
    
  • Terminalde sohbet için çalıştırma

    • Terminalde yalnızca sohbet etmek isteniyorsa llama-server yerine llama-cli kullanılabilir
    llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                    -ngl 999 -fa on -c 65536
    

Apple Silicon performans ölçümleri

  • Test sonuçları benching-local-llms-on-apple-silicon içinde derlenmiş ve Macbook Max M5 128GB üzerinde çalıştırılmış
  • Qwen3.6-35B-A3B · 8-bit
    • MLX: 85 tok/s, 37GB RAM
    • llama.cpp: 93 tok/s, 44GB RAM
    • llama.cpp + MTP: 105 tok/s, 45GB RAM
  • Qwen3.6-27B · 8-bit
    • MLX: 17 tok/s, 28GB RAM
    • llama.cpp: 18 tok/s, 41GB RAM
    • llama.cpp + MTP: 32 tok/s, 42GB RAM
  • DeepSeek-V4-Flash · Q2–Q4
    • llama.cpp: 33 tok/s, 103GB RAM
  • 30 tok/s kötü bir hız değil; tipik frontier model API aralığının içinde kalıyor
  • mlx-lm Apple Silicon için tasarlanmış olsa da bu testte llama.cpp daha hızlıydı
  • Çalışma sırasında GPU kullanımı %95'e ulaştı; bu da mevcut kaynakların verimli kullanıldığını düşündürüyor
  • Qwen 3.6'nın iki varyantı da Apple Silicon'un 48GB paylaşımlı RAM sınırı içinde çalıştı
  • Tüketici sınıfı Nvidia RTX kartlarda daha agresif kuantizasyon gerekiyor, ancak çıkarım daha hızlı çalışıyor
    • Hacker News'te gfosco, 5090 üzerinde Q6_K kuantizasyonu ve Q4_0 KV ile 123k bağlamda tutarlı biçimde 50 tok/s elde ettiğini ve LM Studio ile yaklaşık 28/32GB VRAM kullandığını belirtti
  • 35B A3B üç kat daha hızlı olsa da, üretilen kod miktarı üçte bir düzeyinde kalsa bile kalite açısından daha iyi olan 27B'yi seçmek mantıklı olabilir

Mevcut son teknoloji modellerle karşılaştırma

  • Artificial Analysis puan karşılaştırmasında Qwen3.6-27B 37 puan alıyor
  • Karşılaştırma tablosundaki başlıca kalemler şöyle
    • Gemma 4 31B: 29 puan, late 2024 seviyesi, o1 / Claude 3.5 Sonnet
    • Qwen3.6-35B-A3B: 32 puan, early 2025 seviyesi, o3 / Claude 4 Sonnet
    • Qwen3.6-27B: 37 puan, mid 2025 seviyesi, GPT-5 / Claude Sonnet 4.5
    • DeepSeek-V4-Flash: 40 puan, late 2025 seviyesi, GPT-5.2 / Claude Opus 4.5
  • Ek benchmark sonuçları notes içinde yer alıyor ve genel eğilim benzer
  • Gemma 4 31B birçok kişi tarafından yerel kodlama için varsayılan seçenek gibi kullanıldığı için karşılaştırmaya dahil edilmiş
  • Hem benchmark'lar hem de çevrimiçi tepkiler, Qwen 3.6 27B'nin Gemma 4 31B'ye belirgin biçimde tercih edildiğini gösteriyor
  • Ancak kuantizasyon koşullarına dikkat etmek gerekiyor
    • 8-bit kuantizasyonun sonuçlar üzerinde büyük bir etkisi olmayabilir
    • DwarfStar4, DeepSeek V4 Flash üzerinde çok daha agresif 2–4 bit kuantizasyon kullandığı için tam modele göre belirgin biçimde daha kötü
    • Bu koşullarda Qwen 3.6 27B, DwarfStar4 ile aynı düzeyde ya da biraz daha iyi bir izlenim bırakıyor
    • Daha uzun bağlam gerektiren projelerde DS4 üstün gelebilir

Yerel model işletiminin bir sonraki aşaması

  • Kendi modelini çalıştırmak giderek daha gerçekçi bir seçenek haline geliyor
  • Özel frontier modellerin durumu bu eğilimi daha da hızlandırabilir
    • Claude Fable 5 geri çekildi
    • Diğer frontier modeller büyük ölçekli sübvansiyonlarla çalışıyor; ayda 100 dolar ödeyip binlerce dolarlık token tüketmeye dayalı bir yapı söz konusu
  • Yerel kurulumdaki modeller ihtiyaçlara göre fine-tune edilebilir ve dışarıdan geri çağrılamaz
  • Şirketler, özel ve hassas veriler için yerel modeller kullanabilir
  • Bireyler de çevrimdışı projelerde ya da ABD/Çin ile derin sırlarını veya tıbbi verilerini paylaşmak istemedikleri durumlarda yerel modellerden yararlanabilir
  • frontier-level open-weight GLM 5.2 duyurusu, yerel model akışını daha da hızlandırıyor
  • Mevcut son teknoloji modellerden daha zeki olup yerel cihazlarda, belki akıllı telefonlarda bile çalışabilen modeller ortaya çıkabilir
  • Bugünün modelleri ham zeka ile olgusal bilgiyi aynı ağırlıklarda birleştiriyor; gelecekteki modeller ise bilgiyi tool calling üzerinden aktararak bu ikisini ayırabilir

1 yorum

 
GN⁺ 6 시간 전
Hacker News yorumları
  • MacBook Pro M5 128GB RAM ve qwen3.6 hoşuma gidiyor, ama yerel LLM ile ciddi ciddi kod yazmayı düşünüyorsanız bu MacBook’u almamak daha iyi
    Nedeni basit: parmaklarınız yanıyor ve fan sesi yüzünden başınız patlayacak gibi oluyor
    Gerçekten kullandığınız dizüstünde karmaşık işler çalıştırmak gerçekçi değil; clamshell modda mümkün olsa bile yapay zeka ile kodlama veya ajan işleri sırasında ona dokunmak zorlaşıyor
    Qwen3.6 27B/35B’yi düzgün çalıştırmak istiyorsanız MacMini M4 64GB alıp bodruma ya da en azından birkaç metre uzağa koymak ve LAN ya da Tailscale ile bağlanmak daha iyi; fiyatı da MacBook Pro’nun neredeyse 1/3’ü

    • Aynı nedenle sıradan bir 32GB dizüstü aldım
      Masaüstü GPU’da Qwen 27B veya Gemma 4 31B gibi nispeten küçük modelleri çalıştırmanın bile ne kadar gürültülü ve sıcak olduğunu biliyorum
      Strix Halo tek büyük fanı olduğu için gürültülü değil ama ısınıyor; dizüstünün küçük fanları o ısıyı dışarı atmaya çalışınca sonunda çığlık atmak zorunda kalıyor
      Her yerde model çalıştıran dizüstü fikri güzel, ama bunu bulut modellerine bırakmak daha doğru; çok veri gidip gelmediği için büyük bir sorun da değil
      Gizlilik gerektiren işler için evdeki büyük makinede self-hosted bir model çalıştırıp VPN ile bağlanmak yeterli
      Ancak Gemma 4 12B QAT 4-bit gibi 16GB cihazlarda veya tabletlerde de iyi çalışan modeller belirli işler için çok iyiydi; sınıflandırma, tanımlama ve etiketleme gibi amaçlarla self-hosted görsel model olarak test ettiklerim arasında en iyisiydi
      Düzyazısı da fena değil, araç kullanımı da epey iyi; ama 7GB içine dünya bilgisi çok sığmadığı için araştırmada arama gerekiyor ve çok basit kodun ötesindeki kodlama için kullanmak istemem
    • DwarfStar 4’te --power bayrağını deneyebilirsiniz: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
    • “Parmaklarınız yanıyor ve sesten başınız patlıyorsa” Mac mini’yi başka bir odaya koymak yeterli değil mi diye düşünüyorum
      Son yarım yıl kadar dizüstünde kodlama ajanını YOLO modda çalıştırdım; çoğu yerel değildi ama korkmadan kullanmanın yolu ajana özel ayrı bir Linux kullanıcısı, agent, vermekti
      Ajan /agent home dizinini silebilir ama benim home dizinime dokunamıyor, hatta okuyamıyor
      Her seferinde sudo ile o kullanıcıya geçmem gerektiği için bir alias oluşturdum; izin ve sahiplik sorunları çıkınca günde bir kez düzelten bir fonksiyonla hallettim
      Yine de zahmetli olduğu için özel bir makinem olsaydı muhtemelen doğrudan root verirdim; şaka olsun diye Claude’a 3 dolarlık bir VPS’in root yetkisini verdim ve gayet iyi çalışıyor
      Birkaç ay deneme yanılmadan sonra sonuçta “sadece Mac mini al” fikrini baştan yeniden icat etmiş oldum
    • M4 Max üzerinde yerel LLM işlerini pi ile denerken, şimdiye kadar kullandığım tüm MacBook’lardan daha sıcak hissettirdi
      Birkaç inç uzaktan bile yayılan ısı hissediliyordu; kullandığım Intel MacBook’lardan bile daha sıcak geldiği için durdurdum
      Tedarik sorunları ve fiyat artışları nedeniyle dizüstünü 10 yıl elde tutmam gerekebileceğinden onu bozmak istemedim
    • Ben tam olarak böyle kullanıyorum: Mini M4 Pro 64GB ve qwen3.6 kombinasyonu
      İşitmem çok iyi sayılmaz ama fan sesini duyardım diye düşünüyorum; hiç duymadım, hatta gerçekten fanı olup olmadığını aratmam gerekti
  • Yazı, 128GB MacBook Pro üzerinde Qwen 3.6 çalıştırma deneyimine dayanıyor
    Not olarak, 128GB MBP şu anda $6699’dan başlıyor [0]
    Gizlilik için bu primi ödemeye gönüllü olacak kişiler olabilir; ancak MacBook Neo’nun yaklaşık 10 katı maliyetle OpenRouter’dan ya da en ileri araştırma laboratuvarlarından oldukça fazla API kredisi satın alınabilir
    [0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...

    • Hesabı inkâr etmek zor, ama ben olsam çizgiyi oradan çekmezdim
      Gemma 4 12B gibi makul bir yerel LLM çalıştırabilen bir makineye sahip olmak gerçekten değerli
      Tek bir MacBook ile ciddi ölçekte gözetimsiz ajan kodlaması ne kadar yapılır bilmiyorum; ama yerel modelleri, llama.cpp’yi, LM Studio’yu vb. bizzat kurcalamamış olsaydım bu alanı böyle anlayamazdım
      Bu alan çok büyük, yorucu ve jargonla dolu; 50 yaşını geçmiş biri olarak altında ezilmek kolaydı
      İkinci el bir makinede bizzat kurulum yapıp, API çağrılarını görüp, terimleri anladıkça nihayet elle tutulur hâle gelmeye başladı
      Neo, bu fırsatı daha hissedilebilir ve anlaşılabilir kılmak için fazla küçük
    • Qwen 3.6 deneylerinin tamamı için 48GB Apple Silicon yeterliydi
      Daha agresif quantization kullanılırsa bunun daha da aşağı çekilebileceğini düşünüyorum
      Ekonomik açıdan modeli dizüstünde çalıştırmak çok anlamlı değil; yalnızca elektrik maliyetine bakılsa bile büyük ölçekte üretilen token fiyatlarıyla rekabet etmek zor olabilir
      Yine de bu, oyunu değiştirecek bir atılım
      Eskiden tüketici cihazlarında bu tür vibe coding zor ya da pahalı değil, düpedüz imkânsızdı
    • Qwen 3.6 27B dense modeli DGX Spark üzerinde de benzer performansla çalıştırılabiliyor [1][2] ve fiyatı yaklaşık $4000
      Asus Ascent GX10 da çeşitli satıcılarda $3999
      Teoride iki adet 3090 ile 48GB VRAM elde etmek de mümkün, ancak MacBook Pro veya GB10’a kıyasla çok yer kaplıyor ve çok ısı üretiyor
      [1] https://x.com/MiaAI_lab/status/2070859135399182444
      [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
    • Bahsedilen model 24GB ve üzeri VRAM ile kolayca çalıştırılabiliyor; 16GB VRAM’de de iyi çalışan benzer modeller var
      Burada 128GB zorunlu değil
    • Token ya da krediler kullanıldığında tükenir, ama MacBook kalır
      Aynı MacBook’ta başka modeller de çalıştırılabilir
      İnsanların her ay SaaS’e harcadığı paraya bakınca, o parayla bazı durumlarda 5 ayda MacBook’un maliyetini çıkarmak mümkün
      Üstelik bu yalnızca bir “veri gizliliği” meselesi değil
      Claude kullanmak, her şeyi Anthropic’e göndermek anlamına geliyor; bu da epey çılgınca
  • Örneklerin “gerçek işi” yansıttığını söylemek zor
    En azından benim gerçek iş olarak gördüğüm şey bu değil
    Sıfırdan, zero-shot yeni projeyi tutturmak küçük modeller için de nispeten kolay
    Çünkü biriktirilmesi gereken bağlam çok değil ve eğitim verisindeki benzer örneklere kolayca geri dönebiliyorlar
    Tamamen yeni bir şey icat etmelerini istemediğiniz sürece bir şekilde yapma ihtimalleri yüksek
    Asıl test, mevcut bir kod tabanında çalışıp çalışamadıkları
    Sınırlı şekilde yaptığım denemelerde Qwen 3.5, Rust+React uygulamasında fena değildi; C# monolith’te ise daha kötüydü
    Kullanılamayacak kadar değil ama 20 dakika içinde Claude’a geri dönecek kadar kötüydü; bulut modellere erişimimi kaybedip yalnızca Qwen kullanmak zorunda kalsam epey üzülürdüm

    • “Sıfırdan, zero-shot yeni projeyi tutturmak küçük modeller için nispeten kolaydır” sözüyle doğrudan ilgili değil ama eskiden tek bir proof of concept ayağa kaldırmanın bir hafta sürdüğü ve böyle cümlelerin saf bilimkurgu gibi duyulduğu zamanlar vardı
    • Küçük modelleri değerlendirirken standart örnek kodlardan uzaklaştıkça zayıflıklarının daha iyi ortaya çıktığı yeterince önemsenmiyor
      Qwen3.6, her yerde bulunan basit uygulamalarda küçük bir model için şaşırtıcı sonuçlar verdi
      React TODO uygulaması ya da shadcn gibi popüler araçlarla küçük bir boilerplate uygulama yapmasını istediğinizde oldukça makul sonuçlar çıkarıyor
      Ama yaygın işlerin dışına çıkıp benim daha niş işlerime girince saatlerce dönüp durdu ve sonunda insanı inleten, kullanılamaz sonuçlar verdi
      Basit refactoring ya da çok net talimat verilmiş küçük işlerde yazmayı devralmak için oldukça iyi
      Ancak uzun bağlam oturumlarına veya ana akım dışı konulara girince zayıflıkları çok belirginleşiyor
      Küçük donanıma sığdırmak için sık kullanılan quantization da sorunu ağırlaştırıyor
      İnternette 4-bit quantization’ın neredeyse kayıpsız olduğu ve q8_0/q8_0 key-value cache quantization’ın da pratikte kayıp yaratmadığı havası var; ancak gerçek projelerde bu quantization’lar uzun bağlam performansını ciddi ölçüde düşürdü
    • İş geliştirmede pi ve eski codex cli’yi Qwen 3.6 27B 100k bağlam ile birlikte kullanıyordum; ne kadar iyi çalıştığına çok şaşırdım
      Kusursuz değil ama günlük geliştirme akışımı hızlandırmaya yetti; ağırlıklı olarak Go ve C# yazmak için kullanıyorum
    • Gemma 4 12B sınıfı modellerle iyi yapılan bazı işler var
      Küçük kütüphanelerden oluşan büyük bir projeyi, her biri bağımsız kodlanıp test edilebilecek şekilde tasarlamak; eski kodlama projelerini toparlamak; README eklemek; koda yorum yazmak; yeni API kullanım örneği gösterip API kullanım yerlerini güncellemek gibi işler
      Bunların hepsi küçük ölçekli işler
      Büyük entegrasyon projelerinde DeepSeek v4 Pro ticari API’si çok ucuz ve iyi sonuç almaya yardımcı oluyor
    • Benim deneyimime göre küçük modeller, temel proje kavramlarında bile yeni proje başlatmakta zorlanıyor
      Verilmesi gereken çok fazla karar var ve bunu iyi yapamıyorlar
      Akıllıca davranmalarını beklemiyorsanız mevcut kodu değiştirmek çok daha kolay
      “X özelliğini ekle” deyip kod tabanını keşfetmesine bırakmak yerine, ilgili dosyaları belirtip “hedef bu koda X özelliğini eklemek ve Y yönergelerini izlemek” demek daha iyi
      En zor karar kısmını insan hallederse model sadece talimatları izleyip çizgilerin içinde boyama yapar
  • Bu modeli çevrimdışı olarak 48GB bellekli MacBook Proda çalıştırınca işi yapıyor ama doğal olarak Claude veya Codex’ten daha yavaş

  • Binlerce dolarlık 128GB MBP alıp son teknolojiden nesnel olarak çok daha kötü bir modeli çalıştıranları görünce aklım şaşıyor
    128GB M5 MAX’e verilen parayla burada yeni bir araba bile alınabilir
    Neyi kaçırıyorum bilmiyorum; diğer ülkelerdeki geliştiriciler gerçekten bu kadar farklı bir dünyada mı yaşıyor diye düşünüyorum
    Yaşadığım yerde mutlak fiyatların ABD’den de daha yüksek olduğunu biliyorum ve bu yüzden böyle daha da çok hissediyorum
    Aklı başında biri başka bir ülkede böyle bir şey alsa, buraya gelir gelmez satıp para biriktirirdi gibi geliyor

    • Dizüstü form faktörüne gitmeyi aptalca buluyorum
      Geçen sonbaharda ikinci el iki adet 3090 ile bir iş istasyonu topladım; her birine 850 Kanada doları verdim ama şu an en düşük fiyat yaklaşık 1200
      48GB VRAM oldukça makul ve Qwen 3.6 27B’yi metin derlemlerinden bilgi grafiği oluşturma ve akıl yürütme gerektiren çeşitli işler için kullanıyorum
      OpenRouter’da mümkün olanlarla karşılaştırdım; token maliyeti $0 iken yerel 27B Qwen’i yenmek zor
      Daha yavaş ve ofis birkaç derece daha ısınıyor ama kimse fişi çekemiyor, omuz üstünden izlemiyor ve sonuçlar son teknoloji modellerle benzer seviyede
      Benzer boyuttaki Qwen 3.7’yi merakla bekliyorum
      Şimdiye kadar gördüğüm kadarıyla önceki sürüme göre büyük bir sıçrama
    • Bu fiyat aralığındaki insanların GPU’lu bir masaüstü yerine neden Mac dizüstü aldığını anlamıyorum
      Taşınabilir olduğunu gösteriş olsun diye mi sergilemek istiyorlar diye düşünüyorum
    • Benim defterimde şimdiden değeri epey artan bir varlık ve önümüzdeki 7–10 yıl içinde aldığım fiyata satabilme ihtimalim yüksek
      Apple aylık taksidiyle $5k, bir yıl boyunca ayda $416 ve faiz de yok
      DS4 sınıfı modelleri ve diğer açık modelleri quantization olmadan, bazen birden fazlasını aynı anda çalıştırabiliyor
      Tayvan/Çin dünyası savaşı ya da küresel bağlantı, ticari modellerin güvenilirliği hakkında karanlık senaryolar gerçekleşirse değerini hayal edin
      Tarihin başka bir anında üretmesi çok zor bir ekipman; keşke daha fazla alsaydım
      Sinyalleri, fiyat trendlerini ve stokların tükenmesini gerçek zamanlı gördüm; imkânı olan başkaları da kesinlikle stok yapıyordur
    • Doğru, birçok insan için 6 bin dolar çerez parası
    • Evet
      Sizin taraftaki insanlar Amerikalılardan bir basamak daha düşük gelir elde ediyor
  • Yerel model çalıştıracak donanımın pahalı olduğundan çok söz ediliyor, ancak Apple cihazlarına ilginiz yoksa fiyat/performans açısından oldukça iyi görünen Intel Arc Pro B50/B60/B70 pek anılmıyor
    Yakın zamanda B70 32GB RAM modelini, ABD dışında yaşadığım yer için satış vergisi ve gümrük dahil yaklaşık $1200’a aldım; başka bölgelerde daha ucuz olabilir
    Bellek bant genişliği 608GB/s
    M5 Max 32 çekirdekli GPU 460GB/s, 40 çekirdekli GPU 614GB/s; 3090 ise yaklaşık 900GB/s ile hâlâ hızlı, ama denk Nvidia kartlara göre çok daha ucuza 32GB VRAM elde ediyorsunuz
    5090’ın yaklaşık 1/3 bant genişliğini 1/3 fiyata alıp aynı 32GB VRAM’e sahip olmak gibi; daha büyük kuantize modelleri ve bir miktar bağlamı düşük bütçeyle çalıştırmak istiyorsanız çekici bir uzlaşma
    Hâlâ yerel modelleri keşfetme aşamasındayım, bu yüzden test için $5000~$10000 harcamak istemiyorum; daha ucuza deney yapabiliyorsam biraz daha yavaş performans sorun değil
    Başta 70W TDP’li B50 16GB alıp kendi yığınımda Intel kartı denedim; Ubuntu ve Vulkan’da kolayca çalıştı
    Zahmetli ve kullanılamaz olduğuna dair çok yazı gördüm, ama çoğu SYCL ile ilgili gibi; SYCL’in Vulkan’dan daha iyi performans verdiği de görünmüyor, bu yüzden kullanmak için özel bir neden görmüyorum
    B50 vergi ve gümrük dahil $370’ti ve kelimenin tam anlamıyla Vulkan kütüphanesini apt install edince 26.04’ün varsayılan xe sürücüsü ve llama.cpp’nin Vulkan derlemesiyle çalıştı
    SR-IOV PF/VF de qemu/kvm’de ekstra hile olmadan çalışıyor; satın aldığımdan beri fwupdmgr ürün yazılımını iki kez güncelledi, yani Intel bu ürünleri gerçekten desteklemeye niyetli görünüyor

  • Şu an tatlı noktanın iki adet 3090, PCIe 4 anakart ve 64~128GB DDR4 RAM kombinasyonu olduğunu düşünüyorum
    Şu anda yaklaşık $3k’ya kurulabiliyor ve Qwen 27B/35B’yi int4’te inanılmaz hızlı çalıştırıyor

  • Bu arada 5090 üzerinde gemma4 31B çalıştırıyorum, oldukça harika
    QAT, MTP ve 128k bağlam kullanıyor
    Qwen 3.6 27B de iyiydi ama Gemma4 biraz hafife alınıyor gibi

    • Benim deneyimim de benzer
      4090’da llm.cpp ve unsloth modeliyle gemma4 31B çalıştırıyorum
      Qwen 3.6’yı da birlikte kullanıyorum; Qwen daha hızlı olduğu için düşünme ve planlama için iyi, Gemma4 ise ilk denemede üretilen kod kalitesi açısından çok daha yüksek
      Rust, C++, C# için, birleştirmeyi kabul edebileceğim seviyeye gelmesi için daha az düzeltme gerekiyor
    • Gemma4’ün turu düzgün bitirmesini sağlayamıyorum
      Her zaman aniden kesiliyor ya da hatalı araç çağrıları üretiyor; muhtemelen oMLX veya Opencode ayarlarını ben yanlış yaptım
    • İyi
      4080 Super’da Qwen 3.5 9B Q6_M ile Gemma4 12B Q4_K_M arasında gidip gelerek kullanıyorum
      İkisinin hızı benzer ve birbirlerinin planlarını ya da değişikliklerini gözden geçirmelerini sağlayabiliyorum
      Küçük projelerde oldukça yetenekliler; biraz daha zor işler için daha iyi kuantizasyona çıkılabiliyor
  • Birleşik bellekli bilgisayar almaya gitmeden önce, örneğin DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo gibi cihazlarda yoğun modellerin genel olarak yavaş olduğunu bilmelisiniz
    Ayrık GPU’lar yoğun modelleri çok daha iyi çalıştırır
    Alacağınız cihazın benchmark’larına bakmak iyi olur; gerçekten böyle bir cihaz istiyorsanız Qwen 3.6 35B ya da başka seyrek MoE modelleri çalıştırmanız daha iyi

  • M3 Max 64GB RAM 16 inç MacBook Pro üzerinde opencode ile qwen 3.6 35b a3b çalıştırıyordum; yerel planlama ve kodlama amaçları için çok iyiydi
    Açıkçası 64GB’ın bu kadar güçlü olduğunu görünce bazen keşke geleceğe dönük olsun diye 128GB alsaydım diyorum
    Öte yandan qwen’den biraz daha büyük modeller yüzünden henüz bir duvara da toslamış değilim

    • Windows dizüstünde de Qwen 3.6 35B A3b çalıştırıyorum; 64GB RAM ve 4GB GPU kombinasyonuyla en azından katlanılabilir
      Hızlı değil, saniyede birkaç token; okuma hızından yavaş, ama işi bırakıp sonra geri dönebiliyorsunuz
      Birkaç yıl önce eBay’den aldığım $600’lık bir dizüstü, $6000’lık bir makine değil
      Birleşik bellekli Mac’lerin ya da dev 24GB masaüstü GPU’ların 10~20 kat maliyetlerinin karşılığında saniyede onlarca~yüzlerce token verip vermediğini merak ediyorum
    • Yanıt hızının ne kadar olduğunu merak ediyorum, saniye başına token olarak
      Deneyimime göre 20~35GB modeller ve anahtar-değer önbelleği tek başına bile temel 64GB’ın çoğunu yiyor; bu yüzden tarayıcı ve editör gibi başka şeyleri sürekli açık tutmak istiyorsanız 128GB’ın tamamı kesinlikle işe yarıyor