1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Z.ai'nin yeni açık modeli GLM-5.2 için asıl dikkat çekici nokta, 744B parametre, 40B aktif parametre ve 1M bağlam penceresine sahip bu büyük modelin yerelde kullanılabildiğini göstermesi
  • Unsloth, Dynamic GGUF ile yerelde çalıştırma yolu sunuyor ve önerilen 2-bit UD-IQ2_M quant, 239GB disk ile en az 245GB RAM sınıfı bir ortam gerektiriyor
  • Dynamic 1-bit yaklaşık %76,2 top-1 doğruluk ve %86 boyut küçülmesi, Dynamic 2-bit ise yaklaşık %82 doğruluk ve %84 boyut küçülmesi göstererek “küçüldüğü kadar performansı düşer” yorumundan farklı bir tablo sunuyor
  • Çalıştırma yöntemi Unsloth Studio ve llama.cpp olmak üzere ikiye ayrılıyor; Studio, MacOS·Windows·Linux'ta model arama·indirme·çalıştırma, RAM offloading ve multiGPU algılama desteği sağlıyor
  • Uzun bağlamı pratikte kullanmak için llama.cpp içindeki KV cache quantization ile belleği azaltmak gerekiyor; q4_0 yaklaşık 3,5 kat, q4_1 ise yaklaşık 3,2 kat daha uzun bağlamı mümkün kılıyor

GLM-5.2 modeline genel bakış

  • GLM-5.2, Z.ai'nin yeni açık modeli ve Unsloth Dynamic GGUF aracılığıyla yerel donanımda çalıştırılabiliyor
  • Model özellikleri şöyle
    • Toplam parametre: 744B
    • Aktif parametre: 40B
    • Maksimum bağlam penceresi: 1,048,576
  • long-horizon coding, reasoning ve agentic tasks alanlarında SOTA performans sunduğu belirtiliyor
  • Artificial Analysis ve çeşitli benchmark'lara göre Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro ile aynı seviyede performans gösterdiği söyleniyor
  • Unsloth, Z.ai'den day-zero access aldığını belirtiyor
  • GLM-5.2 için GGUF model dosyaları Hugging Face'teki GLM-5.2-GGUF sayfasından indirilebiliyor

Önerilen quant ve bellek gereksinimleri

  • Erişilebilirlik ile doğruluk dengesini korumak için 2-bit dynamic quant olan UD-IQ2_M öneriliyor
    • Disk kullanımı: 239GB
    • 256GB unified memory'li Mac'e doğrudan sığıyor
    • MoE offloading kullanılırsa 1x24GB GPU + 256GB RAM ile de iyi çalıştığı belirtiliyor
  • 1-bit quant 223GB RAM içine sığarken, 8-bit için 810GB RAM gerekiyor
  • Çıkarım donanımı gereksinimleri tablosunda toplam bellek, RAM + VRAM ya da unified memory anlamına geliyor
    • Gösterilen toplam bellek değerleri: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
  • En iyi performans için VRAM ile sistem RAM'inin toplam kullanılabilir belleğinin quantized model file size değerini yeterince aşması gerekiyor

Thinking modu ve örnekleme ayarları

  • GLM-5.2, 3 adet thinking mode sunuyor
    • non-thinking
    • thinking High
    • thinking Max
  • Karmaşık işler için Max Thinking öneriliyor
  • Unsloth Studio'da High/Max Thinking ile non-Thinking arasında UI üzerinden geçiş yapılabiliyor
  • Çoğu kullanım senaryosu için ayarlar şöyle
    • temperature = 1.0
    • top_p = 0.95
    • Diğer modlarda top_p = 1.0
  • GLM-5.2 varsayılan olarak reasoning kullanıyor ve reasoning_effort için "high", "max" ya da devre dışı bırakma seçilebiliyor
  • thinking'i devre dışı bırakma örnekleri şöyle
    • Normal shell: --chat-template-kwargs '{"enable_thinking":false}'
    • Windows PowerShell: --chat-template-kwargs "{\"enable_thinking\":false}"
  • llama.cpp içinde de --reasoning on veya --reasoning off kullanılabiliyor
  • reasoning effort ayarlama örnekleri şöyle
    • --chat-template-kwargs '{"reasoning_effort":"max"}'
    • --chat-template-kwargs '{"reasoning_effort":"high"}'
    • --chat-template-kwargs '{"enable_thinking":false}'

Dynamic GGUF doğruluğu ve KLD yorumu

  • Unsloth, GLM-5.2-GGUF quantization doğruluğunu değerlendirmek için KLD(KL Divergence) benchmark'ını kullanıyor
  • Dynamic 4-bit UD-Q4_K_XL ve Dynamic 5-bit UD-Q5_K_XL çoğunlukla lossless olarak tanımlanıyor
  • Daha küçük quant'lar da önemli katmanları higher precision ile, daha az önemli katmanları low bits ile tutan dinamik hassasiyet yerleşimi yaklaşımıyla çalışıyor
  • Saf top-1% doğruluk ölçütüne göre sayılar şöyle
    • Dynamic 1-bit: yaklaşık %76,2 doğruluk, %86 boyut küçülmesi
    • Dynamic 2-bit: yaklaşık %82 doğruluk, %84 boyut küçülmesi
    • Doğruluk karşılaştırması: {b:76,82}
  • %86 daha küçük demek, %86 daha kötü demek değil; Dynamic 1-bit için bunun 1,5TB'lık tam modele göre yaklaşık %24 daha düşük doğruluk anlamına geldiği açıklanıyor
  • “%76 doğruluk”, “The capital of France is” gibi bir soruda Paris'i %76, Sydney'i %24 seçtiği anlamına gelmiyor
    • Bu örnekte Paris'in her zaman %100, Sydney'in ise %0 olduğu belirtiliyor
    • %76 değeri, tüm corpus genelinde filler words ve stop words dağılımındaki değişimi de içeriyor
  • “Create a novel” istemi gibi birden fazla doğru başlangıcın mümkün olduğu durumlarda, baseline ile quantized modelin token dağılımı farklı olabilir
    • baseline [I] seçimini %100 yapabilirken, quantized model bunu [I] %76, [The] %24 şeklinde dağıtabilir
    • Bu değer, %24 olasılıkla saçma ya da yanlış çıktı üretileceği anlamına gelmiyor
  • KLD, baseline olan BF16 veya Q8_0 olasılıkları ile quantized version olasılıkları arasındaki mesafe olarak tanımlanıyor
    • quantization'ın amacı f(q(W)) ile f(W) arasındaki ortalama KL divergence'ı en aza indirmek
    • Burada f language model forward, q quantization operation, W ise model parametreleri ya da weights anlamına geliyor
    • KLD 0 ise model kusursuz biçimde yeniden oluşturulmuş oluyor
  • Tüm eğitim corpus'u olan 15T token üzerinde KLD çalıştırmak çok maliyetli olduğu için Unsloth, mean KLD ve küçük ama temsil gücü yüksek subset sampling ile bunu optimize ediyor
  • %99,9 KLD'nin de genel olarak iyi olduğu, 4bit ve üstünde daha büyük uplift görüldüğü ve massive out-of-distribution tasks için muhtemelen Dynamic 4-bit'in en uygun seçenek olduğu belirtiliyor

Unsloth Studio ile çalıştırma

  • Unsloth Studio, yerel yapay zeka için açık kaynaklı web UI ve GLM-5.2 çalıştırmayı destekliyor
  • Başlıca özellikler şöyle
    • MacOS, Windows, Linux'ta yerel model çalıştırma
    • GGUF ve safetensor modellerini arama, indirme ve çalıştırma
    • RAM offloading ve multiGPU setup'ını otomatik algılama
    • llama.cpp üzerinden hızlı CPU + GPU inference
  • Kurulum komutları şöyle
  • Çalıştırma komutları şöyle
    • unsloth studio -H 0.0.0.0 -p 8888
    • Çalıştırdıktan sonra tarayıcıda http://127.0.0.1:8888 ya da kullanıcıya özel URL açılabiliyor
  • Studio'yu HTTPS ile güvenli şekilde çalıştırma yöntemi de veriliyor
    • Windows, Mac, Linux için unsloth studio --secure
    • Ücretsiz Cloudflare tunnel kullanılıyor
  • İlk çalıştırmada hesap güvenliği için bir password oluşturmak ve ardından yeniden sign in etmek gerekiyor
  • Studio Chat sekmesinde arama kutusuna GLM-5.2 yazıp istenen model ve quant indirilebiliyor
  • Modeli çalıştırmadan önce yeterli compute olduğundan emin olunması gerekiyor
  • Studio'da inference parameters otomatik ayarlanmalı, ancak kullanıcı bağlam uzunluğunu, chat template'i ve diğer ayarları elle değiştirebiliyor
  • Ek bilgi için Unsloth Studio inference guide sayfasına bakılabilir

llama.cpp ile çalıştırma

  • llama.cpp eğitimi UD-IQ2_M quant çalıştırmayı ele alıyor ve en az 245GB RAM gerektiriyor
  • Hızlı yerel inference için llama.cpp kullanılıyor
  • GPU yoksa veya yalnızca CPU inference isteniyorsa -DGGML_CUDA=ON yerine -DGGML_CUDA=OFF kullanılmalı
  • Apple Mac / Metal cihazlarda da -DGGML_CUDA=OFF ile devam edilebilir; Metal desteği varsayılan olarak açık
  • Derleme süreci şu akıştan oluşuyor
    • apt-get update
    • apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
    • git clone https://github.com/ggml-org/llama.cpp
    • cmake ... -DGGML_CUDA=ON
    • cmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
    • cp llama.cpp/build/bin/llama-* llama.cpp
  • llama.cpp, ollama run benzeri şekilde modeli doğrudan yüklemek ve indirmek için de kullanılabiliyor
  • Örnek quantization type olarak UD-IQ2_M seçiliyor ve export LLAMA_CACHE="unsloth/GLM-5.2-GGUF" ile kayıt konumu zorlanabiliyor
  • llama.cpp içindeki doğrudan indirme sürecinin çok yavaş olabileceği, bu yüzden elle indirme yönteminin daha iyi olduğu belirtiliyor

Elle indirme ve çalıştırma örnekleri

  • Daha hızlı elle indirme için huggingface_hub kullanılıyor
    • pip install huggingface_hub
    • hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
  • near full precision için --include "*UD-Q8_K_XL*" kullanılabiliyor
  • İndirme takılırsa Hugging Face Hub, XET debugging sayfasına bakılması öneriliyor
  • Dynamic 1-bit indirme komutu şöyle
    • hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
  • conversation mode için model yolları şöyle
    • 2-bit: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
    • 1-bit: unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
  • llama-cli çalıştırma örneğinde 2-bit GGUF'nin ilk shard'ı --model parametresine veriliyor ve şu parametreler kullanılıyor
    • --temp 1.0
    • --top-p 0.95
    • --min-p 0.01
  • Doğrudan çalıştırma örneğinde -hf unsloth/GLM-5.2-GGUF:UD-IQ2_M da kullanılıyor

Üretim örneğiyle doğrulanan davranış

  • Belgede, 2-bit GLM-5.2'nin tool-calling ve SVG generation yaptığı bir örnek yer alıyor
  • llama-cli çalıştırıldıktan sonra “short Flappy Bird game” üretmesi isteniyor ve sonuç gösteriliyor
  • Üretilen tek parça HTML/JavaScript oyunu Sunset Flier adını kullanıyor
    • canvas, başlangıç ekranı, oyun sonu ekranı, HUD skoru, NEW BEST!, RETRY butonu içeriyor
    • Harici varlık kullanmadan Web Audio API ile flap, score, hit, die efekt sesleri üretiyor
    • Oyun durumu READY, PLAYING, DYING, OVER olmak üzere dört aşamada yönetiliyor
    • En yüksek skor localStorage.getItem('sunsetFlierBest') ve localStorage.setItem() ile kaydediliyor
  • Oyun mantığında yer çekimi, flap impulse, rastgele borular, çarpışma, parçacık efektleri, ekran sallanması ve madalya sistemi bulunuyor
    • GRAVITY = 0.42
    • MAX_FALL = 9
    • PIPE_W = 68
    • PIPE_GAP = 180
    • PIPE_SPEED = 2.6
    • PIPE_SPACING = 220
  • Girdi olarak fare, dokunma ve klavyeden Space, ArrowUp, Enter destekleniyor
  • Bu oyun örneği, 1-bit quantization ile de iyi çalıştığı ve sesin de sorunsuz çalıştığı bağlamında sunuluyor

Uzun bağlam ve KV cache quantization

  • llama.cpp içinde uzun bağlamdan yararlanmak için bellek kullanımını KV cache quantization ile azaltmak gerekiyor
  • llama.cpp, yakın zamanda KV cache quantization için daha yüksek doğruluk sağlayan teknikler ekledi; ilgili PR https://github.com/ggml-org/llama.cpp/pull/21038
  • Desteklenen KV cache dtype türleri şöyle
    • f32
    • f16
    • bf16
    • q8_0
    • q4_0
    • q4_1
    • iq4_nl
    • q5_0
    • q5_1
  • Varsayılan değer f16
  • q4_0, weight başına yaklaşık 4,5 bit kullandığı için bağlam uzunluğunu 16 / 4.5, yani yaklaşık 3,5 kat artırabiliyor
    • Örneğin normalde 10K destekleyen bir model, bu sayede 35K aralığına çıkabiliyor
  • q4_1, ek bir shifting parameter içerdiği için daha iyi olabilir ve weight başına 5 bit ile yaklaşık 3,2 kat daha uzun bağlam sunuyor
  • KV cache quantization çalıştırma örneğinde GLM-5.2 GGUF modeli ve örnekleme parametreleri belirtiliyor
    • Model yolu: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
    • --temp 1.0
    • --top-p 0.95
    • --min-p 0.01
    • --cache-type-k q4_1
    • --cache-type-v q4_1

Benchmark tablosunda görülebilen sayılar

  • Belgede GLM-5.2 benchmark tablosu devam ediyor, ancak sağlanan içerikte sütun başlıkları bulunmadığından her sayının hangi model ya da ayara karşılık geldiği doğrulanamıyor
  • Reasoning benchmark'larında şu satırlar ve sayılar yer alıyor
    • HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7
    • AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6
    • GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
  • Coding benchmark'larında şu satırlar ve sayılar yer alıyor
    • SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4
    • NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5
    • Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
  • Agentic benchmark'larda şu satırlar ve sayılar yer alıyor
    • MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6
    • Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8

1 yorum

 
GN⁺ 4 시간 전
Hacker News yorumları
  • Q4_K_XL çalıştırıyorum. Yaklaşık 6tk/sn almak için 512GB RAM ve 2 adet RTX 3090 ile llama.cpp -cmoe yeterli oluyor
    Şu anda kötü DDR4 2400MHz kullandığım için böyle; 3200MHz olsaydı muhtemelen 9tk/sn civarına çıkardı. CPU da 32 çekirdekli bir EPYC olduğu için fena değil, ama daha iyi bir 64 çekirdekli modelle 11tk/sn’ye kadar çıkabilir gibi görünüyor
    Donanımı, fiyatlar tamamen çıldırmadan önce bütçe odaklı topladım ve her gün pişman oluyorum, ama yine de bu modeli evde çalıştırabiliyor olmak harika. Plan yapmak ya da gerekli tüm bağlamı toplayıp tek atımlık bir prompt vermek için iyi
    Toplam donanım maliyeti topladığım sırada 2.400 dolardı ve biraz araştırırsanız bu tür modelleri evde de çalıştırmanın yolları var. İnsanlar bana sık sık neden böyle yaptığımı ya da bulut API’lerini kullanarak ne kadar tasarruf edilebileceğini soruyor, ama bence Fable olayı bağımsız şekilde işletmenin değerini gösterdi
    unsloth ekibine teşekkürler; Q4_K_XL sağlam görünüyor. Kuantize model indirecekseniz ve sığıyorsa K_XL varyantını almak daha iyi

    • Bu tür ev yapımı deneylerle sınırları zorlayan insanları alkışlıyorum. Kriptoda olduğu gibi yapay zekada da ortam pazarlamacı gürültüsüyle dolu, ama dayanıklılığı artırmaya dair hikâyeler neredeyse hiç yok
      Açık kaynak modelleri elektrikli diş fırçasına ya da Tamagotchi’ye tıkıştırmaya çalışan araştırmacılar da aynı derecede harika
    • Bu yükü sürekli çalıştırırsanız en az 600W çeker; bu da günde yaklaşık 14kWh eder. kWh başına 0,2 dolar derseniz günde 2,80 dolar, yani yalnızca elektrikten yılda yaklaşık 1.000 dolar işletme maliyeti çıkar
      Mahremiyet ya da doğrudan sahip olmanın verdiği tatmin sizin için gerçekten şart değilse, hyperscaler’lara para ödemek daha ucuz, daha rahat ve saniye başına token üretimi de çok daha hızlı
      Yine de yönü seviyorum ve iki yıl sonra ne tür self-host donanımlar çıkacağını merak ediyorum
    • Neredeyse aynı kuruluma sahibim. 2 adet RTX 3090, biraz daha hızlı 512GB DDR4 ve 64 çekirdekli bir EPYC var [0]
      Oldukça keyifle kullanıyorum ve bu modeli de yakında denemek istiyorum
      Yerel model çalıştırmanın dışında bu makineyi ana uzaktan geliştirme platformum olarak da kullanıyorum. Artık tüm Claude Code oturumlarını orada tmux içinde çalıştırıyorum
      Sürekli ısınmış bir dizüstüne dokunmak zorunda kalmamak parmaklarımı mutlu ediyor. Bir de Claude Code’un pili inanılmaz hızlı tüketmesi meselesi var
      [0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
    • “Çalıştırmak için gereken bu” ifadesi, eğer 2.400 dolara aldıysanız doğru olabilir, ama bugün toplam fiyat 10 bin dolara çok daha yakın
      Sadece RAM neredeyse 5.000 dolar, GPU’lar da tane başına yaklaşık 2.000 dolar; yani bugünün şartlarında oldukça pahalı bir donanım
    • Benim anladığım kadarıyla bu modelin llama.cpp uygulaması hâlâ DSA seyrek attention desteğinden yoksun, yani oldukça eksik durumda
      Bu yüzden model eğitimde kullanılmayan başka bir mekanizmayla çalıştırılıyor ve bunun kalite ile performansı düşürdüğüne dair sonuçlar vardı
      Her hâlükârda bence GLM 5.2, birçok açıdan DeepSeek V4 ailesi kadar ilgi çekici değil. DeepSeek V4 daha gelişmiş bir attention mekanizması kullanıyor; bu da özellikle uzun bağlamlarda KV cache belleğinden ciddi tasarruf sağlıyor
      Sonuç olarak tüketici platformlarında bile geniş batch işleme mümkün oluyor. GLM’de bu yok ve temel performans mimarisi açısından Kimi 2.6’ya genel olarak benzer hissettiriyor. İkisi de sıradan donanımda tam kalitede makul şekilde çalıştırmak için biraz fazla ağır
  • Neredeyse oluyordu. Benim sistemim 192GB RAM + 24GB RTX 3090 ve bunu neredeyse çalıştırabiliyordum
    MoE offloading için 24GB VRAM ve 256GB RAM gerektiği yazıyor
    https://unsloth.ai/docs/models/glm-5.2#usage-guide
    Önceki başlıkta biri donanımın 500 bin dolara mal olduğunu söylemişti
    https://news.ycombinator.com/item?id=48629970

    • 500 bin dolar çok büyük bir abartı. FP8 veya BF16’da yüksek eşzamanlılık hedefliyorsanız o seviyeye çıkabilir
      NVFP4 ile makul hız, yani yaklaşık 120 tok/sn ve eşzamanlılık, bugünkü fiyatlarla 80 bin ila 90 bin dolar bandında mümkün; hatta daha da aşağı olabilir
      Bu parayla 6 adet RTX 6000 PRO Blackwell, düzgün bir CPU ve anakart ile güç kaynağı alabilirsiniz. Toplam VRAM 576GB oluyor
      Decode 40 tok/sn, prefill de yaklaşık 1200 tok/sn sizin için yeterliyse 50 bin doların altına inmek de mümkün
    • 2 bit ile iyi sonuç almak zor. Kodlama için ideal aralık en az Q8
    • Umarım bu patlama, 90’lardakine benzer bir bilgi işlem donanımı gelişimini yeniden tetikler
      Son 20 yılda donanımın görece durgun kalmasının nedenlerinden biri, şirketlerin donanım yenilemesini haklı çıkaracak kullanım alanlarının az olmasıydı diye düşünüyorum
      Son 15 yılda paranın ve enerjinin büyük kısmı mobile gitti
      Ucuz yerel çıkarım, sunucu, masaüstü ve dizüstü üreticilerini yeniden harekete geçirmek için gereken gelir akışı olabilir
    • RAM var ama VRAM yok. 24GB RAM’li bir 3090 ile ne tür hızlar ya da tok/sn beklenebilir?
      24GB RAM’e sahip bir GPU alma fikri biraz cazip geliyor
    • Eğlencesine Gemini’ye sordum; kuantizasyon olmadan makul throughput almak için 500 bin dolar gerektiğini söyledi
  • “Sığar” denirken kastedilen, 256GB RAM’e sığması; ancak bu ağır biçimde kuantize edilmiş durumda olur ve yine de çok yavaş çalışır.
    Başlıktaki sayı, token üretim hızı değil, prompt işleme hızıdır.
    10 tok/s alınıp API 20~30 tok/s veriyorsa dışarıdan bakınca o kadar kötü görünmeyebilir, ancak Mac Studio ya da modelin tamamını GPU’ya yüklemeyen sistemler saf GPU kurulumlarına göre prompt işlemede 20~50 kat daha yavaştır.
    Sonuçta asıl mesele, GPU’ya 50 bin dolar harcamadıkça bunun pratikte kullanılamaz olmasıdır. Üstelik hâlâ ağır kuantize edilmiş bir model kullanmış olursunuz.

    • Nvidia Spark gibi cihazlarda 128GB birleşik RAM var.
      Bu tür cihazlar için çift portlu bir sürüm de var: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
      Yani 2 x 100GB/s port, belki de 2 x 200GB/s olabilir. Elime geçince daha fazlasını öğrenirim gibi duruyor.
      Bu tür cihazlar kümelenebiliyor da. 2 ya da 3 cihaz, 2 IP alt ağı kullanılırsa oldukça açık görünüyor. 4 veya daha fazlasında ise ağ gecikmesinin ne kadar etkilediğine bağlı olarak switch gerekebilir.
      Apple ise bol RAM’li M serisini unutmuş gibi. Apple Store’da 96GB birleşik RAM’in üstünde bir yapılandırma bulamıyorum; olan da böbrek fiyatına.
  • Birkaç yönden aynı anda bastırılıyor: GB10 kullanan yeni AI masaüstü sistemleri nispeten ucuz ve kümelenerek 1TB VRAM kurulabiliyor.
    Nvidia, AMD, Intel, Cerebras ve diğerleri yeni donanımı itiyor; GLM 5.2 gibi açık kaynak modeller de saçma derecede iyi hâle geliyor.
    DeepSeek V4 Flash gibi flash modeller de çok gelişiyor ve kuantizasyon da ilerliyor.
    Zor işler için büyük modeller, angarya işler için küçük modeller gibi farklı modelleri birlikte kullanabilen bir harness kurmak da mümkün hâle geliyor.
    Bu yüzden API’den çıkmak isteyenlerin yakında evlerinde makul fiyatlı AI masaüstü kümeleri barındırıp Opus düzeyi performans kullanabilmesini umuyorum.

    • Buradaki “nispeten” sözcüğü epey iş yapıyor. Tek bir GB10 yaklaşık 4.000 dolar ise 1TB küme 36.000 dolar ediyor.
      Eşdeğer bir H200 ile karşılaştırınca ucuz, ama OpenAI ya da Anthropic RSU’larıyla fonlanmayan bir homelab için hâlâ erişilemez.
  • Kodlama da dâhil olmak üzere yeterince iyi modelleri yerelde çalıştırabilme konusunda farkın kapandığı hissi var ve bazı şirketlerin biraz tedirgin olması gerektiğini düşünüyorum. Yanılıyor muyum?

    • Şu an RAM/GPU kıtlığı olmasaydı, o şirketler bugünkünden daha da tedirgin olurdu.
      Ama mevcut durumda bu modelleri etkili biçimde çalıştıracak donanımı karşılayabilecek insan sayısı çok az. Önümüzdeki birkaç yılda bunun büyük ölçüde değişeceğini sanmıyorum.
      Eğer Z.ai, kodlamaya odaklı GLM-5.2 Flash benzeri bir sürümü yaklaşık 80B parametre ölçeğinde çıkarırsa, ABD’deki frontier laboratuvarları daha çok endişelenir.
      Genel olarak Çinli yapay zeka şirketleri aynı işi daha az kaynakla, bazen çok daha az kaynakla yapmanın yolunu gösteriyor ve bu akım sürerse frontier laboratuvarlarını huzursuz edecektir.
      Yine de Çinli yapay zeka şirketleri de, mevcut amiral gemisi modellerinden çok daha küçük ama güçlü modeller yayımlamayarak kendi hendeklerini korumaya çalışacaktır.
      Alibaba Qwen şu an sanki o noktaya gelmiş gibi. Son zamanlarda epey sessizler ve en yeni 395B model, çoğu insanın evde çalıştırması için fazla büyük. Bu sefer daha küçük bir model çıkaracaklarına dair de bir işaret yok.
    • Katılmıyorum. Bir şirketin iç geliştirme için böyle modelleri barındırıp çalıştırmaya karar vermesini rahatlıkla hayal edebiliyorum.
      Geliştirme ekibi 10 kişi civarındaysa LLM sunucusuna 50 bin dolar tek seferlik yatırım yapmak oldukça cazip bir seçenek olabilir.
      Sınırsız token, makul performans, yükseltme seçenekleri ve ürün entegrasyonu ihtimali var.
      Genel olarak ürünlerine LLM eklemek isteyen şirketler için yerel LLM yaklaşımı daha da çekici görünüyor. Biraz daha aptal bir model bile insanların ürünlerine entegre ettiği birçok kullanım için yeterince iyi.
    • Tehdit olması için ille de yerelde çalışması gerekmiyor. Birçok şirket, bu tür modelleri barındıran üçüncü taraf sağlayıcılara ödeme yapma seçeneğine bakıyor ve fiyatlar frontier laboratuvarlarının sadece bir kısmı düzeyinde.
    • RAM gereksinimi hâlâ epey can yakıyor.
    • Yerelde çalıştırmak ekonomik değil. Gizlilik açısından harika ve eğlenceli bir hobi.
      Ama seçenekleriniz aşırı yavaş bir CPU kurulumu ve 10 bin dolarlık RAM, 90 bin dolarlık GPU ya da kalite karşılaştırması zor ağır kuantize bir modelden biri.
      Eğlencesine bir tane kurabilirsiniz ama bu tek başına ekonomikliği değiştirmiyor. Yine de mümkün olması ilginç.
  • OpenAI ve Anthropic muhtemelen GLM 5.2’nin çıkış zamanlamasından hoşlanmayacaktır.
    Bunun büyülü bir hendekten çok, sadece önden başlamanın getirdiği bir avantaj olduğunu epey gösteriyor.

  • 192GB RAM’li bir Mac Studio kullanabilirim, ama belirtilen minimum RAM’in altında kalıyor.
    Özellikle MoE olduğu için hızlı diskle swap yaparak bir şekilde çalıştırmak mümkün olabilir mi?

    • Bu kadar yoğun swap kullanmak, NVMe SSD’nin toplam yazma ömrünü (TBW) tüketip ömrünü ciddi biçimde kısaltmanın iyi bir yolu gibi görünüyor.
      Performans da 0.1 tok/s seviyesinde, korkunç olur.
  • unsloth’un milyonlarca kişinin yerel AI’a başlamasına yardımcı olmak için yaptığı işe büyük saygım var, ama bu yazı biraz indirme tuzağı gibi görünüyor.
    Çok fazla katmanı CPU’ya offload edince hiç iyi çalışmıyor. Bunu birkaç kez denedim ve sonunda ağır Hugging Face cache klasörlerine rm -rf çekmek zorunda kaldım.
    GLM 5.2’nin 1 bit ya da 2 bit kuantizasyonunu büyük ölçüde VRAM dışında çalıştırmanın, tamamen VRAM’e sığan Qwen3.6-27B Q8_0’dan kullanım açısından daha iyi olduğundan bile şüpheliyim.

  • Yazıda ne denirse densin, bunu 256GB RAM’li bir makinede çalıştırmaya çalışan birinin iyi vakit geçirmesi zor görünüyor.
    Çok daha gerçekçi alt sınır 512GB.
    Neyse ki fiyatlar yükselmeden önce ucuza aldığım 512GB RAM’li çift Xeon iş istasyonundan iki tane ev ofisimde var; biraz deney yapabilirim.