GLM-5.2'yi yerelde çalıştırma yöntemi

(unsloth.ai)

1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

Z.ai'nin yeni açık modeli GLM-5.2 için asıl dikkat çekici nokta, 744B parametre, 40B aktif parametre ve 1M bağlam penceresine sahip bu büyük modelin yerelde kullanılabildiğini göstermesi
Unsloth, Dynamic GGUF ile yerelde çalıştırma yolu sunuyor ve önerilen 2-bit UD-IQ2_M quant, 239GB disk ile en az 245GB RAM sınıfı bir ortam gerektiriyor
Dynamic 1-bit yaklaşık %76,2 top-1 doğruluk ve %86 boyut küçülmesi, Dynamic 2-bit ise yaklaşık %82 doğruluk ve %84 boyut küçülmesi göstererek “küçüldüğü kadar performansı düşer” yorumundan farklı bir tablo sunuyor
Çalıştırma yöntemi Unsloth Studio ve llama.cpp olmak üzere ikiye ayrılıyor; Studio, MacOS·Windows·Linux'ta model arama·indirme·çalıştırma, RAM offloading ve multiGPU algılama desteği sağlıyor
Uzun bağlamı pratikte kullanmak için llama.cpp içindeki KV cache quantization ile belleği azaltmak gerekiyor; q4_0 yaklaşık 3,5 kat, q4_1 ise yaklaşık 3,2 kat daha uzun bağlamı mümkün kılıyor

GLM-5.2 modeline genel bakış

GLM-5.2, Z.ai'nin yeni açık modeli ve Unsloth Dynamic GGUF aracılığıyla yerel donanımda çalıştırılabiliyor
Model özellikleri şöyle
- Toplam parametre: 744B
- Aktif parametre: 40B
- Maksimum bağlam penceresi: 1,048,576
long-horizon coding, reasoning ve agentic tasks alanlarında SOTA performans sunduğu belirtiliyor
Artificial Analysis ve çeşitli benchmark'lara göre Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro ile aynı seviyede performans gösterdiği söyleniyor
Unsloth, Z.ai'den day-zero access aldığını belirtiyor
GLM-5.2 için GGUF model dosyaları Hugging Face'teki GLM-5.2-GGUF sayfasından indirilebiliyor

Önerilen quant ve bellek gereksinimleri

Erişilebilirlik ile doğruluk dengesini korumak için 2-bit dynamic quant olan UD-IQ2_M öneriliyor
- Disk kullanımı: 239GB
- 256GB unified memory'li Mac'e doğrudan sığıyor
- MoE offloading kullanılırsa 1x24GB GPU + 256GB RAM ile de iyi çalıştığı belirtiliyor
1-bit quant 223GB RAM içine sığarken, 8-bit için 810GB RAM gerekiyor
Çıkarım donanımı gereksinimleri tablosunda toplam bellek, RAM + VRAM ya da unified memory anlamına geliyor
- Gösterilen toplam bellek değerleri: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
En iyi performans için VRAM ile sistem RAM'inin toplam kullanılabilir belleğinin quantized model file size değerini yeterince aşması gerekiyor

Thinking modu ve örnekleme ayarları

GLM-5.2, 3 adet thinking mode sunuyor
- non-thinking
- thinking High
- thinking Max
Karmaşık işler için Max Thinking öneriliyor
Unsloth Studio'da High/Max Thinking ile non-Thinking arasında UI üzerinden geçiş yapılabiliyor
Çoğu kullanım senaryosu için ayarlar şöyle
- temperature = 1.0
- top_p = 0.95
- Diğer modlarda top_p = 1.0
GLM-5.2 varsayılan olarak reasoning kullanıyor ve reasoning_effort için "high", "max" ya da devre dışı bırakma seçilebiliyor
thinking'i devre dışı bırakma örnekleri şöyle
- Normal shell: --chat-template-kwargs '{"enable_thinking":false}'
- Windows PowerShell: --chat-template-kwargs "{\"enable_thinking\":false}"
llama.cpp içinde de --reasoning on veya --reasoning off kullanılabiliyor
reasoning effort ayarlama örnekleri şöyle
- --chat-template-kwargs '{"reasoning_effort":"max"}'
- --chat-template-kwargs '{"reasoning_effort":"high"}'
- --chat-template-kwargs '{"enable_thinking":false}'

Dynamic GGUF doğruluğu ve KLD yorumu

Unsloth, GLM-5.2-GGUF quantization doğruluğunu değerlendirmek için KLD(KL Divergence) benchmark'ını kullanıyor
Dynamic 4-bit UD-Q4_K_XL ve Dynamic 5-bit UD-Q5_K_XL çoğunlukla lossless olarak tanımlanıyor
Daha küçük quant'lar da önemli katmanları higher precision ile, daha az önemli katmanları low bits ile tutan dinamik hassasiyet yerleşimi yaklaşımıyla çalışıyor
Saf top-1% doğruluk ölçütüne göre sayılar şöyle
- Dynamic 1-bit: yaklaşık %76,2 doğruluk, %86 boyut küçülmesi
- Dynamic 2-bit: yaklaşık %82 doğruluk, %84 boyut küçülmesi
- Doğruluk karşılaştırması: {b:76,82}
%86 daha küçük demek, %86 daha kötü demek değil; Dynamic 1-bit için bunun 1,5TB'lık tam modele göre yaklaşık %24 daha düşük doğruluk anlamına geldiği açıklanıyor
“%76 doğruluk”, “The capital of France is” gibi bir soruda Paris'i %76, Sydney'i %24 seçtiği anlamına gelmiyor
- Bu örnekte Paris'in her zaman %100, Sydney'in ise %0 olduğu belirtiliyor
- %76 değeri, tüm corpus genelinde filler words ve stop words dağılımındaki değişimi de içeriyor
“Create a novel” istemi gibi birden fazla doğru başlangıcın mümkün olduğu durumlarda, baseline ile quantized modelin token dağılımı farklı olabilir
- baseline [I] seçimini %100 yapabilirken, quantized model bunu [I] %76, [The] %24 şeklinde dağıtabilir
- Bu değer, %24 olasılıkla saçma ya da yanlış çıktı üretileceği anlamına gelmiyor
KLD, baseline olan BF16 veya Q8_0 olasılıkları ile quantized version olasılıkları arasındaki mesafe olarak tanımlanıyor
- quantization'ın amacı f(q(W)) ile f(W) arasındaki ortalama KL divergence'ı en aza indirmek
- Burada f language model forward, q quantization operation, W ise model parametreleri ya da weights anlamına geliyor
- KLD 0 ise model kusursuz biçimde yeniden oluşturulmuş oluyor
Tüm eğitim corpus'u olan 15T token üzerinde KLD çalıştırmak çok maliyetli olduğu için Unsloth, mean KLD ve küçük ama temsil gücü yüksek subset sampling ile bunu optimize ediyor
%99,9 KLD'nin de genel olarak iyi olduğu, 4bit ve üstünde daha büyük uplift görüldüğü ve massive out-of-distribution tasks için muhtemelen Dynamic 4-bit'in en uygun seçenek olduğu belirtiliyor

Unsloth Studio ile çalıştırma

Unsloth Studio, yerel yapay zeka için açık kaynaklı web UI ve GLM-5.2 çalıştırmayı destekliyor
Başlıca özellikler şöyle
- MacOS, Windows, Linux'ta yerel model çalıştırma
- GGUF ve safetensor modellerini arama, indirme ve çalıştırma
- RAM offloading ve multiGPU setup'ını otomatik algılama
- llama.cpp üzerinden hızlı CPU + GPU inference
Kurulum komutları şöyle
- MacOS, Linux, WSL: curl -fsSL https://unsloth.ai/install.sh | sh
- Windows PowerShell: irm https://unsloth.ai/install.ps1 | iex
Çalıştırma komutları şöyle
- unsloth studio -H 0.0.0.0 -p 8888
- Çalıştırdıktan sonra tarayıcıda http://127.0.0.1:8888 ya da kullanıcıya özel URL açılabiliyor
Studio'yu HTTPS ile güvenli şekilde çalıştırma yöntemi de veriliyor
- Windows, Mac, Linux için unsloth studio --secure
- Ücretsiz Cloudflare tunnel kullanılıyor
İlk çalıştırmada hesap güvenliği için bir password oluşturmak ve ardından yeniden sign in etmek gerekiyor
Studio Chat sekmesinde arama kutusuna GLM-5.2 yazıp istenen model ve quant indirilebiliyor
Modeli çalıştırmadan önce yeterli compute olduğundan emin olunması gerekiyor
Studio'da inference parameters otomatik ayarlanmalı, ancak kullanıcı bağlam uzunluğunu, chat template'i ve diğer ayarları elle değiştirebiliyor
Ek bilgi için Unsloth Studio inference guide sayfasına bakılabilir

llama.cpp ile çalıştırma

llama.cpp eğitimi UD-IQ2_M quant çalıştırmayı ele alıyor ve en az 245GB RAM gerektiriyor
Hızlı yerel inference için llama.cpp kullanılıyor
GPU yoksa veya yalnızca CPU inference isteniyorsa -DGGML_CUDA=ON yerine -DGGML_CUDA=OFF kullanılmalı
Apple Mac / Metal cihazlarda da -DGGML_CUDA=OFF ile devam edilebilir; Metal desteği varsayılan olarak açık
Derleme süreci şu akıştan oluşuyor
- apt-get update
- apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
- git clone https://github.com/ggml-org/llama.cpp
- cmake ... -DGGML_CUDA=ON
- cmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
- cp llama.cpp/build/bin/llama-* llama.cpp
llama.cpp, ollama run benzeri şekilde modeli doğrudan yüklemek ve indirmek için de kullanılabiliyor
Örnek quantization type olarak UD-IQ2_M seçiliyor ve export LLAMA_CACHE="unsloth/GLM-5.2-GGUF" ile kayıt konumu zorlanabiliyor
llama.cpp içindeki doğrudan indirme sürecinin çok yavaş olabileceği, bu yüzden elle indirme yönteminin daha iyi olduğu belirtiliyor

Elle indirme ve çalıştırma örnekleri

Daha hızlı elle indirme için huggingface_hub kullanılıyor
- pip install huggingface_hub
- hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
near full precision için --include "*UD-Q8_K_XL*" kullanılabiliyor
İndirme takılırsa Hugging Face Hub, XET debugging sayfasına bakılması öneriliyor
Dynamic 1-bit indirme komutu şöyle
- hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
conversation mode için model yolları şöyle
- 2-bit: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
- 1-bit: unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
llama-cli çalıştırma örneğinde 2-bit GGUF'nin ilk shard'ı --model parametresine veriliyor ve şu parametreler kullanılıyor
- --temp 1.0
- --top-p 0.95
- --min-p 0.01
Doğrudan çalıştırma örneğinde -hf unsloth/GLM-5.2-GGUF:UD-IQ2_M da kullanılıyor

Üretim örneğiyle doğrulanan davranış

Belgede, 2-bit GLM-5.2'nin tool-calling ve SVG generation yaptığı bir örnek yer alıyor
llama-cli çalıştırıldıktan sonra “short Flappy Bird game” üretmesi isteniyor ve sonuç gösteriliyor
Üretilen tek parça HTML/JavaScript oyunu Sunset Flier adını kullanıyor
- canvas, başlangıç ekranı, oyun sonu ekranı, HUD skoru, NEW BEST!, RETRY butonu içeriyor
- Harici varlık kullanmadan Web Audio API ile flap, score, hit, die efekt sesleri üretiyor
- Oyun durumu READY, PLAYING, DYING, OVER olmak üzere dört aşamada yönetiliyor
- En yüksek skor localStorage.getItem('sunsetFlierBest') ve localStorage.setItem() ile kaydediliyor
Oyun mantığında yer çekimi, flap impulse, rastgele borular, çarpışma, parçacık efektleri, ekran sallanması ve madalya sistemi bulunuyor
- GRAVITY = 0.42
- MAX_FALL = 9
- PIPE_W = 68
- PIPE_GAP = 180
- PIPE_SPEED = 2.6
- PIPE_SPACING = 220
Girdi olarak fare, dokunma ve klavyeden Space, ArrowUp, Enter destekleniyor
Bu oyun örneği, 1-bit quantization ile de iyi çalıştığı ve sesin de sorunsuz çalıştığı bağlamında sunuluyor

Uzun bağlam ve KV cache quantization

llama.cpp içinde uzun bağlamdan yararlanmak için bellek kullanımını KV cache quantization ile azaltmak gerekiyor
llama.cpp, yakın zamanda KV cache quantization için daha yüksek doğruluk sağlayan teknikler ekledi; ilgili PR https://github.com/ggml-org/llama.cpp/pull/21038
Desteklenen KV cache dtype türleri şöyle
- f32
- f16
- bf16
- q8_0
- q4_0
- q4_1
- iq4_nl
- q5_0
- q5_1
Varsayılan değer f16
q4_0, weight başına yaklaşık 4,5 bit kullandığı için bağlam uzunluğunu 16 / 4.5, yani yaklaşık 3,5 kat artırabiliyor
- Örneğin normalde 10K destekleyen bir model, bu sayede 35K aralığına çıkabiliyor
q4_1, ek bir shifting parameter içerdiği için daha iyi olabilir ve weight başına 5 bit ile yaklaşık 3,2 kat daha uzun bağlam sunuyor
KV cache quantization çalıştırma örneğinde GLM-5.2 GGUF modeli ve örnekleme parametreleri belirtiliyor
- Model yolu: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
- --temp 1.0
- --top-p 0.95
- --min-p 0.01
- --cache-type-k q4_1
- --cache-type-v q4_1

Benchmark tablosunda görülebilen sayılar

Belgede GLM-5.2 benchmark tablosu devam ediyor, ancak sağlanan içerikte sütun başlıkları bulunmadığından her sayının hangi model ya da ayara karşılık geldiği doğrulanamıyor
Reasoning benchmark'larında şu satırlar ve sayılar yer alıyor
- HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7
- AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6
- GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
Coding benchmark'larında şu satırlar ve sayılar yer alıyor
- SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4
- NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5
- Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
Agentic benchmark'larda şu satırlar ve sayılar yer alıyor
- MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6
- Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8

1 yorum

GN⁺ 4 시간 전

Hacker News yorumları

Q4_K_XL çalıştırıyorum. Yaklaşık 6tk/sn almak için 512GB RAM ve 2 adet RTX 3090 ile llama.cpp -cmoe yeterli oluyor
Şu anda kötü DDR4 2400MHz kullandığım için böyle; 3200MHz olsaydı muhtemelen 9tk/sn civarına çıkardı. CPU da 32 çekirdekli bir EPYC olduğu için fena değil, ama daha iyi bir 64 çekirdekli modelle 11tk/sn’ye kadar çıkabilir gibi görünüyor
Donanımı, fiyatlar tamamen çıldırmadan önce bütçe odaklı topladım ve her gün pişman oluyorum, ama yine de bu modeli evde çalıştırabiliyor olmak harika. Plan yapmak ya da gerekli tüm bağlamı toplayıp tek atımlık bir prompt vermek için iyi
Toplam donanım maliyeti topladığım sırada 2.400 dolardı ve biraz araştırırsanız bu tür modelleri evde de çalıştırmanın yolları var. İnsanlar bana sık sık neden böyle yaptığımı ya da bulut API’lerini kullanarak ne kadar tasarruf edilebileceğini soruyor, ama bence Fable olayı bağımsız şekilde işletmenin değerini gösterdi
unsloth ekibine teşekkürler; Q4_K_XL sağlam görünüyor. Kuantize model indirecekseniz ve sığıyorsa K_XL varyantını almak daha iyi
- Bu tür ev yapımı deneylerle sınırları zorlayan insanları alkışlıyorum. Kriptoda olduğu gibi yapay zekada da ortam pazarlamacı gürültüsüyle dolu, ama dayanıklılığı artırmaya dair hikâyeler neredeyse hiç yok
  Açık kaynak modelleri elektrikli diş fırçasına ya da Tamagotchi’ye tıkıştırmaya çalışan araştırmacılar da aynı derecede harika
- Bu yükü sürekli çalıştırırsanız en az 600W çeker; bu da günde yaklaşık 14kWh eder. kWh başına 0,2 dolar derseniz günde 2,80 dolar, yani yalnızca elektrikten yılda yaklaşık 1.000 dolar işletme maliyeti çıkar
  Mahremiyet ya da doğrudan sahip olmanın verdiği tatmin sizin için gerçekten şart değilse, hyperscaler’lara para ödemek daha ucuz, daha rahat ve saniye başına token üretimi de çok daha hızlı
  Yine de yönü seviyorum ve iki yıl sonra ne tür self-host donanımlar çıkacağını merak ediyorum
- Neredeyse aynı kuruluma sahibim. 2 adet RTX 3090, biraz daha hızlı 512GB DDR4 ve 64 çekirdekli bir EPYC var [0]
  Oldukça keyifle kullanıyorum ve bu modeli de yakında denemek istiyorum
  Yerel model çalıştırmanın dışında bu makineyi ana uzaktan geliştirme platformum olarak da kullanıyorum. Artık tüm Claude Code oturumlarını orada tmux içinde çalıştırıyorum
  Sürekli ısınmış bir dizüstüne dokunmak zorunda kalmamak parmaklarımı mutlu ediyor. Bir de Claude Code’un pili inanılmaz hızlı tüketmesi meselesi var
  [0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
- “Çalıştırmak için gereken bu” ifadesi, eğer 2.400 dolara aldıysanız doğru olabilir, ama bugün toplam fiyat 10 bin dolara çok daha yakın
  Sadece RAM neredeyse 5.000 dolar, GPU’lar da tane başına yaklaşık 2.000 dolar; yani bugünün şartlarında oldukça pahalı bir donanım
- Benim anladığım kadarıyla bu modelin llama.cpp uygulaması hâlâ DSA seyrek attention desteğinden yoksun, yani oldukça eksik durumda
  Bu yüzden model eğitimde kullanılmayan başka bir mekanizmayla çalıştırılıyor ve bunun kalite ile performansı düşürdüğüne dair sonuçlar vardı
  Her hâlükârda bence GLM 5.2, birçok açıdan DeepSeek V4 ailesi kadar ilgi çekici değil. DeepSeek V4 daha gelişmiş bir attention mekanizması kullanıyor; bu da özellikle uzun bağlamlarda KV cache belleğinden ciddi tasarruf sağlıyor
  Sonuç olarak tüketici platformlarında bile geniş batch işleme mümkün oluyor. GLM’de bu yok ve temel performans mimarisi açısından Kimi 2.6’ya genel olarak benzer hissettiriyor. İkisi de sıradan donanımda tam kalitede makul şekilde çalıştırmak için biraz fazla ağır
Neredeyse oluyordu. Benim sistemim 192GB RAM + 24GB RTX 3090 ve bunu neredeyse çalıştırabiliyordum
MoE offloading için 24GB VRAM ve 256GB RAM gerektiği yazıyor
https://unsloth.ai/docs/models/glm-5.2#usage-guide
Önceki başlıkta biri donanımın 500 bin dolara mal olduğunu söylemişti
https://news.ycombinator.com/item?id=48629970
- 500 bin dolar çok büyük bir abartı. FP8 veya BF16’da yüksek eşzamanlılık hedefliyorsanız o seviyeye çıkabilir
  NVFP4 ile makul hız, yani yaklaşık 120 tok/sn ve eşzamanlılık, bugünkü fiyatlarla 80 bin ila 90 bin dolar bandında mümkün; hatta daha da aşağı olabilir
  Bu parayla 6 adet RTX 6000 PRO Blackwell, düzgün bir CPU ve anakart ile güç kaynağı alabilirsiniz. Toplam VRAM 576GB oluyor
  Decode 40 tok/sn, prefill de yaklaşık 1200 tok/sn sizin için yeterliyse 50 bin doların altına inmek de mümkün
- 2 bit ile iyi sonuç almak zor. Kodlama için ideal aralık en az Q8
- Umarım bu patlama, 90’lardakine benzer bir bilgi işlem donanımı gelişimini yeniden tetikler
  Son 20 yılda donanımın görece durgun kalmasının nedenlerinden biri, şirketlerin donanım yenilemesini haklı çıkaracak kullanım alanlarının az olmasıydı diye düşünüyorum
  Son 15 yılda paranın ve enerjinin büyük kısmı mobile gitti
  Ucuz yerel çıkarım, sunucu, masaüstü ve dizüstü üreticilerini yeniden harekete geçirmek için gereken gelir akışı olabilir
- RAM var ama VRAM yok. 24GB RAM’li bir 3090 ile ne tür hızlar ya da tok/sn beklenebilir?
  24GB RAM’e sahip bir GPU alma fikri biraz cazip geliyor
- Eğlencesine Gemini’ye sordum; kuantizasyon olmadan makul throughput almak için 500 bin dolar gerektiğini söyledi
“Sığar” denirken kastedilen, 256GB RAM’e sığması; ancak bu ağır biçimde kuantize edilmiş durumda olur ve yine de çok yavaş çalışır.
Başlıktaki sayı, token üretim hızı değil, prompt işleme hızıdır.
10 tok/s alınıp API 20~30 tok/s veriyorsa dışarıdan bakınca o kadar kötü görünmeyebilir, ancak Mac Studio ya da modelin tamamını GPU’ya yüklemeyen sistemler saf GPU kurulumlarına göre prompt işlemede 20~50 kat daha yavaştır.
Sonuçta asıl mesele, GPU’ya 50 bin dolar harcamadıkça bunun pratikte kullanılamaz olmasıdır. Üstelik hâlâ ağır kuantize edilmiş bir model kullanmış olursunuz.
- Nvidia Spark gibi cihazlarda 128GB birleşik RAM var.
  Bu tür cihazlar için çift portlu bir sürüm de var: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
  Yani 2 x 100GB/s port, belki de 2 x 200GB/s olabilir. Elime geçince daha fazlasını öğrenirim gibi duruyor.
  Bu tür cihazlar kümelenebiliyor da. 2 ya da 3 cihaz, 2 IP alt ağı kullanılırsa oldukça açık görünüyor. 4 veya daha fazlasında ise ağ gecikmesinin ne kadar etkilediğine bağlı olarak switch gerekebilir.
  Apple ise bol RAM’li M serisini unutmuş gibi. Apple Store’da 96GB birleşik RAM’in üstünde bir yapılandırma bulamıyorum; olan da böbrek fiyatına.
Birkaç yönden aynı anda bastırılıyor: GB10 kullanan yeni AI masaüstü sistemleri nispeten ucuz ve kümelenerek 1TB VRAM kurulabiliyor.
Nvidia, AMD, Intel, Cerebras ve diğerleri yeni donanımı itiyor; GLM 5.2 gibi açık kaynak modeller de saçma derecede iyi hâle geliyor.
DeepSeek V4 Flash gibi flash modeller de çok gelişiyor ve kuantizasyon da ilerliyor.
Zor işler için büyük modeller, angarya işler için küçük modeller gibi farklı modelleri birlikte kullanabilen bir harness kurmak da mümkün hâle geliyor.
Bu yüzden API’den çıkmak isteyenlerin yakında evlerinde makul fiyatlı AI masaüstü kümeleri barındırıp Opus düzeyi performans kullanabilmesini umuyorum.
- Buradaki “nispeten” sözcüğü epey iş yapıyor. Tek bir GB10 yaklaşık 4.000 dolar ise 1TB küme 36.000 dolar ediyor.
  Eşdeğer bir H200 ile karşılaştırınca ucuz, ama OpenAI ya da Anthropic RSU’larıyla fonlanmayan bir homelab için hâlâ erişilemez.
Kodlama da dâhil olmak üzere yeterince iyi modelleri yerelde çalıştırabilme konusunda farkın kapandığı hissi var ve bazı şirketlerin biraz tedirgin olması gerektiğini düşünüyorum. Yanılıyor muyum?
- Şu an RAM/GPU kıtlığı olmasaydı, o şirketler bugünkünden daha da tedirgin olurdu.
  Ama mevcut durumda bu modelleri etkili biçimde çalıştıracak donanımı karşılayabilecek insan sayısı çok az. Önümüzdeki birkaç yılda bunun büyük ölçüde değişeceğini sanmıyorum.
  Eğer Z.ai, kodlamaya odaklı GLM-5.2 Flash benzeri bir sürümü yaklaşık 80B parametre ölçeğinde çıkarırsa, ABD’deki frontier laboratuvarları daha çok endişelenir.
  Genel olarak Çinli yapay zeka şirketleri aynı işi daha az kaynakla, bazen çok daha az kaynakla yapmanın yolunu gösteriyor ve bu akım sürerse frontier laboratuvarlarını huzursuz edecektir.
  Yine de Çinli yapay zeka şirketleri de, mevcut amiral gemisi modellerinden çok daha küçük ama güçlü modeller yayımlamayarak kendi hendeklerini korumaya çalışacaktır.
  Alibaba Qwen şu an sanki o noktaya gelmiş gibi. Son zamanlarda epey sessizler ve en yeni 395B model, çoğu insanın evde çalıştırması için fazla büyük. Bu sefer daha küçük bir model çıkaracaklarına dair de bir işaret yok.
- Katılmıyorum. Bir şirketin iç geliştirme için böyle modelleri barındırıp çalıştırmaya karar vermesini rahatlıkla hayal edebiliyorum.
  Geliştirme ekibi 10 kişi civarındaysa LLM sunucusuna 50 bin dolar tek seferlik yatırım yapmak oldukça cazip bir seçenek olabilir.
  Sınırsız token, makul performans, yükseltme seçenekleri ve ürün entegrasyonu ihtimali var.
  Genel olarak ürünlerine LLM eklemek isteyen şirketler için yerel LLM yaklaşımı daha da çekici görünüyor. Biraz daha aptal bir model bile insanların ürünlerine entegre ettiği birçok kullanım için yeterince iyi.
- Tehdit olması için ille de yerelde çalışması gerekmiyor. Birçok şirket, bu tür modelleri barındıran üçüncü taraf sağlayıcılara ödeme yapma seçeneğine bakıyor ve fiyatlar frontier laboratuvarlarının sadece bir kısmı düzeyinde.
- RAM gereksinimi hâlâ epey can yakıyor.
- Yerelde çalıştırmak ekonomik değil. Gizlilik açısından harika ve eğlenceli bir hobi.
  Ama seçenekleriniz aşırı yavaş bir CPU kurulumu ve 10 bin dolarlık RAM, 90 bin dolarlık GPU ya da kalite karşılaştırması zor ağır kuantize bir modelden biri.
  Eğlencesine bir tane kurabilirsiniz ama bu tek başına ekonomikliği değiştirmiyor. Yine de mümkün olması ilginç.
OpenAI ve Anthropic muhtemelen GLM 5.2’nin çıkış zamanlamasından hoşlanmayacaktır.
Bunun büyülü bir hendekten çok, sadece önden başlamanın getirdiği bir avantaj olduğunu epey gösteriyor.
192GB RAM’li bir Mac Studio kullanabilirim, ama belirtilen minimum RAM’in altında kalıyor.
Özellikle MoE olduğu için hızlı diskle swap yaparak bir şekilde çalıştırmak mümkün olabilir mi?
- Bu kadar yoğun swap kullanmak, NVMe SSD’nin toplam yazma ömrünü (TBW) tüketip ömrünü ciddi biçimde kısaltmanın iyi bir yolu gibi görünüyor.
  Performans da 0.1 tok/s seviyesinde, korkunç olur.
unsloth’un milyonlarca kişinin yerel AI’a başlamasına yardımcı olmak için yaptığı işe büyük saygım var, ama bu yazı biraz indirme tuzağı gibi görünüyor.
Çok fazla katmanı CPU’ya offload edince hiç iyi çalışmıyor. Bunu birkaç kez denedim ve sonunda ağır Hugging Face cache klasörlerine rm -rf çekmek zorunda kaldım.
GLM 5.2’nin 1 bit ya da 2 bit kuantizasyonunu büyük ölçüde VRAM dışında çalıştırmanın, tamamen VRAM’e sığan Qwen3.6-27B Q8_0’dan kullanım açısından daha iyi olduğundan bile şüpheliyim.
Yazıda ne denirse densin, bunu 256GB RAM’li bir makinede çalıştırmaya çalışan birinin iyi vakit geçirmesi zor görünüyor.
Çok daha gerçekçi alt sınır 512GB.
Neyse ki fiyatlar yükselmeden önce ucuza aldığım 512GB RAM’li çift Xeon iş istasyonundan iki tane ev ofisimde var; biraz deney yapabilirim.

GLM-5.2'yi yerelde çalıştırma yöntemi

GLM-5.2 modeline genel bakış

Önerilen quant ve bellek gereksinimleri

Thinking modu ve örnekleme ayarları

Dynamic GGUF doğruluğu ve KLD yorumu

Unsloth Studio ile çalıştırma

llama.cpp ile çalıştırma

Elle indirme ve çalıştırma örnekleri

Üretim örneğiyle doğrulanan davranış

Uzun bağlam ve KV cache quantization

Benchmark tablosunda görülebilen sayılar

İlgili okumalar

1 yorum

Hacker News yorumları