GLM-5.2'yi yerelde çalıştırma yöntemi
(unsloth.ai)- Z.ai'nin yeni açık modeli GLM-5.2 için asıl dikkat çekici nokta, 744B parametre, 40B aktif parametre ve 1M bağlam penceresine sahip bu büyük modelin yerelde kullanılabildiğini göstermesi
- Unsloth, Dynamic GGUF ile yerelde çalıştırma yolu sunuyor ve önerilen 2-bit
UD-IQ2_Mquant, 239GB disk ile en az 245GB RAM sınıfı bir ortam gerektiriyor - Dynamic 1-bit yaklaşık %76,2 top-1 doğruluk ve %86 boyut küçülmesi, Dynamic 2-bit ise yaklaşık %82 doğruluk ve %84 boyut küçülmesi göstererek “küçüldüğü kadar performansı düşer” yorumundan farklı bir tablo sunuyor
- Çalıştırma yöntemi Unsloth Studio ve
llama.cppolmak üzere ikiye ayrılıyor; Studio, MacOS·Windows·Linux'ta model arama·indirme·çalıştırma, RAM offloading ve multiGPU algılama desteği sağlıyor - Uzun bağlamı pratikte kullanmak için
llama.cppiçindeki KV cache quantization ile belleği azaltmak gerekiyor;q4_0yaklaşık 3,5 kat,q4_1ise yaklaşık 3,2 kat daha uzun bağlamı mümkün kılıyor
GLM-5.2 modeline genel bakış
- GLM-5.2, Z.ai'nin yeni açık modeli ve Unsloth Dynamic GGUF aracılığıyla yerel donanımda çalıştırılabiliyor
- Model özellikleri şöyle
- Toplam parametre: 744B
- Aktif parametre: 40B
- Maksimum bağlam penceresi: 1,048,576
- long-horizon coding, reasoning ve agentic tasks alanlarında SOTA performans sunduğu belirtiliyor
- Artificial Analysis ve çeşitli benchmark'lara göre Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro ile aynı seviyede performans gösterdiği söyleniyor
- Unsloth, Z.ai'den day-zero access aldığını belirtiyor
- GLM-5.2 için GGUF model dosyaları Hugging Face'teki GLM-5.2-GGUF sayfasından indirilebiliyor
Önerilen quant ve bellek gereksinimleri
- Erişilebilirlik ile doğruluk dengesini korumak için 2-bit dynamic quant olan
UD-IQ2_Möneriliyor- Disk kullanımı: 239GB
- 256GB unified memory'li Mac'e doğrudan sığıyor
- MoE offloading kullanılırsa 1x24GB GPU + 256GB RAM ile de iyi çalıştığı belirtiliyor
- 1-bit quant 223GB RAM içine sığarken, 8-bit için 810GB RAM gerekiyor
- Çıkarım donanımı gereksinimleri tablosunda toplam bellek, RAM + VRAM ya da unified memory anlamına geliyor
- Gösterilen toplam bellek değerleri: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
- En iyi performans için VRAM ile sistem RAM'inin toplam kullanılabilir belleğinin quantized model file size değerini yeterince aşması gerekiyor
Thinking modu ve örnekleme ayarları
- GLM-5.2, 3 adet thinking mode sunuyor
- non-thinking
- thinking High
- thinking Max
- Karmaşık işler için Max Thinking öneriliyor
- Unsloth Studio'da High/Max Thinking ile non-Thinking arasında UI üzerinden geçiş yapılabiliyor
- Çoğu kullanım senaryosu için ayarlar şöyle
temperature = 1.0top_p = 0.95- Diğer modlarda
top_p = 1.0
- GLM-5.2 varsayılan olarak reasoning kullanıyor ve
reasoning_effortiçin"high","max"ya da devre dışı bırakma seçilebiliyor - thinking'i devre dışı bırakma örnekleri şöyle
- Normal shell:
--chat-template-kwargs '{"enable_thinking":false}' - Windows PowerShell:
--chat-template-kwargs "{\"enable_thinking\":false}"
- Normal shell:
llama.cppiçinde de--reasoning onveya--reasoning offkullanılabiliyor- reasoning effort ayarlama örnekleri şöyle
--chat-template-kwargs '{"reasoning_effort":"max"}'--chat-template-kwargs '{"reasoning_effort":"high"}'--chat-template-kwargs '{"enable_thinking":false}'
Dynamic GGUF doğruluğu ve KLD yorumu
- Unsloth, GLM-5.2-GGUF quantization doğruluğunu değerlendirmek için KLD(KL Divergence) benchmark'ını kullanıyor
- Dynamic 4-bit
UD-Q4_K_XLve Dynamic 5-bitUD-Q5_K_XLçoğunlukla lossless olarak tanımlanıyor - Daha küçük quant'lar da önemli katmanları higher precision ile, daha az önemli katmanları low bits ile tutan dinamik hassasiyet yerleşimi yaklaşımıyla çalışıyor
- Saf top-1% doğruluk ölçütüne göre sayılar şöyle
- Dynamic 1-bit: yaklaşık %76,2 doğruluk, %86 boyut küçülmesi
- Dynamic 2-bit: yaklaşık %82 doğruluk, %84 boyut küçülmesi
- Doğruluk karşılaştırması:
- %86 daha küçük demek, %86 daha kötü demek değil; Dynamic 1-bit için bunun 1,5TB'lık tam modele göre yaklaşık %24 daha düşük doğruluk anlamına geldiği açıklanıyor
- “%76 doğruluk”, “The capital of France is” gibi bir soruda Paris'i %76, Sydney'i %24 seçtiği anlamına gelmiyor
- Bu örnekte Paris'in her zaman %100, Sydney'in ise %0 olduğu belirtiliyor
- %76 değeri, tüm corpus genelinde filler words ve stop words dağılımındaki değişimi de içeriyor
- “Create a novel” istemi gibi birden fazla doğru başlangıcın mümkün olduğu durumlarda, baseline ile quantized modelin token dağılımı farklı olabilir
- baseline
[I]seçimini %100 yapabilirken, quantized model bunu[I]%76,[The]%24 şeklinde dağıtabilir - Bu değer, %24 olasılıkla saçma ya da yanlış çıktı üretileceği anlamına gelmiyor
- baseline
- KLD, baseline olan BF16 veya Q8_0 olasılıkları ile quantized version olasılıkları arasındaki mesafe olarak tanımlanıyor
- quantization'ın amacı
f(q(W))ilef(W)arasındaki ortalama KL divergence'ı en aza indirmek - Burada
flanguage model forward,qquantization operation,Wise model parametreleri ya da weights anlamına geliyor - KLD 0 ise model kusursuz biçimde yeniden oluşturulmuş oluyor
- quantization'ın amacı
- Tüm eğitim corpus'u olan 15T token üzerinde KLD çalıştırmak çok maliyetli olduğu için Unsloth, mean KLD ve küçük ama temsil gücü yüksek subset sampling ile bunu optimize ediyor
- %99,9 KLD'nin de genel olarak iyi olduğu, 4bit ve üstünde daha büyük uplift görüldüğü ve massive out-of-distribution tasks için muhtemelen Dynamic 4-bit'in en uygun seçenek olduğu belirtiliyor
Unsloth Studio ile çalıştırma
- Unsloth Studio, yerel yapay zeka için açık kaynaklı web UI ve GLM-5.2 çalıştırmayı destekliyor
- Başlıca özellikler şöyle
- MacOS, Windows, Linux'ta yerel model çalıştırma
- GGUF ve safetensor modellerini arama, indirme ve çalıştırma
- RAM offloading ve multiGPU setup'ını otomatik algılama
llama.cppüzerinden hızlı CPU + GPU inference
- Kurulum komutları şöyle
- MacOS, Linux, WSL:
curl -fsSL https://unsloth.ai/install.sh | sh - Windows PowerShell:
irm https://unsloth.ai/install.ps1 | iex
- MacOS, Linux, WSL:
- Çalıştırma komutları şöyle
unsloth studio -H 0.0.0.0 -p 8888- Çalıştırdıktan sonra tarayıcıda
http://127.0.0.1:8888ya da kullanıcıya özel URL açılabiliyor
- Studio'yu HTTPS ile güvenli şekilde çalıştırma yöntemi de veriliyor
- Windows, Mac, Linux için
unsloth studio --secure - Ücretsiz Cloudflare tunnel kullanılıyor
- Windows, Mac, Linux için
- İlk çalıştırmada hesap güvenliği için bir password oluşturmak ve ardından yeniden sign in etmek gerekiyor
- Studio Chat sekmesinde arama kutusuna
GLM-5.2yazıp istenen model ve quant indirilebiliyor - Modeli çalıştırmadan önce yeterli compute olduğundan emin olunması gerekiyor
- Studio'da inference parameters otomatik ayarlanmalı, ancak kullanıcı bağlam uzunluğunu, chat template'i ve diğer ayarları elle değiştirebiliyor
- Ek bilgi için Unsloth Studio inference guide sayfasına bakılabilir
llama.cpp ile çalıştırma
- llama.cpp eğitimi
UD-IQ2_Mquant çalıştırmayı ele alıyor ve en az 245GB RAM gerektiriyor - Hızlı yerel inference için llama.cpp kullanılıyor
- GPU yoksa veya yalnızca CPU inference isteniyorsa
-DGGML_CUDA=ONyerine-DGGML_CUDA=OFFkullanılmalı - Apple Mac / Metal cihazlarda da
-DGGML_CUDA=OFFile devam edilebilir; Metal desteği varsayılan olarak açık - Derleme süreci şu akıştan oluşuyor
apt-get updateapt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -ygit clone https://github.com/ggml-org/llama.cppcmake ... -DGGML_CUDA=ONcmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-splitcp llama.cpp/build/bin/llama-* llama.cpp
llama.cpp,ollama runbenzeri şekilde modeli doğrudan yüklemek ve indirmek için de kullanılabiliyor- Örnek quantization type olarak
UD-IQ2_Mseçiliyor veexport LLAMA_CACHE="unsloth/GLM-5.2-GGUF"ile kayıt konumu zorlanabiliyor llama.cppiçindeki doğrudan indirme sürecinin çok yavaş olabileceği, bu yüzden elle indirme yönteminin daha iyi olduğu belirtiliyor
Elle indirme ve çalıştırma örnekleri
- Daha hızlı elle indirme için huggingface_hub kullanılıyor
pip install huggingface_hubhf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
- near full precision için
--include "*UD-Q8_K_XL*"kullanılabiliyor - İndirme takılırsa Hugging Face Hub, XET debugging sayfasına bakılması öneriliyor
- Dynamic 1-bit indirme komutu şöyle
hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
- conversation mode için model yolları şöyle
- 2-bit:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf - 1-bit:
unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
- 2-bit:
llama-cliçalıştırma örneğinde 2-bit GGUF'nin ilk shard'ı--modelparametresine veriliyor ve şu parametreler kullanılıyor--temp 1.0--top-p 0.95--min-p 0.01
- Doğrudan çalıştırma örneğinde
-hf unsloth/GLM-5.2-GGUF:UD-IQ2_Mda kullanılıyor
Üretim örneğiyle doğrulanan davranış
- Belgede, 2-bit GLM-5.2'nin tool-calling ve SVG generation yaptığı bir örnek yer alıyor
llama-cliçalıştırıldıktan sonra “short Flappy Bird game” üretmesi isteniyor ve sonuç gösteriliyor- Üretilen tek parça HTML/JavaScript oyunu
Sunset Flieradını kullanıyorcanvas, başlangıç ekranı, oyun sonu ekranı, HUD skoru,NEW BEST!,RETRYbutonu içeriyor- Harici varlık kullanmadan Web Audio API ile
flap,score,hit,dieefekt sesleri üretiyor - Oyun durumu
READY,PLAYING,DYING,OVERolmak üzere dört aşamada yönetiliyor - En yüksek skor
localStorage.getItem('sunsetFlierBest')velocalStorage.setItem()ile kaydediliyor
- Oyun mantığında yer çekimi, flap impulse, rastgele borular, çarpışma, parçacık efektleri, ekran sallanması ve madalya sistemi bulunuyor
GRAVITY = 0.42MAX_FALL = 9PIPE_W = 68PIPE_GAP = 180PIPE_SPEED = 2.6PIPE_SPACING = 220
- Girdi olarak fare, dokunma ve klavyeden
Space,ArrowUp,Enterdestekleniyor - Bu oyun örneği, 1-bit quantization ile de iyi çalıştığı ve sesin de sorunsuz çalıştığı bağlamında sunuluyor
Uzun bağlam ve KV cache quantization
llama.cppiçinde uzun bağlamdan yararlanmak için bellek kullanımını KV cache quantization ile azaltmak gerekiyorllama.cpp, yakın zamanda KV cache quantization için daha yüksek doğruluk sağlayan teknikler ekledi; ilgili PRhttps://github.com/ggml-org/llama.cpp/pull/21038- Desteklenen KV cache dtype türleri şöyle
f32f16bf16q8_0q4_0q4_1iq4_nlq5_0q5_1
- Varsayılan değer
f16 q4_0, weight başına yaklaşık 4,5 bit kullandığı için bağlam uzunluğunu16 / 4.5, yani yaklaşık 3,5 kat artırabiliyor- Örneğin normalde 10K destekleyen bir model, bu sayede 35K aralığına çıkabiliyor
q4_1, ek bir shifting parameter içerdiği için daha iyi olabilir ve weight başına 5 bit ile yaklaşık 3,2 kat daha uzun bağlam sunuyor- KV cache quantization çalıştırma örneğinde GLM-5.2 GGUF modeli ve örnekleme parametreleri belirtiliyor
- Model yolu:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0--top-p 0.95--min-p 0.01--cache-type-k q4_1--cache-type-v q4_1
- Model yolu:
Benchmark tablosunda görülebilen sayılar
- Belgede GLM-5.2 benchmark tablosu devam ediyor, ancak sağlanan içerikte sütun başlıkları bulunmadığından her sayının hangi model ya da ayara karşılık geldiği doğrulanamıyor
- Reasoning benchmark'larında şu satırlar ve sayılar yer alıyor
HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
- Coding benchmark'larında şu satırlar ve sayılar yer alıyor
SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
- Agentic benchmark'larda şu satırlar ve sayılar yer alıyor
MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8
1 yorum
Hacker News yorumları
Q4_K_XL çalıştırıyorum. Yaklaşık 6tk/sn almak için 512GB RAM ve 2 adet RTX 3090 ile
llama.cpp -cmoeyeterli oluyorŞu anda kötü DDR4 2400MHz kullandığım için böyle; 3200MHz olsaydı muhtemelen 9tk/sn civarına çıkardı. CPU da 32 çekirdekli bir EPYC olduğu için fena değil, ama daha iyi bir 64 çekirdekli modelle 11tk/sn’ye kadar çıkabilir gibi görünüyor
Donanımı, fiyatlar tamamen çıldırmadan önce bütçe odaklı topladım ve her gün pişman oluyorum, ama yine de bu modeli evde çalıştırabiliyor olmak harika. Plan yapmak ya da gerekli tüm bağlamı toplayıp tek atımlık bir prompt vermek için iyi
Toplam donanım maliyeti topladığım sırada 2.400 dolardı ve biraz araştırırsanız bu tür modelleri evde de çalıştırmanın yolları var. İnsanlar bana sık sık neden böyle yaptığımı ya da bulut API’lerini kullanarak ne kadar tasarruf edilebileceğini soruyor, ama bence Fable olayı bağımsız şekilde işletmenin değerini gösterdi
unsloth ekibine teşekkürler; Q4_K_XL sağlam görünüyor. Kuantize model indirecekseniz ve sığıyorsa K_XL varyantını almak daha iyi
Açık kaynak modelleri elektrikli diş fırçasına ya da Tamagotchi’ye tıkıştırmaya çalışan araştırmacılar da aynı derecede harika
Mahremiyet ya da doğrudan sahip olmanın verdiği tatmin sizin için gerçekten şart değilse, hyperscaler’lara para ödemek daha ucuz, daha rahat ve saniye başına token üretimi de çok daha hızlı
Yine de yönü seviyorum ve iki yıl sonra ne tür self-host donanımlar çıkacağını merak ediyorum
Oldukça keyifle kullanıyorum ve bu modeli de yakında denemek istiyorum
Yerel model çalıştırmanın dışında bu makineyi ana uzaktan geliştirme platformum olarak da kullanıyorum. Artık tüm Claude Code oturumlarını orada
tmuxiçinde çalıştırıyorumSürekli ısınmış bir dizüstüne dokunmak zorunda kalmamak parmaklarımı mutlu ediyor. Bir de Claude Code’un pili inanılmaz hızlı tüketmesi meselesi var
[0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
Sadece RAM neredeyse 5.000 dolar, GPU’lar da tane başına yaklaşık 2.000 dolar; yani bugünün şartlarında oldukça pahalı bir donanım
llama.cppuygulaması hâlâ DSA seyrek attention desteğinden yoksun, yani oldukça eksik durumdaBu yüzden model eğitimde kullanılmayan başka bir mekanizmayla çalıştırılıyor ve bunun kalite ile performansı düşürdüğüne dair sonuçlar vardı
Her hâlükârda bence GLM 5.2, birçok açıdan DeepSeek V4 ailesi kadar ilgi çekici değil. DeepSeek V4 daha gelişmiş bir attention mekanizması kullanıyor; bu da özellikle uzun bağlamlarda KV cache belleğinden ciddi tasarruf sağlıyor
Sonuç olarak tüketici platformlarında bile geniş batch işleme mümkün oluyor. GLM’de bu yok ve temel performans mimarisi açısından Kimi 2.6’ya genel olarak benzer hissettiriyor. İkisi de sıradan donanımda tam kalitede makul şekilde çalıştırmak için biraz fazla ağır
Neredeyse oluyordu. Benim sistemim 192GB RAM + 24GB RTX 3090 ve bunu neredeyse çalıştırabiliyordum
MoE offloading için 24GB VRAM ve 256GB RAM gerektiği yazıyor
https://unsloth.ai/docs/models/glm-5.2#usage-guide
Önceki başlıkta biri donanımın 500 bin dolara mal olduğunu söylemişti
https://news.ycombinator.com/item?id=48629970
NVFP4 ile makul hız, yani yaklaşık 120 tok/sn ve eşzamanlılık, bugünkü fiyatlarla 80 bin ila 90 bin dolar bandında mümkün; hatta daha da aşağı olabilir
Bu parayla 6 adet RTX 6000 PRO Blackwell, düzgün bir CPU ve anakart ile güç kaynağı alabilirsiniz. Toplam VRAM 576GB oluyor
Decode 40 tok/sn, prefill de yaklaşık 1200 tok/sn sizin için yeterliyse 50 bin doların altına inmek de mümkün
Son 20 yılda donanımın görece durgun kalmasının nedenlerinden biri, şirketlerin donanım yenilemesini haklı çıkaracak kullanım alanlarının az olmasıydı diye düşünüyorum
Son 15 yılda paranın ve enerjinin büyük kısmı mobile gitti
Ucuz yerel çıkarım, sunucu, masaüstü ve dizüstü üreticilerini yeniden harekete geçirmek için gereken gelir akışı olabilir
24GB RAM’e sahip bir GPU alma fikri biraz cazip geliyor
“Sığar” denirken kastedilen, 256GB RAM’e sığması; ancak bu ağır biçimde kuantize edilmiş durumda olur ve yine de çok yavaş çalışır.
Başlıktaki sayı, token üretim hızı değil, prompt işleme hızıdır.
10 tok/s alınıp API 20~30 tok/s veriyorsa dışarıdan bakınca o kadar kötü görünmeyebilir, ancak Mac Studio ya da modelin tamamını GPU’ya yüklemeyen sistemler saf GPU kurulumlarına göre prompt işlemede 20~50 kat daha yavaştır.
Sonuçta asıl mesele, GPU’ya 50 bin dolar harcamadıkça bunun pratikte kullanılamaz olmasıdır. Üstelik hâlâ ağır kuantize edilmiş bir model kullanmış olursunuz.
Bu tür cihazlar için çift portlu bir sürüm de var: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
Yani 2 x 100GB/s port, belki de 2 x 200GB/s olabilir. Elime geçince daha fazlasını öğrenirim gibi duruyor.
Bu tür cihazlar kümelenebiliyor da. 2 ya da 3 cihaz, 2 IP alt ağı kullanılırsa oldukça açık görünüyor. 4 veya daha fazlasında ise ağ gecikmesinin ne kadar etkilediğine bağlı olarak switch gerekebilir.
Apple ise bol RAM’li M serisini unutmuş gibi. Apple Store’da 96GB birleşik RAM’in üstünde bir yapılandırma bulamıyorum; olan da böbrek fiyatına.
Birkaç yönden aynı anda bastırılıyor: GB10 kullanan yeni AI masaüstü sistemleri nispeten ucuz ve kümelenerek 1TB VRAM kurulabiliyor.
Nvidia, AMD, Intel, Cerebras ve diğerleri yeni donanımı itiyor; GLM 5.2 gibi açık kaynak modeller de saçma derecede iyi hâle geliyor.
DeepSeek V4 Flash gibi flash modeller de çok gelişiyor ve kuantizasyon da ilerliyor.
Zor işler için büyük modeller, angarya işler için küçük modeller gibi farklı modelleri birlikte kullanabilen bir harness kurmak da mümkün hâle geliyor.
Bu yüzden API’den çıkmak isteyenlerin yakında evlerinde makul fiyatlı AI masaüstü kümeleri barındırıp Opus düzeyi performans kullanabilmesini umuyorum.
Eşdeğer bir H200 ile karşılaştırınca ucuz, ama OpenAI ya da Anthropic RSU’larıyla fonlanmayan bir homelab için hâlâ erişilemez.
Kodlama da dâhil olmak üzere yeterince iyi modelleri yerelde çalıştırabilme konusunda farkın kapandığı hissi var ve bazı şirketlerin biraz tedirgin olması gerektiğini düşünüyorum. Yanılıyor muyum?
Ama mevcut durumda bu modelleri etkili biçimde çalıştıracak donanımı karşılayabilecek insan sayısı çok az. Önümüzdeki birkaç yılda bunun büyük ölçüde değişeceğini sanmıyorum.
Eğer Z.ai, kodlamaya odaklı GLM-5.2 Flash benzeri bir sürümü yaklaşık 80B parametre ölçeğinde çıkarırsa, ABD’deki frontier laboratuvarları daha çok endişelenir.
Genel olarak Çinli yapay zeka şirketleri aynı işi daha az kaynakla, bazen çok daha az kaynakla yapmanın yolunu gösteriyor ve bu akım sürerse frontier laboratuvarlarını huzursuz edecektir.
Yine de Çinli yapay zeka şirketleri de, mevcut amiral gemisi modellerinden çok daha küçük ama güçlü modeller yayımlamayarak kendi hendeklerini korumaya çalışacaktır.
Alibaba Qwen şu an sanki o noktaya gelmiş gibi. Son zamanlarda epey sessizler ve en yeni 395B model, çoğu insanın evde çalıştırması için fazla büyük. Bu sefer daha küçük bir model çıkaracaklarına dair de bir işaret yok.
Geliştirme ekibi 10 kişi civarındaysa LLM sunucusuna 50 bin dolar tek seferlik yatırım yapmak oldukça cazip bir seçenek olabilir.
Sınırsız token, makul performans, yükseltme seçenekleri ve ürün entegrasyonu ihtimali var.
Genel olarak ürünlerine LLM eklemek isteyen şirketler için yerel LLM yaklaşımı daha da çekici görünüyor. Biraz daha aptal bir model bile insanların ürünlerine entegre ettiği birçok kullanım için yeterince iyi.
Ama seçenekleriniz aşırı yavaş bir CPU kurulumu ve 10 bin dolarlık RAM, 90 bin dolarlık GPU ya da kalite karşılaştırması zor ağır kuantize bir modelden biri.
Eğlencesine bir tane kurabilirsiniz ama bu tek başına ekonomikliği değiştirmiyor. Yine de mümkün olması ilginç.
OpenAI ve Anthropic muhtemelen GLM 5.2’nin çıkış zamanlamasından hoşlanmayacaktır.
Bunun büyülü bir hendekten çok, sadece önden başlamanın getirdiği bir avantaj olduğunu epey gösteriyor.
192GB RAM’li bir Mac Studio kullanabilirim, ama belirtilen minimum RAM’in altında kalıyor.
Özellikle MoE olduğu için hızlı diskle swap yaparak bir şekilde çalıştırmak mümkün olabilir mi?
Performans da 0.1 tok/s seviyesinde, korkunç olur.
unsloth’un milyonlarca kişinin yerel AI’a başlamasına yardımcı olmak için yaptığı işe büyük saygım var, ama bu yazı biraz indirme tuzağı gibi görünüyor.
Çok fazla katmanı CPU’ya offload edince hiç iyi çalışmıyor. Bunu birkaç kez denedim ve sonunda ağır Hugging Face cache klasörlerine
rm -rfçekmek zorunda kaldım.GLM 5.2’nin 1 bit ya da 2 bit kuantizasyonunu büyük ölçüde VRAM dışında çalıştırmanın, tamamen VRAM’e sığan Qwen3.6-27B Q8_0’dan kullanım açısından daha iyi olduğundan bile şüpheliyim.
Yazıda ne denirse densin, bunu 256GB RAM’li bir makinede çalıştırmaya çalışan birinin iyi vakit geçirmesi zor görünüyor.
Çok daha gerçekçi alt sınır 512GB.
Neyse ki fiyatlar yükselmeden önce ucuza aldığım 512GB RAM’li çift Xeon iş istasyonundan iki tane ev ofisimde var; biraz deney yapabilirim.