- Yerel LLM'leri macOS'ta çalıştırma yöntemleri ve önerilen araçlar hakkında açıklama
- Yerel LLM'ler, kişisel bilgisayarda çalışabilen yapay zeka dil modelleridir; veri gizliliğini korurken deneysel teknoloji keşfine olanak tanır
- Çeşitli open-weight modeller kullanılarak metin özetleme ve kişisel kayıt amaçları için yararlıdır, ancak yaratıcılık ya da düşünme yeteneğine sahip değildir
- macOS'ta çalışabilen iki temel araç llama.cpp ve LM Studio'dur; bunlar sırasıyla açık kaynak ve kullanıcı dostu bir arayüz sunar
- Model seçerken bellek kapasitesi, runtime, nicemleme düzeyi, görüntü ve akıl yürütme yetenekleri dikkate alınmalıdır
- Yerel LLM çalıştırmak, gizliliğin korunmasına ve teknik merakın giderilmesine katkı sağlar; küçük modeller, büyük modellere alternatif olarak deneysel değer sunar
Giriş: LLM'lere dair kişisel bakış ve kullanım biçimi
- Bu yazı, macOS'ta yerel LLM'leri (Local Large Language Model) doğrudan kurup deneme deneyimini ele alıyor
- Yazar, LLM'lere karşı kuşkucu olsa da yeni teknolojileri denemeyi sevdiği için bunları indirip bizzat kullanmış
- LLM'lerin işlevi konusunda, onları ileri düzey otomatik tamamlama olarak gören bakış ile sanki duyguları ve hakları olan varlıklar gibi değerlendiren iddialar arasında bir yerde duruyor
- Gerçekte bir sonraki kelime tahmini temeline dayanırlar, ancak karmaşık ve kasıtsız davranışlar ortaya çıkabilir
- Yaratıcılıkları ya da özbilinçleri yoktur; gelecekte daha gelişmiş makineler çıkabilir, ancak mevcut teknoloji seviyesi buna henüz ulaşmış değildir
LLM'lerin başlıca kullanım örnekleri
- Metin özetleme, internetten bilgi sağlama, basit tıbbi bilgi verme gibi alanlarda kullanım değeri yüksektir
- Yazar, kendi durumunda bunu brain-dumping (düşünceleri dökme) amacıyla kullanıyor; konuşacak birine ihtiyaç duyduğunda faydalı buluyor
- Yanıtların kendisine odaklanmıyor, yalnızca kayıt tutma amacıyla yararlanıyor
- Yapay zekaya aşırı duygusal anlam yüklememek, yani onu insanlaştırmamak önemlidir
- Sistem prompt'ları kullanılarak modelin yanıt davranışı ayarlanabilir, ancak yazar bununla özellikle ilgilenmiyor
Üretkenlik ve güvenilirlik üzerine kaygılar
- LLM'lerin “üretkenliği” artırdığı iddiasına katılmıyor
- Yanıtların güvenilirlik sorunu nedeniyle (saçmalama, halüsinasyon) mutlaka fact-check yapılması gerekiyor
- Kolay doğrulanamayan sorulardan kaçınmak, bilgi kirliliğini önlemeye yardımcı olur
Neden yerel LLM kullanmalı?
- Teknik deney yapmanın keyfini ve bilgisayarın yerelde doğal dille tepki vermesinin ilginçliğini hissediyor
- Yalnızca kendi bilgisayarında çalıştığında, gizlilik ve hassas bilgilerin korunması açısından avantaj sağlar
- Yapay zeka hizmeti sunan şirketler, kullanıcı verilerini ayrı olarak saklayıp eğitime dahil edebiliyor
- Ticari yapay zeka şirketlerine güvensizlik, etik sorunlar, aşırı pazarlama, çevresel tahribat ve telif ihlali gibi nedenlerle yerel açık kaynak modelleri tercih ediyor
macOS'ta LLM çalıştırma yolları
- macOS'ta çalıştırılabilen iki temel araç llama.cpp ve LM Studio
-
- Georgi Gerganov tarafından geliştirildi
- Çeşitli ve ayrıntılı ayar seçenekleri sunar, birden çok platformu destekler, model indirme ve basit bir web arayüzü sağlar
- Örnek:
llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF komutuyla önerilen model Gemma 3 4B QAT çalıştırılabilir
- Tarayıcıda
http://127.0.0.1:8080 adresine gidildiğinde ChatGPT benzeri minimal bir arayüz sunar; deneyler için uygundur
-
2. LM Studio (kapalı kaynak, kullanımı kolay)
- Sezgisel ve gelişmiş bir arayüz sunar; model keşfi/indirme/konuşma yönetimi özellikleri ve modelin çalıştırılıp çalıştırılamayacağına dair yönlendirme içerir
- Fazla büyük bir model yüklenip sistemin çökmesini önleyen yerleşik guardrail'ler bulunur
- macOS'ta
llama.cpp ve Apple'ın MLX motoru olmak üzere iki runtime'ı destekler
- MLX daha hızlıdır, ancak ayrıntılı ayarlar daha sınırlıdır
- Başlıca kullanım ipuçları:
- Konuşma sırasında model değiştirilebilir
- Konuşma dalları oluşturulabilir ve farklı deneyler yapılabilir
- Hem kullanıcı mesajları hem de asistan mesajları düzenlenebilir
- Sistem prompt önayarları oluşturup yeniden kullanma desteği vardır
- Konuşma bağlam penceresi aşıldığında nasıl davranılacağı ayarlanabilir (ön/arka mesajları koruma gibi varsayılan seçenekler sunulur)
İyi bir LLM modeli seçme ölçütleri
- Model boyutu: Asıl kısıt disk alanından çok bellek (RAM)'dir
- 16GB RAM ortamında 12GB ve altı modeller önerilir; üstüne çıkıldığında sistem kararsızlaşabilir
- Model büyüdükçe yavaşlar ve bellek yetersiz kaldığında tüm sistemde kararsızlık oluşabilir
- Runtime seçimi:
llama.cpp ve LM Studio'nun varsayılan runtime'ı GGUF formatındaki modelleri gerektirir
- LM Studio'nun MLX runtime'ı ise MLX'e özel modelleri gerektirir
- GGUF modelleri, farklı platformlarda stabildir ve zengin ayar seçenekleri sunar
- MLX modelleri, Apple Silicon üzerinde biraz daha hızlı performans verir
- Nicemleme (Quantization): model performansı ile bellek verimliliği arasında denge
- LLM'lerin çoğu 16 bit hassasiyetle eğitilir
- 4 bit gibi daha düşük düzeylere nicemleme yapılsa da belli bir noktaya kadar performans kaybı düşüktür; genel olarak Q4 uygundur
- Çekirdeğe göre karmaşık nicemleme gösterimleri (Q4_K_M vb.) vardır, ancak yeni başlayanlara varsayılan değerleri kullanmaları önerilir
- Görüntü modelleri: görsel işleyebilen modeller
- Bazı modeller görsel girdileri tokenize ederek analiz edebilir (metin okuma, nesne tanıma, duygu/stil tahmini vb.)
- Basit OCR mümkündür, ancak özel OCR araçları kadar güvenilir değildir
- Akıl yürütme yeteneği: bazı modeller yanıttan önce düşünme süreci içerir
- Bazı modeller, yanıt üretmeden önce akıl yürütme süreci ekleyerek genel modellere kıyasla daha güçlü bir ‘düşünme’ işlevi sunar
- Küçük, akıl yürütmeye odaklı modeller orta-büyük boy genel modelleri aşabilir (benchmark'lara da yansır)
- Akıl yürütme odaklı modellerin yanıt vermesi daha uzun sürer ve bağlam penceresini daha hızlı doldurur
- Araç kullanımı: harici araç çağırabilme
- Araç çağrı token'ları kullanılarak, sistem prompt'unda tanımlı MCP (araç sunucusu) işlevlerinden yararlanmak mümkündür
- LM Studio'da araç eklemek ve yönetmek kolaydır; araç çağrıları güvenlik tehdidi (veri sızdırma saldırısı olasılığı) taşıyabildiği için varsayılan olarak kullanıcı onayı gerekir
- Varsayılan olarak JavaScript MCP (Deno tabanlı) ile gelir; karmaşık hesaplama/veri analizi/rastgele üretim gibi otomasyonlar yapılabilir
- Web arama MCP'si eklenirse gerçek zamanlı arama sonuçları yansıtılabilir, böylece dünyanın bilgiyle sınırlı modelini genişletmek mümkün olur
- Uzun süreli bellek gerekiyorsa Obsidian için MCP gibi çeşitli genişletme sunucularından yararlanılabilir
- Ancak MCP, bağlamı hızla doldurduğu için yalnızca gerçekten gerekli olduğunda etkinleştirilmelidir
- Agents
- Agent, araçları tekrar tekrar kullanan model yapısını ifade eder
- Akıl yürütme ve araç kullanma yeteneklerini birlikte barındıran modeller genellikle agent olarak sınıflandırılır
- Kusursuz değildir, ancak iddialı ve ilgi çekici bir kavram sunar
Önerilen modeller ve kullanım ipuçları
- LM Studio'nun yerleşik arayüzünde runtime, nicemleme, model özellikleri ve boyut gibi unsurlar kolayca karşılaştırılıp keşfedilebilir
llama.cpp tarafında Hugging Face üzerindeki GGUF model bölümü kullanılabilir
- Tüm yetenekleri karşılayan model sayısı az olduğundan, farklı modeller indirip denemek önerilir
- Önerilen model listesi:
- Gemma 3 12B QAT: görsel zekâda güçlü, hızlı ve iyi metin üretimi
- Qwen3 4B 2507 Thinking: küçük boyutlu, hız/kalite dengesi iyi; akıl yürüten ve genel olmak üzere iki türü var
- GPT-OSS 20B: şu anda en yüksek performans, 3 aşamalı akıl yürütme desteği; yavaş ama yetenekli
- Phi-4 (14B) : eskiden tercih ediliyordu, hâlâ akıl yürütme ve genel sürümleri mevcut
Kapanış ve kullanım ipuçları
- Küçük modeller en yeni büyük modellerin yerini tamamen alamasa da, yerelde çalıştırmanın faydası açıktır
- Yerel testler, algoritmaların nasıl çalıştığını anlamaya ve zayıf yönleri telafi etme becerisini geliştirmeye yardımcı olur
- LM Studio, bağlam penceresi kullanımını gerçek zamanlı gösterir
- Bağlam dolmak üzereyken konuşmayı özetletmek, önemli bilgileri korumada etkilidir
- Yerel LLM'leri, kişisel kullanım için bilgisayarın içindeki bir dijital cin (Genie) gibi düşünmek ve keyifli bir deney ortamı olarak görmek mümkün
3 yorum
ollama'da qwen3:4b kullanırsanız iyi olur
Ollama'dan hiç bahsedilmemiş.
Hacker News görüşleri
Ben de sihir gibi, yaklaşık 10GB dosya indirince dizüstünde metin özetleme, soru-cevap, hatta basit akıl yürütme yapılabilmesini etkileyici buluyorum. Önemli olan model boyutu ile RAM dengesi. 16GB makinelerde 12B~20B civarı sınırına çok yakın. Ama bu modeller aslında Apple Neural Engine(ANE) kullanmıyor; GPU üzerinde Metal aracılığıyla çalışıyor. Core ML özel runtime’larda hâlâ pek iyi değil ve Apple da ANE için düşük seviyeli geliştirici erişimi sunmuyor. Ayrıca bellek bant genişliği ve SRAM ile ilgili sorunlar da var. Bir gün Apple’ın Core ML optimizasyonlarıyla transformer iş yüklerini ANE’ye iyi eşleştirmesini umuyorum
Apple’ın yeni bir CEO’ya ihtiyacı olduğunu uzun zamandır düşünüyorum. Apple’ı ben yönetseydim yerel LLM’leri agresif biçimde benimser, Nvidia için tasarlanmış modelleri de optimize eden bir çıkarım motoru yapardım. Sunucu sınıfı Apple Silicon işlemcileri satardım ve GPU özelliklerini de açıp herkesin doğrudan kullanabilmesini sağlardım. Apple bana fazla güvenli oynuyor gibi geliyor. Tim Cook COO olarak harika ama şirketi hâlâ o zihniyetle yönetiyor. Artık COO değil, bir yenilikçi lazım bence
Tersine mühendislik bilgilerine bakınca (Asahi Linux’ta ANE’ye doğrudan erişilebilmesi gibi), M1/M2’deki Apple Neural Engine’in sadece INT8 veya FP16 değerli, statically scheduled MADD için optimize edildiği görülüyor. Güncel yerel modeller daha agresif kuantize edildiği için model değerleri FP16/INT8’e pad edildiğinde bellek bant genişliği boşa harcanıyor. GPU ise girdileri hızlıca dequantize edip register’larda pad ederek matrix unit’lere besleyebildiğinden bellek bant genişliğini daha verimli kullanabiliyor. Yine de NPU/ANE, prompt ön işleme gibi işler için faydalı olabilir. Bu tarafta token üretiminden çok işlem throughput’u sınırlayıcı olduğu için güç tüketimini düşürüp soğutma kısıtlarından da kaçınılabilir. Ek bilgi: Whisper.cpp Pull Request, eski ANE bilgileri, tinygrad’in ayrıntılı derlemesi. M3/M4 için henüz Asahi desteği yok, dolayısıyla bundan sonra ne olacağı belirsiz. M3 serisinin de M2’ye göre çok büyük bir performans farkı sunmadığı anlaşılıyor
ANE üzerinde transformer iş yüklerinin iyi çalışmasını istiyorsanız, model dönüştürme araçları zaten mevcut.<br>TensorFlow, PyTorch vb. ile oluşturulmuş modelleri Core ML’e dönüştürme yöntemi: CoreML Tools Docs
Apple Neural Engine’in yerel LLM’lerle entegre olmaması bana da ilginç geldi. Apple, AMD ve Intel’in hepsi llama.cpp’de NPU desteğini doğru düzgün veremiyor gibi görünüyor. Sebebini merak ediyorum
GLM 4.5 Air ve gpt-oss-120b’yi oldukça kullanılabilir şekilde çalıştırıyorum. Özellikle GPT OSS’in gecikmesi gayet iyi. Referans sistem 128GB M4 MacBook. Şu an çok güçlü ama yakında sıradanlaşacak. Bu modeller artık son teknoloji modellere yaklaşmaya başladı
Şimdiye kadar yerel LLM’ler ChatGPT’nin (2022’nin ilk sürümü) seviyesinde fazla kısıtlı kaldığı için gerçekten işe yarar bir kullanım alanı bulamadım. Toplulukta hangi faydalı kullanım örneklerinin çıktığını merak ediyorum. Mesela Sun Tzu röportajını yerel LLM’in uydurduğu söylenmişti; bu tür sınırlar beni düşündürüyor. O yüzden pratikte nerede kullanılabildiğini merak ediyorum
Birçok LLM denedim ama 48GB ve üzeri MacBook’larda Gemma3:27b, kişisel günlük ya da hassas verileri analiz etmek için birinci sınıf. Çin modelleri hayat tavsiyesi konusunda fazla komik kalıyor. Örneğin Deepseek’e bir derdimi anlattığımda bana Konfüçyüsçü bir hayat planı çıkardı. Gemma çok daha Batılı hissettiriyor
Yerel LLM’leri çoğunlukla olgusal doğruluk gerektirmeyen otomasyon işleri için kullanıyorum. Örneğin sınıflandırma, özetleme, arama, yazım denetimi gibi. İstediğim dili ya da günlük kavramları anlaması gerekiyor ama insanlık tarihi, programlama dilleri ya da sağlık hakkında devasa bilgiye sahip olması gerekmiyor. Hatta kullanıcı doğrudan LLM’e prompt vermeden de OS veya uygulama ihtiyaç duydukça LLM’i otomatik kullanabilir
Obsidian’a duygularımı, düşüncelerimi, yaptıklarımı kaydediyorum. Bu kadar mahrem notları buluta koymak istemediğim için chromeDB ile yönetip LLM üzerinden sohbet ediyorum. Son zamanlarda refusal kaldırılmış abliterated modeller de kullanıyorum (transformers refusal kaldırma). İşte de kullanıyorum. Finansal veri işlerini otomatikleştiren bir mcp yaptım; modeli yerelde çalıştırınca bilgi sızıntısı derdi de olmuyor
İnternetin kötü olduğu ya da sık sık koptuğu ortamlarda da işe yarıyor. Son teknoloji bir LLM olmasa bile hiç olmamasından çok daha iyi. Örneğin fırtına yüzünden internet kesildiğinde ihtiyaç duyduğunuz güvenlik talimatlarını yerel LLM’den hemen alabilirsiniz
Yerel modelleri uygulama prototipi çıkarırken veya geliştirmenin erken aşamalarında kullanıyorum.<br>Birincisi, geliştirme maliyeti belirgin şekilde düşüyor. İkincisi, performans sınırları yüzünden bileşimi daha dikkatli kurmak gerektiği için faydalı oluyor. Bir miktar işe yarayan yerel modellerle (gpt-oss, qwen3 vb.) iş akışını tasarlarsanız, sonradan bulut modellerine (gpt-5-mini vb.) geçtiğinizde anında performans artışı elde edersiniz. Tabii tüm belgeleri bulut modelinin context window’una koyup iyi sonuç alabiliyorsanız yerel model kısıtlarını çekmek zorunda değilsiniz. Ama uzun vadede görevleri bölüp yerelde çalıştırmak daha ucuz ve daha hızlı olabilir
Hermes Mistral’i denedim ama baştan itibaren hallucination çok fazlaydı. Son zamanlarda sesli rüya günlüklerimi kişisel Obsidian klasörümde tutuyorum. Whisper ile .wav dosyalarını alıp metne çeviriyor, sonra yerel LLM ile sadece noktalama ve paragraf düzeni yaptırmak istiyordum. Hiçbir şey ekleme, sadece okunabilirliği artır dedim; Hermes ise durduk yere Sun Tzu ile The Art of War hakkında bir röportaj uydurmaya başladı. Süreci durdurunca özür diledi ama neden Sun Tzu’dan söz ettiğini de açıklayamadı. Bu tür garip hallucination’ları sürekli ayıklamak gerekecekse, en iyisi oturup kendim düzenlemek. Bu mantık, yerel LLM’leri kullanmaya çalıştığım neredeyse tüm alanlara uygulanıyor. Umarım bir gün düzelir
Son teknoloji LLM’lerin telefon ya da dizüstünde doğrudan çalışacağı dönem bence hâlâ uzak. Yakın vadede daha gerçekçi olan şey, evde bir yapay zekâ sunucu kutusu bulundurup LLM’i orada çalıştırmak. İnce istemciler (dizüstü vb.) bu kutuya bağlanır, gerekirse yerelde de küçük bir modelle uygun şekilde iş görür. Apple bunu Mac Pro ile strateji hâline getirirse mantıklı olur. 10-20 bin dolarlık ev tipi LLM kutusu bana gayet makul geliyor
Şu anda 512GB bellekli bir Mac Studio’da (yaklaşık 10 bin dolar) en yeni açık kaynak modelleri çalıştırabilirsiniz. Örnek olarak Qwen3-Coder-480B-A35B-Instruct’un 4bit’te saniyede 24 token hızında çalıştığı video, Deep Seek V3 0324’ün 4 bit’te saniyede 20 token verdiği video. İki Mac Studio’yu MLX ile birleştirip daha büyük modeller de çalıştırabilirsiniz. 671B 8 bit DeepSeek R1 örneği
Mac Pro, büyük kasa maliyeti yüzünden bana göre aşırı pahalı ve pratik değil. Studio daha mantıklı. Nvidia ve AMD de yakında masaüstü form faktöründe yüksek kapasiteli yüksek bant genişlikli GPU belleğini destekleyecek. Dizüstü ya da başka cihazlardan evdeki LLM sunucusuna bağlanıp pili düşünmeden kullanmak kusursuz olurdu
Ben AMD 395+ ile birkaç docker container çalıştırıp çeşitli uygulamalar barındırıyorum. Ağırlıklı olarak Qwen Code ve GPT OSS 120b kullanıyorum. Yeni nesil çok yakında çıkarsa pahalı olsa bile yükseltme yapacağım. Buna değer
10-20 bin dolar seviyesi çoğu insan için absürt derecede pahalı. Silikon Vadisi maaşıyla belki mümkün ama ondan çok daha ucuz olan Apple Vision Pro bile zayıf sattı
gpt-oss-120b çok daha az bellekle daha iyi performans vermiyor mu? 128GB bellekli, 4 bin dolarlık bir Mac Studio bile onu rahatça çalıştırabilir
Konuyla alakasız ama ilk paragraftaki 'opinions' için kullanılan dalga efektli metin hoşuma gitti
Ben yerel LLM’lerin gelecek olduğuna inanıyorum. Zaman geçtikçe gelişmeye devam edecekler. Geçen yıl seviyesindeki modeller bile dağıtılıyor olsa, ChatGPT, Anthropic ya da diğer bulut servislerini kullanmak için pek sebep kalmaz. Her işi çözen dev modellere de ihtiyaç yok. İşe göre birkaç küçük modeli çağırıp kullanma fikri artık gerçek oluyor. Artık hendek kalmadı
Yerel LLM performansı elbette ilerlemeye devam edecek ama sıradan kullanıcılar için gerçekten pratik hâle ne zaman geleceğinden emin değilim. Yerel modellerin akıl yürütme ve kodlama yetenekleri büyük sıçrama yaptı ama bunun nedeni eğitim verisindeki iyileşmeler (RLHF, DPO, CoT vb.) ve teknik bilgi birikimi. Yine de asıl kritik nokta, hallucination’ı en aza indiren devasa tam hassasiyetli parametre setlerinin saf istatistiksel çıktısı; bu model ile sıradan tüketici arasında büyük bir donanım uçurumu var. Bence en az 10 yıl daha gerekir
Ben geleceğin güvenli ve özel bulut bilişim olduğunu düşünüyorum
Yerel LLM kullanımıyla ilgili bloglarda veya yazılarda, testin hangi donanımda yapıldığının mutlaka belirtilmesi gerekiyor
LM Studio’ya bir oy da benden. Hazır gelen yapılandırma çeşitliliği sayesinde MacBook’umun neler yapabildiğini, nasıl ayarlandığını sezgisel biçimde öğrenebiliyorsunuz. 1-2 saatlik güzel bir deneyim
Benim hobim, 16GB Mac Mini’de rastgele model indirip çalıştırmak; bu yüzden yazarın model öneri listesi gerçekten çok işime yaradı. Her boyuttan sadece 4-5 tane bırakıp denemek en verimli yöntem gibi geliyor
Mozilla-Ocho/llamafile’a da bakmak faydalı olabilir