macOS'ta yerel LLM denemeleri yapmak

(blog.6nok.org)

11 puan yazan GN⁺ 2025-09-09 | 3 yorum | WhatsApp'ta paylaş

Yerel LLM'leri macOS'ta çalıştırma yöntemleri ve önerilen araçlar hakkında açıklama
Yerel LLM'ler, kişisel bilgisayarda çalışabilen yapay zeka dil modelleridir; veri gizliliğini korurken deneysel teknoloji keşfine olanak tanır
Çeşitli open-weight modeller kullanılarak metin özetleme ve kişisel kayıt amaçları için yararlıdır, ancak yaratıcılık ya da düşünme yeteneğine sahip değildir
macOS'ta çalışabilen iki temel araç llama.cpp ve LM Studio'dur; bunlar sırasıyla açık kaynak ve kullanıcı dostu bir arayüz sunar
Model seçerken bellek kapasitesi, runtime, nicemleme düzeyi, görüntü ve akıl yürütme yetenekleri dikkate alınmalıdır
Yerel LLM çalıştırmak, gizliliğin korunmasına ve teknik merakın giderilmesine katkı sağlar; küçük modeller, büyük modellere alternatif olarak deneysel değer sunar

Giriş: LLM'lere dair kişisel bakış ve kullanım biçimi

Bu yazı, macOS'ta yerel LLM'leri (Local Large Language Model) doğrudan kurup deneme deneyimini ele alıyor
Yazar, LLM'lere karşı kuşkucu olsa da yeni teknolojileri denemeyi sevdiği için bunları indirip bizzat kullanmış
LLM'lerin işlevi konusunda, onları ileri düzey otomatik tamamlama olarak gören bakış ile sanki duyguları ve hakları olan varlıklar gibi değerlendiren iddialar arasında bir yerde duruyor
Gerçekte bir sonraki kelime tahmini temeline dayanırlar, ancak karmaşık ve kasıtsız davranışlar ortaya çıkabilir
Yaratıcılıkları ya da özbilinçleri yoktur; gelecekte daha gelişmiş makineler çıkabilir, ancak mevcut teknoloji seviyesi buna henüz ulaşmış değildir

LLM'lerin başlıca kullanım örnekleri

Metin özetleme, internetten bilgi sağlama, basit tıbbi bilgi verme gibi alanlarda kullanım değeri yüksektir
Yazar, kendi durumunda bunu brain-dumping (düşünceleri dökme) amacıyla kullanıyor; konuşacak birine ihtiyaç duyduğunda faydalı buluyor
Yanıtların kendisine odaklanmıyor, yalnızca kayıt tutma amacıyla yararlanıyor
Yapay zekaya aşırı duygusal anlam yüklememek, yani onu insanlaştırmamak önemlidir
Sistem prompt'ları kullanılarak modelin yanıt davranışı ayarlanabilir, ancak yazar bununla özellikle ilgilenmiyor

Üretkenlik ve güvenilirlik üzerine kaygılar

LLM'lerin “üretkenliği” artırdığı iddiasına katılmıyor
Yanıtların güvenilirlik sorunu nedeniyle (saçmalama, halüsinasyon) mutlaka fact-check yapılması gerekiyor
Kolay doğrulanamayan sorulardan kaçınmak, bilgi kirliliğini önlemeye yardımcı olur

Neden yerel LLM kullanmalı?

Teknik deney yapmanın keyfini ve bilgisayarın yerelde doğal dille tepki vermesinin ilginçliğini hissediyor
Yalnızca kendi bilgisayarında çalıştığında, gizlilik ve hassas bilgilerin korunması açısından avantaj sağlar
- Yapay zeka hizmeti sunan şirketler, kullanıcı verilerini ayrı olarak saklayıp eğitime dahil edebiliyor
Ticari yapay zeka şirketlerine güvensizlik, etik sorunlar, aşırı pazarlama, çevresel tahribat ve telif ihlali gibi nedenlerle yerel açık kaynak modelleri tercih ediyor

macOS'ta LLM çalıştırma yolları

macOS'ta çalıştırılabilen iki temel araç llama.cpp ve LM Studio
1. llama.cpp (açık kaynak)
- Georgi Gerganov tarafından geliştirildi
- Çeşitli ve ayrıntılı ayar seçenekleri sunar, birden çok platformu destekler, model indirme ve basit bir web arayüzü sağlar
- Örnek:
  - llama-server -hf ggml-org/gemma-3-4b-it-qat-GGUF komutuyla önerilen model Gemma 3 4B QAT çalıştırılabilir
  - Tarayıcıda http://127.0.0.1:8080 adresine gidildiğinde ChatGPT benzeri minimal bir arayüz sunar; deneyler için uygundur
2. LM Studio (kapalı kaynak, kullanımı kolay)
- Sezgisel ve gelişmiş bir arayüz sunar; model keşfi/indirme/konuşma yönetimi özellikleri ve modelin çalıştırılıp çalıştırılamayacağına dair yönlendirme içerir
- Fazla büyük bir model yüklenip sistemin çökmesini önleyen yerleşik guardrail'ler bulunur
- macOS'ta llama.cpp ve Apple'ın MLX motoru olmak üzere iki runtime'ı destekler
  - MLX daha hızlıdır, ancak ayrıntılı ayarlar daha sınırlıdır
- Başlıca kullanım ipuçları:
  - Konuşma sırasında model değiştirilebilir
  - Konuşma dalları oluşturulabilir ve farklı deneyler yapılabilir
  - Hem kullanıcı mesajları hem de asistan mesajları düzenlenebilir
  - Sistem prompt önayarları oluşturup yeniden kullanma desteği vardır
  - Konuşma bağlam penceresi aşıldığında nasıl davranılacağı ayarlanabilir (ön/arka mesajları koruma gibi varsayılan seçenekler sunulur)

İyi bir LLM modeli seçme ölçütleri

Model boyutu: Asıl kısıt disk alanından çok bellek (RAM)'dir
- 16GB RAM ortamında 12GB ve altı modeller önerilir; üstüne çıkıldığında sistem kararsızlaşabilir
- Model büyüdükçe yavaşlar ve bellek yetersiz kaldığında tüm sistemde kararsızlık oluşabilir
Runtime seçimi:
- llama.cpp ve LM Studio'nun varsayılan runtime'ı GGUF formatındaki modelleri gerektirir
- LM Studio'nun MLX runtime'ı ise MLX'e özel modelleri gerektirir
- GGUF modelleri, farklı platformlarda stabildir ve zengin ayar seçenekleri sunar
- MLX modelleri, Apple Silicon üzerinde biraz daha hızlı performans verir
Nicemleme (Quantization): model performansı ile bellek verimliliği arasında denge
- LLM'lerin çoğu 16 bit hassasiyetle eğitilir
- 4 bit gibi daha düşük düzeylere nicemleme yapılsa da belli bir noktaya kadar performans kaybı düşüktür; genel olarak Q4 uygundur
- Çekirdeğe göre karmaşık nicemleme gösterimleri (Q4_K_M vb.) vardır, ancak yeni başlayanlara varsayılan değerleri kullanmaları önerilir
Görüntü modelleri: görsel işleyebilen modeller
- Bazı modeller görsel girdileri tokenize ederek analiz edebilir (metin okuma, nesne tanıma, duygu/stil tahmini vb.)
- Basit OCR mümkündür, ancak özel OCR araçları kadar güvenilir değildir
Akıl yürütme yeteneği: bazı modeller yanıttan önce düşünme süreci içerir
- Bazı modeller, yanıt üretmeden önce akıl yürütme süreci ekleyerek genel modellere kıyasla daha güçlü bir ‘düşünme’ işlevi sunar
- Küçük, akıl yürütmeye odaklı modeller orta-büyük boy genel modelleri aşabilir (benchmark'lara da yansır)
- Akıl yürütme odaklı modellerin yanıt vermesi daha uzun sürer ve bağlam penceresini daha hızlı doldurur
Araç kullanımı: harici araç çağırabilme
- Araç çağrı token'ları kullanılarak, sistem prompt'unda tanımlı MCP (araç sunucusu) işlevlerinden yararlanmak mümkündür
- LM Studio'da araç eklemek ve yönetmek kolaydır; araç çağrıları güvenlik tehdidi (veri sızdırma saldırısı olasılığı) taşıyabildiği için varsayılan olarak kullanıcı onayı gerekir
- Varsayılan olarak JavaScript MCP (Deno tabanlı) ile gelir; karmaşık hesaplama/veri analizi/rastgele üretim gibi otomasyonlar yapılabilir
- Web arama MCP'si eklenirse gerçek zamanlı arama sonuçları yansıtılabilir, böylece dünyanın bilgiyle sınırlı modelini genişletmek mümkün olur
- Uzun süreli bellek gerekiyorsa Obsidian için MCP gibi çeşitli genişletme sunucularından yararlanılabilir
  - Ancak MCP, bağlamı hızla doldurduğu için yalnızca gerçekten gerekli olduğunda etkinleştirilmelidir
Agents
- Agent, araçları tekrar tekrar kullanan model yapısını ifade eder
- Akıl yürütme ve araç kullanma yeteneklerini birlikte barındıran modeller genellikle agent olarak sınıflandırılır
- Kusursuz değildir, ancak iddialı ve ilgi çekici bir kavram sunar

Önerilen modeller ve kullanım ipuçları

LM Studio'nun yerleşik arayüzünde runtime, nicemleme, model özellikleri ve boyut gibi unsurlar kolayca karşılaştırılıp keşfedilebilir
llama.cpp tarafında Hugging Face üzerindeki GGUF model bölümü kullanılabilir
Tüm yetenekleri karşılayan model sayısı az olduğundan, farklı modeller indirip denemek önerilir
Önerilen model listesi:
- Gemma 3 12B QAT: görsel zekâda güçlü, hızlı ve iyi metin üretimi
- Qwen3 4B 2507 Thinking: küçük boyutlu, hız/kalite dengesi iyi; akıl yürüten ve genel olmak üzere iki türü var
- GPT-OSS 20B: şu anda en yüksek performans, 3 aşamalı akıl yürütme desteği; yavaş ama yetenekli
- Phi-4 (14B) : eskiden tercih ediliyordu, hâlâ akıl yürütme ve genel sürümleri mevcut

Kapanış ve kullanım ipuçları

Küçük modeller en yeni büyük modellerin yerini tamamen alamasa da, yerelde çalıştırmanın faydası açıktır
Yerel testler, algoritmaların nasıl çalıştığını anlamaya ve zayıf yönleri telafi etme becerisini geliştirmeye yardımcı olur
LM Studio, bağlam penceresi kullanımını gerçek zamanlı gösterir
- Bağlam dolmak üzereyken konuşmayı özetletmek, önemli bilgileri korumada etkilidir
Yerel LLM'leri, kişisel kullanım için bilgisayarın içindeki bir dijital cin (Genie) gibi düşünmek ve keyifli bir deney ortamı olarak görmek mümkün

3 yorum

tensun 2025-09-11

ollama'da qwen3:4b kullanırsanız iyi olur

yolatengo 2025-09-11

Ollama'dan hiç bahsedilmemiş.

GN⁺ 2025-09-09

Hacker News görüşleri

Ben de sihir gibi, yaklaşık 10GB dosya indirince dizüstünde metin özetleme, soru-cevap, hatta basit akıl yürütme yapılabilmesini etkileyici buluyorum. Önemli olan model boyutu ile RAM dengesi. 16GB makinelerde 12B~20B civarı sınırına çok yakın. Ama bu modeller aslında Apple Neural Engine(ANE) kullanmıyor; GPU üzerinde Metal aracılığıyla çalışıyor. Core ML özel runtime’larda hâlâ pek iyi değil ve Apple da ANE için düşük seviyeli geliştirici erişimi sunmuyor. Ayrıca bellek bant genişliği ve SRAM ile ilgili sorunlar da var. Bir gün Apple’ın Core ML optimizasyonlarıyla transformer iş yüklerini ANE’ye iyi eşleştirmesini umuyorum
- Apple’ın yeni bir CEO’ya ihtiyacı olduğunu uzun zamandır düşünüyorum. Apple’ı ben yönetseydim yerel LLM’leri agresif biçimde benimser, Nvidia için tasarlanmış modelleri de optimize eden bir çıkarım motoru yapardım. Sunucu sınıfı Apple Silicon işlemcileri satardım ve GPU özelliklerini de açıp herkesin doğrudan kullanabilmesini sağlardım. Apple bana fazla güvenli oynuyor gibi geliyor. Tim Cook COO olarak harika ama şirketi hâlâ o zihniyetle yönetiyor. Artık COO değil, bir yenilikçi lazım bence
- Tersine mühendislik bilgilerine bakınca (Asahi Linux’ta ANE’ye doğrudan erişilebilmesi gibi), M1/M2’deki Apple Neural Engine’in sadece INT8 veya FP16 değerli, statically scheduled MADD için optimize edildiği görülüyor. Güncel yerel modeller daha agresif kuantize edildiği için model değerleri FP16/INT8’e pad edildiğinde bellek bant genişliği boşa harcanıyor. GPU ise girdileri hızlıca dequantize edip register’larda pad ederek matrix unit’lere besleyebildiğinden bellek bant genişliğini daha verimli kullanabiliyor. Yine de NPU/ANE, prompt ön işleme gibi işler için faydalı olabilir. Bu tarafta token üretiminden çok işlem throughput’u sınırlayıcı olduğu için güç tüketimini düşürüp soğutma kısıtlarından da kaçınılabilir. Ek bilgi: Whisper.cpp Pull Request, eski ANE bilgileri, tinygrad’in ayrıntılı derlemesi. M3/M4 için henüz Asahi desteği yok, dolayısıyla bundan sonra ne olacağı belirsiz. M3 serisinin de M2’ye göre çok büyük bir performans farkı sunmadığı anlaşılıyor
- ANE üzerinde transformer iş yüklerinin iyi çalışmasını istiyorsanız, model dönüştürme araçları zaten mevcut.<br>TensorFlow, PyTorch vb. ile oluşturulmuş modelleri Core ML’e dönüştürme yöntemi: CoreML Tools Docs
- Apple Neural Engine’in yerel LLM’lerle entegre olmaması bana da ilginç geldi. Apple, AMD ve Intel’in hepsi llama.cpp’de NPU desteğini doğru düzgün veremiyor gibi görünüyor. Sebebini merak ediyorum
- GLM 4.5 Air ve gpt-oss-120b’yi oldukça kullanılabilir şekilde çalıştırıyorum. Özellikle GPT OSS’in gecikmesi gayet iyi. Referans sistem 128GB M4 MacBook. Şu an çok güçlü ama yakında sıradanlaşacak. Bu modeller artık son teknoloji modellere yaklaşmaya başladı
Şimdiye kadar yerel LLM’ler ChatGPT’nin (2022’nin ilk sürümü) seviyesinde fazla kısıtlı kaldığı için gerçekten işe yarar bir kullanım alanı bulamadım. Toplulukta hangi faydalı kullanım örneklerinin çıktığını merak ediyorum. Mesela Sun Tzu röportajını yerel LLM’in uydurduğu söylenmişti; bu tür sınırlar beni düşündürüyor. O yüzden pratikte nerede kullanılabildiğini merak ediyorum
- Birçok LLM denedim ama 48GB ve üzeri MacBook’larda Gemma3:27b, kişisel günlük ya da hassas verileri analiz etmek için birinci sınıf. Çin modelleri hayat tavsiyesi konusunda fazla komik kalıyor. Örneğin Deepseek’e bir derdimi anlattığımda bana Konfüçyüsçü bir hayat planı çıkardı. Gemma çok daha Batılı hissettiriyor
- Yerel LLM’leri çoğunlukla olgusal doğruluk gerektirmeyen otomasyon işleri için kullanıyorum. Örneğin sınıflandırma, özetleme, arama, yazım denetimi gibi. İstediğim dili ya da günlük kavramları anlaması gerekiyor ama insanlık tarihi, programlama dilleri ya da sağlık hakkında devasa bilgiye sahip olması gerekmiyor. Hatta kullanıcı doğrudan LLM’e prompt vermeden de OS veya uygulama ihtiyaç duydukça LLM’i otomatik kullanabilir
- Obsidian’a duygularımı, düşüncelerimi, yaptıklarımı kaydediyorum. Bu kadar mahrem notları buluta koymak istemediğim için chromeDB ile yönetip LLM üzerinden sohbet ediyorum. Son zamanlarda refusal kaldırılmış abliterated modeller de kullanıyorum (transformers refusal kaldırma). İşte de kullanıyorum. Finansal veri işlerini otomatikleştiren bir mcp yaptım; modeli yerelde çalıştırınca bilgi sızıntısı derdi de olmuyor
- İnternetin kötü olduğu ya da sık sık koptuğu ortamlarda da işe yarıyor. Son teknoloji bir LLM olmasa bile hiç olmamasından çok daha iyi. Örneğin fırtına yüzünden internet kesildiğinde ihtiyaç duyduğunuz güvenlik talimatlarını yerel LLM’den hemen alabilirsiniz
- Yerel modelleri uygulama prototipi çıkarırken veya geliştirmenin erken aşamalarında kullanıyorum.<br>Birincisi, geliştirme maliyeti belirgin şekilde düşüyor. İkincisi, performans sınırları yüzünden bileşimi daha dikkatli kurmak gerektiği için faydalı oluyor. Bir miktar işe yarayan yerel modellerle (gpt-oss, qwen3 vb.) iş akışını tasarlarsanız, sonradan bulut modellerine (gpt-5-mini vb.) geçtiğinizde anında performans artışı elde edersiniz. Tabii tüm belgeleri bulut modelinin context window’una koyup iyi sonuç alabiliyorsanız yerel model kısıtlarını çekmek zorunda değilsiniz. Ama uzun vadede görevleri bölüp yerelde çalıştırmak daha ucuz ve daha hızlı olabilir
Hermes Mistral’i denedim ama baştan itibaren hallucination çok fazlaydı. Son zamanlarda sesli rüya günlüklerimi kişisel Obsidian klasörümde tutuyorum. Whisper ile .wav dosyalarını alıp metne çeviriyor, sonra yerel LLM ile sadece noktalama ve paragraf düzeni yaptırmak istiyordum. Hiçbir şey ekleme, sadece okunabilirliği artır dedim; Hermes ise durduk yere Sun Tzu ile The Art of War hakkında bir röportaj uydurmaya başladı. Süreci durdurunca özür diledi ama neden Sun Tzu’dan söz ettiğini de açıklayamadı. Bu tür garip hallucination’ları sürekli ayıklamak gerekecekse, en iyisi oturup kendim düzenlemek. Bu mantık, yerel LLM’leri kullanmaya çalıştığım neredeyse tüm alanlara uygulanıyor. Umarım bir gün düzelir
- Doğruluk ya da “doğru cevap” konusunun bilgisayarlarda, mantık doğru olduğu sürece kolay olacağını sanıyordum. Asıl zor olanın özgünlük ve yaratıcılık olacağını, bunların daha az mantıklı olduğu için problem çıkaracağını düşünürdüm; ama yapay zekânın alakasız şeyler uydurma becerisi çok daha baskın çıktı ve bu beni şaşırttı. Sonuçta yapay zekâya insan iletişimini öğrettik; belki de doğal sonuç bu. Reddit gibi verileri eğitim kaynağı yapmak en iyi fikir değildi galiba. Reddit koyarsanız, sonuç yine Reddit oluyor
Son teknoloji LLM’lerin telefon ya da dizüstünde doğrudan çalışacağı dönem bence hâlâ uzak. Yakın vadede daha gerçekçi olan şey, evde bir yapay zekâ sunucu kutusu bulundurup LLM’i orada çalıştırmak. İnce istemciler (dizüstü vb.) bu kutuya bağlanır, gerekirse yerelde de küçük bir modelle uygun şekilde iş görür. Apple bunu Mac Pro ile strateji hâline getirirse mantıklı olur. 10-20 bin dolarlık ev tipi LLM kutusu bana gayet makul geliyor
- Şu anda 512GB bellekli bir Mac Studio’da (yaklaşık 10 bin dolar) en yeni açık kaynak modelleri çalıştırabilirsiniz. Örnek olarak Qwen3-Coder-480B-A35B-Instruct’un 4bit’te saniyede 24 token hızında çalıştığı video, Deep Seek V3 0324’ün 4 bit’te saniyede 20 token verdiği video. İki Mac Studio’yu MLX ile birleştirip daha büyük modeller de çalıştırabilirsiniz. 671B 8 bit DeepSeek R1 örneği
- Mac Pro, büyük kasa maliyeti yüzünden bana göre aşırı pahalı ve pratik değil. Studio daha mantıklı. Nvidia ve AMD de yakında masaüstü form faktöründe yüksek kapasiteli yüksek bant genişlikli GPU belleğini destekleyecek. Dizüstü ya da başka cihazlardan evdeki LLM sunucusuna bağlanıp pili düşünmeden kullanmak kusursuz olurdu
- Ben AMD 395+ ile birkaç docker container çalıştırıp çeşitli uygulamalar barındırıyorum. Ağırlıklı olarak Qwen Code ve GPT OSS 120b kullanıyorum. Yeni nesil çok yakında çıkarsa pahalı olsa bile yükseltme yapacağım. Buna değer
- 10-20 bin dolar seviyesi çoğu insan için absürt derecede pahalı. Silikon Vadisi maaşıyla belki mümkün ama ondan çok daha ucuz olan Apple Vision Pro bile zayıf sattı
- gpt-oss-120b çok daha az bellekle daha iyi performans vermiyor mu? 128GB bellekli, 4 bin dolarlık bir Mac Studio bile onu rahatça çalıştırabilir
Konuyla alakasız ama ilk paragraftaki 'opinions' için kullanılan dalga efektli metin hoşuma gitti
- Teşekkürler. Aslında tüm yazının ana fikri tam olarak oydu
Ben yerel LLM’lerin gelecek olduğuna inanıyorum. Zaman geçtikçe gelişmeye devam edecekler. Geçen yıl seviyesindeki modeller bile dağıtılıyor olsa, ChatGPT, Anthropic ya da diğer bulut servislerini kullanmak için pek sebep kalmaz. Her işi çözen dev modellere de ihtiyaç yok. İşe göre birkaç küçük modeli çağırıp kullanma fikri artık gerçek oluyor. Artık hendek kalmadı
- Yerel LLM performansı elbette ilerlemeye devam edecek ama sıradan kullanıcılar için gerçekten pratik hâle ne zaman geleceğinden emin değilim. Yerel modellerin akıl yürütme ve kodlama yetenekleri büyük sıçrama yaptı ama bunun nedeni eğitim verisindeki iyileşmeler (RLHF, DPO, CoT vb.) ve teknik bilgi birikimi. Yine de asıl kritik nokta, hallucination’ı en aza indiren devasa tam hassasiyetli parametre setlerinin saf istatistiksel çıktısı; bu model ile sıradan tüketici arasında büyük bir donanım uçurumu var. Bence en az 10 yıl daha gerekir
- Ben geleceğin güvenli ve özel bulut bilişim olduğunu düşünüyorum
Yerel LLM kullanımıyla ilgili bloglarda veya yazılarda, testin hangi donanımda yapıldığının mutlaka belirtilmesi gerekiyor
- İyi nokta, hızlıca bir not ekleyeceğim
LM Studio’ya bir oy da benden. Hazır gelen yapılandırma çeşitliliği sayesinde MacBook’umun neler yapabildiğini, nasıl ayarlandığını sezgisel biçimde öğrenebiliyorsunuz. 1-2 saatlik güzel bir deneyim
- cli aracı ve OpenAI uyumlu sunucu da kutudan çıktığı gibi geliyor. Modeli yükleyip bir endpoint açarak yerel script’lerde de kullanabiliyorsunuz. Önce chat arayüzüyle ne olduğunu anlıyor, sonra programatik olarak genişletebiliyorsunuz
Benim hobim, 16GB Mac Mini’de rastgele model indirip çalıştırmak; bu yüzden yazarın model öneri listesi gerçekten çok işime yaradı. Her boyuttan sadece 4-5 tane bırakıp denemek en verimli yöntem gibi geliyor
Mozilla-Ocho/llamafile’a da bakmak faydalı olabilir

macOS'ta yerel LLM denemeleri yapmak

Giriş: LLM'lere dair kişisel bakış ve kullanım biçimi

LLM'lerin başlıca kullanım örnekleri

Üretkenlik ve güvenilirlik üzerine kaygılar

Neden yerel LLM kullanmalı?

macOS'ta LLM çalıştırma yolları

1. llama.cpp (açık kaynak)

2. LM Studio (kapalı kaynak, kullanımı kolay)

İyi bir LLM modeli seçme ölçütleri

Önerilen modeller ve kullanım ipuçları

Kapanış ve kullanım ipuçları

İlgili okumalar

3 yorum

Hacker News görüşleri