Yerelde açık LLM'ler ve kodlama asistanları mı kullanıyorsunuz? Ortamınızı paylaşın
(news.ycombinator.com)- Hacker News kullanıcılarına yerelde açık LLM'leri ve kodlama asistanlarını hangi dizüstü donanımında, nasıl kullandıklarını soran bir Ask HN başlığı
- Hangi modelleri kullandıkları (ör. Ollama, LM Studio vb.) ve hangi açık kaynak kodlama asistanı/entegre çözümleri tercih ettikleri (ör. VS Code eklentileri)
- Hangi dizüstü donanımını kullandıkları (CPU, GPU/NPU, bellek, ayrık GPU veya tümleşik GPU, OS) ve iş akışında nasıl bir performans gördükleri
- Hangi işler için kullandıkları (kod tamamlama, refactoring, debugging, code review)? Ve ne kadar kararlı olduğu (iyi çalışan kısımlar ve eksik kalan taraflar)
-
1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue
- Artılar
- Mac'in birleşik belleği sayesinde Qwen3-Coder-30B-A3B, gpt-oss-20b, Gemma 27B'ye kadar modeller doğrudan yerelde çalışıyor; bu da “kodu oku → özetle → küçük düzeltmeler yap” iş akışını mümkün kılıyor
- Sadece LM Studio API veya Ollama serve açık olduğunda VS Code Continue.dev, Zed, JetBrains hemen bağlanabiliyor; böylece pratikte Claude Code'a benzer bir UX elde edilebiliyor
- Mac'in kendine özgü düşük gecikmesi sayesinde 50~80 tok/s düzeyinde kod tamamlama ve yorum üretimi bunaltıcı hissettirmiyor
- Uçakta/trende/çevrimdışıyken de çalışması, “şirket kodunun dışarı çıkmamasını sağlama” amacı için özellikle uygun kılıyor
- Eksiler
- 20B üzerindeki modellerde ısınma + fan sesi sorunu var; M4 Max 128GB olsa bile 120B modeller yavaş kalıyor veya sınıra dayanıyor
- “Claude 4.5 Sonnet gibi bash-in-a-loop ile işi sonuna kadar zorlayan” ajan senaryoları hâlâ yetersiz
- 24GB ve 32GB sınıfı MacBook'larda VRAM ayrımı düşük kaldığı için sonuçta 7B~12B sınıfına inmek gerekiyor; bağlam büyüyünce de hız hemen düşüyor
- Artılar
-
2) RTX 3090·4090·Pro 6000'lü masaüstü/workstation, dizüstünü ise ince bir istemci olarak kullanma düzeni
- Artılar
- llama.cpp / vLLM / Ollama'nın hepsi denenebiliyor ve gpt-oss-120B bile “yavaş ama gerçekten” çalıştırılabiliyor
- VS Code'da Continue veya llama-vscode dizüstünde açılıp model evdeki makinede inference yaptığı için, dizüstünde pil ve ısı yükü neredeyse olmuyor
- RTX 3090 24GB temel alınırsa gpt-oss-20B, Qwen2.5/3 Coder 14~30B günlük kullanıma yetecek token hızları veriyor; autocomplete + kısa refactoring için yeterli
- Evde Open WebUI + Ollama kurup VPN/Tailscale ile bağlanma deseni yaygın; bu da uzaktan erişimde bile özel ortamı korumayı sağlıyor
- Eksiler
- GPU VRAM'i 24GB altındaysa 120B için agresif quantization gerekiyor; bu da kaliteyi gözle görülür biçimde düşürüyor
- vLLM performanslı ama kurulum ve derleme zahmetli; “güncel runner ile tekrar dene” denecek kadar bakım maliyeti var
- Taşınabilirlik fiilen yok; dolayısıyla amaç “gerçekten tek bir dizüstüyle işi bitirmekse” bu yapı uygun değil
- Artılar
-
3) gpt-oss-120B merkezli kurulumlar (Aider, Codex, yerel ajanlar)
- Artılar
- Birden fazla kişi, “yerelde kullandıklarım arasında GPT-5'e en çok yaklaşan bu oldu” diyecek kadar yüksek kodlama görevi doğruluğu gördüğünü belirtiyor
- Aider, Codex, roocode gibi açık kodlama asistanlarına bağlanıp inceleme → düzeltme → test → commit zincirini tek seferde yaptıran gerçek denemeler çalışıyor
- llama.cpp içinde CPU+GPU karma yükleme ile 8GB VRAM'de bile zorlayarak çalıştırma ipuçları paylaşıldığı için, donanım gereksinimleri sanılandan daha esnek
- Eksiler
- Sorun hız. Aynı 50 soruyu ChatGPT 6 dakikada bitirirken 120B'nin 1 saatten fazla uğraştığı örnekler var; yani “beklemeyi göze alanlar” için
- Codex gibi araçlarda durmadan çalışması için inference parametrelerinin hardcode edilmesi gerekiyor; ayrıca AGENTS.md'yi oldukça ayrıntılı yazmak şart
- Sadece dizüstü üzerinde, ısı/güç/bellek sınırları nedeniyle uzun süreli kullanım zor; gerçekte daha çok “dizüstünden uzak GPU'ya bağlanma” modeli olarak görülüyor
- Artılar
-
4) AMD Strix Halo / Ryzen AI / Framework 128GB gibi yüksek RAM'li dizüstüler + llama.cpp/Continue.dev
- Artılar
- 128GB RAM ile Qwen3 Coder 30B pratik kullanım için mümkün; yalnızca gerekli katmanları GPU/NPU'ya yükleyip kalanı RAM'de çalıştıran hibrit yapı kurulabiliyor
- Kullanıcıların anlattığına göre, “kod şirket dışına çıkmamalı” ya da “AMD olduğu için bulut sürücüleri henüz zayıf” gibi durumlarda gerçekçi bir seçenek olmuş
- lemonade-server gibi basit bir llama.cpp sunucusunu açılışta otomatik başlatıp editörü ağ üzerinden bağlama düzeni iyi çalışıyor
- Eksiler
- Linux'ta güç tasarrufu/kamera/sürücüler hâlâ tam pürüzsüz değil; kimi durumlarda 6.18 çekirdeğini beklemek gerekebiliyor
- NPU performansı NVIDIA seviyesinde değil; bu yüzden “frontier düzeyi ajanlar” mümkün değil ve kullanım sonunda 20~30B sınıfı bir ‘yardımcı’ rolünde kalıyor
- AMD tarafındaki kaynakları GitHub repoları ve forumlarda aramak gerektiğinden, bilgi yoğunluğu Mac ve NVIDIA'ya kıyasla daha düşük
- Artılar
-
5) 16~32GB sınıfı genel amaçlı dizüstüler (MacBook Air, düşük RAM'li M2/M3 Pro) + 7B~12B modellerle yalnızca FIM autocomplete kullanımı
- Artılar
- qwen2.5-coder:7b, mistral 7b instruct, gemma3:12b gibi modellerle bile “bu satırı devam ettir”, “SQL'de şu sözdizimi neydi” türü istekler anında yanıtlanabiliyor
- llama-vscode eklentisi veya Continue.dev bağlandığında internet kesilse bile autocomplete devam ettiği için çalışma ritmi bozulmuyor
- Donanım yükü düşük olduğu için ısınma ve fan sesi neredeyse yok; pil de hızlı tükenmiyor
- Eksiler
- Bağlam biraz uzayınca saçmalama oranı hızla artıyor; refactoring veya test kodu üretimi gibi “aynı anda birden fazla dosyayı anlaması gereken” işlerde neredeyse kullanılamıyor
- Çoğu kişi özellikle şunu vurguluyor: “Bu, bulut modellerinin yerine geçen bir şey değil; autocomplete'e özel bir kullanım.”
- Modeli sert biçimde 4-bit'e düşürmek gerektiğinden model seçeneği daralıyor
- Artılar
-
6) Tam çevrimdışı/gizlilik öncelikli kurulumlar (Ollama + Open WebUI + VPN)
- Artılar
- Evde bir Mac Studio M4 Max 128GB ya da bir masaüstü bırakıp yalnızca Ollama + Open WebUI çalıştırırsanız, dışarıdayken dizüstüden veya telefondan VPN ile bağlansanız bile her şey yerel kalıyor
- Bu yapıyı kullananlar, “Artık ChatGPT'yi neredeyse hiç kullanmıyorum” ve “sürümler değişmediği için ayarladığım prompt'lar bozulmuyor” noktalarını güçlü yan olarak gösteriyor
- Kurum içinde “hiçbir kod öğrenme için kullanılamaz” şartı olduğunda, anlatması en kolay yapı bu
- Eksiler
- Model yükseltme/değiştirme işini kendiniz yapmalısınız; buluttaki gibi “kendiliğinden daha akıllı hâle gelir” durumu yok
- GPU zayıfsa 20B üzeri modeller hemen yavaşlıyor; o noktada donanımı büyütmek gerekiyor ve insan ister istemez “Bunu neden bulutta yapmadım?” diye düşünüyor
- Artılar
-
7) Sonuçta ortaya çıkan ortak kanı
- “Yalnızca dizüstü” ile bugün hâlâ Claude Code / GPT-5 + ajan deneyiminin yerini almak zor; yerel modeller en çok kısa kod üretimi, yardım, özetleme ve autocomplete işlerine uyuyor
- Bu yüzden en sık görülen desenler ya “dizüstü ↔ evdeki büyük kutu” ya da “Mac 128GB ile sadece 20~30B'yi hızlı çalıştırmak” oldu
- Buna rağmen herkesin söylediği aynı şeydi: gizlilik güvencesi + neredeyse sıfır gecikme + değişmeyen sürüm gerekiyorsa, bugün bile cevap yerel kullanım
6 yorum
VPN kullanmak yerine bearer token ayarlayıp SSH tünelleme kullanmanın daha iyi olacağını düşünüyorum.
LLM’leri self-host etmeye başlamanın, önümüzdeki 5 yıl boyunca yüksek ilk yatırım maliyeti nedeniyle ekonomik açıdan mantıklı olmayacağını düşünüyorum. 3~5 yıl sonra, yalnızca kod otomatik tamamlama için yeterince hızlı donanımlar çıkıp fiyat avantajı oluştuğunda bunu yeniden değerlendirmeyi planlıyorum.
İncelediğim yapılandırmalar
Hacker News görüşleri
Yapay zekayla doğrudan uğraşmak istediği için ikinci el bir Dell Precision 3620 Tower i7-7700 satın almış.
RAM’i yükseltmiş, GPU olarak RTX 3060 takabilmek için güç kaynağını da değiştirmiş.
Ubuntu Server kurup evindeki k3s küme düğümü olarak yapılandırmış; Ollama ve OpenWebUI çalıştırıyor.
Bunu çoğunlukla Karakeep’in AI etiketleme ve özetleme işleri için kullanıyor, ayrıca Python koduyla kargo araçlarını tespit eden giriş yolu kamera analizinde de değerlendiriyor.
GPU olmadan Dell Precision T710 (Xeon E6320, 120GB RAM, RAID5 SSD 240TB) üzerinde Ollama’yı CPU tabanlı çalıştırıyor.
50 eyaletin seçim yasalarını RAG ile indeksleyip terim uyuşmazlığı ve halüsinasyon sorunlarını görselleştirmeye yönelik bir proje yürütüyor.
Amaç, seçim süreçlerindeki bütünlük açıklarını tespit etmek.
İlgili zihin haritası Election Frauds v1.4 Mindmap PDF adresinde görülebilir.
Yerel LLM ile kod yazıyor ama bunu dizüstünde hayal bile edemiyor.
GPU sunucusunda modeller arasında geçiş yapmak için llama.cpp + llama-swap kullanıyor.
En memnun kaldığı kurulum Aider + gpt-oss-120b kombinasyonu.
Ryzen AI Max+ 128GB RAM ile de mümkün olabilir ama NVIDIA dışı donanım çok yavaş.
OpenRouter üzerinden veri saklamayan sağlayıcıları seçmek de mümkün.
Ama GPT5 ya da Claude, yerel çalıştırmaya kıyasla çok daha hızlı ve ucuz.
ChatGPT 6 dakikada 46/50, gpt-oss-120b ise 1 saatte 47/50 sonuç vermiş.
i7 + 64GB RAM + 8GB VRAM GPU ortamında çalıştırmış.
Mac’te yerel bir kod ajanı çalıştırmak istiyorsanız şöyle yapabilirsiniz:
npm install -g @openai/codexbrew install ollama; ollama serveollama pull gpt-oss:20bcodex --oss -m gpt-oss:20bİnternet olmadan çalışıyor ve M1 veya üzeri Mac + 24GB GPU belleği gerektiriyor.
120b model, 20b’den 1,5 kat daha iyi ama sistem gereksinimi 5 kat fazla.
MacBook Pro 64GB üzerinde Qwen3-Coder-30B-A3B Q4 quant’ı llama.cpp ile çalıştırıyor.
VSCode’da continue.dev kullanıp sistem istemini kısa tutuyor.
Saniyede 50 token üretim, 550 token işleme hızı alıyor.
Kısa ve net görevlerde öncü modellerle benzer kalite gösteriyor.
Çevrimdışı ortamda da hızlı ve kararlı olduğu için memnun.
Daha karmaşık işler için Claude veya Deepseek API kullanıyor.
Mac alınacaksa Pro model veya üstü öneriliyor.
Air’da fan olmadığı için ısı yönetimi yetersiz, Mac mini yerine Studio daha iyi bulunuyor.
TG Pro uygulamasıyla fanlar daha hassas ayarlanabiliyor (yaklaşık 20 dolar).
M4 Pro + 24GB RAM MacBook Pro’da GPT OSS 20B modeli çalıştırılıyor ama bağlam penceresi küçük.
128GB modelle gün boyu çevrimdışı kodlama yapılabileceği düşünülüyor.
Apple M4 Max 128GB ile GPD Win 4 (Ubuntu 24.04) cihazını USB-C üzerinden birlikte kullanıyor.
Claude Code, RA.Aid ve llama.cpp’yi birleştirip Agent Organizer ile işleri dağıtıyor.
Claude, mimari tasarımdan kod incelemeye kadar birçok işi otomatikleştiriyor.
LLM iş istasyonlarına bakmak isteyenler için Alex Ziskind’in YouTube kanalı(@AZisk) öneriliyor.
Kanaldaki içerikler, yerel LLM iş istasyonu incelemeleri üzerine yoğunlaşıyor.
Anlatımı düzenli, tavsiyeleri de pratik bulunuyor.
MacBook Pro M4 Max 128GB üzerinde ağırlıklı olarak LMStudio ve Ollama kullanılıyor.
Modeller: qwen3-coder-30b A3B Instruct 8-bit MLX ve gpt-oss-120b-MXFP4-Q8.
Büyük ölçekli kod üretiminde sınırlar var ama yerel repo özetleme ve dokümantasyon için yeterli.
Bununla ilgili topluluklar da oldukça aktif.
README oluşturmak için gemma3-27b-it-qat ve gpt-oss-120b tercih ediliyor.
MacBook Pro M1 Pro 32GB + Asahi Linux üzerinde Qwen3:32b CLI ile çalıştırılıyor.
ARMv8 assembly veya SoC ile ilgili konularda yardım alınıyor.
Hızı, okuma hızından biraz yavaş olsa da gayet kullanılabilir bulunuyor.
Qwen3-coder’ın daha hızlı olduğu söylenince ilgisini çekmiş.
Bulut ya da ajan entegrasyonu olmadan tamamen yerel bir ortam tercih ediyor.
Ollama çevrimdışı odaktan uzaklaştığı için artık llama.cpp’ye geçmeyi düşünüyor.
Model formatları farklı olduğu için Ollama modellerini doğrudan kullanıp kullanamayacağını merak ediyor.
[Uyarı] Linux’ta güç tüketimi yüksek, bu yüzden mutlaka prize takılı kullanmak gerekiyor.
Genel görevlerde biraz daha az zeki olabilir ama kod odaklı işlerde daha verimli.
Bir süredir okuyunca..... şaşırtıcı biçimde DGX SPARK için bir talep olabileceğini düşünmeye başladım? İlk başta, onun fiyat/performansı berbat, bunu niye alsınlar ki! diye düşünmüştüm ama,
Şirket içi güvenlik politikaları nedeniyle harici LLM API’lerini hiç kullanmıyoruz; bunun yerine şirket içi bulut yönetimi departmanının
vllmtabanlı olarak sağladığı gpt oss’u kullanıyoruz.Yerel demek için biraz belirsiz kalıyor.