llmfit - Donanımıma uygun LLM modelini bulup otomatik optimize eden terminal aracı

(github.com/AlexsJones)

28 puan yazan GN⁺ 2026-03-03 | 1 yorum | WhatsApp'ta paylaş

Yüzlerce LLM modeli ve sağlayıcısı arasından, sisteminizin RAM·CPU·GPU kaynaklarında gerçekten çalıştırılabilir modelleri tek bir komutla bulan bir araç
Her modeli kalite·hız·uygunluk·bağlam ölçütlerine göre puanlayıp çalıştırılabilirliğini gösterir; hem TUI (terminal UI) hem de CLI modu desteklenir
Çoklu GPU, MoE yapısı, dinamik nicemleme, hız tahmini ve yerel runtime'larla (Ollama, llama.cpp, MLX) entegrasyon
Model bazında çalıştırma modu (GPU, CPU+GPU, CPU) ile uygunluk düzeyini (Perfect, Good, Marginal, Too Tight) analiz ederek en iyi kombinasyonu önerir
LLM'leri yerel ortamda verimli kullanmak isteyen geliştiricilere donanım tabanlı model seçimi otomasyonu sunar

Başlıca özelliklere genel bakış

llmfit, sistemin donanım özelliklerini algılayıp bir LLM modelinin gerçekten çalıştırılabilir olup olmadığını değerlendiren terminal tabanlı bir araçtır
- RAM, CPU ve GPU bilgilerini okuyarak her model için kalite, hız, uygunluk ve bağlam puanları hesaplar
- Sonuçlar etkileşimli TUI veya geleneksel CLI biçiminde gösterilir
Çoklu GPU, Mixture-of-Experts (MoE), dinamik nicemleme seçimi, hız tahmini ve yerel runtime entegrasyonu özelliklerini destekler
Yerel runtime olarak Ollama, llama.cpp ve MLX desteklenir; kurulu modelleri otomatik algılayabilir ve indirebilir
Plan modu ile belirli bir model için gereken minimum ve önerilen donanımı tersine hesaplayabilirsiniz
macOS, Linux, Windows, Ascend gibi çeşitli platformlarda çalışır

Kurulum ve çalıştırma

macOS/Linux üzerinde brew install llmfit veya curl -fsSL https://llmfit.axjns.dev/install.sh | sh komutuyla kurulabilir
Windows'ta cargo install llmfit ile kurulabilir
Çalıştırmak için llmfit komutu verildiğinde TUI açılır; sistem özellikleri ve model listesi gösterilir
CLI modunda llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json gibi çeşitli alt komutlar sunulur

Nasıl çalışır

Donanım algılama: RAM, CPU ve GPU bilgilerini toplamak için sysinfo, nvidia-smi, rocm-smi, system_profiler vb. kullanılır
Model veritabanı: HuggingFace API'den yüzlerce model çekilerek data/hf_models.json dosyasına kaydedilir
- Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite gibi başlıca modeller dahildir
Dinamik nicemleme: Q8_0~Q2_K katmanları arasında dolaşıp, kullanılabilir bellek içinde en yüksek kaliteli nicemlemeyi otomatik seçer
Hız tahmini: GPU bellek bant genişliğine dayalı (bandwidth_GB_s / model_size_GB) × 0.55 formülünü kullanır
- Yaklaşık 80 GPU için bant genişliği tablosu yerleşik olarak gelir
Uygunluk analizi: GPU, CPU+GPU ve CPU modlarında çalıştırılabilirlik ile bellek payını değerlendirir

Kullanıcı arayüzü

TUI kısayol tuşları:
- Uygunluk filtresi için f, kullanılabilirlik filtresi için a, sıralama ölçütünü değiştirmek için s
- Plan moduna girmek için p, modeli indirmek için d, temayı değiştirmek için t
Plan modunda bağlam uzunluğu, nicemleme ve hedef token hızı gibi değerleri değiştirerek gereken VRAM/RAM/CPU hesaplanabilir
Temalar: Default, Dracula, Solarized, Nord, Monokai, Gruvbox dahil 6 yerleşik renk teması sunulur

Runtime ve entegrasyon özellikleri

Ollama entegrasyonu: Yerel veya uzak Ollama instance'ına (OLLAMA_HOST ortam değişkeni) bağlanarak kurulu modelleri algılar ve indirir
llama.cpp entegrasyonu: HuggingFace GGUF dosyalarını yerel önbelleğe indirir ve kurulum durumunu gösterir
MLX entegrasyonu: Apple Silicon için model önbelleği ve sunucu bağlantısını destekler
OpenClaw entegrasyonu: llmfit-advisor yeteneği üzerinden OpenClaw agent'ı, donanıma uygun modeli otomatik önerip yapılandırabilir

Model veritabanı yönetimi

scripts/scrape_hf_models.py betiği ile HuggingFace API'den model listesi otomatik oluşturulur
make update-models komutuyla veriler güncellenir ve ikili dosya yeniden derlenir
Modeller; genel, kodlama, akıl yürütme, çok modlu, sohbet, embedding gibi kategorilere ayrılır
GGUF kaynak önbelleği (data/gguf_sources_cache.json) ile indirme yolları 7 gün boyunca önbelleğe alınır

Platform desteği

Linux/macOS (Apple Silicon): Tam destek
Windows: RAM ve CPU algılama ile NVIDIA GPU (nvidia-smi) desteği
GPU algılama başarısız olursa --memory= seçeneğiyle VRAM elle belirtilebilir

Lisans

MIT Lisansı

1 yorum

GN⁺ 2026-03-03

Hacker News görüşleri

Bu proje oldukça havalı ve kullanışlı görünüyor, ama keşke web sitesi biçiminde olsaydı
Bir çalıştırılabilir dosya çalıştırmak göz korkutuyor. Bence bu tür bir özellik web’de de fazlasıyla uygulanabilir
- Bu araç donanım algılamaya dayandığı için web’de sınırlamaları var
  GitHub açıklamasına göre RAM miktarı, GPU sayısı, backend türü (CUDA, Metal vb.) gibi bilgileri sistem seviyesinde okuması gerekiyor
  Tarayıcının sandbox kısıtlamaları nedeniyle JavaScript bu bilgilere doğrudan erişemez
  Web sürümü yapmak için kullanıcının macOS .spx ya da Linux inxi raporunu yüklemesi veya donanım yapılandırmasını elle seçmesi gerekirdi
  Bu yaklaşım daha az pratik olurdu, ama sanal donanım kombinasyonlarını test etme avantajı da olurdu
- Hugging Face de benzer bir özellik sunuyor, ama donanım bilgisini elle girmek gerekiyor
  Aslında yerel model çalıştıran birinin kendi donanımını bilmemesi çok sık görülen bir şey değil bence
- Kısa süre önce whatmodelscanirun.com diye bir site gördüm, bakmaya değer
- Hugging Face’te zaten yerleşik bir özellik var
- Token hızı ve yapılandırma bilgilerini paylaşan, topluluk tabanlı bir LLM model veritabanı sitesi olan inferbench.com da var
Bu proje gerçekten harika
Aslında gereken tek şey LLM boyutu ve bellek bant genişliği
Basit bir hesapla modelin uygun olup olmadığını anlayabilirsiniz
Örneğin 32B bir modeli 4bit çalıştırmak için en az 16GB VRAM gerekir
tok/s = memory_bandwidth / llm_size olarak hesaplanırsa RTX3090 (960GB/s) yaklaşık 60 tok/s verir
MoE modellerinde hızı aktif parametre sayısı belirler
Buna yaklaşık %10 pay eklerseniz daha gerçekçi bir tahmin elde edersiniz
- KV cache için token başına yazma sayısı az olduğundan swap yapmak kolaydır
  Model parametreleri mmap ile yüklenirse, yeterli RAM olduğu sürece performans düşmeden ölçeklenebilir
- İyi bir pratik kural. Ama çoğu durumda context window boyutu büyüdükçe RAM kullanımı geometrik olarak artıyor
- Bu formülü bilmiyordum, paylaştığın için teşekkürler
Görsel olarak hoş ama benim makinemde Qwen 3.5 gayet iyi çalışırken araç bunun mümkün olmadığını söylüyor
Sonuçta bu tür araçlar ancak kabaca referans almak için kullanılabilir gibi görünüyor
Unsloth gibi özel ayarlar uygulanırsa pratikte daha fazla model çalıştırılabilir
Modeller o kadar hızlı çıkıyor ki bakımını yapmak da kolay görünmüyor
- Büyük ihtimalle disk ile RAM arasında swap yapılıyor olabilir
  Bu yöntem uzun vadede diskin ömrünü kısaltabilir
Fikir iyi ama önerilen modeller biraz eski
Benim M4 MacBook Pro (128GB RAM) için Qwen 2.5 ya da Starcoder 2 öneriyor
Başkalarının da dediği gibi bu, CLI aracından çok bir web sitesi olarak yapılmalı
CPU, RAM ve GPU özelliklerini forma girince hesaplama yapmak için bu yeterli olur
Neden özellikle indirip çalıştırmak gerektiğini anlamıyorum
Keşke açılır menülerden özellik seçip sonucu görebilsek
Çoğu durumu iyi kapsıyor ama AMD iGPU gibi ROCm desteklenmeyen durumlarda Vulkan tabanlı çalıştırma mümkün
Sürücü ayarlarıyla sistem RAM’ini VRAM gibi kullanırsanız, normalde mümkün olmayan modeller de yüklenebilir
Özellikle layer offload ya da quantized MoE modellerinde kullanışlı
Claude da sistem özelliklerini girince oldukça iyi model önerileri yapıyor
- Ben de Claude’a “Bu bilgisayarda çalıştırabileceğim en iyi yerel LLM hangisi?” diye sordum, zaten kurulu olan modeli ve bir tane daha önerdi
  Ne kadar güncel bilgiye dayandığından emin değilim. Ollama ve LM Studio temel alınarak test edildi
Ben Claude ya da Codex’e Ollama üzerinden çeşitli modelleri sırayla çalıştırıp performansı otomatik değerlendirmesini sağlıyorum
Yaklaşık 30 dakikada sistemime uygun modeli bulabiliyorum
- O prompt’u paylaşabilir misin diye merak ediyorum

llmfit - Donanımıma uygun LLM modelini bulup otomatik optimize eden terminal aracı

Başlıca özelliklere genel bakış

Kurulum ve çalıştırma

Nasıl çalışır

Kullanıcı arayüzü

Runtime ve entegrasyon özellikleri

Model veritabanı yönetimi

Platform desteği

Lisans

İlgili okumalar

1 yorum

Hacker News görüşleri