- Yüzlerce LLM modeli ve sağlayıcısı arasından, sisteminizin RAM·CPU·GPU kaynaklarında gerçekten çalıştırılabilir modelleri tek bir komutla bulan bir araç
- Her modeli kalite·hız·uygunluk·bağlam ölçütlerine göre puanlayıp çalıştırılabilirliğini gösterir; hem TUI (terminal UI) hem de CLI modu desteklenir
- Çoklu GPU, MoE yapısı, dinamik nicemleme, hız tahmini ve yerel runtime'larla (Ollama, llama.cpp, MLX) entegrasyon
- Model bazında çalıştırma modu (GPU, CPU+GPU, CPU) ile uygunluk düzeyini (Perfect, Good, Marginal, Too Tight) analiz ederek en iyi kombinasyonu önerir
- LLM'leri yerel ortamda verimli kullanmak isteyen geliştiricilere donanım tabanlı model seçimi otomasyonu sunar
Başlıca özelliklere genel bakış
- llmfit, sistemin donanım özelliklerini algılayıp bir LLM modelinin gerçekten çalıştırılabilir olup olmadığını değerlendiren terminal tabanlı bir araçtır
- RAM, CPU ve GPU bilgilerini okuyarak her model için kalite, hız, uygunluk ve bağlam puanları hesaplar
- Sonuçlar etkileşimli TUI veya geleneksel CLI biçiminde gösterilir
- Çoklu GPU, Mixture-of-Experts (MoE), dinamik nicemleme seçimi, hız tahmini ve yerel runtime entegrasyonu özelliklerini destekler
- Yerel runtime olarak Ollama, llama.cpp ve MLX desteklenir; kurulu modelleri otomatik algılayabilir ve indirebilir
- Plan modu ile belirli bir model için gereken minimum ve önerilen donanımı tersine hesaplayabilirsiniz
- macOS, Linux, Windows, Ascend gibi çeşitli platformlarda çalışır
Kurulum ve çalıştırma
- macOS/Linux üzerinde
brew install llmfit veya curl -fsSL https://llmfit.axjns.dev/install.sh | sh komutuyla kurulabilir
- Windows'ta
cargo install llmfit ile kurulabilir
- Çalıştırmak için
llmfit komutu verildiğinde TUI açılır; sistem özellikleri ve model listesi gösterilir
- CLI modunda
llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json gibi çeşitli alt komutlar sunulur
Nasıl çalışır
- Donanım algılama: RAM, CPU ve GPU bilgilerini toplamak için
sysinfo, nvidia-smi, rocm-smi, system_profiler vb. kullanılır
- Model veritabanı: HuggingFace API'den yüzlerce model çekilerek
data/hf_models.json dosyasına kaydedilir
- Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite gibi başlıca modeller dahildir
- Dinamik nicemleme: Q8_0~Q2_K katmanları arasında dolaşıp, kullanılabilir bellek içinde en yüksek kaliteli nicemlemeyi otomatik seçer
- Hız tahmini: GPU bellek bant genişliğine dayalı
(bandwidth_GB_s / model_size_GB) × 0.55 formülünü kullanır
- Yaklaşık 80 GPU için bant genişliği tablosu yerleşik olarak gelir
- Uygunluk analizi: GPU, CPU+GPU ve CPU modlarında çalıştırılabilirlik ile bellek payını değerlendirir
Kullanıcı arayüzü
- TUI kısayol tuşları:
- Uygunluk filtresi için
f, kullanılabilirlik filtresi için a, sıralama ölçütünü değiştirmek için s
- Plan moduna girmek için
p, modeli indirmek için d, temayı değiştirmek için t
- Plan modunda bağlam uzunluğu, nicemleme ve hedef token hızı gibi değerleri değiştirerek gereken VRAM/RAM/CPU hesaplanabilir
- Temalar: Default, Dracula, Solarized, Nord, Monokai, Gruvbox dahil 6 yerleşik renk teması sunulur
Runtime ve entegrasyon özellikleri
- Ollama entegrasyonu: Yerel veya uzak Ollama instance'ına (
OLLAMA_HOST ortam değişkeni) bağlanarak kurulu modelleri algılar ve indirir
- llama.cpp entegrasyonu: HuggingFace GGUF dosyalarını yerel önbelleğe indirir ve kurulum durumunu gösterir
- MLX entegrasyonu: Apple Silicon için model önbelleği ve sunucu bağlantısını destekler
- OpenClaw entegrasyonu:
llmfit-advisor yeteneği üzerinden OpenClaw agent'ı, donanıma uygun modeli otomatik önerip yapılandırabilir
Model veritabanı yönetimi
scripts/scrape_hf_models.py betiği ile HuggingFace API'den model listesi otomatik oluşturulur
make update-models komutuyla veriler güncellenir ve ikili dosya yeniden derlenir
- Modeller; genel, kodlama, akıl yürütme, çok modlu, sohbet, embedding gibi kategorilere ayrılır
- GGUF kaynak önbelleği (
data/gguf_sources_cache.json) ile indirme yolları 7 gün boyunca önbelleğe alınır
Platform desteği
- Linux/macOS (Apple Silicon): Tam destek
- Windows: RAM ve CPU algılama ile NVIDIA GPU (
nvidia-smi) desteği
- GPU algılama başarısız olursa
--memory= seçeneğiyle VRAM elle belirtilebilir
Lisans
1 yorum
Hacker News görüşleri
Bu proje oldukça havalı ve kullanışlı görünüyor, ama keşke web sitesi biçiminde olsaydı
Bir çalıştırılabilir dosya çalıştırmak göz korkutuyor. Bence bu tür bir özellik web’de de fazlasıyla uygulanabilir
GitHub açıklamasına göre RAM miktarı, GPU sayısı, backend türü (CUDA, Metal vb.) gibi bilgileri sistem seviyesinde okuması gerekiyor
Tarayıcının sandbox kısıtlamaları nedeniyle JavaScript bu bilgilere doğrudan erişemez
Web sürümü yapmak için kullanıcının macOS
.spxya da Linuxinxiraporunu yüklemesi veya donanım yapılandırmasını elle seçmesi gerekirdiBu yaklaşım daha az pratik olurdu, ama sanal donanım kombinasyonlarını test etme avantajı da olurdu
Aslında yerel model çalıştıran birinin kendi donanımını bilmemesi çok sık görülen bir şey değil bence
Bu proje gerçekten harika
Aslında gereken tek şey LLM boyutu ve bellek bant genişliği
Basit bir hesapla modelin uygun olup olmadığını anlayabilirsiniz
Örneğin 32B bir modeli 4bit çalıştırmak için en az 16GB VRAM gerekir
tok/s = memory_bandwidth / llm_sizeolarak hesaplanırsa RTX3090 (960GB/s) yaklaşık 60 tok/s verirMoE modellerinde hızı aktif parametre sayısı belirler
Buna yaklaşık %10 pay eklerseniz daha gerçekçi bir tahmin elde edersiniz
Model parametreleri
mmapile yüklenirse, yeterli RAM olduğu sürece performans düşmeden ölçeklenebilirGörsel olarak hoş ama benim makinemde Qwen 3.5 gayet iyi çalışırken araç bunun mümkün olmadığını söylüyor
Sonuçta bu tür araçlar ancak kabaca referans almak için kullanılabilir gibi görünüyor
Unsloth gibi özel ayarlar uygulanırsa pratikte daha fazla model çalıştırılabilir
Modeller o kadar hızlı çıkıyor ki bakımını yapmak da kolay görünmüyor
Bu yöntem uzun vadede diskin ömrünü kısaltabilir
Fikir iyi ama önerilen modeller biraz eski
Benim M4 MacBook Pro (128GB RAM) için Qwen 2.5 ya da Starcoder 2 öneriyor
Başkalarının da dediği gibi bu, CLI aracından çok bir web sitesi olarak yapılmalı
CPU, RAM ve GPU özelliklerini forma girince hesaplama yapmak için bu yeterli olur
Neden özellikle indirip çalıştırmak gerektiğini anlamıyorum
Keşke açılır menülerden özellik seçip sonucu görebilsek
Çoğu durumu iyi kapsıyor ama AMD iGPU gibi ROCm desteklenmeyen durumlarda Vulkan tabanlı çalıştırma mümkün
Sürücü ayarlarıyla sistem RAM’ini VRAM gibi kullanırsanız, normalde mümkün olmayan modeller de yüklenebilir
Özellikle layer offload ya da quantized MoE modellerinde kullanışlı
Claude da sistem özelliklerini girince oldukça iyi model önerileri yapıyor
Ne kadar güncel bilgiye dayandığından emin değilim. Ollama ve LM Studio temel alınarak test edildi
Ben Claude ya da Codex’e Ollama üzerinden çeşitli modelleri sırayla çalıştırıp performansı otomatik değerlendirmesini sağlıyorum
Yaklaşık 30 dakikada sistemime uygun modeli bulabiliyorum