28 puan yazan GN⁺ 2026-03-03 | 1 yorum | WhatsApp'ta paylaş
  • Yüzlerce LLM modeli ve sağlayıcısı arasından, sisteminizin RAM·CPU·GPU kaynaklarında gerçekten çalıştırılabilir modelleri tek bir komutla bulan bir araç
  • Her modeli kalite·hız·uygunluk·bağlam ölçütlerine göre puanlayıp çalıştırılabilirliğini gösterir; hem TUI (terminal UI) hem de CLI modu desteklenir
  • Çoklu GPU, MoE yapısı, dinamik nicemleme, hız tahmini ve yerel runtime'larla (Ollama, llama.cpp, MLX) entegrasyon
  • Model bazında çalıştırma modu (GPU, CPU+GPU, CPU) ile uygunluk düzeyini (Perfect, Good, Marginal, Too Tight) analiz ederek en iyi kombinasyonu önerir
  • LLM'leri yerel ortamda verimli kullanmak isteyen geliştiricilere donanım tabanlı model seçimi otomasyonu sunar

Başlıca özelliklere genel bakış

  • llmfit, sistemin donanım özelliklerini algılayıp bir LLM modelinin gerçekten çalıştırılabilir olup olmadığını değerlendiren terminal tabanlı bir araçtır
    • RAM, CPU ve GPU bilgilerini okuyarak her model için kalite, hız, uygunluk ve bağlam puanları hesaplar
    • Sonuçlar etkileşimli TUI veya geleneksel CLI biçiminde gösterilir
  • Çoklu GPU, Mixture-of-Experts (MoE), dinamik nicemleme seçimi, hız tahmini ve yerel runtime entegrasyonu özelliklerini destekler
  • Yerel runtime olarak Ollama, llama.cpp ve MLX desteklenir; kurulu modelleri otomatik algılayabilir ve indirebilir
  • Plan modu ile belirli bir model için gereken minimum ve önerilen donanımı tersine hesaplayabilirsiniz
  • macOS, Linux, Windows, Ascend gibi çeşitli platformlarda çalışır

Kurulum ve çalıştırma

  • macOS/Linux üzerinde brew install llmfit veya curl -fsSL https://llmfit.axjns.dev/install.sh | sh komutuyla kurulabilir
  • Windows'ta cargo install llmfit ile kurulabilir
  • Çalıştırmak için llmfit komutu verildiğinde TUI açılır; sistem özellikleri ve model listesi gösterilir
  • CLI modunda llmfit --cli, llmfit fit --perfect -n 5, llmfit recommend --json gibi çeşitli alt komutlar sunulur

Nasıl çalışır

  • Donanım algılama: RAM, CPU ve GPU bilgilerini toplamak için sysinfo, nvidia-smi, rocm-smi, system_profiler vb. kullanılır
  • Model veritabanı: HuggingFace API'den yüzlerce model çekilerek data/hf_models.json dosyasına kaydedilir
    • Meta Llama, Mistral, Qwen, Google Gemma, Microsoft Phi, DeepSeek, IBM Granite gibi başlıca modeller dahildir
  • Dinamik nicemleme: Q8_0~Q2_K katmanları arasında dolaşıp, kullanılabilir bellek içinde en yüksek kaliteli nicemlemeyi otomatik seçer
  • Hız tahmini: GPU bellek bant genişliğine dayalı (bandwidth_GB_s / model_size_GB) × 0.55 formülünü kullanır
    • Yaklaşık 80 GPU için bant genişliği tablosu yerleşik olarak gelir
  • Uygunluk analizi: GPU, CPU+GPU ve CPU modlarında çalıştırılabilirlik ile bellek payını değerlendirir

Kullanıcı arayüzü

  • TUI kısayol tuşları:
    • Uygunluk filtresi için f, kullanılabilirlik filtresi için a, sıralama ölçütünü değiştirmek için s
    • Plan moduna girmek için p, modeli indirmek için d, temayı değiştirmek için t
  • Plan modunda bağlam uzunluğu, nicemleme ve hedef token hızı gibi değerleri değiştirerek gereken VRAM/RAM/CPU hesaplanabilir
  • Temalar: Default, Dracula, Solarized, Nord, Monokai, Gruvbox dahil 6 yerleşik renk teması sunulur

Runtime ve entegrasyon özellikleri

  • Ollama entegrasyonu: Yerel veya uzak Ollama instance'ına (OLLAMA_HOST ortam değişkeni) bağlanarak kurulu modelleri algılar ve indirir
  • llama.cpp entegrasyonu: HuggingFace GGUF dosyalarını yerel önbelleğe indirir ve kurulum durumunu gösterir
  • MLX entegrasyonu: Apple Silicon için model önbelleği ve sunucu bağlantısını destekler
  • OpenClaw entegrasyonu: llmfit-advisor yeteneği üzerinden OpenClaw agent'ı, donanıma uygun modeli otomatik önerip yapılandırabilir

Model veritabanı yönetimi

  • scripts/scrape_hf_models.py betiği ile HuggingFace API'den model listesi otomatik oluşturulur
  • make update-models komutuyla veriler güncellenir ve ikili dosya yeniden derlenir
  • Modeller; genel, kodlama, akıl yürütme, çok modlu, sohbet, embedding gibi kategorilere ayrılır
  • GGUF kaynak önbelleği (data/gguf_sources_cache.json) ile indirme yolları 7 gün boyunca önbelleğe alınır

Platform desteği

  • Linux/macOS (Apple Silicon): Tam destek
  • Windows: RAM ve CPU algılama ile NVIDIA GPU (nvidia-smi) desteği
  • GPU algılama başarısız olursa --memory= seçeneğiyle VRAM elle belirtilebilir

Lisans

  • MIT Lisansı

1 yorum

 
GN⁺ 2026-03-03
Hacker News görüşleri
  • Bu proje oldukça havalı ve kullanışlı görünüyor, ama keşke web sitesi biçiminde olsaydı
    Bir çalıştırılabilir dosya çalıştırmak göz korkutuyor. Bence bu tür bir özellik web’de de fazlasıyla uygulanabilir

    • Bu araç donanım algılamaya dayandığı için web’de sınırlamaları var
      GitHub açıklamasına göre RAM miktarı, GPU sayısı, backend türü (CUDA, Metal vb.) gibi bilgileri sistem seviyesinde okuması gerekiyor
      Tarayıcının sandbox kısıtlamaları nedeniyle JavaScript bu bilgilere doğrudan erişemez
      Web sürümü yapmak için kullanıcının macOS .spx ya da Linux inxi raporunu yüklemesi veya donanım yapılandırmasını elle seçmesi gerekirdi
      Bu yaklaşım daha az pratik olurdu, ama sanal donanım kombinasyonlarını test etme avantajı da olurdu
    • Hugging Face de benzer bir özellik sunuyor, ama donanım bilgisini elle girmek gerekiyor
      Aslında yerel model çalıştıran birinin kendi donanımını bilmemesi çok sık görülen bir şey değil bence
    • Kısa süre önce whatmodelscanirun.com diye bir site gördüm, bakmaya değer
    • Hugging Face’te zaten yerleşik bir özellik var
    • Token hızı ve yapılandırma bilgilerini paylaşan, topluluk tabanlı bir LLM model veritabanı sitesi olan inferbench.com da var
  • Bu proje gerçekten harika
    Aslında gereken tek şey LLM boyutu ve bellek bant genişliği
    Basit bir hesapla modelin uygun olup olmadığını anlayabilirsiniz
    Örneğin 32B bir modeli 4bit çalıştırmak için en az 16GB VRAM gerekir
    tok/s = memory_bandwidth / llm_size olarak hesaplanırsa RTX3090 (960GB/s) yaklaşık 60 tok/s verir
    MoE modellerinde hızı aktif parametre sayısı belirler
    Buna yaklaşık %10 pay eklerseniz daha gerçekçi bir tahmin elde edersiniz

    • KV cache için token başına yazma sayısı az olduğundan swap yapmak kolaydır
      Model parametreleri mmap ile yüklenirse, yeterli RAM olduğu sürece performans düşmeden ölçeklenebilir
    • İyi bir pratik kural. Ama çoğu durumda context window boyutu büyüdükçe RAM kullanımı geometrik olarak artıyor
    • Bu formülü bilmiyordum, paylaştığın için teşekkürler
  • Görsel olarak hoş ama benim makinemde Qwen 3.5 gayet iyi çalışırken araç bunun mümkün olmadığını söylüyor
    Sonuçta bu tür araçlar ancak kabaca referans almak için kullanılabilir gibi görünüyor
    Unsloth gibi özel ayarlar uygulanırsa pratikte daha fazla model çalıştırılabilir
    Modeller o kadar hızlı çıkıyor ki bakımını yapmak da kolay görünmüyor

    • Büyük ihtimalle disk ile RAM arasında swap yapılıyor olabilir
      Bu yöntem uzun vadede diskin ömrünü kısaltabilir
  • Fikir iyi ama önerilen modeller biraz eski
    Benim M4 MacBook Pro (128GB RAM) için Qwen 2.5 ya da Starcoder 2 öneriyor

  • Başkalarının da dediği gibi bu, CLI aracından çok bir web sitesi olarak yapılmalı
    CPU, RAM ve GPU özelliklerini forma girince hesaplama yapmak için bu yeterli olur

  • Neden özellikle indirip çalıştırmak gerektiğini anlamıyorum
    Keşke açılır menülerden özellik seçip sonucu görebilsek

  • Çoğu durumu iyi kapsıyor ama AMD iGPU gibi ROCm desteklenmeyen durumlarda Vulkan tabanlı çalıştırma mümkün
    Sürücü ayarlarıyla sistem RAM’ini VRAM gibi kullanırsanız, normalde mümkün olmayan modeller de yüklenebilir
    Özellikle layer offload ya da quantized MoE modellerinde kullanışlı

  • Claude da sistem özelliklerini girince oldukça iyi model önerileri yapıyor

    • Ben de Claude’a “Bu bilgisayarda çalıştırabileceğim en iyi yerel LLM hangisi?” diye sordum, zaten kurulu olan modeli ve bir tane daha önerdi
      Ne kadar güncel bilgiye dayandığından emin değilim. Ollama ve LM Studio temel alınarak test edildi
  • Ben Claude ya da Codex’e Ollama üzerinden çeşitli modelleri sırayla çalıştırıp performansı otomatik değerlendirmesini sağlıyorum
    Yaklaşık 30 dakikada sistemime uygun modeli bulabiliyorum

    • O prompt’u paylaşabilir misin diye merak ediyorum