whichllm - Donanımımda gerçekten çalışan ve en iyi performansı veren yerel LLM'yi bulma

xguru · 2026-05-18T10:06:01+09:00

Kullanıcının donanımına uygun yerel LLM'yi parametre sayısına değil, gerçek ölçüm tabanlı benchmark'lara göre otomatik öneren bir CLI aracı GPU/CPU/RAM'i otomatik algılar ve HuggingFace modelleri arasından sisteme uygun en iyi modelleri sıralı bir liste olarak sunar NVIDIA, AMD, Apple Silicon ve yalnızca CPU sistemleri dahil destekler Amaç, VRAM'e sığan en büyük modeli değil, bunlar arasından gerçekten en iyi modeli seçmektir Örnek: RTX 4090 simülasyonunda 32B model sığsa bile, daha yeni nesil 27B modeli (Qwen3.6-27B) 1. sırada önerir Çoklu benchmark birleştirme puanlaması: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO ve Open LLM Leaderboard'u birleştirerek 0–100 arası puan üretir Güncellik farkındalığı olan model tanıma (Recency-aware): Eski leaderboard'larda model soyunu izleyerek puan kırar; 2024 modellerinin eski sürüm puanlarıyla mevcut nesil modelleri geçmesini engeller 5 kademeli kanıt derecelendirmesi - direct / variant / base_model / line_interp / self_reported etiketleriyle işaretler ve buna göre güven indirimi uygular Yükleyenin sahte öz bildirimlerini ve küçük fork'ların büyük taban model puanlarını ödünç aldığı çapraz aile mirasını da engeller Parametre sayısı, ailenin baskın üyesinden 2 kattan fazla farklıysa mirası reddeder Mimari farkındalıklı VRAM/hız tahmini - VRAM için ağırlıklar + GQA KV cache + aktivasyonlar + ek yük; hız için bant genişliği sınırı, MoE active ile total ayrımı ve birleşik bellek ile PCIe kısmi offload etkilerini hesaba katar whichllm run ile tek satırda model indirme ve sohbete kadar anında çalıştırılabilen tek komutluk iş akışı desteği uv ile izole ortam oluşturma, bağımlılık kurma, model indirme ve etkileşimli sohbeti otomatik yürütür GGUF / AWQ / GPTQ / FP16 / BF16 tüm formatları destekler Donanım planlama komutları whichllm --gpu "RTX 5090" - satın almadan önce rastgele bir GPU simülasyonuyla kontrol whichllm plan "llama 3 70b" - belirli bir model için gereken GPU'ları tersine sorgulama whichllm upgrade "RTX 4090" "RTX 5090" "H100" - mevcut makine ile aday GPU'ları karşılaştırma Ollama entegrasyonu: whichllm --top 1 --json | jq -r '.models[0].model_id' biçiminde pipeline kurulabilir Kod parçacığı çıktısı: whichllm snippet "qwen 7b" ile llama_cpp.Llama.from_pretrained çağrısından sohbet tamamlama adımına kadar kopyala-yapıştır yapılabilir Python kodu sunar MIT lisansı

(github.com/Andyyyy64)

71 puan yazan xguru 2026-05-18 | 3 yorum | WhatsApp'ta paylaş

Kullanıcının donanımına uygun yerel LLM'yi parametre sayısına değil, gerçek ölçüm tabanlı benchmark'lara göre otomatik öneren bir CLI aracı
GPU/CPU/RAM'i otomatik algılar ve HuggingFace modelleri arasından sisteme uygun en iyi modelleri sıralı bir liste olarak sunar
- NVIDIA, AMD, Apple Silicon ve yalnızca CPU sistemleri dahil destekler
Amaç, VRAM'e sığan en büyük modeli değil, bunlar arasından gerçekten en iyi modeli seçmektir
- Örnek: RTX 4090 simülasyonunda 32B model sığsa bile, daha yeni nesil 27B modeli (Qwen3.6-27B) 1. sırada önerir
Çoklu benchmark birleştirme puanlaması: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO ve Open LLM Leaderboard'u birleştirerek 0–100 arası puan üretir
Güncellik farkındalığı olan model tanıma (Recency-aware): Eski leaderboard'larda model soyunu izleyerek puan kırar; 2024 modellerinin eski sürüm puanlarıyla mevcut nesil modelleri geçmesini engeller
5 kademeli kanıt derecelendirmesi - direct / variant / base_model / line_interp / self_reported etiketleriyle işaretler ve buna göre güven indirimi uygular
- Yükleyenin sahte öz bildirimlerini ve küçük fork'ların büyük taban model puanlarını ödünç aldığı çapraz aile mirasını da engeller
- Parametre sayısı, ailenin baskın üyesinden 2 kattan fazla farklıysa mirası reddeder
Mimari farkındalıklı VRAM/hız tahmini - VRAM için ağırlıklar + GQA KV cache + aktivasyonlar + ek yük; hız için bant genişliği sınırı, MoE active ile total ayrımı ve birleşik bellek ile PCIe kısmi offload etkilerini hesaba katar
whichllm run ile tek satırda model indirme ve sohbete kadar anında çalıştırılabilen tek komutluk iş akışı desteği
- uv ile izole ortam oluşturma, bağımlılık kurma, model indirme ve etkileşimli sohbeti otomatik yürütür
- GGUF / AWQ / GPTQ / FP16 / BF16 tüm formatları destekler
Donanım planlama komutları
- whichllm --gpu "RTX 5090" - satın almadan önce rastgele bir GPU simülasyonuyla kontrol
- whichllm plan "llama 3 70b" - belirli bir model için gereken GPU'ları tersine sorgulama
- whichllm upgrade "RTX 4090" "RTX 5090" "H100" - mevcut makine ile aday GPU'ları karşılaştırma
Ollama entegrasyonu: whichllm --top 1 --json | jq -r '.models[0].model_id' biçiminde pipeline kurulabilir
Kod parçacığı çıktısı: whichllm snippet "qwen 7b" ile llama_cpp.Llama.from_pretrained çağrısından sohbet tamamlama adımına kadar kopyala-yapıştır yapılabilir Python kodu sunar
MIT lisansı

3 yorum

xguru 2026-05-18

Ben olsam bu 5 tanesini öneririm. 3'ü Qwen'miş.

Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B

nezz1204 29 일 전

Ben https://www.canirun.ai/ sitesini kullanıyordum, ama buna da bir bakmak gerekecek.

popopo 29 일 전

╭────────────────────────────────────────────────────── Donanım Bilgisi ──────────────────────────────────────────────────────╮  
│ GPU 0: Strix Halo [Radeon Graphics / Radeon 8050S Graphics / Radeon 8060S Graphics] — paylaşımlı bellek — BW: 256 GB/s   │  
│ CPU: AMD RYZEN AI MAX+ 395 w/ Radeon 8060S — 16 çekirdek (AVX2, AVX-512)                                                   │  
│ RAM: 117.5 GB                                                                                                              │  
│ Boş disk: 174.1 GB                                                                                                         │  
│ OS: linux                                                                                                                  │  
╰────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────╯  
  
                                               Önerilen Modeller  
┏━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━┳━━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━━┓  
┃   # ┃ Model                                     ┃ Params ┃ Quant  ┃ Published  ┃ Downloads ┃ Score ┃ License  ┃  
┡━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━╇━━━━━━━━━━━╇━━━━━━━╇━━━━━━━━━━┩  
│   1 │ Qwen/Qwen3-Next-80B-A3B-Instruct          │  81.3B │  Q6_K  │ 2025-09-09 │    336.2K │  94.9 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   2 │ openai/gpt-oss-120b                       │ 120.4B │  Q6_K  │ 2025-08-04 │      4.7M │  91.9 │ apache-… │  
│     │                                           │ (5.1B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   3 │ Qwen/Qwen3.6-27B                          │  27.8B │ Q3_K_M │ 2026-04-21 │      3.6M │  85.1 │ apache-… │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   4 │ Qwen/Qwen3-30B-A3B                        │  30.0B │  Q6_K  │ 2025-04-27 │      1.7M │  83.5 │ apache-… │  
│     │                                           │ (3.0B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   5 │ google/gemma-4-26B-A4B-it                 │  26.5B │  Q6_K  │ 2026-03-11 │      8.7M │  81.2 │ apache-… │  
│     │                                           │ (3.8B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   6 │ openai/gpt-oss-20b                        │  21.5B │  Q6_K  │ 2025-08-04 │      7.6M │  77.9 │ apache-… │  
│     │                                           │ (3.6B… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   7 │ zai-org/GLM-4.7-Flash                     │  31.2B │  Q6_K  │ 2026-01-19 │    742.3K │  77.2 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   8 │ zai-org/GLM-4.5-Air                       │ 110.5B │  Q6_K  │ 2025-07-20 │    384.2K │  75.6 │ mit      │  
│     │                                           │ (12.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│   9 │ meta-llama/Llama-4-Scout-17B-16E-Instruct │ 109.0B │ Q5_K_M │ 2025-04-02 │    391.1K │  74.7 │ other    │  
│     │                                           │ (17.0… │        │            │           │       │          │  
├─────┼───────────────────────────────────────────┼────────┼────────┼────────────┼───────────┼───────┼──────────┤  
│  10 │ Qwen/Qwen3-32B                            │  32.0B │ Q5_K_M │ 2025-04-27 │      7.0M │  73.9 │ apache-… │  
└─────┴───────────────────────────────────────────┴────────┴────────┴━━━━━━━━━━━━┴━━━━━━━━━━━┴━━━━━━━┴━━━━━━━━━━┘  
  En iyi seçim güveni: Yüksek (doğrudan benchmark, fark +2.9)  
  Benchmark referansı: 2026-05 küratörlü anlık görüntü; erişilebildiğinde canlı AA / LiveBench / Aider birleştirildi.

whichllm - Donanımımda gerçekten çalışan ve en iyi performansı veren yerel LLM'yi bulma

İlgili okumalar

3 yorum