- Kullanıcının donanımına uygun yerel LLM'yi parametre sayısına değil, gerçek ölçüm tabanlı benchmark'lara göre otomatik öneren bir CLI aracı
- GPU/CPU/RAM'i otomatik algılar ve HuggingFace modelleri arasından sisteme uygun en iyi modelleri sıralı bir liste olarak sunar
- NVIDIA, AMD, Apple Silicon ve yalnızca CPU sistemleri dahil destekler
- Amaç, VRAM'e sığan en büyük modeli değil, bunlar arasından gerçekten en iyi modeli seçmektir
- Örnek: RTX 4090 simülasyonunda 32B model sığsa bile, daha yeni nesil 27B modeli (Qwen3.6-27B) 1. sırada önerir
- Çoklu benchmark birleştirme puanlaması: LiveBench, Artificial Analysis, Aider, multimodal/vision, Chatbot Arena ELO ve Open LLM Leaderboard'u birleştirerek 0–100 arası puan üretir
- Güncellik farkındalığı olan model tanıma (Recency-aware): Eski leaderboard'larda model soyunu izleyerek puan kırar; 2024 modellerinin eski sürüm puanlarıyla mevcut nesil modelleri geçmesini engeller
- 5 kademeli kanıt derecelendirmesi -
direct / variant / base_model / line_interp / self_reported etiketleriyle işaretler ve buna göre güven indirimi uygular
- Yükleyenin sahte öz bildirimlerini ve küçük fork'ların büyük taban model puanlarını ödünç aldığı çapraz aile mirasını da engeller
- Parametre sayısı, ailenin baskın üyesinden 2 kattan fazla farklıysa mirası reddeder
- Mimari farkındalıklı VRAM/hız tahmini - VRAM için ağırlıklar + GQA KV cache + aktivasyonlar + ek yük; hız için bant genişliği sınırı, MoE active ile total ayrımı ve birleşik bellek ile PCIe kısmi offload etkilerini hesaba katar
whichllm run ile tek satırda model indirme ve sohbete kadar anında çalıştırılabilen tek komutluk iş akışı desteği
uv ile izole ortam oluşturma, bağımlılık kurma, model indirme ve etkileşimli sohbeti otomatik yürütür
- GGUF / AWQ / GPTQ / FP16 / BF16 tüm formatları destekler
- Donanım planlama komutları
whichllm --gpu "RTX 5090" - satın almadan önce rastgele bir GPU simülasyonuyla kontrol
whichllm plan "llama 3 70b" - belirli bir model için gereken GPU'ları tersine sorgulama
whichllm upgrade "RTX 4090" "RTX 5090" "H100" - mevcut makine ile aday GPU'ları karşılaştırma
- Ollama entegrasyonu:
whichllm --top 1 --json | jq -r '.models[0].model_id' biçiminde pipeline kurulabilir
- Kod parçacığı çıktısı:
whichllm snippet "qwen 7b" ile llama_cpp.Llama.from_pretrained çağrısından sohbet tamamlama adımına kadar kopyala-yapıştır yapılabilir Python kodu sunar
- MIT lisansı
1 yorum
Ben olsam bu 5 tanesini öneririm. 3'ü Qwen'miş.
Qwen/Qwen3-Next-80B-A3B-Instruct
Qwen/Qwen3.6-27B
deepseek-ai/DeepSeek-V4-Flash
openai/gpt-oss-120b
Qwen/Qwen3-235B-A22B