- Yerel makinenin hangi yapay zeka modellerini gerçekten çalıştırabildiğini kontrol etmeye yarayan web tabanlı bir araç
- Donanım performansını tarayıcının WebGPU API'sini kullanarak tahmin eder; sonuçlar gerçek sistem özelliklerinden farklı olabilir
- Model bazında bellek gereksinimi, token işleme hızı, bağlam uzunluğu, çalışma derecesi (S~F) gibi bilgileri gösterir
- Qwen, Llama, Gemma, Mistral, DeepSeek, GPT-OSS gibi başlıca açık kaynak ve ticari modelleri içerir
- Yerelde yapay zeka çalıştırma olasılığını hızlıca değerlendirmeyi sağladığı için, geliştiriciler ve araştırmacılar için faydalı bir referans göstergesi olarak kullanılabilir
Hizmete genel bakış
- CanIRun.ai, yerel ortamda çalıştırılabilecek yapay zeka modellerini keşfetmeye yarayan bir web sitesi
- Kullanıcılar siteyi tarayıcılarında açtıklarında, sistem performansına göre çalıştırabilecekleri model listesini görebilir
- Sonuçlar WebGPU API aracılığıyla tahmin edilir ve gerçek donanım performansından farklı olabilir
- Her model performans derecesi (S~F) ile sınıflandırılır; böylece çalıştırılabilirlik ve verimlilik sezgisel olarak anlaşılabilir
Model derecelendirme sistemi
- Dereceler S, A, B, C, D, F olarak ayrılır; S en akıcı çalışmayı ifade eder
- Örnek: NVIDIA GeForce RTX 4070 12GB temel alındığında
- Qwen 3.5 9B, Llama 3.1 8B gibi modeller S(90/100) olarak gösterilir ve akıcı biçimde çalıştırılabilir
- Phi-4 14B, A(70/100) olarak gösterilir ve 'iyi çalışır'
- GPT-OSS 20B, Mistral Small 3.1 24B gibi modeller D(34~39/100) olarak gösterilir ve 'neredeyse çalıştırılamaz'
- Ayrıca Gemma 3 27B, Qwen 3 32B gibi 27B üzeri modellerin çoğu F(0/100) olarak gösterilir ve 'fazla ağır' kabul edilir
Veri kaynakları ve teknik temel
- Model verileri llama.cpp, Ollama, LM Studio kaynaklarından toplanır
- Her model sayfasında bellek kullanımı, bağlam uzunluğu, token hızı, mimari türü (Dense/MoE) gibi ayrıntılar gösterilir
Kullanım değeri
- Yerel ortamda yapay zeka modellerini doğrudan çalıştırmak isteyen geliştiriciler, araştırmacılar ve açık kaynak kullanıcıları için pratik bir referans sağlar
- GPU performansına karşı model boyutu ve verimliliği karşılaştırarak, uygun model seçimi ve dağıtım stratejisi oluşturmaya yardımcı olur
- Tarayıcı tabanlı çalıştığı için kurulum gerektirmeden anında test edilebilmesi dikkat çekici bir özelliktir
1 yorum
Hacker News yorumları
Son 2 yılda yerel modeller denemek için inanılmaz fazla zaman harcadım
qwen3.5:9b gibi küçük modeller, yerel araç kullanımı, bilgi çıkarımı ve gömülü uygulamalar için çok uygundu
Kodlama için ise Google Antigravity, gemini-cli ya da Anthropic Claude gibi bulut tabanlı araçlar daha verimliydi
Emacs ve Claude Code’u yerelde kurup 100 saatten fazla denedim ama bunu genel kullanıcılara önermem
Bunun yerine, küçük ve pratik yerel gömülü modelleri iyi kullanmanın en tatlı nokta olduğunu düşünüyorum
Bu model küçük ama çok modlu akıl yürütme yeteneği çok iyi ve iç düşünme yapısı (CoT) istikrarlı
Özellikle VRAM ile bağlam boyutu arasındaki yeni ödünleşim yapısı etkileyici — 100K token’ı 1.5GB VRAM ile işleyebiliyor, bu da RTX 3060’ta bile uzun sohbetler ya da belge işlemeyi mümkün kılıyor
GPT-OSS-120B ile sorunsuz çalışan Discord chatbot’unda, Qwen araç çağrısını taklit edip gerçekten çalıştırmama sorunu yaşadı
Sonunda görselleri Qwen ile, genel sohbeti ise GPT ile işleyecek şekilde ayırdım
Yerel kod deposunda gezinirken sonuçların %30~50’si yanlış dosya adı ya da fonksiyon adı uyduruyordu
KimiK2 ile doğrulayınca çoğunun yanlış olduğu ortaya çıktı. Küçük modeller iyi ama güvenilirlik konusunda dikkatli olmak gerekiyor
M4 MacBook Pro’da (128GB RAM) ollama ile deneme yapıyorum ama henüz tatmin edici bir akış bulamadım
Claude Code ya da Codex’e bağımlılığı azaltmak istiyorum
Bu site, model performansını bellek bant genişliği ve boyutuna göre tahmin ediyor gibi görünüyor
Ama MoE modelleri (GPT-OSS-20B vb.) her token’da tüm parametreleri kullanmadığı için, aynı donanımda daha hızlı token üretebilir
GPT-OSS-20B’nin 3.6B aktif parametresi var; bu yüzden 3~4B yoğun modelle benzer hız verir ama VRAM tarafında tam 20B model boyutunu gerektirir
Zeka açısından ise yaklaşık 8.5B yoğun model seviyesinde değerlendiriliyor
MoE modelleri için bellek bant genişliği hesabı yalnızca aktif parametreler üzerinden yapılmalı
Oysa gerçek kullanımda daha küçük bir bağlam çoğu zaman yeterli oluyor
llama.cpp içindeki llama-fit-params böyle durumlarda faydalı
Mixtral 8x7B gibi MoE modellerinde 46.7B’nin yalnızca yaklaşık 12.9B’si aktif oluyor
Yani büyük model kalitesi ile küçük model hızını aynı anda elde edebiliyorsunuz ama tüm model yine de bellekte yer kaplamaya devam ediyor
canirun.ai belgeleri
Token üretim hızı benzer olsa da prefill hızı büyük MoE’de daha yavaş
Ayrıca speculative decoding kullanıldığında küçük yoğun modellerde hız 3 kata kadar artabilirken MoE modellerinde neredeyse hiç kazanç olmuyor
TFA ya da llmfit gibi girişimler güzel ama kendi donanımımda hangi modelin kalite açısından en iyi olduğunu bulmanın zor olması sinir bozucu
Örneğin Qwen 3.5 27B Q6 @ 100k bağlam gayet iyi çalışıyor ama öneri listesinde eski Qwen 2.5 daha üstte geliyor
Benim için 50+ tok/s yeterli, bu yüzden kaliteye göre sıralama yapılabilse iyi olurdu
Örneğin “8GB VRAM, 32GB RAM üzerinde t/s ≥ 30, context ≥ 32K ile yüksek kaliteli açık kodlama modeli” derseniz Qwen2.5-Coder-7B-Instruct
“24GB VRAM, 32GB RAM ile web araştırması için” derseniz Qwen3-30B-A3B-Instruct-2507
“40GB VRAM, 128GB RAM ile RAG embedding için” derseniz Qwen3-Embedding-8B
Yani ihtiyaç olan şey, donanıma göre somut model önerileri
Elektrik masrafı hariç neredeyse bedava ama hız ve kalite daha düşük
Acaba insanlar sadece veri gizliliği nedeniyle mi yereli tercih ediyor diye düşünüyorum
Birden fazla cihaz ve modeli aynı anda hesaba katıp kalite ile kaynak dağıtımını optimize etmeye çalışınca karmaşıklık patlıyor
Sonunda şimdilik en büyük quant modeli seçmek gibi basit bir uzlaşmayla ilerliyorum
Sıradan bir hesap makinesi kadar kesin olması gerekmiyor ve model üreticisinin hedefiyle kullanıcının hedefi farklı olduğundan, istenen sonucu önceden tahmin etmek zor
Bu, basitçe llmfit’in web sürümü gibi görünüyor
llmfit GitHub bağlantısı
M2 Max MBP’mde (96GB RAM) bile çoğu yerel LLM’in iyi çalıştığını gösteriyor
Düşündüğümden çok daha fazla yerelde çalıştırılabilir model olması beni şaşırttı
Docker ya da Python’dan daha hafif bir alternatif olarak Rust+Wasm yığını öneririm
LlamaEdge projesi
RTX 6000 Pro Max-Q’umu (96GB VRAM) doğru tanıdı ama arayüzde 4GB olarak gösteriyor
Ayrıca kuantize modelleri hesaba katmıyor, yalnızca tam çözünürlüklü modelleri gösteriyor
Geliştirilmesi gerekiyor
Mobil GPU listesi yetersiz ve CPU belleğini paylaşma ya da KV cache offloading gibi stratejileri anlamıyor
Sistemim Arc 750 (2GB paylaşımlı RAM) olarak görünüyor ama aslında RTX1000 Ada (6GB GDDR6)
Qwen3 Coder Next, Devstral Small, Qwen3.5 4B gibi modeller neredeyse gerçek zamanlı ve gayet iyi çalışıyor
Daha büyük modeller yavaş ama token yetersizliği sorunu yok
Harika bir fikir
Ama M3 Ultra (256GB RAM) kullanıcısıyım ve seçenekler yalnızca 192GB’a kadar gidiyor
Model seçip işlemciye göre performans karşılaştırması da yapılabilse güzel olurdu
Tarayıcımın donanım bilgisini web sitesine otomatik verdiğini ilk kez öğrendim
Site beni iPhone 19 Pro olarak görüyor ama gerçekte cihazım 1. nesil iPhone SE
Donanımı bununla tespit ediyor gibi görünüyor
Gizlilik odaklı tarayıcılar rastgele bilgi verir
M4 ile M5 çipleri arasında hiç performans farkı yokmuş gibi görünmesi garip
Bellek boyutu da büyük modellerin performansını etkilemiyor gibi
Genel olarak gerçek veriden çok tahmine dayalı görünüyor, bu yüzden “ESTIMATE” etiketi olması gerekirdi
bkz: Apple M5 Max ile ilgili video