CanIRun.ai — Bilgisayarımda yapay zeka modelleri çalıştırabilir miyim?

(canirun.ai)

40 puan yazan GN⁺ 2026-03-14 | 1 yorum | WhatsApp'ta paylaş

Yerel makinenin hangi yapay zeka modellerini gerçekten çalıştırabildiğini kontrol etmeye yarayan web tabanlı bir araç
Donanım performansını tarayıcının WebGPU API'sini kullanarak tahmin eder; sonuçlar gerçek sistem özelliklerinden farklı olabilir
Model bazında bellek gereksinimi, token işleme hızı, bağlam uzunluğu, çalışma derecesi (S~F) gibi bilgileri gösterir
Qwen, Llama, Gemma, Mistral, DeepSeek, GPT-OSS gibi başlıca açık kaynak ve ticari modelleri içerir
Yerelde yapay zeka çalıştırma olasılığını hızlıca değerlendirmeyi sağladığı için, geliştiriciler ve araştırmacılar için faydalı bir referans göstergesi olarak kullanılabilir

Hizmete genel bakış

CanIRun.ai, yerel ortamda çalıştırılabilecek yapay zeka modellerini keşfetmeye yarayan bir web sitesi
- Kullanıcılar siteyi tarayıcılarında açtıklarında, sistem performansına göre çalıştırabilecekleri model listesini görebilir
- Sonuçlar WebGPU API aracılığıyla tahmin edilir ve gerçek donanım performansından farklı olabilir
Her model performans derecesi (S~F) ile sınıflandırılır; böylece çalıştırılabilirlik ve verimlilik sezgisel olarak anlaşılabilir

Model derecelendirme sistemi

Dereceler S, A, B, C, D, F olarak ayrılır; S en akıcı çalışmayı ifade eder
- Örnek: NVIDIA GeForce RTX 4070 12GB temel alındığında
- Qwen 3.5 9B, Llama 3.1 8B gibi modeller S(90/100) olarak gösterilir ve akıcı biçimde çalıştırılabilir
- Phi-4 14B, A(70/100) olarak gösterilir ve 'iyi çalışır'
- GPT-OSS 20B, Mistral Small 3.1 24B gibi modeller D(34~39/100) olarak gösterilir ve 'neredeyse çalıştırılamaz'
- Ayrıca Gemma 3 27B, Qwen 3 32B gibi 27B üzeri modellerin çoğu F(0/100) olarak gösterilir ve 'fazla ağır' kabul edilir

Veri kaynakları ve teknik temel

Model verileri llama.cpp, Ollama, LM Studio kaynaklarından toplanır
Her model sayfasında bellek kullanımı, bağlam uzunluğu, token hızı, mimari türü (Dense/MoE) gibi ayrıntılar gösterilir

Kullanım değeri

Yerel ortamda yapay zeka modellerini doğrudan çalıştırmak isteyen geliştiriciler, araştırmacılar ve açık kaynak kullanıcıları için pratik bir referans sağlar
GPU performansına karşı model boyutu ve verimliliği karşılaştırarak, uygun model seçimi ve dağıtım stratejisi oluşturmaya yardımcı olur
Tarayıcı tabanlı çalıştığı için kurulum gerektirmeden anında test edilebilmesi dikkat çekici bir özelliktir

1 yorum

GN⁺ 2026-03-14

Hacker News yorumları

Son 2 yılda yerel modeller denemek için inanılmaz fazla zaman harcadım
qwen3.5:9b gibi küçük modeller, yerel araç kullanımı, bilgi çıkarımı ve gömülü uygulamalar için çok uygundu
Kodlama için ise Google Antigravity, gemini-cli ya da Anthropic Claude gibi bulut tabanlı araçlar daha verimliydi
Emacs ve Claude Code’u yerelde kurup 100 saatten fazla denedim ama bunu genel kullanıcılara önermem
Bunun yerine, küçük ve pratik yerel gömülü modelleri iyi kullanmanın en tatlı nokta olduğunu düşünüyorum
- qwen3.5:9b’yi güçlü biçimde tavsiye ederim
  Bu model küçük ama çok modlu akıl yürütme yeteneği çok iyi ve iç düşünme yapısı (CoT) istikrarlı
  Özellikle VRAM ile bağlam boyutu arasındaki yeni ödünleşim yapısı etkileyici — 100K token’ı 1.5GB VRAM ile işleyebiliyor, bu da RTX 3060’ta bile uzun sohbetler ya da belge işlemeyi mümkün kılıyor
- qwen3.5’i yerel araçlar için denedim ama sonuçlar pek iyi değildi
  GPT-OSS-120B ile sorunsuz çalışan Discord chatbot’unda, Qwen araç çağrısını taklit edip gerçekten çalıştırmama sorunu yaşadı
  Sonunda görselleri Qwen ile, genel sohbeti ise GPT ile işleyecek şekilde ayırdım
- qwen3.5 9b kullandım ama halüsinasyon oranı yüksekti
  Yerel kod deposunda gezinirken sonuçların %30~50’si yanlış dosya adı ya da fonksiyon adı uyduruyordu
  KimiK2 ile doğrulayınca çoğunun yanlış olduğu ortaya çıktı. Küçük modeller iyi ama güvenilirlik konusunda dikkatli olmak gerekiyor
- Küçük modellerin gerçek iş akışına nasıl entegre edildiğini merak ediyorum
  M4 MacBook Pro’da (128GB RAM) ollama ile deneme yapıyorum ama henüz tatmin edici bir akış bulamadım
- Büyük modelle planlama, küçük yerel modelle kod yazma kombinasyonu iyi olur mu diye merak ediyorum
  Claude Code ya da Codex’e bağımlılığı azaltmak istiyorum
Bu site, model performansını bellek bant genişliği ve boyutuna göre tahmin ediyor gibi görünüyor
Ama MoE modelleri (GPT-OSS-20B vb.) her token’da tüm parametreleri kullanmadığı için, aynı donanımda daha hızlı token üretebilir
GPT-OSS-20B’nin 3.6B aktif parametresi var; bu yüzden 3~4B yoğun modelle benzer hız verir ama VRAM tarafında tam 20B model boyutunu gerektirir
Zeka açısından ise yaklaşık 8.5B yoğun model seviyesinde değerlendiriliyor
- Gerçekten de Strix Halo dizüstümde test ettiğim modellerin performansı tahminlerden çok daha iyiydi
  MoE modelleri için bellek bant genişliği hesabı yalnızca aktif parametreler üzerinden yapılmalı
- Bu hesaplama tüm bağlam boyutunu temel alıyor gibi görünüyor
  Oysa gerçek kullanımda daha küçük bir bağlam çoğu zaman yeterli oluyor
  llama.cpp içindeki llama-fit-params böyle durumlarda faydalı
- Belgelerde de bu nokta açıkça anlatılıyor
  Mixtral 8x7B gibi MoE modellerinde 46.7B’nin yalnızca yaklaşık 12.9B’si aktif oluyor
  Yani büyük model kalitesi ile küçük model hızını aynı anda elde edebiliyorsunuz ama tüm model yine de bellekte yer kaplamaya devam ediyor
  canirun.ai belgeleri
- Yine de bir miktar isabetsizlik var
  Token üretim hızı benzer olsa da prefill hızı büyük MoE’de daha yavaş
  Ayrıca speculative decoding kullanıldığında küçük yoğun modellerde hız 3 kata kadar artabilirken MoE modellerinde neredeyse hiç kazanç olmuyor
TFA ya da llmfit gibi girişimler güzel ama kendi donanımımda hangi modelin kalite açısından en iyi olduğunu bulmanın zor olması sinir bozucu
Örneğin Qwen 3.5 27B Q6 @ 100k bağlam gayet iyi çalışıyor ama öneri listesinde eski Qwen 2.5 daha üstte geliyor
Benim için 50+ tok/s yeterli, bu yüzden kaliteye göre sıralama yapılabilse iyi olurdu
- Soru fazla geniş
  Örneğin “8GB VRAM, 32GB RAM üzerinde t/s ≥ 30, context ≥ 32K ile yüksek kaliteli açık kodlama modeli” derseniz Qwen2.5-Coder-7B-Instruct
  “24GB VRAM, 32GB RAM ile web araştırması için” derseniz Qwen3-30B-A3B-Instruct-2507
  “40GB VRAM, 128GB RAM ile RAG embedding için” derseniz Qwen3-Embedding-8B
  Yani ihtiyaç olan şey, donanıma göre somut model önerileri
- Yerelde çalıştırmanın maliyet/verim oranını ($/Mtok) merak ediyorum
  Elektrik masrafı hariç neredeyse bedava ama hız ve kalite daha düşük
  Acaba insanlar sadece veri gizliliği nedeniyle mi yereli tercih ediyor diye düşünüyorum
- Bu sorun gerçekten çok zor, ben de 1 yıldan uzun süredir araştırıyorum
  Birden fazla cihaz ve modeli aynı anda hesaba katıp kalite ile kaynak dağıtımını optimize etmeye çalışınca karmaşıklık patlıyor
  Sonunda şimdilik en büyük quant modeli seçmek gibi basit bir uzlaşmayla ilerliyorum
- LLM sonuçta sadece özel amaçlı bir hesap makinesi
  Sıradan bir hesap makinesi kadar kesin olması gerekmiyor ve model üreticisinin hedefiyle kullanıcının hedefi farklı olduğundan, istenen sonucu önceden tahmin etmek zor
Bu, basitçe llmfit’in web sürümü gibi görünüyor
llmfit GitHub bağlantısı
- Evet. Ama llmfit sistem kaynaklarını otomatik algıladığı için çok daha kullanışlı
- Bağlantıyı paylaştığın için teşekkürler. Aslında web sitesinden çok daha faydalı
  M2 Max MBP’mde (96GB RAM) bile çoğu yerel LLM’in iyi çalıştığını gösteriyor
  Düşündüğümden çok daha fazla yerelde çalıştırılabilir model olması beni şaşırttı
Docker ya da Python’dan daha hafif bir alternatif olarak Rust+Wasm yığını öneririm
LlamaEdge projesi
RTX 6000 Pro Max-Q’umu (96GB VRAM) doğru tanıdı ama arayüzde 4GB olarak gösteriyor
Ayrıca kuantize modelleri hesaba katmıyor, yalnızca tam çözünürlüklü modelleri gösteriyor
Geliştirilmesi gerekiyor
Mobil GPU listesi yetersiz ve CPU belleğini paylaşma ya da KV cache offloading gibi stratejileri anlamıyor
Sistemim Arc 750 (2GB paylaşımlı RAM) olarak görünüyor ama aslında RTX1000 Ada (6GB GDDR6)
Qwen3 Coder Next, Devstral Small, Qwen3.5 4B gibi modeller neredeyse gerçek zamanlı ve gayet iyi çalışıyor
Daha büyük modeller yavaş ama token yetersizliği sorunu yok
Harika bir fikir
Ama M3 Ultra (256GB RAM) kullanıcısıyım ve seçenekler yalnızca 192GB’a kadar gidiyor
Model seçip işlemciye göre performans karşılaştırması da yapılabilse güzel olurdu
- Ne yazık ki Apple 512GiB modeli kaldırdı
Tarayıcımın donanım bilgisini web sitesine otomatik verdiğini ilk kez öğrendim
- Aslında tamamen doğru değil
  Site beni iPhone 19 Pro olarak görüyor ama gerçekte cihazım 1. nesil iPhone SE
- Güncel Librewolf sürümünde WebGL erişimi için izin istiyor
  Donanımı bununla tespit ediyor gibi görünüyor
- Bu tür bilgiler sık sık tarayıcı parmak izi çıkarma için kullanılıyor
  Gizlilik odaklı tarayıcılar rastgele bilgi verir
- Havayollarının da işletim sistemine göre farklı fiyat göstermesi muhtemelen bu yüzdendir diye düşünüyorum
M4 ile M5 çipleri arasında hiç performans farkı yokmuş gibi görünmesi garip
Bellek boyutu da büyük modellerin performansını etkilemiyor gibi
Genel olarak gerçek veriden çok tahmine dayalı görünüyor, bu yüzden “ESTIMATE” etiketi olması gerekirdi
- İlk gerçek testlerde M5 Max’in performans artışı gösterdiği görülmüştü
  bkz: Apple M5 Max ile ilgili video

CanIRun.ai — Bilgisayarımda yapay zeka modelleri çalıştırabilir miyim?

Hizmete genel bakış

Model derecelendirme sistemi

Veri kaynakları ve teknik temel

Kullanım değeri

İlgili okumalar

1 yorum

Hacker News yorumları