40 puan yazan GN⁺ 2026-03-14 | 1 yorum | WhatsApp'ta paylaş
  • Yerel makinenin hangi yapay zeka modellerini gerçekten çalıştırabildiğini kontrol etmeye yarayan web tabanlı bir araç
  • Donanım performansını tarayıcının WebGPU API'sini kullanarak tahmin eder; sonuçlar gerçek sistem özelliklerinden farklı olabilir
  • Model bazında bellek gereksinimi, token işleme hızı, bağlam uzunluğu, çalışma derecesi (S~F) gibi bilgileri gösterir
  • Qwen, Llama, Gemma, Mistral, DeepSeek, GPT-OSS gibi başlıca açık kaynak ve ticari modelleri içerir
  • Yerelde yapay zeka çalıştırma olasılığını hızlıca değerlendirmeyi sağladığı için, geliştiriciler ve araştırmacılar için faydalı bir referans göstergesi olarak kullanılabilir

Hizmete genel bakış

  • CanIRun.ai, yerel ortamda çalıştırılabilecek yapay zeka modellerini keşfetmeye yarayan bir web sitesi
    • Kullanıcılar siteyi tarayıcılarında açtıklarında, sistem performansına göre çalıştırabilecekleri model listesini görebilir
    • Sonuçlar WebGPU API aracılığıyla tahmin edilir ve gerçek donanım performansından farklı olabilir
  • Her model performans derecesi (S~F) ile sınıflandırılır; böylece çalıştırılabilirlik ve verimlilik sezgisel olarak anlaşılabilir

Model derecelendirme sistemi

  • Dereceler S, A, B, C, D, F olarak ayrılır; S en akıcı çalışmayı ifade eder
    • Örnek: NVIDIA GeForce RTX 4070 12GB temel alındığında
    • Qwen 3.5 9B, Llama 3.1 8B gibi modeller S(90/100) olarak gösterilir ve akıcı biçimde çalıştırılabilir
    • Phi-4 14B, A(70/100) olarak gösterilir ve 'iyi çalışır'
    • GPT-OSS 20B, Mistral Small 3.1 24B gibi modeller D(34~39/100) olarak gösterilir ve 'neredeyse çalıştırılamaz'
    • Ayrıca Gemma 3 27B, Qwen 3 32B gibi 27B üzeri modellerin çoğu F(0/100) olarak gösterilir ve 'fazla ağır' kabul edilir

Veri kaynakları ve teknik temel

  • Model verileri llama.cpp, Ollama, LM Studio kaynaklarından toplanır
  • Her model sayfasında bellek kullanımı, bağlam uzunluğu, token hızı, mimari türü (Dense/MoE) gibi ayrıntılar gösterilir

Kullanım değeri

  • Yerel ortamda yapay zeka modellerini doğrudan çalıştırmak isteyen geliştiriciler, araştırmacılar ve açık kaynak kullanıcıları için pratik bir referans sağlar
  • GPU performansına karşı model boyutu ve verimliliği karşılaştırarak, uygun model seçimi ve dağıtım stratejisi oluşturmaya yardımcı olur
  • Tarayıcı tabanlı çalıştığı için kurulum gerektirmeden anında test edilebilmesi dikkat çekici bir özelliktir

1 yorum

 
GN⁺ 2026-03-14
Hacker News yorumları
  • Son 2 yılda yerel modeller denemek için inanılmaz fazla zaman harcadım
    qwen3.5:9b gibi küçük modeller, yerel araç kullanımı, bilgi çıkarımı ve gömülü uygulamalar için çok uygundu
    Kodlama için ise Google Antigravity, gemini-cli ya da Anthropic Claude gibi bulut tabanlı araçlar daha verimliydi
    Emacs ve Claude Code’u yerelde kurup 100 saatten fazla denedim ama bunu genel kullanıcılara önermem
    Bunun yerine, küçük ve pratik yerel gömülü modelleri iyi kullanmanın en tatlı nokta olduğunu düşünüyorum

    • qwen3.5:9b’yi güçlü biçimde tavsiye ederim
      Bu model küçük ama çok modlu akıl yürütme yeteneği çok iyi ve iç düşünme yapısı (CoT) istikrarlı
      Özellikle VRAM ile bağlam boyutu arasındaki yeni ödünleşim yapısı etkileyici — 100K token’ı 1.5GB VRAM ile işleyebiliyor, bu da RTX 3060’ta bile uzun sohbetler ya da belge işlemeyi mümkün kılıyor
    • qwen3.5’i yerel araçlar için denedim ama sonuçlar pek iyi değildi
      GPT-OSS-120B ile sorunsuz çalışan Discord chatbot’unda, Qwen araç çağrısını taklit edip gerçekten çalıştırmama sorunu yaşadı
      Sonunda görselleri Qwen ile, genel sohbeti ise GPT ile işleyecek şekilde ayırdım
    • qwen3.5 9b kullandım ama halüsinasyon oranı yüksekti
      Yerel kod deposunda gezinirken sonuçların %30~50’si yanlış dosya adı ya da fonksiyon adı uyduruyordu
      KimiK2 ile doğrulayınca çoğunun yanlış olduğu ortaya çıktı. Küçük modeller iyi ama güvenilirlik konusunda dikkatli olmak gerekiyor
    • Küçük modellerin gerçek iş akışına nasıl entegre edildiğini merak ediyorum
      M4 MacBook Pro’da (128GB RAM) ollama ile deneme yapıyorum ama henüz tatmin edici bir akış bulamadım
    • Büyük modelle planlama, küçük yerel modelle kod yazma kombinasyonu iyi olur mu diye merak ediyorum
      Claude Code ya da Codex’e bağımlılığı azaltmak istiyorum
  • Bu site, model performansını bellek bant genişliği ve boyutuna göre tahmin ediyor gibi görünüyor
    Ama MoE modelleri (GPT-OSS-20B vb.) her token’da tüm parametreleri kullanmadığı için, aynı donanımda daha hızlı token üretebilir
    GPT-OSS-20B’nin 3.6B aktif parametresi var; bu yüzden 3~4B yoğun modelle benzer hız verir ama VRAM tarafında tam 20B model boyutunu gerektirir
    Zeka açısından ise yaklaşık 8.5B yoğun model seviyesinde değerlendiriliyor

    • Gerçekten de Strix Halo dizüstümde test ettiğim modellerin performansı tahminlerden çok daha iyiydi
      MoE modelleri için bellek bant genişliği hesabı yalnızca aktif parametreler üzerinden yapılmalı
    • Bu hesaplama tüm bağlam boyutunu temel alıyor gibi görünüyor
      Oysa gerçek kullanımda daha küçük bir bağlam çoğu zaman yeterli oluyor
      llama.cpp içindeki llama-fit-params böyle durumlarda faydalı
    • Belgelerde de bu nokta açıkça anlatılıyor
      Mixtral 8x7B gibi MoE modellerinde 46.7B’nin yalnızca yaklaşık 12.9B’si aktif oluyor
      Yani büyük model kalitesi ile küçük model hızını aynı anda elde edebiliyorsunuz ama tüm model yine de bellekte yer kaplamaya devam ediyor
      canirun.ai belgeleri
    • Yine de bir miktar isabetsizlik var
      Token üretim hızı benzer olsa da prefill hızı büyük MoE’de daha yavaş
      Ayrıca speculative decoding kullanıldığında küçük yoğun modellerde hız 3 kata kadar artabilirken MoE modellerinde neredeyse hiç kazanç olmuyor
  • TFA ya da llmfit gibi girişimler güzel ama kendi donanımımda hangi modelin kalite açısından en iyi olduğunu bulmanın zor olması sinir bozucu
    Örneğin Qwen 3.5 27B Q6 @ 100k bağlam gayet iyi çalışıyor ama öneri listesinde eski Qwen 2.5 daha üstte geliyor
    Benim için 50+ tok/s yeterli, bu yüzden kaliteye göre sıralama yapılabilse iyi olurdu

    • Soru fazla geniş
      Örneğin “8GB VRAM, 32GB RAM üzerinde t/s ≥ 30, context ≥ 32K ile yüksek kaliteli açık kodlama modeli” derseniz Qwen2.5-Coder-7B-Instruct
      “24GB VRAM, 32GB RAM ile web araştırması için” derseniz Qwen3-30B-A3B-Instruct-2507
      “40GB VRAM, 128GB RAM ile RAG embedding için” derseniz Qwen3-Embedding-8B
      Yani ihtiyaç olan şey, donanıma göre somut model önerileri
    • Yerelde çalıştırmanın maliyet/verim oranını ($/Mtok) merak ediyorum
      Elektrik masrafı hariç neredeyse bedava ama hız ve kalite daha düşük
      Acaba insanlar sadece veri gizliliği nedeniyle mi yereli tercih ediyor diye düşünüyorum
    • Bu sorun gerçekten çok zor, ben de 1 yıldan uzun süredir araştırıyorum
      Birden fazla cihaz ve modeli aynı anda hesaba katıp kalite ile kaynak dağıtımını optimize etmeye çalışınca karmaşıklık patlıyor
      Sonunda şimdilik en büyük quant modeli seçmek gibi basit bir uzlaşmayla ilerliyorum
    • LLM sonuçta sadece özel amaçlı bir hesap makinesi
      Sıradan bir hesap makinesi kadar kesin olması gerekmiyor ve model üreticisinin hedefiyle kullanıcının hedefi farklı olduğundan, istenen sonucu önceden tahmin etmek zor
  • Bu, basitçe llmfit’in web sürümü gibi görünüyor
    llmfit GitHub bağlantısı

    • Evet. Ama llmfit sistem kaynaklarını otomatik algıladığı için çok daha kullanışlı
    • Bağlantıyı paylaştığın için teşekkürler. Aslında web sitesinden çok daha faydalı
      M2 Max MBP’mde (96GB RAM) bile çoğu yerel LLM’in iyi çalıştığını gösteriyor
      Düşündüğümden çok daha fazla yerelde çalıştırılabilir model olması beni şaşırttı
  • Docker ya da Python’dan daha hafif bir alternatif olarak Rust+Wasm yığını öneririm
    LlamaEdge projesi

  • RTX 6000 Pro Max-Q’umu (96GB VRAM) doğru tanıdı ama arayüzde 4GB olarak gösteriyor
    Ayrıca kuantize modelleri hesaba katmıyor, yalnızca tam çözünürlüklü modelleri gösteriyor
    Geliştirilmesi gerekiyor

  • Mobil GPU listesi yetersiz ve CPU belleğini paylaşma ya da KV cache offloading gibi stratejileri anlamıyor
    Sistemim Arc 750 (2GB paylaşımlı RAM) olarak görünüyor ama aslında RTX1000 Ada (6GB GDDR6)
    Qwen3 Coder Next, Devstral Small, Qwen3.5 4B gibi modeller neredeyse gerçek zamanlı ve gayet iyi çalışıyor
    Daha büyük modeller yavaş ama token yetersizliği sorunu yok

  • Harika bir fikir
    Ama M3 Ultra (256GB RAM) kullanıcısıyım ve seçenekler yalnızca 192GB’a kadar gidiyor
    Model seçip işlemciye göre performans karşılaştırması da yapılabilse güzel olurdu

    • Ne yazık ki Apple 512GiB modeli kaldırdı
  • Tarayıcımın donanım bilgisini web sitesine otomatik verdiğini ilk kez öğrendim

    • Aslında tamamen doğru değil
      Site beni iPhone 19 Pro olarak görüyor ama gerçekte cihazım 1. nesil iPhone SE
    • Güncel Librewolf sürümünde WebGL erişimi için izin istiyor
      Donanımı bununla tespit ediyor gibi görünüyor
    • Bu tür bilgiler sık sık tarayıcı parmak izi çıkarma için kullanılıyor
      Gizlilik odaklı tarayıcılar rastgele bilgi verir
    • Havayollarının da işletim sistemine göre farklı fiyat göstermesi muhtemelen bu yüzdendir diye düşünüyorum
  • M4 ile M5 çipleri arasında hiç performans farkı yokmuş gibi görünmesi garip
    Bellek boyutu da büyük modellerin performansını etkilemiyor gibi
    Genel olarak gerçek veriden çok tahmine dayalı görünüyor, bu yüzden “ESTIMATE” etiketi olması gerekirdi