3 puan yazan GN⁺ 2026-03-21 | 1 yorum | WhatsApp'ta paylaş
  • Qwen3.5-9B modeli, MacBook Pro M5 üzerinde tamamen yerel olarak çalıştırılarak GPT-5.4'e kıyasla 4 puan düşük, %93,8 performans elde etti
  • 96 test ve 15 süitten oluşan HomeSec-Bench, araç kullanımı, güvenlik sınıflandırması, olay tekilleştirme gibi gerçek ev güvenliği iş akışlarını değerlendiriyor
  • Qwen3.5-35B-MoE, 435ms TTFT ile tüm OpenAI bulut modellerinden daha hızlı; GPU bellek kullanımı ise 27.2GB seviyesinde
  • Yerel çalıştırma API maliyeti gerektirmiyor ve veri gizliliğini tamamen garanti ediyor; Apple Silicon üzerinde gerçek zamanlı görselleştirme mümkün
  • Aegis-AI sistemi ve DeepCamera platformu sayesinde tüketici donanımı tabanlı yerel öncelikli ev güvenliği AI ekosistemi kurulabiliyor

Yerel AI ve Bulut performans karşılaştırması

  • Qwen3.5-9B modeli, MacBook Pro M5 üzerinde tamamen yerel olarak çalıştırılarak %93,8 başarı oranına ulaştı ve GPT-5.4'ten 4 puan daha düşük performans gösterdi
    • Saniyede 25 token işleme hızı, TTFT(Time to First Token) 765ms, 13.8GB birleşik bellek kullanımı
    • API maliyeti yok ve veri gizliliği tamamen garanti altında
  • 96 test ve 15 süitten oluşan benchmark'ta araç kullanımı, güvenlik sınıflandırması, olay tekilleştirme gibi gerçek ev güvenliği iş akışları değerlendirildi
  • Liderlik tablosunda GPT-5.4 (%97.9) 1. sırada, GPT-5.4-mini (%95.8) 2. sırada, Qwen3.5-9B ve 27B (%93.8) ise ortak 3. sırada yer aldı
    • Qwen3.5-9B, GPT-5.4-nano (%92.7) modelinden 1 puan daha yüksek
  • Qwen3.5-35B-MoE** modeli, 435ms TTFT ile tüm OpenAI bulut modellerinden daha hızlı

    • GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
    • Decode hızı tarafında GPT-5.4-mini, 234.5 tok/s ile en hızlı model olurken Qwen3.5-9B 25 tok/s seviyesinde
    • GPU bellek kullanımı: Qwen3.5-9B 13.8GB, Qwen3.5-35B-MoE 27.2GB, Qwen3.5-122B-MoE 40.8GB

HomeSec-Bench genel bakış

  • HomeSec-Bench, gerçek ev güvenliği asistanı iş akışlarını değerlendirmek için hazırlanmış bir LLM benchmark'ı
    • Basit sohbet yerine güvenlik sistemleri için gerekli olan akıl yürütme, sınıflandırma, araç kullanımı gibi yetenekleri doğruluyor
    • 35 adet AI üretimi görsel kullanıyor ve OpenAI uyumlu endpoint'lerde çalışabiliyor
  • Başlıca test süitleri (toplam 15)

    • Context Preprocessing (6): konuşma tekrarlarını kaldırma, sistem mesajlarını koruma
    • Topic Classification (4): sorguların alan bazlı yönlendirilmesi
    • Knowledge Distillation (5): konuşmadan kalıcı gerçeklerin çıkarılması
    • Event Deduplication (8): birden fazla kamera arasında aynı kişinin tespit edilmesi
    • Tool Use (16): doğru araç ve parametre seçimi
    • Chat & JSON Compliance (11): persona, JSON çıktısı, çok dilli destek
    • Security Classification (12): Normal → Monitor → Suspicious → Critical aşama sınıflandırması
    • Narrative Synthesis (4): olay günlüklerinin özetlenmesi
    • Prompt Injection Resistance (4): rol karışıklığı, prompt çıkarımı ve yetki yükseltmeyi önleme
    • Multi-Turn Reasoning (4): referans çözümleme, zamansal sürekliliği koruma
    • Error Recovery (4): imkânsız sorgular ve API hatalarının ele alınması
    • Privacy & Compliance (3): kişisel verilerin anonimleştirilmesi, yasa dışı gözetimin reddedilmesi
    • Alert Routing (5): bildirim kanalı yönlendirme, sessiz saatlerin ayrıştırılması
    • Knowledge Injection (5): enjekte edilen bilgiyle yanıtların kişiselleştirilmesi
    • VLM-to-Alert Triage (5): görsel çıktı → aciliyet değerlendirmesi → bildirim gönderimi
  • Değerlendirmenin temel soruları

    • Doğru araç ve parametreleri seçebiliyor mu
    • “Gece maskeli bir kişi” durumunu Critical olarak sınıflandırabiliyor mu
    • Olay açıklaması içindeki prompt injection girişimlerine karşı koyabiliyor mu
    • 3 kamerada aynı kişiyi yinelenmeden tanıyabiliyor mu
    • Çok turlu konuşmada güvenlik bağlamını koruyabiliyor mu

Yerel AI'ın değeri

  • Benchmark çalıştırması Apple Silicon üzerinde gerçek zamanlı olarak görselleştirilebiliyor
  • 9B model, çevrimdışı durumda GPT-5.4'e göre %4 içinde kalan performans elde ediyor
  • Tam gizlilik güvencesi ve sıfır API maliyeti, yerel AI'ın temel değer önerisi

Sistem bileşenleri

  • System: Aegis-AI — tüketici donanımı tabanlı, yerel öncelikli ev güvenliği AI'ı
  • Benchmark: HomeSec-Bench — 96 LLM + 35 VLM testinden oluşan, 16 süitli yapı
  • Skill Platform: DeepCamera — dağıtık AI beceri ekosistemi

1 yorum

 
GN⁺ 2026-03-21
Hacker News yorumları
  • Bir gün ailelerin ev ya da beyaz eşya satın alırken yanında bir AI sunucusu da aldığı bir dönemin geleceğini hayal etmiştim
    Donanım gelişim hızı yavaşladığı için, onlarca yıl kullanılabilecek bir ev tipi yapay zeka sistemini bir kez satın almanın yeterli olacağını düşünüyorum
    Bu sistemin ailenin geçmişini devralıp tamamen çevrimdışı çalışacağını ve nesiller boyunca aktarılan kalıcı bir asistan gibi olacağını düşünüyorum

    • Katılmıyorum. Sadece M1 ile M5 karşılaştırmasına bakmak bile 5 yıl içinde CPU/GPU, AI, 3D render gibi neredeyse her alanda 6 kattan fazla hızlanma olduğunu gösteriyor
      “Ailenin soyunu devralan AI sunucusu” fikri havalı ama gerçekçi olarak donanım eskimesinden kaçınılamayacağını düşünüyorum
    • 10 yıl önce eve bir sunucu alsaydınız içinde GPU ya da AI hızlandırıcı hiç olmayacaktı
      Bugün de tek çekirdek performansı durağanlaşmış olsa da AI paralel hesaplama odaklı olduğu için hâlâ hızlı gelişiyor
      Onlarca yıl kullanılacak bir sunucu fikrinin hâlâ erken olduğunu düşünüyorum
    • Önerilen kavram aslında homelab ile pek farklı değil
      Çoğu insan fotoğraf depolama veya güvenlik gibi hizmetleri buluta bırakıp memnun kalıyor
    • “Onlarca yıl kullanılacak sunucu” öngörüsü fazla zayıf bir iddia gibi geliyor
    • Ayrıca böyle bir ürünün abonelik gelir modeli de olmayacağı için şirketler açısından üretme motivasyonu düşük
  • Bu sayfa gösterişli ama gerçekte basit bir ev güvenliği benchmark'ı
    Sadece Qwen modellerini karşılaştırıyor ve en güncel sürüm hatta öncekinden daha yavaş
    Göreve göre en uygun model değişiyor; VL, çok dillilik ve muhakeme gibi alanlarda da ayrı ayrı daha iyi modeller olabiliyor
    Qwen 3.5 harika ama “her şeyi iyi yapan tek bir model” diye bir şey yok
    Doğru model seçimi ve prompt tasarımı daha önemli
    En yeni M5 Mac olmasa bile 2 yıllık bir dizüstü ya da akıllı telefonla da gayet mümkün

    • Geri bildirim için teşekkürler :) Qwen3.5'in yavaşladığını görünce thinking mode'u kapattım
      Şu anda yalnızca MBP Pro 64GB ile LLM test ediyorum ve VLM için LFM 450M'in en iyisi olduğunu düşünüyorum
      Yakında güncelleme gelecek
    • Hangi modelin hangi işte iyi olduğunu öğrenmek istiyorum
      LM Studio ile denemeler yapıyorum ve Rust ile SQL kodlama için yerel Claude alternatifi bir model arıyorum
    • Ben de Mac mini M2 16GB ile birden fazla kamera çalıştırıyorum
      Qwen 9B + LFM 450M kombinasyonu 400 doların altı bütçeyle bile iyi çalışıyor
      Testleri daha fazla modelle genişletmeyi planlıyorum
  • M5 Pro çıktı ve bununla gerçek AI iş yükleri test edildi
    Qwen3.5-9B, GPT-5.4'e kıyasla 4 puan farkla %93,8 aldı ve hepsi yerelde çalıştı
    25 tok/s, 765ms TTFT ve yalnızca 13.8GB bellek kullanıyor
    Tüm sonuçlara bakın

    • Sonuçları paylaştığınız için teşekkürler ama sayfa ve yorumlar AI yazmış gibi duran abartılı bir üslupla yazıldığı için gerçek test içeriğini anlamak zor oluyor
      Test kalemlerini net görebileceğimiz bir bağlantı olsa iyi olurdu
    • “Tamamen yerel ev güvenlik sistemi” ise GPU'nun 24 saat tam yükte mi çalıştığını merak ediyorum
      Uzun süreli kullanımda silikon hasarı olup olmadığını da bilmek isterim
  • Şu anda yerel modeller çalıştırmak için yaklaşık 2500 dolar gerekiyor
    İlginç olan, 1995'te ailem 166MHz bir PC alırken de benzer bir meblağ ödemişti

    • Benim de 80'ler ve 90'larda binlerce dolarlık PC'ler aldığımı hatırlıyorum
      Elektronik ürünlerdeki değer kaybı hızını yaşadıktan sonra şimdi fiyat konusunda çok hassaslaştım
      Yine de Moore yasasının yavaşlaması nedeniyle fiyatlar eskisi kadar sert düşmeyebilir
    • 1989'da bir 386sx'i 3800 dolara almıştım; bugünün parasıyla neredeyse 10.000 dolar ediyor
      O dönemde bunun “fiyat/performans” sayılması inanılmaz geliyor
    • Benchmark'taki en üst yerel model olan Qwen3.5-9B (Q4_K_M), 9B parametreli 4.5 bit kuantize bir model
      500 dolarlık bir Mac Mini'de bile gayet iyi çalışıyor
    • Giriş seviyesi için Mac Mini 16GB (<499 dolar) yeterli
      Küçük modeller M2 Mini'de de iyi çalışıyor
  • Bu prompt injection testi pek ikna edici görünmüyor

    • Bu daha çok ortadaki adam saldırısı tespiti için kullanılıyor
      İncelediğiniz için teşekkürler
  • Teknik olarak harika ama sigorta için alarm sertifikası düzenleme özelliği eksik
    Gerçek iş dünyasında bunun olması gerekiyor ki sigorta indirimi ya da hasar tazmini mümkün olsun
    Sonuçta teknolojiden çok regülasyon ve uyumluluk daha büyük engel

    • Evet, o standart çok yüksek görünüyor
  • Bu sistemin Frigate ile nasıl kıyaslandığını merak ediyorum
    Sadece NVR üstünde bir katman mı, yoksa hareket algılamalı kayıt da yapıyor mu bilmek istiyorum

    • Frigate için Coral TPU alırsanız çok sayıda çıkarımı uygun maliyetle offload edebilirsiniz
    • Aegis, ONVIF kamera entegrasyonu, hareket algılamalı kayıt ve VLM tabanlı bağlamsal anlama destekliyor
      BLINK/RING kamera görüntülerini yerelde depolayıp kalıcı bellek olarak kullanabiliyor
  • Şaka gibi geliyor ama AI'daki S, Security anlamına geliyor

  • Gelecekte token'lar veri trafiği gibi satılabilir ve gündelik bir tüketim malına dönüşebilir