- Qwen3.5-9B modeli, MacBook Pro M5 üzerinde tamamen yerel olarak çalıştırılarak GPT-5.4'e kıyasla 4 puan düşük, %93,8 performans elde etti
- 96 test ve 15 süitten oluşan HomeSec-Bench, araç kullanımı, güvenlik sınıflandırması, olay tekilleştirme gibi gerçek ev güvenliği iş akışlarını değerlendiriyor
- Qwen3.5-35B-MoE, 435ms TTFT ile tüm OpenAI bulut modellerinden daha hızlı; GPU bellek kullanımı ise 27.2GB seviyesinde
- Yerel çalıştırma API maliyeti gerektirmiyor ve veri gizliliğini tamamen garanti ediyor; Apple Silicon üzerinde gerçek zamanlı görselleştirme mümkün
- Aegis-AI sistemi ve DeepCamera platformu sayesinde tüketici donanımı tabanlı yerel öncelikli ev güvenliği AI ekosistemi kurulabiliyor
Yerel AI ve Bulut performans karşılaştırması
- Qwen3.5-9B modeli, MacBook Pro M5 üzerinde tamamen yerel olarak çalıştırılarak %93,8 başarı oranına ulaştı ve GPT-5.4'ten 4 puan daha düşük performans gösterdi
- Saniyede 25 token işleme hızı, TTFT(Time to First Token) 765ms, 13.8GB birleşik bellek kullanımı
- API maliyeti yok ve veri gizliliği tamamen garanti altında
- 96 test ve 15 süitten oluşan benchmark'ta araç kullanımı, güvenlik sınıflandırması, olay tekilleştirme gibi gerçek ev güvenliği iş akışları değerlendirildi
- Liderlik tablosunda GPT-5.4 (%97.9) 1. sırada, GPT-5.4-mini (%95.8) 2. sırada, Qwen3.5-9B ve 27B (%93.8) ise ortak 3. sırada yer aldı
- Qwen3.5-9B, GPT-5.4-nano (%92.7) modelinden 1 puan daha yüksek
-
Qwen3.5-35B-MoE** modeli, 435ms TTFT ile tüm OpenAI bulut modellerinden daha hızlı
- GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
- Decode hızı tarafında GPT-5.4-mini, 234.5 tok/s ile en hızlı model olurken Qwen3.5-9B 25 tok/s seviyesinde
- GPU bellek kullanımı: Qwen3.5-9B 13.8GB, Qwen3.5-35B-MoE 27.2GB, Qwen3.5-122B-MoE 40.8GB
HomeSec-Bench genel bakış
- HomeSec-Bench, gerçek ev güvenliği asistanı iş akışlarını değerlendirmek için hazırlanmış bir LLM benchmark'ı
- Basit sohbet yerine güvenlik sistemleri için gerekli olan akıl yürütme, sınıflandırma, araç kullanımı gibi yetenekleri doğruluyor
- 35 adet AI üretimi görsel kullanıyor ve OpenAI uyumlu endpoint'lerde çalışabiliyor
-
Başlıca test süitleri (toplam 15)
- Context Preprocessing (6): konuşma tekrarlarını kaldırma, sistem mesajlarını koruma
- Topic Classification (4): sorguların alan bazlı yönlendirilmesi
- Knowledge Distillation (5): konuşmadan kalıcı gerçeklerin çıkarılması
- Event Deduplication (8): birden fazla kamera arasında aynı kişinin tespit edilmesi
- Tool Use (16): doğru araç ve parametre seçimi
- Chat & JSON Compliance (11): persona, JSON çıktısı, çok dilli destek
- Security Classification (12): Normal → Monitor → Suspicious → Critical aşama sınıflandırması
- Narrative Synthesis (4): olay günlüklerinin özetlenmesi
- Prompt Injection Resistance (4): rol karışıklığı, prompt çıkarımı ve yetki yükseltmeyi önleme
- Multi-Turn Reasoning (4): referans çözümleme, zamansal sürekliliği koruma
- Error Recovery (4): imkânsız sorgular ve API hatalarının ele alınması
- Privacy & Compliance (3): kişisel verilerin anonimleştirilmesi, yasa dışı gözetimin reddedilmesi
- Alert Routing (5): bildirim kanalı yönlendirme, sessiz saatlerin ayrıştırılması
- Knowledge Injection (5): enjekte edilen bilgiyle yanıtların kişiselleştirilmesi
- VLM-to-Alert Triage (5): görsel çıktı → aciliyet değerlendirmesi → bildirim gönderimi
-
Değerlendirmenin temel soruları
- Doğru araç ve parametreleri seçebiliyor mu
- “Gece maskeli bir kişi” durumunu Critical olarak sınıflandırabiliyor mu
- Olay açıklaması içindeki prompt injection girişimlerine karşı koyabiliyor mu
- 3 kamerada aynı kişiyi yinelenmeden tanıyabiliyor mu
- Çok turlu konuşmada güvenlik bağlamını koruyabiliyor mu
Yerel AI'ın değeri
- Benchmark çalıştırması Apple Silicon üzerinde gerçek zamanlı olarak görselleştirilebiliyor
- 9B model, çevrimdışı durumda GPT-5.4'e göre %4 içinde kalan performans elde ediyor
- Tam gizlilik güvencesi ve sıfır API maliyeti, yerel AI'ın temel değer önerisi
Sistem bileşenleri
- System: Aegis-AI — tüketici donanımı tabanlı, yerel öncelikli ev güvenliği AI'ı
- Benchmark: HomeSec-Bench — 96 LLM + 35 VLM testinden oluşan, 16 süitli yapı
- Skill Platform: DeepCamera — dağıtık AI beceri ekosistemi
1 yorum
Hacker News yorumları
Bir gün ailelerin ev ya da beyaz eşya satın alırken yanında bir AI sunucusu da aldığı bir dönemin geleceğini hayal etmiştim
Donanım gelişim hızı yavaşladığı için, onlarca yıl kullanılabilecek bir ev tipi yapay zeka sistemini bir kez satın almanın yeterli olacağını düşünüyorum
Bu sistemin ailenin geçmişini devralıp tamamen çevrimdışı çalışacağını ve nesiller boyunca aktarılan kalıcı bir asistan gibi olacağını düşünüyorum
“Ailenin soyunu devralan AI sunucusu” fikri havalı ama gerçekçi olarak donanım eskimesinden kaçınılamayacağını düşünüyorum
Bugün de tek çekirdek performansı durağanlaşmış olsa da AI paralel hesaplama odaklı olduğu için hâlâ hızlı gelişiyor
Onlarca yıl kullanılacak bir sunucu fikrinin hâlâ erken olduğunu düşünüyorum
Çoğu insan fotoğraf depolama veya güvenlik gibi hizmetleri buluta bırakıp memnun kalıyor
Bu sayfa gösterişli ama gerçekte basit bir ev güvenliği benchmark'ı
Sadece Qwen modellerini karşılaştırıyor ve en güncel sürüm hatta öncekinden daha yavaş
Göreve göre en uygun model değişiyor; VL, çok dillilik ve muhakeme gibi alanlarda da ayrı ayrı daha iyi modeller olabiliyor
Qwen 3.5 harika ama “her şeyi iyi yapan tek bir model” diye bir şey yok
Doğru model seçimi ve prompt tasarımı daha önemli
En yeni M5 Mac olmasa bile 2 yıllık bir dizüstü ya da akıllı telefonla da gayet mümkün
Şu anda yalnızca MBP Pro 64GB ile LLM test ediyorum ve VLM için LFM 450M'in en iyisi olduğunu düşünüyorum
Yakında güncelleme gelecek
LM Studio ile denemeler yapıyorum ve Rust ile SQL kodlama için yerel Claude alternatifi bir model arıyorum
Qwen 9B + LFM 450M kombinasyonu 400 doların altı bütçeyle bile iyi çalışıyor
Testleri daha fazla modelle genişletmeyi planlıyorum
M5 Pro çıktı ve bununla gerçek AI iş yükleri test edildi
Qwen3.5-9B, GPT-5.4'e kıyasla 4 puan farkla %93,8 aldı ve hepsi yerelde çalıştı
25 tok/s, 765ms TTFT ve yalnızca 13.8GB bellek kullanıyor
Tüm sonuçlara bakın
Test kalemlerini net görebileceğimiz bir bağlantı olsa iyi olurdu
Uzun süreli kullanımda silikon hasarı olup olmadığını da bilmek isterim
Şu anda yerel modeller çalıştırmak için yaklaşık 2500 dolar gerekiyor
İlginç olan, 1995'te ailem 166MHz bir PC alırken de benzer bir meblağ ödemişti
Elektronik ürünlerdeki değer kaybı hızını yaşadıktan sonra şimdi fiyat konusunda çok hassaslaştım
Yine de Moore yasasının yavaşlaması nedeniyle fiyatlar eskisi kadar sert düşmeyebilir
O dönemde bunun “fiyat/performans” sayılması inanılmaz geliyor
500 dolarlık bir Mac Mini'de bile gayet iyi çalışıyor
Küçük modeller M2 Mini'de de iyi çalışıyor
Bu prompt injection testi pek ikna edici görünmüyor
İncelediğiniz için teşekkürler
Teknik olarak harika ama sigorta için alarm sertifikası düzenleme özelliği eksik
Gerçek iş dünyasında bunun olması gerekiyor ki sigorta indirimi ya da hasar tazmini mümkün olsun
Sonuçta teknolojiden çok regülasyon ve uyumluluk daha büyük engel
Bu sistemin Frigate ile nasıl kıyaslandığını merak ediyorum
Sadece NVR üstünde bir katman mı, yoksa hareket algılamalı kayıt da yapıyor mu bilmek istiyorum
BLINK/RING kamera görüntülerini yerelde depolayıp kalıcı bellek olarak kullanabiliyor
Şaka gibi geliyor ama AI'daki S, Security anlamına geliyor
Gelecekte token'lar veri trafiği gibi satılabilir ve gündelik bir tüketim malına dönüşebilir