- Yapay zeka araçlarının geliştirilmesine çok para yatırılıyor ve birçok hizmet zarar etmeyi göze alarak çalıştırılıyor
- Büyük teknoloji şirketlerinin hizmetleri pazarı ele geçirmek için ücretsiz ya da ucuz sunuluyor ve sonunda "reklamlar ve siyasi çıkarlar nedeniyle AI modellerinin manipüle edilme olasılığı yüksek"
- Çözüm, "kendi yapay zeka modelini bizzat çalıştırmak"
- DeepSeek gibi şirketler modellerini ücretsiz olarak yayımlayarak pazarı sarsıyor. Bu modellerdeki önyargılar giderilebiliyor ve kişisel donanımda çalıştırılabiliyor
Kişisel yapay zeka bilgisayarı kurmanın zorlukları
- LLM'leri yerelde çalıştırmak için Nvidia'nın güçlü ekran kartları ya da Apple cihazları gerekiyor
- Bellek ne kadar fazlaysa o kadar büyük modeller çalıştırılabiliyor; bu da çıktı kalitesini ciddi biçimde artırıyor
- Nvidia GPU veya Apple cihazı gerekli (ikisi de pahalı)
- En az 24GB veya daha fazla VRAM ya da RAM gerekli
- Maliyeti düşürme yöntemi: ikinci el ekipman almak da bir seçenek ve bellek bant genişliği ile diğer özellikler de önemli
Düşük maliyetli yapay zeka bilgisayarı kurma süreci
- Hedef: yaklaşık 1700 avro bütçeyle yapay zeka modellerini yerelde çalıştırabilecek bir sistem kurmak
- Nihai yapılandırma:
- HP Z440 iş istasyonu (Xeon 12 çekirdek, 128GB RAM)
- 2 adet Nvidia Tesla P40 GPU (her biri 24GB VRAM, toplam 48GB)
- NZXT C850 Gold güç kaynağı
- Gainward GT 1030 (dummy GPU, ekran çıkışı için)
- Özel soğutma fanları ve güç adaptörü
Başlıca teknik sorunlar ve çözüm yolları
1. Sunucu tipi GPU'larda soğutma sorunu
- Tesla P40, sunucu ortamında kullanılmak üzere tasarlandığı için kendi fanına sahip değil
- Çözüm: 3D baskılı fan montajı ve zorunlu hava akışı kontrolü
- Fan hızını ayarlayarak sıcaklık ile gürültü arasında uygun denge kuruldu
2. HP iş istasyonunda uyumluluk sorunu
- HP, yalnızca kendi parçalarının kullanılmasına kısıtlama getiriyor
- Güç kaynağı ve kart bağlantısı için ek adaptör satın almak gerekiyor
3. BIOS önyükleme sorunu
- Tesla P40'ta ekran çıkış portu yok → önyükleme yapılamıyor
- Ucuz bir GT 1030 GPU eklenerek sorun çözüldü
Performans testi sonuçları
1. Çıkarım hızı (saniye başına token)
- Mistral-Small (24B model): 15.23
- Gemma2 (27B model): 13.90
- Qwen2.5-Coder (32B model): 10.75
- Llama3.3 (70B model): 5.35
- DeepSeek-R1 (70B model): 5.30
2. Güç tüketimi
- Bilgisayar boşta yaklaşık 80W tüketiyor
- 32B model yüklendiğinde 123W'a, çalıştırıldığında ise 241W'a çıkıyor
- 70B modelde yükleme sırasında 166W, çalışırken ise 293W'a kadar tüketim görülüyor
- Yani model boyutu büyüdükçe güç kullanımı artıyor ve model GPU'ya yüklenmiş durumdayken bile ciddi miktarda güç tüketildiği için, modeli yalnızca gerektiğinde yüklü tutma stratejisi önemli
Sonuç: Kişisel yapay zeka sunucusu kurmak, değerli bir tercih mi?
- Tamamen bağımsız bir yapay zeka sistemi kurma hedefi başarıldı
- Orta ölçekli modelleri nispeten düşük maliyetle yerelde çalıştırmak mümkün
- En yeni ve pahalı donanımlar olmadan da yapay zeka modelleri çalıştırılabildiği için tatmin edici
- Uzun vadeli yapay zeka teknolojisi değişimlerine hazırlanabilecek esnek bir sistem kuruldu
3 yorum
GPU olmadan, CPU ve SSD ile
r1çalıştıran bir kurulum da vardı ama bu biraz muğlak görünüyor.Aynı fiyatla (1.799 dolar) 48 GB birleşik bellek ve M4 Pro'lu bir Mac Mini alınabiliyor. Güç tüketimi düşük, sessiz ve muhtemelen bu kurulumdan daha yüksek performans sunar. Bu yazıyı keyifle okudum ama aynı durumda olsam Mac alırdım.
Demek istediğim buydu ama Hacker News yorumlarında zaten yazılmış.
Token maliyetleri giderek ucuzladığı için, fine-tuning yapmayacak ya da görüntü üretmeyeceksem buna gerçekten gerek var mı... diye düşünüyorum.
Hacker News yorumları
eBay'den ucuza K80 ve M40 alıp benzer bir şey yaptım. K80 sürücüleri tam bir eziyetti. 24GB VRAM'in 50 dolara gelmesi cazip, ama sürücü sorunları yüzünden önermem. HP workstation'da 1200 watt güç kaynağı vardı, bu yüzden GPU'ları takabildim. Bu GPU'ların kendi soğutması yok, ben de 3D yazıcıyla bir braket yapıp Noctua fan taktım ve 7/24 çalıştırdım. Beklediğimden çok daha iyi çalıştı ve sıcaklık 60 dereceyi hiç geçmedi. Bu yöntem CPU'ya da fayda sağladı. Fanlar kasanın önünde ve arkasında; öndeki içeri hava çekiyor, arkadaki dışarı atıyor. GPU'nun önünde de iki fan var. Workstation'ı 600 dolara refurbished aldım, GPU'lar 120 dolar tuttu, fanlar da yaklaşık 60 dolardı. STL dosyalarını henüz yüklemedim. Çünkü çok niş bir kullanım senaryosu.
Aynı fiyata (1799 dolar) 48GB birleşik bellekli ve m4 pro'lu bir Mac Mini alınabilir. Daha az güç tüketir, sessizdir ve muhtemelen bu kurulumdan daha iyi performans verir. Bu yazıyı keyifle okudum ama aynı durumda olsam Mac alırdım.
Yerel LLM'ler için bir makine toplamak istiyorum. MBP M3 Max üzerinde 128GB RAM ile modelleri test ettim ve özel bir yerel sunucu istiyorum. Proxmox denemek istiyorum. OpenWebUI ve LibreChat'i yerel bir "uygulama sunucusunda" çalıştırıyorum ve memnunum. Ama her daha güçlü donanım alma noktasında ROI'nin yetersiz kaldığını hissediyorum. Özellikle bu kadar hızlı değişen bir sektörde. Gizlilik göz ardı edilemeyecek bir unsur ama çevrimiçi inference maliyetini yenmek zor.
Yerelde barındırılan modeller sevimli ve eğlenceli şekilde şakalar yazıyor, kişisel işleri yapabiliyor. Ama API üzerinden erişilen modellerle kıyaslayınca geride kalıyorlar. deepseek-r1-678b'yi yerelde çalıştırabilmek güzel olurdu ama şu anda operasyonel maliyet sermaye maliyetinden daha yüksek.
Ara çözüm, ihtiyaç olduğunda GPU VPS kiralamak. Saatlik 2 dolara H100 kullanılabiliyor. Tamamen yerel ve offline kadar gizli değil ama SASS API'den daha iyi. 1-3 yıl içinde yerelde gerçekten faydalı bir şey çalıştırmanın maliyet açısından verimli hale gelmesini umuyorum.
Başkalarının da dediği gibi, aynı fiyata yüksek performanslı bir Mac kullanılabilir ve daha az güç harcar. Apple'ın kurumsal yapay zeka çip pazarına girip Nvidia ile rekabet etmemesini merak ediyorum. Apple kendi ASIC'lerini tasarlayabilir.
"Kendi yapay zekana sahip ol" evde hobi olarak harika, ama donanıma çok zaman ve para harcıyorsun. Mitko Vasilev'in dream machine'ine bakmanızı öneririm. Net bir kullanım senaryonuz yoksa küçük modeller ya da yavaş token üretim hızlarıyla yetinmeniz gerekir. Amaç yapay zeka sistemleri kurmak ve öğrenmekse, ihtiyaç oldukça GPU/TPU kiralamak ekonomik olarak daha mantıklı.
660 euroya 2 adet Nvidia Tesla P40 kart almak bana "bütçe dostu" gelmiyor. İnsanlar ucuz kartlarla "küçük" ya da "orta" modeller kullanabilir. Nvidia Geforce RTX 3060 kartlar ikinci el piyasasında 200-250 euroya bulunabiliyor. 48GB VRAM'e bütçe dostu demek fazla iddialı. Bu kurulum yarı profesyonel ya da profesyonel seviyede. Orta veya küçük modelleri kullanırken taviz vermek gerekiyor ama bütçe içinde kalırken taviz vermek de işin parçası.
Böyle bir yatırımdaki sorun, gelecek ay daha iyi bir model çıkacak olması. Belki daha fazla RAM gerekecek, belki de bugünün en iyi modellerinden daha az RAM isteyecek. Cloud altyapısı bu sorunu çözebiliyor. Çalıştırma başına maliyet daha yüksek ama kullanım aralıklıysa para tasarrufu sağlayabiliyor. HN kullanıcılarının bunu nasıl yönettiğini merak ediyorum.
SBC cluster kullanarak LLM inference çalıştırmayı deneyen var mı merak ediyorum. Örneğin Radxa ROCK 5C, 32GB bellek ve bir NPU ile geliyor, fiyatı da yaklaşık 300 euro. Modern LLM mimarileri hakkında çok bilgim yok ama katmanları birden çok düğüm arasında bölmek mümkün olmalı. Aktarılması gereken veri miktarı çok büyük değil. Modern Mac'ler veya Nvidia GPU'lar kadar hızlı olmaz ama kabul edilebilir performans ve ucuza bol bellek elde etmenin bir yolu olabilir. CPU + GPU inference'ın güncel durumunu da merak ediyorum. Prompt işleme hem hesaplama hem bellek açısından kısıtlı ama token üretimi daha çok bellek kısıtlı. İlk prompt işlemesi için birkaç katmanı GPU'ya yükleyip sonra CPU inference'a geçen araçlar var mı merak ediyorum. Son denememde bazı katmanları GPU'da, bazılarını CPU'da çalıştırabiliyordum. Her şeyi GPU'da çalıştırıp, bellek kısıtlı token üretiminde CPU'ya geçmek daha verimli olabilir gibi görünüyor.