Düşük bütçeyle kişisel bir yapay zeka bilgisayarı kurmak

(ewintr.nl)

13 puan yazan GN⁺ 2025-02-12 | 3 yorum | WhatsApp'ta paylaş

Yapay zeka araçlarının geliştirilmesine çok para yatırılıyor ve birçok hizmet zarar etmeyi göze alarak çalıştırılıyor
Büyük teknoloji şirketlerinin hizmetleri pazarı ele geçirmek için ücretsiz ya da ucuz sunuluyor ve sonunda "reklamlar ve siyasi çıkarlar nedeniyle AI modellerinin manipüle edilme olasılığı yüksek"
Çözüm, "kendi yapay zeka modelini bizzat çalıştırmak"
- DeepSeek gibi şirketler modellerini ücretsiz olarak yayımlayarak pazarı sarsıyor. Bu modellerdeki önyargılar giderilebiliyor ve kişisel donanımda çalıştırılabiliyor

Kişisel yapay zeka bilgisayarı kurmanın zorlukları

LLM'leri yerelde çalıştırmak için Nvidia'nın güçlü ekran kartları ya da Apple cihazları gerekiyor
Bellek ne kadar fazlaysa o kadar büyük modeller çalıştırılabiliyor; bu da çıktı kalitesini ciddi biçimde artırıyor
- Nvidia GPU veya Apple cihazı gerekli (ikisi de pahalı)
- En az 24GB veya daha fazla VRAM ya da RAM gerekli
Maliyeti düşürme yöntemi: ikinci el ekipman almak da bir seçenek ve bellek bant genişliği ile diğer özellikler de önemli

Düşük maliyetli yapay zeka bilgisayarı kurma süreci

Hedef: yaklaşık 1700 avro bütçeyle yapay zeka modellerini yerelde çalıştırabilecek bir sistem kurmak
Nihai yapılandırma:
- HP Z440 iş istasyonu (Xeon 12 çekirdek, 128GB RAM)
- 2 adet Nvidia Tesla P40 GPU (her biri 24GB VRAM, toplam 48GB)
- NZXT C850 Gold güç kaynağı
- Gainward GT 1030 (dummy GPU, ekran çıkışı için)
- Özel soğutma fanları ve güç adaptörü

Başlıca teknik sorunlar ve çözüm yolları

1. Sunucu tipi GPU'larda soğutma sorunu

Tesla P40, sunucu ortamında kullanılmak üzere tasarlandığı için kendi fanına sahip değil
Çözüm: 3D baskılı fan montajı ve zorunlu hava akışı kontrolü
Fan hızını ayarlayarak sıcaklık ile gürültü arasında uygun denge kuruldu

2. HP iş istasyonunda uyumluluk sorunu

HP, yalnızca kendi parçalarının kullanılmasına kısıtlama getiriyor
Güç kaynağı ve kart bağlantısı için ek adaptör satın almak gerekiyor

3. BIOS önyükleme sorunu

Tesla P40'ta ekran çıkış portu yok → önyükleme yapılamıyor
Ucuz bir GT 1030 GPU eklenerek sorun çözüldü

Performans testi sonuçları

1. Çıkarım hızı (saniye başına token)

Mistral-Small (24B model): 15.23
Gemma2 (27B model): 13.90
Qwen2.5-Coder (32B model): 10.75
Llama3.3 (70B model): 5.35
DeepSeek-R1 (70B model): 5.30

2. Güç tüketimi

Bilgisayar boşta yaklaşık 80W tüketiyor
32B model yüklendiğinde 123W'a, çalıştırıldığında ise 241W'a çıkıyor
70B modelde yükleme sırasında 166W, çalışırken ise 293W'a kadar tüketim görülüyor
Yani model boyutu büyüdükçe güç kullanımı artıyor ve model GPU'ya yüklenmiş durumdayken bile ciddi miktarda güç tüketildiği için, modeli yalnızca gerektiğinde yüklü tutma stratejisi önemli

Sonuç: Kişisel yapay zeka sunucusu kurmak, değerli bir tercih mi?

Tamamen bağımsız bir yapay zeka sistemi kurma hedefi başarıldı
Orta ölçekli modelleri nispeten düşük maliyetle yerelde çalıştırmak mümkün
En yeni ve pahalı donanımlar olmadan da yapay zeka modelleri çalıştırılabildiği için tatmin edici
Uzun vadeli yapay zeka teknolojisi değişimlerine hazırlanabilecek esnek bir sistem kuruldu

3 yorum

crawler 2025-02-13

GPU olmadan, CPU ve SSD ile r1 çalıştıran bir kurulum da vardı ama bu biraz muğlak görünüyor.

dhy0613 2025-02-13

Aynı fiyatla (1.799 dolar) 48 GB birleşik bellek ve M4 Pro'lu bir Mac Mini alınabiliyor. Güç tüketimi düşük, sessiz ve muhtemelen bu kurulumdan daha yüksek performans sunar. Bu yazıyı keyifle okudum ama aynı durumda olsam Mac alırdım.

Demek istediğim buydu ama Hacker News yorumlarında zaten yazılmış.

Token maliyetleri giderek ucuzladığı için, fine-tuning yapmayacak ya da görüntü üretmeyeceksem buna gerçekten gerek var mı... diye düşünüyorum.

GN⁺ 2025-02-12

Hacker News yorumları

eBay'den ucuza K80 ve M40 alıp benzer bir şey yaptım. K80 sürücüleri tam bir eziyetti. 24GB VRAM'in 50 dolara gelmesi cazip, ama sürücü sorunları yüzünden önermem. HP workstation'da 1200 watt güç kaynağı vardı, bu yüzden GPU'ları takabildim. Bu GPU'ların kendi soğutması yok, ben de 3D yazıcıyla bir braket yapıp Noctua fan taktım ve 7/24 çalıştırdım. Beklediğimden çok daha iyi çalıştı ve sıcaklık 60 dereceyi hiç geçmedi. Bu yöntem CPU'ya da fayda sağladı. Fanlar kasanın önünde ve arkasında; öndeki içeri hava çekiyor, arkadaki dışarı atıyor. GPU'nun önünde de iki fan var. Workstation'ı 600 dolara refurbished aldım, GPU'lar 120 dolar tuttu, fanlar da yaklaşık 60 dolardı. STL dosyalarını henüz yüklemedim. Çünkü çok niş bir kullanım senaryosu.
Aynı fiyata (1799 dolar) 48GB birleşik bellekli ve m4 pro'lu bir Mac Mini alınabilir. Daha az güç tüketir, sessizdir ve muhtemelen bu kurulumdan daha iyi performans verir. Bu yazıyı keyifle okudum ama aynı durumda olsam Mac alırdım.
Yerel LLM'ler için bir makine toplamak istiyorum. MBP M3 Max üzerinde 128GB RAM ile modelleri test ettim ve özel bir yerel sunucu istiyorum. Proxmox denemek istiyorum. OpenWebUI ve LibreChat'i yerel bir "uygulama sunucusunda" çalıştırıyorum ve memnunum. Ama her daha güçlü donanım alma noktasında ROI'nin yetersiz kaldığını hissediyorum. Özellikle bu kadar hızlı değişen bir sektörde. Gizlilik göz ardı edilemeyecek bir unsur ama çevrimiçi inference maliyetini yenmek zor.
Yerelde barındırılan modeller sevimli ve eğlenceli şekilde şakalar yazıyor, kişisel işleri yapabiliyor. Ama API üzerinden erişilen modellerle kıyaslayınca geride kalıyorlar. deepseek-r1-678b'yi yerelde çalıştırabilmek güzel olurdu ama şu anda operasyonel maliyet sermaye maliyetinden daha yüksek.
Ara çözüm, ihtiyaç olduğunda GPU VPS kiralamak. Saatlik 2 dolara H100 kullanılabiliyor. Tamamen yerel ve offline kadar gizli değil ama SASS API'den daha iyi. 1-3 yıl içinde yerelde gerçekten faydalı bir şey çalıştırmanın maliyet açısından verimli hale gelmesini umuyorum.
Başkalarının da dediği gibi, aynı fiyata yüksek performanslı bir Mac kullanılabilir ve daha az güç harcar. Apple'ın kurumsal yapay zeka çip pazarına girip Nvidia ile rekabet etmemesini merak ediyorum. Apple kendi ASIC'lerini tasarlayabilir.
"Kendi yapay zekana sahip ol" evde hobi olarak harika, ama donanıma çok zaman ve para harcıyorsun. Mitko Vasilev'in dream machine'ine bakmanızı öneririm. Net bir kullanım senaryonuz yoksa küçük modeller ya da yavaş token üretim hızlarıyla yetinmeniz gerekir. Amaç yapay zeka sistemleri kurmak ve öğrenmekse, ihtiyaç oldukça GPU/TPU kiralamak ekonomik olarak daha mantıklı.
660 euroya 2 adet Nvidia Tesla P40 kart almak bana "bütçe dostu" gelmiyor. İnsanlar ucuz kartlarla "küçük" ya da "orta" modeller kullanabilir. Nvidia Geforce RTX 3060 kartlar ikinci el piyasasında 200-250 euroya bulunabiliyor. 48GB VRAM'e bütçe dostu demek fazla iddialı. Bu kurulum yarı profesyonel ya da profesyonel seviyede. Orta veya küçük modelleri kullanırken taviz vermek gerekiyor ama bütçe içinde kalırken taviz vermek de işin parçası.
Böyle bir yatırımdaki sorun, gelecek ay daha iyi bir model çıkacak olması. Belki daha fazla RAM gerekecek, belki de bugünün en iyi modellerinden daha az RAM isteyecek. Cloud altyapısı bu sorunu çözebiliyor. Çalıştırma başına maliyet daha yüksek ama kullanım aralıklıysa para tasarrufu sağlayabiliyor. HN kullanıcılarının bunu nasıl yönettiğini merak ediyorum.
SBC cluster kullanarak LLM inference çalıştırmayı deneyen var mı merak ediyorum. Örneğin Radxa ROCK 5C, 32GB bellek ve bir NPU ile geliyor, fiyatı da yaklaşık 300 euro. Modern LLM mimarileri hakkında çok bilgim yok ama katmanları birden çok düğüm arasında bölmek mümkün olmalı. Aktarılması gereken veri miktarı çok büyük değil. Modern Mac'ler veya Nvidia GPU'lar kadar hızlı olmaz ama kabul edilebilir performans ve ucuza bol bellek elde etmenin bir yolu olabilir. CPU + GPU inference'ın güncel durumunu da merak ediyorum. Prompt işleme hem hesaplama hem bellek açısından kısıtlı ama token üretimi daha çok bellek kısıtlı. İlk prompt işlemesi için birkaç katmanı GPU'ya yükleyip sonra CPU inference'a geçen araçlar var mı merak ediyorum. Son denememde bazı katmanları GPU'da, bazılarını CPU'da çalıştırabiliyordum. Her şeyi GPU'da çalıştırıp, bellek kısıtlı token üretiminde CPU'ya geçmek daha verimli olabilir gibi görünüyor.