GPU Hakkında Yanılmışız

(fly.io)

7 puan yazan GN⁺ 2025-02-15 | 1 yorum | WhatsApp'ta paylaş

Fly.io, kendi donanımını kullanan bir public cloud inşa ediyor ve GPU tabanlı AI/ML inference sunmayı hedefleyerek Fly GPU Machines'i geliştirdi
Fly GPU Machines, Docker/OCI container'larını çalıştıran bir VM ve hızlı CUDA işlemleri için NVIDIA GPU'ları doğrudan eşleyecek şekilde tasarlandı
AI/ML'nin önemi beklenenden daha büyük çıktı, ancak GPU ürünlerinin pazarın ihtiyaçlarını doğru yansıtmadığı görülüyor

GPU benimsemenin teknik zorlukları

Fly GPU Machines, PCI passthrough desteği sağlamak için Firecracker yerine Intel Cloud Hypervisor kullanacak şekilde tasarlandı
NVIDIA ekosistemi microVM hypervisor'larını desteklemediği için GPU güvenliği ve performans optimizasyonu zorlaştı
GPU'lar güvenlik ekibinin kaygı duyduğu bir alandı; çift yönlü DMA (Direct Memory Access) aktarımı ve kullanıcı kontrollü işlemler mümkün olduğundan yüksek güvenlik riski oluşturuyordu
GPU ve GPU dışı iş yüklerini ayırmak için ayrı sunucu donanımı kullanıldı, bu da maliyet açısından verimsiz bir yapı yarattı
Güvenlik doğrulaması için Atredis ve Tetrel ile geniş kapsamlı güvenlik değerlendirmeleri yapıldı; bu süreç yüksek maliyetli ve zaman alıcıydı

Teknik deneme-yanılmalar

NVIDIA'nın önerdiği yaklaşımın (K8s cluster kurmak veya QEMU kullanmak) izlenmesi yerine, Fly Machines'in hızlı başlangıç süresini koruma girişiminde bulunuldu
NVIDIA'nın virtual GPU (vGPU) sürücüsünü Intel Cloud Hypervisor üzerinde kullanma denemesi başarısız oldu
NVIDIA'nın kapalı sürücü ekosistemi nedeniyle GPU'ları verimli kullanabilecek bir mimari kurmak zor oldu
GPU ile model weight yüklemeyi optimize etmek gerekiyordu, ancak bunu geliştirici deneyimini (DX) koruyarak çözmek zordu
Çok sayıda GPU satın alındı, ancak beklenen ölçüde sonuç alınamadı

GPU iş modelinin başarısız olma nedenleri

Genel geliştirici kitlesi GPU'dan çok LLM istiyor
- AI/ML model optimizasyonu yerine OpenAI, Anthropic gibi şirketlerin LLM API'lerini kullanmak daha kolay ve performans farkı da çok büyük değil
- Geliştiricilerin çoğu "saniye başına token (tokens per second)" cinsinden performansı önemsiyor; GPU'nun sunduğu milisaniye seviyesindeki optimizasyonlarla pek ilgilenmiyorlar
Büyük ölçekli AI işleri yapan şirketler muazzam GPU işlem gücü istiyor ve tek bir A100 GPU bile yetersiz kalıyor
- Büyük AI laboratuvarları ve şirketleri SXM tabanlı H100 cluster'ları istiyor
Hafif ML işleri için küçük GPU pazarının var olma ihtimali var, ancak NVIDIA MIG'i tamamen sanallaştırılmış bir ortamda kullanmak zor
L40S GPU kullanışlı olsa da Fly.io'nun ana iş büyümesinin itici gücü haline gelemedi

Çıkarılan dersler

Başlangıçta (2022) çeşitli AI modellerinin ortaya çıkacağı öngörülüyordu, ancak bugün tablo OpenAI, Anthropic gibi az sayıda LLM modeline doğru daraldı
Fly.io, "10.000 geliştirici için özellik tasarlarız" ilkesini benimsiyor
- GPU, yalnızca 10.001'inci geliştiriciye yönelik bir özellik olarak kaldığı için ana ürün haline gelmekte zorlandı
Startup'lar tekrar tekrar deneyerek öğrenir; GPU benimsemesi de başarısız bir bahislerden biriydi
GPU'ya yapılan yatırımın tamamı kayıp değil; bazı donanımlar daha sonra satılabilir
Fly Machines'in güvenliğini ve geliştirici deneyimini koruyarak GPU desteğini küçültme yönünde ayarlamalar yapılabilir
Fly.io'nun ilk ürünü olan JavaScript edge computing runtime'ı da piyasada talep görmemiş, sonunda container desteğine dönülmüştü; GPU da benzer şekilde pazarın ihtiyaçlarına uymayan bir tercih oldu
Startup'lar çoğu zaman yanlış varsayımlar üzerinden doğru cevaba ulaşır; bu GPU vakası da bu sürecin bir parçasıydı

1 yorum

GN⁺ 2025-02-15

Hacker News görüşleri

Geliştiriciler GPU veya AI/ML modellerinden çok LLM'ler istiyor. Sistem mühendisleri CUDA ve GPU'larla ilgileniyor, ancak yazılım geliştiricileri ilgilenmiyor
- Yazılım geliştiriciler arasında büyük bir ayrım var. Bazıları kodun nerede çalıştığını ve nasıl işlediğini anlamak istiyor
- Diğer grup ise işin sadece git push ile bitmesini istiyor; DNS ya da Linux gibi şeyleri anlamak istemiyor
- fly.io gibi şirketler ikinci gruba cazip geliyor. GPU instance'ları ise birinci grup için cazip
- Bu iki pazara farklı yaklaşmak gerekiyor. İkinci gruba bolca soyutlama ve otomasyon satılabilir
2012'den beri Moore yasası fiilen sona erdi. Tek iş parçacıklı yürütme 2GHz'de durdu
- 2012-2022 arasında buluta geçiş yaşanırken tek iş parçacığındaki durgunluk fark edilmedi
- 2022'de veri merkezleri, daha fazla çekirdeğe sahip yeni nesil çipleri satın almaları gerekmediğini fark etti
- LLM'ler %100 paralelleştirilebilir olduğu için sermayeye yeniden yatırım yapılabiliyor
- 2024'te wafer-scale silicon ortaya çıkacak. Llama modelini A100'den 10 kat daha hızlı çalıştırabilir
- Yazılımın bu performanstan yararlanmanın yollarını bulması gerekiyor
fly GPU makineleri çok hızlı ve güvenilir, ayrıca alternatiflere kıyasla pahalı değil
- DX harika. Yeni komutlar öğrenmek gerekmiyor
- Fiyatın daha düşük olmasını ve daha fazla bölgede kullanılabilmesini isterdim
4090 satın aldım ama 24GB VRAM yeterli değil
- 2 veya daha fazla 3090 ve özel bir güç kaynağı daha iyi olurdu
- Performans ve kalite hâlâ yetersiz
Fly'ı seçen müşteriler, uzun süreli özel GPU sunucuları kullanan son kişiler olabilir
- Sunucusuz çözümleri kullanma olasılıkları daha yüksek
GPU slice olmaması üzücü. Aylık $1,000 maliyeti gerekçelendirmek zor
- AMD tüketici GPU'sunu Raspberry Pi'ye bağlamak ekonomik olabilir
"Yanıldık" demek, İngilizcedeki en asil ve en güzel ifadelerden biri
Fly.io, Cloudflare'ın Workers platformuna benzer geliştiricileri kendine çekiyor
- PaaS ortamındaki geliştirme hızını istiyorlar
- Cloudflare, GPU ile birlikte PaaS yaklaşımını koruyarak Workers AI'ı inşa ediyor
Runpod'da sunucusuz endpoint kurmak bir ay sürdü; pahalıydı ve güvenilir değildi
- Google Cloud kredilerini kullanarak ürünü müşterilere sunabildim
- GPU sağlayıcılarına yönelik talep var. Fly'ın bu pazara girip giremeyeceği kesin değil

GPU Hakkında Yanılmışız

GPU benimsemenin teknik zorlukları

Teknik deneme-yanılmalar

GPU iş modelinin başarısız olma nedenleri

Çıkarılan dersler

İlgili okumalar

1 yorum

Hacker News görüşleri