- Fly.io, kendi donanımını kullanan bir public cloud inşa ediyor ve GPU tabanlı AI/ML inference sunmayı hedefleyerek Fly GPU Machines'i geliştirdi
- Fly GPU Machines, Docker/OCI container'larını çalıştıran bir VM ve hızlı CUDA işlemleri için NVIDIA GPU'ları doğrudan eşleyecek şekilde tasarlandı
- AI/ML'nin önemi beklenenden daha büyük çıktı, ancak GPU ürünlerinin pazarın ihtiyaçlarını doğru yansıtmadığı görülüyor
GPU benimsemenin teknik zorlukları
- Fly GPU Machines, PCI passthrough desteği sağlamak için Firecracker yerine Intel Cloud Hypervisor kullanacak şekilde tasarlandı
- NVIDIA ekosistemi microVM hypervisor'larını desteklemediği için GPU güvenliği ve performans optimizasyonu zorlaştı
- GPU'lar güvenlik ekibinin kaygı duyduğu bir alandı; çift yönlü DMA (Direct Memory Access) aktarımı ve kullanıcı kontrollü işlemler mümkün olduğundan yüksek güvenlik riski oluşturuyordu
- GPU ve GPU dışı iş yüklerini ayırmak için ayrı sunucu donanımı kullanıldı, bu da maliyet açısından verimsiz bir yapı yarattı
- Güvenlik doğrulaması için Atredis ve Tetrel ile geniş kapsamlı güvenlik değerlendirmeleri yapıldı; bu süreç yüksek maliyetli ve zaman alıcıydı
Teknik deneme-yanılmalar
- NVIDIA'nın önerdiği yaklaşımın (K8s cluster kurmak veya QEMU kullanmak) izlenmesi yerine, Fly Machines'in hızlı başlangıç süresini koruma girişiminde bulunuldu
- NVIDIA'nın virtual GPU (vGPU) sürücüsünü Intel Cloud Hypervisor üzerinde kullanma denemesi başarısız oldu
- NVIDIA'nın kapalı sürücü ekosistemi nedeniyle GPU'ları verimli kullanabilecek bir mimari kurmak zor oldu
- GPU ile model weight yüklemeyi optimize etmek gerekiyordu, ancak bunu geliştirici deneyimini (DX) koruyarak çözmek zordu
- Çok sayıda GPU satın alındı, ancak beklenen ölçüde sonuç alınamadı
GPU iş modelinin başarısız olma nedenleri
- Genel geliştirici kitlesi GPU'dan çok LLM istiyor
- AI/ML model optimizasyonu yerine OpenAI, Anthropic gibi şirketlerin LLM API'lerini kullanmak daha kolay ve performans farkı da çok büyük değil
- Geliştiricilerin çoğu "saniye başına token (tokens per second)" cinsinden performansı önemsiyor; GPU'nun sunduğu milisaniye seviyesindeki optimizasyonlarla pek ilgilenmiyorlar
- Büyük ölçekli AI işleri yapan şirketler muazzam GPU işlem gücü istiyor ve tek bir A100 GPU bile yetersiz kalıyor
- Büyük AI laboratuvarları ve şirketleri SXM tabanlı H100 cluster'ları istiyor
- Hafif ML işleri için küçük GPU pazarının var olma ihtimali var, ancak NVIDIA MIG'i tamamen sanallaştırılmış bir ortamda kullanmak zor
- L40S GPU kullanışlı olsa da Fly.io'nun ana iş büyümesinin itici gücü haline gelemedi
Çıkarılan dersler
- Başlangıçta (2022) çeşitli AI modellerinin ortaya çıkacağı öngörülüyordu, ancak bugün tablo OpenAI, Anthropic gibi az sayıda LLM modeline doğru daraldı
- Fly.io, "10.000 geliştirici için özellik tasarlarız" ilkesini benimsiyor
- GPU, yalnızca 10.001'inci geliştiriciye yönelik bir özellik olarak kaldığı için ana ürün haline gelmekte zorlandı
- Startup'lar tekrar tekrar deneyerek öğrenir; GPU benimsemesi de başarısız bir bahislerden biriydi
- GPU'ya yapılan yatırımın tamamı kayıp değil; bazı donanımlar daha sonra satılabilir
- Fly Machines'in güvenliğini ve geliştirici deneyimini koruyarak GPU desteğini küçültme yönünde ayarlamalar yapılabilir
- Fly.io'nun ilk ürünü olan JavaScript edge computing runtime'ı da piyasada talep görmemiş, sonunda container desteğine dönülmüştü; GPU da benzer şekilde pazarın ihtiyaçlarına uymayan bir tercih oldu
- Startup'lar çoğu zaman yanlış varsayımlar üzerinden doğru cevaba ulaşır; bu GPU vakası da bu sürecin bir parçasıydı
1 yorum
Hacker News görüşleri
Geliştiriciler GPU veya AI/ML modellerinden çok LLM'ler istiyor. Sistem mühendisleri CUDA ve GPU'larla ilgileniyor, ancak yazılım geliştiricileri ilgilenmiyor
git pushile bitmesini istiyor; DNS ya da Linux gibi şeyleri anlamak istemiyor2012'den beri Moore yasası fiilen sona erdi. Tek iş parçacıklı yürütme 2GHz'de durdu
fly GPU makineleri çok hızlı ve güvenilir, ayrıca alternatiflere kıyasla pahalı değil
4090 satın aldım ama 24GB VRAM yeterli değil
Fly'ı seçen müşteriler, uzun süreli özel GPU sunucuları kullanan son kişiler olabilir
GPU slice olmaması üzücü. Aylık $1,000 maliyeti gerekçelendirmek zor
"Yanıldık" demek, İngilizcedeki en asil ve en güzel ifadelerden biri
Fly.io, Cloudflare'ın Workers platformuna benzer geliştiricileri kendine çekiyor
Runpod'da sunucusuz endpoint kurmak bir ay sürdü; pahalıydı ve güvenilir değildi