7 puan yazan GN⁺ 2025-02-15 | 1 yorum | WhatsApp'ta paylaş
  • Fly.io, kendi donanımını kullanan bir public cloud inşa ediyor ve GPU tabanlı AI/ML inference sunmayı hedefleyerek Fly GPU Machines'i geliştirdi
  • Fly GPU Machines, Docker/OCI container'larını çalıştıran bir VM ve hızlı CUDA işlemleri için NVIDIA GPU'ları doğrudan eşleyecek şekilde tasarlandı
  • AI/ML'nin önemi beklenenden daha büyük çıktı, ancak GPU ürünlerinin pazarın ihtiyaçlarını doğru yansıtmadığı görülüyor

GPU benimsemenin teknik zorlukları

  • Fly GPU Machines, PCI passthrough desteği sağlamak için Firecracker yerine Intel Cloud Hypervisor kullanacak şekilde tasarlandı
  • NVIDIA ekosistemi microVM hypervisor'larını desteklemediği için GPU güvenliği ve performans optimizasyonu zorlaştı
  • GPU'lar güvenlik ekibinin kaygı duyduğu bir alandı; çift yönlü DMA (Direct Memory Access) aktarımı ve kullanıcı kontrollü işlemler mümkün olduğundan yüksek güvenlik riski oluşturuyordu
  • GPU ve GPU dışı iş yüklerini ayırmak için ayrı sunucu donanımı kullanıldı, bu da maliyet açısından verimsiz bir yapı yarattı
  • Güvenlik doğrulaması için Atredis ve Tetrel ile geniş kapsamlı güvenlik değerlendirmeleri yapıldı; bu süreç yüksek maliyetli ve zaman alıcıydı

Teknik deneme-yanılmalar

  • NVIDIA'nın önerdiği yaklaşımın (K8s cluster kurmak veya QEMU kullanmak) izlenmesi yerine, Fly Machines'in hızlı başlangıç süresini koruma girişiminde bulunuldu
  • NVIDIA'nın virtual GPU (vGPU) sürücüsünü Intel Cloud Hypervisor üzerinde kullanma denemesi başarısız oldu
  • NVIDIA'nın kapalı sürücü ekosistemi nedeniyle GPU'ları verimli kullanabilecek bir mimari kurmak zor oldu
  • GPU ile model weight yüklemeyi optimize etmek gerekiyordu, ancak bunu geliştirici deneyimini (DX) koruyarak çözmek zordu
  • Çok sayıda GPU satın alındı, ancak beklenen ölçüde sonuç alınamadı

GPU iş modelinin başarısız olma nedenleri

  • Genel geliştirici kitlesi GPU'dan çok LLM istiyor
    • AI/ML model optimizasyonu yerine OpenAI, Anthropic gibi şirketlerin LLM API'lerini kullanmak daha kolay ve performans farkı da çok büyük değil
    • Geliştiricilerin çoğu "saniye başına token (tokens per second)" cinsinden performansı önemsiyor; GPU'nun sunduğu milisaniye seviyesindeki optimizasyonlarla pek ilgilenmiyorlar
  • Büyük ölçekli AI işleri yapan şirketler muazzam GPU işlem gücü istiyor ve tek bir A100 GPU bile yetersiz kalıyor
    • Büyük AI laboratuvarları ve şirketleri SXM tabanlı H100 cluster'ları istiyor
  • Hafif ML işleri için küçük GPU pazarının var olma ihtimali var, ancak NVIDIA MIG'i tamamen sanallaştırılmış bir ortamda kullanmak zor
  • L40S GPU kullanışlı olsa da Fly.io'nun ana iş büyümesinin itici gücü haline gelemedi

Çıkarılan dersler

  • Başlangıçta (2022) çeşitli AI modellerinin ortaya çıkacağı öngörülüyordu, ancak bugün tablo OpenAI, Anthropic gibi az sayıda LLM modeline doğru daraldı
  • Fly.io, "10.000 geliştirici için özellik tasarlarız" ilkesini benimsiyor
    • GPU, yalnızca 10.001'inci geliştiriciye yönelik bir özellik olarak kaldığı için ana ürün haline gelmekte zorlandı
  • Startup'lar tekrar tekrar deneyerek öğrenir; GPU benimsemesi de başarısız bir bahislerden biriydi
  • GPU'ya yapılan yatırımın tamamı kayıp değil; bazı donanımlar daha sonra satılabilir
  • Fly Machines'in güvenliğini ve geliştirici deneyimini koruyarak GPU desteğini küçültme yönünde ayarlamalar yapılabilir
  • Fly.io'nun ilk ürünü olan JavaScript edge computing runtime'ı da piyasada talep görmemiş, sonunda container desteğine dönülmüştü; GPU da benzer şekilde pazarın ihtiyaçlarına uymayan bir tercih oldu
  • Startup'lar çoğu zaman yanlış varsayımlar üzerinden doğru cevaba ulaşır; bu GPU vakası da bu sürecin bir parçasıydı

1 yorum

 
GN⁺ 2025-02-15
Hacker News görüşleri
  • Geliştiriciler GPU veya AI/ML modellerinden çok LLM'ler istiyor. Sistem mühendisleri CUDA ve GPU'larla ilgileniyor, ancak yazılım geliştiricileri ilgilenmiyor

    • Yazılım geliştiriciler arasında büyük bir ayrım var. Bazıları kodun nerede çalıştığını ve nasıl işlediğini anlamak istiyor
    • Diğer grup ise işin sadece git push ile bitmesini istiyor; DNS ya da Linux gibi şeyleri anlamak istemiyor
    • fly.io gibi şirketler ikinci gruba cazip geliyor. GPU instance'ları ise birinci grup için cazip
    • Bu iki pazara farklı yaklaşmak gerekiyor. İkinci gruba bolca soyutlama ve otomasyon satılabilir
  • 2012'den beri Moore yasası fiilen sona erdi. Tek iş parçacıklı yürütme 2GHz'de durdu

    • 2012-2022 arasında buluta geçiş yaşanırken tek iş parçacığındaki durgunluk fark edilmedi
    • 2022'de veri merkezleri, daha fazla çekirdeğe sahip yeni nesil çipleri satın almaları gerekmediğini fark etti
    • LLM'ler %100 paralelleştirilebilir olduğu için sermayeye yeniden yatırım yapılabiliyor
    • 2024'te wafer-scale silicon ortaya çıkacak. Llama modelini A100'den 10 kat daha hızlı çalıştırabilir
    • Yazılımın bu performanstan yararlanmanın yollarını bulması gerekiyor
  • fly GPU makineleri çok hızlı ve güvenilir, ayrıca alternatiflere kıyasla pahalı değil

    • DX harika. Yeni komutlar öğrenmek gerekmiyor
    • Fiyatın daha düşük olmasını ve daha fazla bölgede kullanılabilmesini isterdim
  • 4090 satın aldım ama 24GB VRAM yeterli değil

    • 2 veya daha fazla 3090 ve özel bir güç kaynağı daha iyi olurdu
    • Performans ve kalite hâlâ yetersiz
  • Fly'ı seçen müşteriler, uzun süreli özel GPU sunucuları kullanan son kişiler olabilir

    • Sunucusuz çözümleri kullanma olasılıkları daha yüksek
  • GPU slice olmaması üzücü. Aylık $1,000 maliyeti gerekçelendirmek zor

    • AMD tüketici GPU'sunu Raspberry Pi'ye bağlamak ekonomik olabilir
  • "Yanıldık" demek, İngilizcedeki en asil ve en güzel ifadelerden biri

  • Fly.io, Cloudflare'ın Workers platformuna benzer geliştiricileri kendine çekiyor

    • PaaS ortamındaki geliştirme hızını istiyorlar
    • Cloudflare, GPU ile birlikte PaaS yaklaşımını koruyarak Workers AI'ı inşa ediyor
  • Runpod'da sunucusuz endpoint kurmak bir ay sürdü; pahalıydı ve güvenilir değildi

    • Google Cloud kredilerini kullanarak ürünü müşterilere sunabildim
    • GPU sağlayıcılarına yönelik talep var. Fly'ın bu pazara girip giremeyeceği kesin değil