- Cloud Run'da GPU artık resmi olarak destekleniyor (GA); bu da yapay zeka iş yüklerini çalıştırmayı çok daha kolay hale getiriyor
- Cloud Run jobs içinde de GPU kullanımı mümkün hale geliyor ve toplu işleme ile asenkron işler için yeni olanaklar sunuyor
- Görüntü işleme, doğal dil analizi, medya dönüştürme gibi büyük ölçekli toplu işler için optimize edilmiş bir ortam sağlıyor
Cloud Run GPU'nun resmi sunumu ve başlıca değişiklikler
Cloud Run jobs'ta NVIDIA GPU desteği başladı
- Cloud Run'ın GPU özelliği daha önce gerçek zamanlı çıkarım gibi istek tabanlı servislerde kullanılıyordu
- Artık Cloud Run jobs için de GPU desteği resmi hale geldi ve yeni kullanım senaryolarını mümkün kılıyor
- Model fine-tuning: Önceden eğitilmiş modeller, belirli veri kümelerine göre kolayca yeniden eğitilebiliyor
- Toplu yapay zeka çıkarımı: Görüntü analizi, doğal dil işleme veya öneri üretimi gibi büyük ölçekli işler için uygun
- Yüksek hacimli medya işleme: Video transcoding, küçük resim oluşturma, görüntü dönüştürme gibi işler GPU ile verimli şekilde işlenebiliyor
- GPU donanımlı Cloud Run job'ları, iş tamamlandıktan sonra kaynakları otomatik olarak azaltarak yönetim yükünü en aza indiriyor
İlk benimseyen şirketlerin gerçek deneyimleri
- vivo: Cloud Run, yapay zeka uygulamalarının yinelemeli geliştirme hızını artırdı ve işletim ile bakım maliyetlerinde büyük tasarruf sağladı. GPU'nun otomatik ölçeklendirme özelliği, yurt dışı pazarlarda yapay zeka uygulama verimliliğini çarpıcı biçimde büyüttü
- Wayfair: L4 GPU, güçlü performansı makul fiyat seviyesiyle birlikte sunuyor ve Cloud Run'ın hızlı otomatik ölçeklendirmesiyle birleştiğinde maliyetleri yaklaşık %85 azalttı
- Midjourney: Cloud Run GPU, büyük ölçekli görüntü işleme için son derece faydalı; sade ve anlaşılır geliştirme ortamı sayesinde altyapı yönetimi yükü olmadan inovasyona odaklanmayı sağlıyor. GPU ölçeklenebilirliği, milyonlarca görüntünün analiz ve işlenmesini kolaylaştırıyor
Başlangıç rehberi ve kaynaklar
Sonuç
- Cloud Run'ın GPU desteğinin resmi olarak sunulması, yapay zeka, büyük ölçekli toplu işleme, medya dönüştürme gibi çeşitli uzmanlaşmış iş yükleri için çığır açan bir ölçeklenme potansiyeli sağlıyor
- Maliyet, operasyonel verimlilik ve ölçeklenebilirlik gibi çeşitli avantajlar gerçek şirketler tarafından doğrulanmış durumda
- Basit yapılandırma ve çeşitli öğrenme kaynakları sayesinde herkes bulut tabanlı GPU iş yüklerine kolayca başlayabilir
1 yorum
Hacker News görüşleri
Google Cloud Run'ı gerçekten çok seviyorum ve en iyi seçenek olarak güçlü biçimde tavsiye eden taraftayım. Ancak Cloud Run GPU'yu tavsiye etmek zor. Instance tabanlı ücretlendirme verimsiz ve GPU seçenekleri de sınırlı. Modeli GPU belleğine yükleyip çıkarmak performans kaybına yol açtığından, sunucusuz ortamlar için yavaş kalma sınırı var. Gerçek maliyeti karşılaştırınca, günde %30 kullanımda bile VM+GPU kombinasyonunun daha ekonomik olduğu hesabı çıkıyor. (ilgili blog bağlantısı)
Google başkan yardımcısı. Geri bildirim için teşekkürler. Mevcut fiyat yapısında, hizmet kapasitesinin neredeyse sabit gerektiği durumlarda VM'leri önceden provision etmek daha maliyet verimli; buna genel olarak katılıyorum. Öte yandan Cloud Run GPU'nun, aniden tepe talep gören yeni ürünler veya yapay zeka uygulamaları gibi; minimum boşta maliyet, çok hızlı başlangıç ve seyrek, düzensiz trafik isteyen ortamlar için optimize edildiğini düşünüyorum
Cloud Run'ın gerçekten harika bir hizmet olduğu izlenimindeyim. AWS'nin ECS/Fargate'ine göre çok daha kolay yönetildiğini deneyimledim
GCP'de VM'lere güvenip kullanamamak en büyük sorun. Bu mesele tüm büyük bulutlarda var. AWS'de 80GB GPU'yu uzun süreli rezervasyon olmadan bulmak mümkün değil ve fiyatlar saçma seviyede. GCP de benzer şekilde pahalı ve erişilebilirliği düşük. Büyük şirketler startup dostu olduklarını söylüyor ama gerçek deneyim öyle değil. runpod, nebius, lambda gibi neo-cloud sağlayıcıları çok daha iyi hizmet veriyor. Büyük bulutlar sabit talebe fazla alışmış durumda ve startup'ları önemsemeyerek uzun vadeli büyümelerine zarar verecek bir hata yapıyorlar diye düşünüyorum
Cloud Run'da bunun tersine bir deneyim yaşadım. Sebebi belirsiz scale-out/restart sorunları nedeniyle sonunda ücretli destek hizmeti alıp sordum ama cevap bulamadım. Sonunda kendi yönettiğim VM'lere geçtim. O zamandan beri düzelip düzelmediğini bilmiyorum
Cloud Run'ın en iyisi olduğu görüşüne karşı, rakamları bizzat görmek isterim. Oyuncak projeler için iyi ama gerçek işte maliyet çukuru. Bir projede autoscaling sorunları sürekli yaşandı;
scale to zeroteoride hoş görünüyor ama pratikte ısınma sürecinde tek bir istek için birden fazla container açılıp uzun süre ayakta kaldığı çok oluyor. Görünür CPU ya da ağ kullanımı olmayan, sebebi belirsiz container'lar için de ücret yazılmaya devam ediyor. Java veya Python projelerinde cold start ciddi derecede yavaş; Go/C++/Rust tarafında deneyimim yok, o yüzden emin değilimBüyük bulutların karmaşıklığına ek olarak, sınırsız YOLO (rastgele/ölçüsüz) faturalandırma yüzünden bir gecede kredi kartının boşalması riski de var endişesi. Bu yüzden Modal ve vast.ai ile devam edeceğim sonucu çıkıyor
Bireysel/küçük proje kullanıcıları açısından maliyet üst sınırı (CAP) sunmamak GCP'nin büyük zayıflığı. Cloud Run'da concurrency sınırı ve instance sayısı sınırı üzerinden en azından dolaylı şekilde maliyeti kısıtlamak mümkün. Yine de gerçek bir CAP sayılmaz
AWS'de instance kapatmayı unuttuğum için yüksek ücret ödediğim olmuştu; bu yüzden Cloud Run'ın scale to zero ve saniye bazlı ücretlendirmesi büyük avantaj. Başlangıç gerçekten çok hızlıysa iş yüküm için mükemmel olabilir diye düşünüyorum
Cloud Run'da maksimum instance sayısı ayarıyla azami maliyet dolaylı olarak sınırlandırılabiliyor. App Engine dönemindeki "hard cap" ise hizmet gerçekten ilgi gördüğü anda (ör. HN'ye çıkınca) tamamen durması gibi bir yan etki yaratıyordu. Bana göre bildirim tabanlı bütçe yönetimi daha iyi bir seçenek
Datadog'u production'da bırakmamın nedeni de tam olarak buydu. Platformların, kullanıcıların yanlışlıkla aşırı fatura ödemesi sonucu oluşan kötü izlenimin buna değip değmeyeceği şüpheli
Modal veya vast.ai'nin YOLO faturalandırmayı nasıl engellediği net değil. Ön ödemeli mi çalışıyorlar, yoksa doğrudan bir CAP mi sağlıyorlar, merak ediyorum
Fiyatları doğrudan karşılaştırınca belirgin bir avantaj hissettirmiyor gibi. Google, runpod.io ve vast.ai'nin saatlik ücretlerini somut şekilde tablolaştırmış:
Google fiyatları sanki aylık 24/7 çalışma varsayımıyla verilmiş gibi duruyor; runpod.io ve vast.ai ise saniye bazlı ücretlendiriyor. Google GPU'nun spot fiyatını bulamadım
"Compute Instance oluştur" ekranında spot fiyatı doğrudan görebilirsiniz. Örneğin GCP'de 1xH100 spot saatlik $2.55 ve uzun kullanımda ek indirimler geliyor. Gerçek kurumsal müşteriler bu fiyatlar üzerinden ayrıca indirim de alabiliyor. Bu liste fiyatlarını esasen bireysel kullanıcılar ödüyor
vast.ai fiyatlarının kaynağını merak ediyorum. Ana sayfaya göre 8xH200 seçeneği çoğunlukla saatlik $21.65 ve üzeri görünüyor
Google fiyatlandırmasının 24/7 varsayımıyla yapıldığını düşündüren dayanak ne, merak ettim. Cloud Run resmi fiyatlandırma sayfasına göre yalnızca gerçek kullanım 100 milisaniye hassasiyetinde faturalandırılıyor; otomatik ölçeklendirme tarafında da boşta instance'ların 15 dakika sonra otomatik küçültüldüğü yazıyor (Cloud Run PM)
Cloud Run GPU'da yalnızca 1xL4 seçilebildiği doğru değil mi?
Google da saniye bazlı ücretlendiriyorsa, 20 dakikanın altındaki kullanımlarda aslında Google avantajlı olabilir görüşü var
Ben Modal'ın büyük bir hayranıyım ve uzun süredir serverless scale-to-zero GPU kullanıyorum. Gerektiğinde büyük ölçekte kolayca scale up yapılabiliyor ve aynı zamanda geliştirme yükü belirgin biçimde daha düşük. Büyük sağlayıcıların bu pazara girmesi ilginç. Modal'a geçme nedenim de mevcut büyük bulutların böyle bir özellik sunmamasıydı (AWS Lambda GPU desteklemiyor). Şimdi tüm büyük bulutlar bu yöne mi gidiyor, merak ediyorum
Modal gerçekten harika. Kendi yayımladıkları LP (lineer programlama) solver derin teknik yazısı da çok etkileyiciydi. Python geliştiricileri için Coiled'i de öneririm. Modal kadar hızlı değil ama GPU VM'leri kolayca ayağa kaldırıyor ve her şey kendi bulut hesabınızda çalışıyor. CUDA driver/Python kütüphanelerini senkron tutma gibi kullanışlı paket yönetimi de sağlıyor. (Not: Coiled'de çalışıyorum ama samimiyetle tavsiye ediyorum)
HIPAA uyumlu iş yüklerini desteklemesi de beklenmedik bir artı
10GB üzeri modellerde Modal'ın cold start hızı en hızlısı
Modal'ın dokümantasyonunun da çok iyi hazırlanmış olması etkileyici
Cloud Run'ın diğer hizmetlerden daha iyi olmasının en büyük nedeni autoscaling ve scale-to-zero. Gerçek kullanım olmadığında ücret fiilen 0 oluyor; ayrıca maksimum instance sayısı belirlenerek en yüksek maliyet de güvenli biçimde yönetilebiliyor. Ancak bunu CPU sürümü için söylüyorum; o haliyle çok güvenilir ve kullanımı çok kolay
Avrupa'daki küçük GPU bulut sağlayıcısı DataCrunch (ilişkim yok), RunPod vb.'ye kıyasla Nvidia GPU VM'lerini daha ucuza sunuyor
1x A100 80GB 1.37 euro/saat
1x H100 80GB 2.19 euro/saat
lambda.ai'de 1x H100 80GB VM saatlik $2.49'a sunuluyor. Kurla bakınca tam 2.19 euro ediyor. Bu tesadüf mü, yoksa sektörün görünmeyen bir üst sınırı mı var, merak ediyorum
Vast.ai'de P2P modelle 2x A100'ü $0.8/saat fiyata kullanabiliyorsunuz (yani A100 başına $0.4/saat). Sadece memnun bir kullanıcıyım. Ağ hızına dikkat etmek lazım. Bazı host'lar bant genişliğini paylaşıyor, bu yüzden gerçek hız ilan edilenden farklı olabiliyor. Büyük veri taşırken dikkat gerekli
Cloud Run/GKE'den sorumlu VP/GM. Bununla ilgili soruları almaya hazırım. Yoğun ilgi için teşekkürler
Cloud Run'ı seviyorum ve yeni özellik de ilginç görünüyor. Ama can sıkıcı tarafı, self-hosted GitHub runner çalıştırmak istediğimde root yetkisi meselesi yüzünden desteklenmemesiydi. Ayrıca yeni gelen worker pool özelliğinde de gerçek kullanımda scaler'ı kendiniz yazmanız gerekiyor; yani aslında yerleşik bir özellik değil
vertex.ai üzerinde test için modelleri sürekli açık bırakıp kapatmayı unutarak $1000 fatura yedikten sonra, bu kez Cloud Run benim go-to hizmetim olacak gibi. Yıllardır Cloud Run'da production mikroservisler ve hobi projeleri çalıştırıyorum; hem sadeliğinden hem de maliyet verimliliğinden memnunum
Doğru anladıysam, Hugging Face gibi kaynaklardan alınan rastgele bir modeli ayağa kaldıran bir API oluşturmak mümkün ve token başına ücret yok ama kullanım yükü düşükse oldukça ucuza işletilebiliyor. Gerçekten böyleyse büyük yenilik olur. Mevcut sağlayıcıların çoğu özel model çalıştırmak için aylık abonelik istiyor
Temelde doğru. Ancak cold start çok yavaş olabilir (30~60 saniye). Bu, scale to zero'nun dezavantajı. Ayrıca container depolama gibi birkaç küçük aylık ücret de var, bunu da hesaba katmak gerekir
Runpod, vast, coreweave, replicate gibi serverless GPU inference destekleyen çeşitli alternatifler de var