Cloud Run GPU artık resmi olarak destekleniyor - herkes için yapay zeka iş yüklerini çalıştırmayı kolaylaştırıyor

(cloud.google.com)

1 puan yazan GN⁺ 2025-06-05 | 1 yorum | WhatsApp'ta paylaş

Cloud Run'da GPU artık resmi olarak destekleniyor (GA); bu da yapay zeka iş yüklerini çalıştırmayı çok daha kolay hale getiriyor
Cloud Run jobs içinde de GPU kullanımı mümkün hale geliyor ve toplu işleme ile asenkron işler için yeni olanaklar sunuyor
Görüntü işleme, doğal dil analizi, medya dönüştürme gibi büyük ölçekli toplu işler için optimize edilmiş bir ortam sağlıyor

Cloud Run GPU'nun resmi sunumu ve başlıca değişiklikler

Cloud Run jobs'ta NVIDIA GPU desteği başladı

Cloud Run'ın GPU özelliği daha önce gerçek zamanlı çıkarım gibi istek tabanlı servislerde kullanılıyordu
Artık Cloud Run jobs için de GPU desteği resmi hale geldi ve yeni kullanım senaryolarını mümkün kılıyor
- Model fine-tuning: Önceden eğitilmiş modeller, belirli veri kümelerine göre kolayca yeniden eğitilebiliyor
- Toplu yapay zeka çıkarımı: Görüntü analizi, doğal dil işleme veya öneri üretimi gibi büyük ölçekli işler için uygun
- Yüksek hacimli medya işleme: Video transcoding, küçük resim oluşturma, görüntü dönüştürme gibi işler GPU ile verimli şekilde işlenebiliyor
GPU donanımlı Cloud Run job'ları, iş tamamlandıktan sonra kaynakları otomatik olarak azaltarak yönetim yükünü en aza indiriyor

İlk benimseyen şirketlerin gerçek deneyimleri

vivo: Cloud Run, yapay zeka uygulamalarının yinelemeli geliştirme hızını artırdı ve işletim ile bakım maliyetlerinde büyük tasarruf sağladı. GPU'nun otomatik ölçeklendirme özelliği, yurt dışı pazarlarda yapay zeka uygulama verimliliğini çarpıcı biçimde büyüttü
Wayfair: L4 GPU, güçlü performansı makul fiyat seviyesiyle birlikte sunuyor ve Cloud Run'ın hızlı otomatik ölçeklendirmesiyle birleştiğinde maliyetleri yaklaşık %85 azalttı
Midjourney: Cloud Run GPU, büyük ölçekli görüntü işleme için son derece faydalı; sade ve anlaşılır geliştirme ortamı sayesinde altyapı yönetimi yükü olmadan inovasyona odaklanmayı sağlıyor. GPU ölçeklenebilirliği, milyonlarca görüntünün analiz ve işlenmesini kolaylaştırıyor

Başlangıç rehberi ve kaynaklar

Cloud Run'daki GPU desteği, yeni nesil uygulama geliştirme için uygun bir ortam sunuyor
Resmi dokümantasyon, hızlı başlangıç kılavuzu, optimizasyon için en iyi uygulamalar ile herkes kolayca başlayabilir
GPU özellikli Cloud Run job'ları için private preview programına katılım başvurusu da yapılabiliyor

Sonuç

Cloud Run'ın GPU desteğinin resmi olarak sunulması, yapay zeka, büyük ölçekli toplu işleme, medya dönüştürme gibi çeşitli uzmanlaşmış iş yükleri için çığır açan bir ölçeklenme potansiyeli sağlıyor
Maliyet, operasyonel verimlilik ve ölçeklenebilirlik gibi çeşitli avantajlar gerçek şirketler tarafından doğrulanmış durumda
Basit yapılandırma ve çeşitli öğrenme kaynakları sayesinde herkes bulut tabanlı GPU iş yüklerine kolayca başlayabilir

1 yorum

GN⁺ 2025-06-05

Hacker News görüşleri

Google Cloud Run'ı gerçekten çok seviyorum ve en iyi seçenek olarak güçlü biçimde tavsiye eden taraftayım. Ancak Cloud Run GPU'yu tavsiye etmek zor. Instance tabanlı ücretlendirme verimsiz ve GPU seçenekleri de sınırlı. Modeli GPU belleğine yükleyip çıkarmak performans kaybına yol açtığından, sunucusuz ortamlar için yavaş kalma sınırı var. Gerçek maliyeti karşılaştırınca, günde %30 kullanımda bile VM+GPU kombinasyonunun daha ekonomik olduğu hesabı çıkıyor. (ilgili blog bağlantısı)
- Google başkan yardımcısı. Geri bildirim için teşekkürler. Mevcut fiyat yapısında, hizmet kapasitesinin neredeyse sabit gerektiği durumlarda VM'leri önceden provision etmek daha maliyet verimli; buna genel olarak katılıyorum. Öte yandan Cloud Run GPU'nun, aniden tepe talep gören yeni ürünler veya yapay zeka uygulamaları gibi; minimum boşta maliyet, çok hızlı başlangıç ve seyrek, düzensiz trafik isteyen ortamlar için optimize edildiğini düşünüyorum
- Cloud Run'ın gerçekten harika bir hizmet olduğu izlenimindeyim. AWS'nin ECS/Fargate'ine göre çok daha kolay yönetildiğini deneyimledim
- GCP'de VM'lere güvenip kullanamamak en büyük sorun. Bu mesele tüm büyük bulutlarda var. AWS'de 80GB GPU'yu uzun süreli rezervasyon olmadan bulmak mümkün değil ve fiyatlar saçma seviyede. GCP de benzer şekilde pahalı ve erişilebilirliği düşük. Büyük şirketler startup dostu olduklarını söylüyor ama gerçek deneyim öyle değil. runpod, nebius, lambda gibi neo-cloud sağlayıcıları çok daha iyi hizmet veriyor. Büyük bulutlar sabit talebe fazla alışmış durumda ve startup'ları önemsemeyerek uzun vadeli büyümelerine zarar verecek bir hata yapıyorlar diye düşünüyorum
- Cloud Run'da bunun tersine bir deneyim yaşadım. Sebebi belirsiz scale-out/restart sorunları nedeniyle sonunda ücretli destek hizmeti alıp sordum ama cevap bulamadım. Sonunda kendi yönettiğim VM'lere geçtim. O zamandan beri düzelip düzelmediğini bilmiyorum
- Cloud Run'ın en iyisi olduğu görüşüne karşı, rakamları bizzat görmek isterim. Oyuncak projeler için iyi ama gerçek işte maliyet çukuru. Bir projede autoscaling sorunları sürekli yaşandı; scale to zero teoride hoş görünüyor ama pratikte ısınma sürecinde tek bir istek için birden fazla container açılıp uzun süre ayakta kaldığı çok oluyor. Görünür CPU ya da ağ kullanımı olmayan, sebebi belirsiz container'lar için de ücret yazılmaya devam ediyor. Java veya Python projelerinde cold start ciddi derecede yavaş; Go/C++/Rust tarafında deneyimim yok, o yüzden emin değilim
Büyük bulutların karmaşıklığına ek olarak, sınırsız YOLO (rastgele/ölçüsüz) faturalandırma yüzünden bir gecede kredi kartının boşalması riski de var endişesi. Bu yüzden Modal ve vast.ai ile devam edeceğim sonucu çıkıyor
- Bireysel/küçük proje kullanıcıları açısından maliyet üst sınırı (CAP) sunmamak GCP'nin büyük zayıflığı. Cloud Run'da concurrency sınırı ve instance sayısı sınırı üzerinden en azından dolaylı şekilde maliyeti kısıtlamak mümkün. Yine de gerçek bir CAP sayılmaz
- AWS'de instance kapatmayı unuttuğum için yüksek ücret ödediğim olmuştu; bu yüzden Cloud Run'ın scale to zero ve saniye bazlı ücretlendirmesi büyük avantaj. Başlangıç gerçekten çok hızlıysa iş yüküm için mükemmel olabilir diye düşünüyorum
- Cloud Run'da maksimum instance sayısı ayarıyla azami maliyet dolaylı olarak sınırlandırılabiliyor. App Engine dönemindeki "hard cap" ise hizmet gerçekten ilgi gördüğü anda (ör. HN'ye çıkınca) tamamen durması gibi bir yan etki yaratıyordu. Bana göre bildirim tabanlı bütçe yönetimi daha iyi bir seçenek
- Datadog'u production'da bırakmamın nedeni de tam olarak buydu. Platformların, kullanıcıların yanlışlıkla aşırı fatura ödemesi sonucu oluşan kötü izlenimin buna değip değmeyeceği şüpheli
- Modal veya vast.ai'nin YOLO faturalandırmayı nasıl engellediği net değil. Ön ödemeli mi çalışıyorlar, yoksa doğrudan bir CAP mi sağlıyorlar, merak ediyorum
Fiyatları doğrudan karşılaştırınca belirgin bir avantaj hissettirmiyor gibi. Google, runpod.io ve vast.ai'nin saatlik ücretlerini somut şekilde tablolaştırmış:
```
  1x L4 24GB:  google: $0.71, runpod.io: $0.43, 스팟: $0.22  
  4x L4 24GB:  google: $4.00, runpod.io: $1.72, 스팟: $0.88  
  1x A100 80GB: google: $5.07, runpod.io: $1.64, 스팟: $0.82, vast.ai $0.880, 스팟: $0.501  
  1x H100 80GB: google: $11.06, runpod.io: $2.79, 스팟: $1.65, vast.ai $1.535, 스팟: $0.473  
  8x H200 141GB: google: $88.08, runpod.io: $31.92, vast.ai $15.470, 스팟: $14.563
```
Google fiyatları sanki aylık 24/7 çalışma varsayımıyla verilmiş gibi duruyor; runpod.io ve vast.ai ise saniye bazlı ücretlendiriyor. Google GPU'nun spot fiyatını bulamadım
- "Compute Instance oluştur" ekranında spot fiyatı doğrudan görebilirsiniz. Örneğin GCP'de 1xH100 spot saatlik $2.55 ve uzun kullanımda ek indirimler geliyor. Gerçek kurumsal müşteriler bu fiyatlar üzerinden ayrıca indirim de alabiliyor. Bu liste fiyatlarını esasen bireysel kullanıcılar ödüyor
- vast.ai fiyatlarının kaynağını merak ediyorum. Ana sayfaya göre 8xH200 seçeneği çoğunlukla saatlik $21.65 ve üzeri görünüyor
- Google fiyatlandırmasının 24/7 varsayımıyla yapıldığını düşündüren dayanak ne, merak ettim. Cloud Run resmi fiyatlandırma sayfasına göre yalnızca gerçek kullanım 100 milisaniye hassasiyetinde faturalandırılıyor; otomatik ölçeklendirme tarafında da boşta instance'ların 15 dakika sonra otomatik küçültüldüğü yazıyor (Cloud Run PM)
- Cloud Run GPU'da yalnızca 1xL4 seçilebildiği doğru değil mi?
- Google da saniye bazlı ücretlendiriyorsa, 20 dakikanın altındaki kullanımlarda aslında Google avantajlı olabilir görüşü var
Ben Modal'ın büyük bir hayranıyım ve uzun süredir serverless scale-to-zero GPU kullanıyorum. Gerektiğinde büyük ölçekte kolayca scale up yapılabiliyor ve aynı zamanda geliştirme yükü belirgin biçimde daha düşük. Büyük sağlayıcıların bu pazara girmesi ilginç. Modal'a geçme nedenim de mevcut büyük bulutların böyle bir özellik sunmamasıydı (AWS Lambda GPU desteklemiyor). Şimdi tüm büyük bulutlar bu yöne mi gidiyor, merak ediyorum
- Modal gerçekten harika. Kendi yayımladıkları LP (lineer programlama) solver derin teknik yazısı da çok etkileyiciydi. Python geliştiricileri için Coiled'i de öneririm. Modal kadar hızlı değil ama GPU VM'leri kolayca ayağa kaldırıyor ve her şey kendi bulut hesabınızda çalışıyor. CUDA driver/Python kütüphanelerini senkron tutma gibi kullanışlı paket yönetimi de sağlıyor. (Not: Coiled'de çalışıyorum ama samimiyetle tavsiye ediyorum)
- HIPAA uyumlu iş yüklerini desteklemesi de beklenmedik bir artı
- 10GB üzeri modellerde Modal'ın cold start hızı en hızlısı
- Modal'ın dokümantasyonunun da çok iyi hazırlanmış olması etkileyici
Cloud Run'ın diğer hizmetlerden daha iyi olmasının en büyük nedeni autoscaling ve scale-to-zero. Gerçek kullanım olmadığında ücret fiilen 0 oluyor; ayrıca maksimum instance sayısı belirlenerek en yüksek maliyet de güvenli biçimde yönetilebiliyor. Ancak bunu CPU sürümü için söylüyorum; o haliyle çok güvenilir ve kullanımı çok kolay
- Yine de normal Cloud Run'da da cold start süresi sık sık uzun olabiliyor (yaklaşık 3~30 saniye), bu yüzden scale-to-zero kullanıldığında gecikme sorunu var
Avrupa'daki küçük GPU bulut sağlayıcısı DataCrunch (ilişkim yok), RunPod vb.'ye kıyasla Nvidia GPU VM'lerini daha ucuza sunuyor

1x A100 80GB 1.37 euro/saat
1x H100 80GB 2.19 euro/saat
- lambda.ai'de 1x H100 80GB VM saatlik $2.49'a sunuluyor. Kurla bakınca tam 2.19 euro ediyor. Bu tesadüf mü, yoksa sektörün görünmeyen bir üst sınırı mı var, merak ediyorum
- Vast.ai'de P2P modelle 2x A100'ü $0.8/saat fiyata kullanabiliyorsunuz (yani A100 başına $0.4/saat). Sadece memnun bir kullanıcıyım. Ağ hızına dikkat etmek lazım. Bazı host'lar bant genişliğini paylaşıyor, bu yüzden gerçek hız ilan edilenden farklı olabiliyor. Büyük veri taşırken dikkat gerekli
Cloud Run/GKE'den sorumlu VP/GM. Bununla ilgili soruları almaya hazırım. Yoğun ilgi için teşekkürler
Cloud Run'ı seviyorum ve yeni özellik de ilginç görünüyor. Ama can sıkıcı tarafı, self-hosted GitHub runner çalıştırmak istediğimde root yetkisi meselesi yüzünden desteklenmemesiydi. Ayrıca yeni gelen worker pool özelliğinde de gerçek kullanımda scaler'ı kendiniz yazmanız gerekiyor; yani aslında yerleşik bir özellik değil
- Serverless ve Worker Pools Autoscaling'den sorumlu mühendislik yöneticisi. Şu anda roadmap'i aktif biçimde şekillendiriyoruz; gerçek iş yükü kullanım örneklerini e-postayla paylaşırsanız çok yardımcı olur. worker pool'lar ve ölçeklendirme gerektiren iş yükleri hakkında geri bildirim bekliyorum
vertex.ai üzerinde test için modelleri sürekli açık bırakıp kapatmayı unutarak $1000 fatura yedikten sonra, bu kez Cloud Run benim go-to hizmetim olacak gibi. Yıllardır Cloud Run'da production mikroservisler ve hobi projeleri çalıştırıyorum; hem sadeliğinden hem de maliyet verimliliğinden memnunum
Doğru anladıysam, Hugging Face gibi kaynaklardan alınan rastgele bir modeli ayağa kaldıran bir API oluşturmak mümkün ve token başına ücret yok ama kullanım yükü düşükse oldukça ucuza işletilebiliyor. Gerçekten böyleyse büyük yenilik olur. Mevcut sağlayıcıların çoğu özel model çalıştırmak için aylık abonelik istiyor
- Temelde doğru. Ancak cold start çok yavaş olabilir (30~60 saniye). Bu, scale to zero'nun dezavantajı. Ayrıca container depolama gibi birkaç küçük aylık ücret de var, bunu da hesaba katmak gerekir
- Runpod, vast, coreweave, replicate gibi serverless GPU inference destekleyen çeşitli alternatifler de var

Cloud Run GPU artık resmi olarak destekleniyor - herkes için yapay zeka iş yüklerini çalıştırmayı kolaylaştırıyor

Cloud Run GPU'nun resmi sunumu ve başlıca değişiklikler

Cloud Run jobs'ta NVIDIA GPU desteği başladı

İlk benimseyen şirketlerin gerçek deneyimleri

Başlangıç rehberi ve kaynaklar

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri