Cloudflare’ın yapay zeka platformu: ajanlar için bir çıkarım katmanı
(blog.cloudflare.com)- Farklı modelleri ve sağlayıcıları entegre ederek ajan tabanlı uygulamaların karmaşıklığını azaltan birleşik bir çıkarım katmanı kuruyor
- AI Gateway ve Workers AI üzerinden 70’ten fazla model ve 12’den fazla sağlayıcı tek bir API ile çağrılabiliyor; maliyet ve kullanım merkezi olarak yönetilebiliyor
- Özel modellerin doğrudan dağıtılabilmesi için Replicate’in Cog teknolojisi kullanılarak konteyner tabanlı model çalıştırma desteği sunuluyor
- Dünya genelindeki 330 şehirdeki altyapıdan yararlanarak gecikme en aza indiriliyor ve arıza durumunda otomatik yönlendirme ile kararlı çıkarım sağlanıyor
- Replicate ekibi Cloudflare’a katıldı; model barındırma ve dağıtım tamamen entegre edilerek ajan geliştirme için tek platforma doğru genişleniyor
Cloudflare AI Platform’a genel bakış
- Yapay zeka modellerindeki hızlı değişim ve sağlayıcılar arasındaki farklar nedeniyle, birden çok modeli birlikte kullanan ajan tabanlı uygulamaların karmaşıklığı artıyor
- Örneğin bir müşteri destek ajanı, mesaj sınıflandırması için hızlı bir modeli, planlama için büyük bir modeli ve yürütme için hafif bir modeli ayrı ayrı kullanabilir
- Tek bir sağlayıcıya bağımlı kalmadan maliyet, güvenilirlik ve gecikmeyi birleşik şekilde yönetme ihtiyacı doğuyor
- Cloudflare, AI Gateway ve Workers AI temelinde tüm modelleri tek bir API ile çağırabilen birleşik bir çıkarım katmanı oluşturuyor
- Kısa süre önce gösterge paneli yenilendi; varsayılan gateway’in otomatik kurulumu, upstream arızalarında otomatik yeniden deneme ve ayrıntılı log kontrolü gibi özellikler eklendi
Tek katalog, tek birleşik uç nokta
- AI.run() binding’i sayesinde Cloudflare Workers içinden üçüncü taraf modelleri (OpenAI, Anthropic vb.) doğrudan çağırmak mümkün
- Cloudflare’ın barındırdığı bir modelden üçüncü taraf bir modele geçerken kodda yalnızca tek satır değiştirmek yeterli
- REST API desteği de yakında gelecek; böylece her ortamdan tüm model kataloğuna erişilebilecek
- 70’ten fazla model ve 12’den fazla sağlayıcı, tek bir API ve tek bir faturalandırma birimi üzerinden kullanılabiliyor
- Başlıca sağlayıcılar: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Görüntü, video ve ses modelleri de dahil olmak üzere çok modlu uygulamalar geliştirilebiliyor
- Tüm model çağrıları tek bir API’de birleştiği için yapay zeka kullanımı ve maliyetleri merkezi olarak yönetmek mümkün
- Ortalama olarak şirketler birden fazla sağlayıcıdan 3,5 model çağırıyor; AI Gateway ise bunları tek bir gösterge panelinde izleyebiliyor
- İsteklerde özel metadata eklenerek müşteri veya iş akışı bazında maliyet analizi yapılabiliyor
Kendi modelini dağıtma (Bring Your Own Model)
- AI Gateway, tüm sağlayıcıların modellerini birleşik şekilde sunarken, kullanıcı verileriyle ince ayar yapılmış modellerin doğrudan dağıtılmasına da hazırlanıyor
- Şu anda kurumsal müşteriler özel instance’larda özel modeller çalıştırıyor; bunun genel kullanıcılara da açılması planlanıyor
- Cloudflare, makine öğrenimi modellerini konteynerleştirmek için Replicate’in Cog teknolojisini kullanıyor
cog.yamldosyasında bağımlılıklar tanımlanıyor,predict.pydosyasında çıkarım kodu yazılıyor ve ardından otomatik paketleme yapılıyor- Cog; CUDA, Python sürümü ve ağırlık yükleme gibi karmaşık ayarları soyutluyor
cog buildkomutuyla konteyner imajı oluşturulup Workers AI’a yüklendiğinde, dağıtım ve servis sürecini Cloudflare üstleniyor- İleride wrangler komutu, GPU snapshot tabanlı hızlı cold start ve müşterilere yönelik API sunulması planlanıyor
- Şu anda içeride ve bazı dış müşterilerle test ediliyor; herkesin kendi modelini Workers AI üzerinde kullanabilmesi hedefleniyor
İlk token’a kadar geçen sürenin optimize edilmesi
- AI Gateway + Workers AI kombinasyonu, gerçek zamanlı yanıtın kritik olduğu canlı ajanlar için özellikle avantajlı
- Toplam çıkarım süresi 3 saniye olsa bile, ilk token’ın 50 ms daha erken gelmesi kullanıcı algısındaki hızı artırıyor
- Cloudflare, dünya genelindeki 330 şehirde bulunan veri merkezleri sayesinde kullanıcı ile çıkarım uç noktası arasındaki ağ gecikmesini en aza indiriyor
- Workers AI, Kimi K2.5 ve gerçek zamanlı ses modelleri gibi ajan odaklı açık kaynak modelleri barındırıyor
- Bunlar AI Gateway üzerinden çağrıldığında, kod ve çıkarım aynı ağ üzerinde çalıştığı için en düşük gecikme elde ediliyor
Otomatik hata devretmeye dayalı güvenilirlik
- Ajan iş akışlarında adımlar arası bağımlılık yüksek olduğundan çıkarım kararlılığı kritik önem taşıyor
- Aynı model birden fazla sağlayıcıda bulunduğunda, AI Gateway birinde arıza yaşanırsa isteği otomatik olarak başka bir sağlayıcıya yönlendiriyor
- Böylece geliştiricilerin ayrıca hata yönetimi mantığı yazması gerekmiyor
-
Agents SDK** kullanan uzun süre çalışan ajanlarda, akışlı çıkarım** bağlantı kopsa bile geri yüklenebiliyor
- AI Gateway, akış yanıtlarını bağımsız olarak buffer’layarak kesinti sonrası yeniden bağlanıldığında aynı yanıtın tekrar kullanılmasını sağlıyor
- Ek ücretlendirme olmadan aynı token’lar geri yükleniyor; SDK’nin checkpoint özelliğiyle birleştiğinde kullanıcı kesintiyi fark etmiyor
Replicate entegrasyonu
- Replicate ekibi Cloudflare AI Platform ekibine katıldı ve tam entegrasyon süreci başladı
- Replicate’in tüm modelleri AI Gateway’e taşınıyor; barındırılan modeller de Cloudflare altyapısına yeniden platformlanıyor
- Kullanıcılar mevcut Replicate modellerini AI Gateway üzerinden çağırabilecek ya da Replicate’e dağıttıkları modelleri Workers AI üzerinde barındırabilecek
Başlarken
- Geliştiriciler AI Gateway belgeleri veya Workers AI belgeleri üzerinden başlayabilir
- Agents SDK ile Cloudflare üzerinde ajanlar geliştirilebilir
Cloudflare’ın rolü
- Cloudflare, bağlantı odaklı bir bulut (connectivity cloud) olarak şirket ağlarını koruyor, büyük ölçekli uygulamaların kurulmasını sağlıyor, web performansını hızlandırıyor ve DDoS savunması ile Zero Trust güvenliğini destekliyor
- Ücretsiz 1.1.1.1 uygulaması sayesinde daha hızlı ve daha güvenli internet kullanımı mümkün
- Cloudflare’ın misyonu daha iyi bir internet inşa etmek; ek bilgi ve kariyer fırsatları resmi web sitesinde bulunabiliyor
1 yorum
Hacker News görüşleri
Sonuçta bu, openrouter üzerine Cloudflare Argo networking eklenmiş bir şey gibi görünüyor
Replicate satın alımını kullanarak daha ilginç bir şey ortaya koyabileceklerini düşünüyorum
application-specific RL giderek daha iyi hale geliyor ama bunu ölçeklenebilir şekilde dağıtmanın yolları yetersiz
Fireworks gibi yerler de LORA’ları ölçekli dağıttıklarını söylüyor ama pratikte pek çalışmıyor
Bu yüzden şu anda uygulamamın temel yükünü garajımdaki birden fazla 3090 ile kendim host ediyorum. Komik ama ayda 1.000 dolar tasarruf etmiş oluyorum
Bu oldukça faydalı görünüyor. Cloudflare iyi araçları bir araya getirmekte başarılı
Özellikle D2, fiilen tek sqlite-as-a-service ve hem kararlı hem de ücretsiz plan limitleri cömert
Yeni bir DB bağlamak için Worker’ı yeniden deploy etmek gerekiyor, bu da fiilen imkânsız hale getiriyor
İç ağ katmanında sorgular birkaç saniye, bazen onlarca saniye takılı kalıyordu
Bazı sorgular observability panosunda bile görünmüyor, bu yüzden zaman aşımı tespitini kendiniz eklemezseniz sorunu fark etmiyorsunuz
Transaction da desteklemiyor ve sorun başlığında PM bunun için bir uygulama planı olmadığını söylüyor
Veri tutarlılığını garanti etmek için Durable Object kullanmanız gerekiyor ama bunun da ayrı maliyetleri ve trade-off’ları var
Fikir iyi ama prodüksiyon için güvenmek zor, hobi projeleri içinse uygun
Şu anda bu yalnızca Worker içinde özel kodla mümkün
OpenRouter yaptıklarını söylerken yalnızca kendi runtime binding’lerini desteklemelerini anlamak zor
Workers AI model listesi ile
AI model kataloğundaki model yapısı farklı
“workers-ai/*” namespace’inde çok daha az model var. Bunun kasıtlı olup olmadığını merak ediyorum
“workers-ai/@cf/nvidia/nemotron-3-120b-a12b” gibi modeller
gateway.ai.cloudflare.com’un /models endpoint’inde yok. Ama hosted model olarak varlar
Ben openrouter’ı Cloudflare Workers üzerinde sorunsuz kullanıyorum
Model çevrimdışı olduğunda cascading ve waterfalling özellikleri de çok daha iyi
Görünüşe göre V1’de bu henüz yok
openrouter’ın neredeyse her yönünü seviyorum, neredeyse fanı oldum
İnference katmanı sorunu hızla çözülüyor
Bir sonraki zor konu governance katmanı; yani ajanların ne yapabileceği ve bunun nasıl kanıtlanacağı
Cloudflare’ın bu kısmı da düşünüp düşünmediğini merak ediyorum
Her ajanın RBAC kimlik bilgilerini sunarak yetki aldığı bir yapı hayal ediyorum
Replicate satın alımının sonunda sonuç üretmeye başladığını görmek güzel
Model sayfasında fiyat bilgisi görünmüyor
Doğrudan sağlayıcıya ödemeye kıyasla ne kadar pahalı olduğunu merak ediyorum
Cloudflare bunu maliyetine mi sunuyor?
Ayrıca zero data retention varsayılan değil ve bazı sağlayıcılarda hiç desteklenmiyor
OpenAI ve Anthropic tarzı completions çıktılarını da döndürebilse iyi olurdu
Şu anda sağlayıcı ücretleriyle aynı, yalnızca unified billing credits üzerinden küçük bir işlem ücreti ekleniyor
OpenAI/Anthropic tarzı completions desteği de yakında gelecek
unified billing açıklama bağlantısı
Sonuçta bu openrouter benzeri bir hizmet gibi görünüyor
Oldukça büyük bir duyuru. AWS Bedrock alternatifi olarak gayet rekabetçi görünüyor
Anthropic veya AWS’ye kıyasla uptime’ının daha yüksek olması da mümkün