Cloudflare’ın yapay zeka platformu: ajanlar için bir çıkarım katmanı

(blog.cloudflare.com)

2 puan yazan GN⁺ 13 일 전 | 1 yorum | WhatsApp'ta paylaş

Farklı modelleri ve sağlayıcıları entegre ederek ajan tabanlı uygulamaların karmaşıklığını azaltan birleşik bir çıkarım katmanı kuruyor
AI Gateway ve Workers AI üzerinden 70’ten fazla model ve 12’den fazla sağlayıcı tek bir API ile çağrılabiliyor; maliyet ve kullanım merkezi olarak yönetilebiliyor
Özel modellerin doğrudan dağıtılabilmesi için Replicate’in Cog teknolojisi kullanılarak konteyner tabanlı model çalıştırma desteği sunuluyor
Dünya genelindeki 330 şehirdeki altyapıdan yararlanarak gecikme en aza indiriliyor ve arıza durumunda otomatik yönlendirme ile kararlı çıkarım sağlanıyor
Replicate ekibi Cloudflare’a katıldı; model barındırma ve dağıtım tamamen entegre edilerek ajan geliştirme için tek platforma doğru genişleniyor

Cloudflare AI Platform’a genel bakış

Yapay zeka modellerindeki hızlı değişim ve sağlayıcılar arasındaki farklar nedeniyle, birden çok modeli birlikte kullanan ajan tabanlı uygulamaların karmaşıklığı artıyor
- Örneğin bir müşteri destek ajanı, mesaj sınıflandırması için hızlı bir modeli, planlama için büyük bir modeli ve yürütme için hafif bir modeli ayrı ayrı kullanabilir
- Tek bir sağlayıcıya bağımlı kalmadan maliyet, güvenilirlik ve gecikmeyi birleşik şekilde yönetme ihtiyacı doğuyor
Cloudflare, AI Gateway ve Workers AI temelinde tüm modelleri tek bir API ile çağırabilen birleşik bir çıkarım katmanı oluşturuyor
- Kısa süre önce gösterge paneli yenilendi; varsayılan gateway’in otomatik kurulumu, upstream arızalarında otomatik yeniden deneme ve ayrıntılı log kontrolü gibi özellikler eklendi

Tek katalog, tek birleşik uç nokta

AI.run() binding’i sayesinde Cloudflare Workers içinden üçüncü taraf modelleri (OpenAI, Anthropic vb.) doğrudan çağırmak mümkün
- Cloudflare’ın barındırdığı bir modelden üçüncü taraf bir modele geçerken kodda yalnızca tek satır değiştirmek yeterli
- REST API desteği de yakında gelecek; böylece her ortamdan tüm model kataloğuna erişilebilecek
70’ten fazla model ve 12’den fazla sağlayıcı, tek bir API ve tek bir faturalandırma birimi üzerinden kullanılabiliyor
- Başlıca sağlayıcılar: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Görüntü, video ve ses modelleri de dahil olmak üzere çok modlu uygulamalar geliştirilebiliyor
Tüm model çağrıları tek bir API’de birleştiği için yapay zeka kullanımı ve maliyetleri merkezi olarak yönetmek mümkün
- Ortalama olarak şirketler birden fazla sağlayıcıdan 3,5 model çağırıyor; AI Gateway ise bunları tek bir gösterge panelinde izleyebiliyor
- İsteklerde özel metadata eklenerek müşteri veya iş akışı bazında maliyet analizi yapılabiliyor

Kendi modelini dağıtma (Bring Your Own Model)

AI Gateway, tüm sağlayıcıların modellerini birleşik şekilde sunarken, kullanıcı verileriyle ince ayar yapılmış modellerin doğrudan dağıtılmasına da hazırlanıyor
- Şu anda kurumsal müşteriler özel instance’larda özel modeller çalıştırıyor; bunun genel kullanıcılara da açılması planlanıyor
Cloudflare, makine öğrenimi modellerini konteynerleştirmek için Replicate’in Cog teknolojisini kullanıyor
- cog.yaml dosyasında bağımlılıklar tanımlanıyor, predict.py dosyasında çıkarım kodu yazılıyor ve ardından otomatik paketleme yapılıyor
- Cog; CUDA, Python sürümü ve ağırlık yükleme gibi karmaşık ayarları soyutluyor
cog build komutuyla konteyner imajı oluşturulup Workers AI’a yüklendiğinde, dağıtım ve servis sürecini Cloudflare üstleniyor
- İleride wrangler komutu, GPU snapshot tabanlı hızlı cold start ve müşterilere yönelik API sunulması planlanıyor
- Şu anda içeride ve bazı dış müşterilerle test ediliyor; herkesin kendi modelini Workers AI üzerinde kullanabilmesi hedefleniyor

İlk token’a kadar geçen sürenin optimize edilmesi

AI Gateway + Workers AI kombinasyonu, gerçek zamanlı yanıtın kritik olduğu canlı ajanlar için özellikle avantajlı
- Toplam çıkarım süresi 3 saniye olsa bile, ilk token’ın 50 ms daha erken gelmesi kullanıcı algısındaki hızı artırıyor
Cloudflare, dünya genelindeki 330 şehirde bulunan veri merkezleri sayesinde kullanıcı ile çıkarım uç noktası arasındaki ağ gecikmesini en aza indiriyor
Workers AI, Kimi K2.5 ve gerçek zamanlı ses modelleri gibi ajan odaklı açık kaynak modelleri barındırıyor
- Bunlar AI Gateway üzerinden çağrıldığında, kod ve çıkarım aynı ağ üzerinde çalıştığı için en düşük gecikme elde ediliyor

Otomatik hata devretmeye dayalı güvenilirlik

Ajan iş akışlarında adımlar arası bağımlılık yüksek olduğundan çıkarım kararlılığı kritik önem taşıyor
- Aynı model birden fazla sağlayıcıda bulunduğunda, AI Gateway birinde arıza yaşanırsa isteği otomatik olarak başka bir sağlayıcıya yönlendiriyor
- Böylece geliştiricilerin ayrıca hata yönetimi mantığı yazması gerekmiyor
Agents SDK** kullanan uzun süre çalışan ajanlarda, akışlı çıkarım** bağlantı kopsa bile geri yüklenebiliyor
- AI Gateway, akış yanıtlarını bağımsız olarak buffer’layarak kesinti sonrası yeniden bağlanıldığında aynı yanıtın tekrar kullanılmasını sağlıyor
- Ek ücretlendirme olmadan aynı token’lar geri yükleniyor; SDK’nin checkpoint özelliğiyle birleştiğinde kullanıcı kesintiyi fark etmiyor

Replicate entegrasyonu

Replicate ekibi Cloudflare AI Platform ekibine katıldı ve tam entegrasyon süreci başladı
- Replicate’in tüm modelleri AI Gateway’e taşınıyor; barındırılan modeller de Cloudflare altyapısına yeniden platformlanıyor
- Kullanıcılar mevcut Replicate modellerini AI Gateway üzerinden çağırabilecek ya da Replicate’e dağıttıkları modelleri Workers AI üzerinde barındırabilecek

Başlarken

Geliştiriciler AI Gateway belgeleri veya Workers AI belgeleri üzerinden başlayabilir
Agents SDK ile Cloudflare üzerinde ajanlar geliştirilebilir

Cloudflare’ın rolü

Cloudflare, bağlantı odaklı bir bulut (connectivity cloud) olarak şirket ağlarını koruyor, büyük ölçekli uygulamaların kurulmasını sağlıyor, web performansını hızlandırıyor ve DDoS savunması ile Zero Trust güvenliğini destekliyor
Ücretsiz 1.1.1.1 uygulaması sayesinde daha hızlı ve daha güvenli internet kullanımı mümkün
Cloudflare’ın misyonu daha iyi bir internet inşa etmek; ek bilgi ve kariyer fırsatları resmi web sitesinde bulunabiliyor

1 yorum

GN⁺ 13 일 전

Hacker News görüşleri

Sonuçta bu, openrouter üzerine Cloudflare Argo networking eklenmiş bir şey gibi görünüyor
Replicate satın alımını kullanarak daha ilginç bir şey ortaya koyabileceklerini düşünüyorum
application-specific RL giderek daha iyi hale geliyor ama bunu ölçeklenebilir şekilde dağıtmanın yolları yetersiz
Fireworks gibi yerler de LORA’ları ölçekli dağıttıklarını söylüyor ama pratikte pek çalışmıyor
Bu yüzden şu anda uygulamamın temel yükünü garajımdaki birden fazla 3090 ile kendim host ediyorum. Komik ama ayda 1.000 dolar tasarruf etmiş oluyorum
- Hangi modelleri çalıştırdığını ve ölçeği büyütürken kaç tane 3090 gerektiğini merak ediyorum
Bu oldukça faydalı görünüyor. Cloudflare iyi araçları bir araya getirmekte başarılı
Özellikle D2, fiilen tek sqlite-as-a-service ve hem kararlı hem de ücretsiz plan limitleri cömert
- Dokümanlar ve pazarlama “kullanıcı başına, tenant başına DB” gibi kullanım senaryolarını öne çıkarıyor ama pratikte Workers ile birlikte kullanmak zor
  Yeni bir DB bağlamak için Worker’ı yeniden deploy etmek gerekiyor, bu da fiilen imkânsız hale getiriyor
- Bizim deneyimimizde D1’in kararlılığı iyi değildi
  İç ağ katmanında sorgular birkaç saniye, bazen onlarca saniye takılı kalıyordu
  Bazı sorgular observability panosunda bile görünmüyor, bu yüzden zaman aşımı tespitini kendiniz eklemezseniz sorunu fark etmiyorsunuz
  Transaction da desteklemiyor ve sorun başlığında PM bunun için bir uygulama planı olmadığını söylüyor
  Veri tutarlılığını garanti etmek için Durable Object kullanmanız gerekiyor ama bunun da ayrı maliyetleri ve trade-off’ları var
  Fikir iyi ama prodüksiyon için güvenmek zor, hobi projeleri içinse uygun
- Keşke Cloudflare D1-R2 yedekleme sistemini varsayılan olarak sunsa
  Şu anda bu yalnızca Worker içinde özel kodla mümkün
- D1’in 10GB sınırı fazla küçük. Oyuncak düzeyi projeler dışında zor görünüyor
- Yakında REST API çıkaracaklarını söylüyorlar ama yapı Cloudflare lock-in yaratmaya yönelik gibi
  OpenRouter yaptıklarını söylerken yalnızca kendi runtime binding’lerini desteklemelerini anlamak zor
Workers AI model listesi ile
AI model kataloğundaki model yapısı farklı
“workers-ai/*” namespace’inde çok daha az model var. Bunun kasıtlı olup olmadığını merak ediyorum
- Örneğin “workers-ai/@cf/google/gemma-4-26b-a4b-it” ya da
  “workers-ai/@cf/nvidia/nemotron-3-120b-a12b” gibi modeller
  gateway.ai.cloudflare.com’un /models endpoint’inde yok. Ama hosted model olarak varlar
Ben openrouter’ı Cloudflare Workers üzerinde sorunsuz kullanıyorum
Model çevrimdışı olduğunda cascading ve waterfalling özellikleri de çok daha iyi
Görünüşe göre V1’de bu henüz yok
openrouter’ın neredeyse her yönünü seviyorum, neredeyse fanı oldum
İnference katmanı sorunu hızla çözülüyor
Bir sonraki zor konu governance katmanı; yani ajanların ne yapabileceği ve bunun nasıl kanıtlanacağı
Cloudflare’ın bu kısmı da düşünüp düşünmediğini merak ediyorum
- zero-trust tabanlı otomatik kimlik doğrulama sistemi güzel olurdu
  Her ajanın RBAC kimlik bilgilerini sunarak yetki aldığı bir yapı hayal ediyorum
Replicate satın alımının sonunda sonuç üretmeye başladığını görmek güzel
Model sayfasında fiyat bilgisi görünmüyor
Doğrudan sağlayıcıya ödemeye kıyasla ne kadar pahalı olduğunu merak ediyorum
Cloudflare bunu maliyetine mi sunuyor?
Ayrıca zero data retention varsayılan değil ve bazı sağlayıcılarda hiç desteklenmiyor
OpenAI ve Anthropic tarzı completions çıktılarını da döndürebilse iyi olurdu
- Cloudflare mühendisi olarak konuşuyorum. Yakında fiyat bilgisini dokümanlara ve panele ekleyeceğiz
  Şu anda sağlayıcı ücretleriyle aynı, yalnızca unified billing credits üzerinden küçük bir işlem ücreti ekleniyor
  OpenAI/Anthropic tarzı completions desteği de yakında gelecek
  unified billing açıklama bağlantısı
- Workers AI fiyat bilgisi burada yer alıyor
Sonuçta bu openrouter benzeri bir hizmet gibi görünüyor
- Evet. Ama model seçeneği daha dar, kendi modelinizi getirmeniz durumu hariç
- Üzerine bir de Argo networking eklenmiş hali
Oldukça büyük bir duyuru. AWS Bedrock alternatifi olarak gayet rekabetçi görünüyor
Anthropic veya AWS’ye kıyasla uptime’ının daha yüksek olması da mümkün

Cloudflare’ın yapay zeka platformu: ajanlar için bir çıkarım katmanı

Cloudflare AI Platform’a genel bakış

Tek katalog, tek birleşik uç nokta

Kendi modelini dağıtma (Bring Your Own Model)

İlk token’a kadar geçen sürenin optimize edilmesi

Otomatik hata devretmeye dayalı güvenilirlik

Agents SDK** kullanan uzun süre çalışan ajanlarda, akışlı çıkarım** bağlantı kopsa bile geri yüklenebiliyor

Replicate entegrasyonu

Başlarken

Cloudflare’ın rolü

İlgili okumalar

1 yorum

Hacker News görüşleri

Agents SDK kullanan uzun süre çalışan ajanlarda, akışlı çıkarım bağlantı kopsa bile geri yüklenebiliyor