2 puan yazan GN⁺ 13 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Farklı modelleri ve sağlayıcıları entegre ederek ajan tabanlı uygulamaların karmaşıklığını azaltan birleşik bir çıkarım katmanı kuruyor
  • AI Gateway ve Workers AI üzerinden 70’ten fazla model ve 12’den fazla sağlayıcı tek bir API ile çağrılabiliyor; maliyet ve kullanım merkezi olarak yönetilebiliyor
  • Özel modellerin doğrudan dağıtılabilmesi için Replicate’in Cog teknolojisi kullanılarak konteyner tabanlı model çalıştırma desteği sunuluyor
  • Dünya genelindeki 330 şehirdeki altyapıdan yararlanarak gecikme en aza indiriliyor ve arıza durumunda otomatik yönlendirme ile kararlı çıkarım sağlanıyor
  • Replicate ekibi Cloudflare’a katıldı; model barındırma ve dağıtım tamamen entegre edilerek ajan geliştirme için tek platforma doğru genişleniyor

Cloudflare AI Platform’a genel bakış

  • Yapay zeka modellerindeki hızlı değişim ve sağlayıcılar arasındaki farklar nedeniyle, birden çok modeli birlikte kullanan ajan tabanlı uygulamaların karmaşıklığı artıyor
    • Örneğin bir müşteri destek ajanı, mesaj sınıflandırması için hızlı bir modeli, planlama için büyük bir modeli ve yürütme için hafif bir modeli ayrı ayrı kullanabilir
    • Tek bir sağlayıcıya bağımlı kalmadan maliyet, güvenilirlik ve gecikmeyi birleşik şekilde yönetme ihtiyacı doğuyor
  • Cloudflare, AI Gateway ve Workers AI temelinde tüm modelleri tek bir API ile çağırabilen birleşik bir çıkarım katmanı oluşturuyor
    • Kısa süre önce gösterge paneli yenilendi; varsayılan gateway’in otomatik kurulumu, upstream arızalarında otomatik yeniden deneme ve ayrıntılı log kontrolü gibi özellikler eklendi

Tek katalog, tek birleşik uç nokta

  • AI.run() binding’i sayesinde Cloudflare Workers içinden üçüncü taraf modelleri (OpenAI, Anthropic vb.) doğrudan çağırmak mümkün
    • Cloudflare’ın barındırdığı bir modelden üçüncü taraf bir modele geçerken kodda yalnızca tek satır değiştirmek yeterli
    • REST API desteği de yakında gelecek; böylece her ortamdan tüm model kataloğuna erişilebilecek
  • 70’ten fazla model ve 12’den fazla sağlayıcı, tek bir API ve tek bir faturalandırma birimi üzerinden kullanılabiliyor
    • Başlıca sağlayıcılar: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
    • Görüntü, video ve ses modelleri de dahil olmak üzere çok modlu uygulamalar geliştirilebiliyor
  • Tüm model çağrıları tek bir API’de birleştiği için yapay zeka kullanımı ve maliyetleri merkezi olarak yönetmek mümkün
    • Ortalama olarak şirketler birden fazla sağlayıcıdan 3,5 model çağırıyor; AI Gateway ise bunları tek bir gösterge panelinde izleyebiliyor
    • İsteklerde özel metadata eklenerek müşteri veya iş akışı bazında maliyet analizi yapılabiliyor

Kendi modelini dağıtma (Bring Your Own Model)

  • AI Gateway, tüm sağlayıcıların modellerini birleşik şekilde sunarken, kullanıcı verileriyle ince ayar yapılmış modellerin doğrudan dağıtılmasına da hazırlanıyor
    • Şu anda kurumsal müşteriler özel instance’larda özel modeller çalıştırıyor; bunun genel kullanıcılara da açılması planlanıyor
  • Cloudflare, makine öğrenimi modellerini konteynerleştirmek için Replicate’in Cog teknolojisini kullanıyor
    • cog.yaml dosyasında bağımlılıklar tanımlanıyor, predict.py dosyasında çıkarım kodu yazılıyor ve ardından otomatik paketleme yapılıyor
    • Cog; CUDA, Python sürümü ve ağırlık yükleme gibi karmaşık ayarları soyutluyor
  • cog build komutuyla konteyner imajı oluşturulup Workers AI’a yüklendiğinde, dağıtım ve servis sürecini Cloudflare üstleniyor
    • İleride wrangler komutu, GPU snapshot tabanlı hızlı cold start ve müşterilere yönelik API sunulması planlanıyor
    • Şu anda içeride ve bazı dış müşterilerle test ediliyor; herkesin kendi modelini Workers AI üzerinde kullanabilmesi hedefleniyor

İlk token’a kadar geçen sürenin optimize edilmesi

  • AI Gateway + Workers AI kombinasyonu, gerçek zamanlı yanıtın kritik olduğu canlı ajanlar için özellikle avantajlı
    • Toplam çıkarım süresi 3 saniye olsa bile, ilk token’ın 50 ms daha erken gelmesi kullanıcı algısındaki hızı artırıyor
  • Cloudflare, dünya genelindeki 330 şehirde bulunan veri merkezleri sayesinde kullanıcı ile çıkarım uç noktası arasındaki ağ gecikmesini en aza indiriyor
  • Workers AI, Kimi K2.5 ve gerçek zamanlı ses modelleri gibi ajan odaklı açık kaynak modelleri barındırıyor
    • Bunlar AI Gateway üzerinden çağrıldığında, kod ve çıkarım aynı ağ üzerinde çalıştığı için en düşük gecikme elde ediliyor

Otomatik hata devretmeye dayalı güvenilirlik

  • Ajan iş akışlarında adımlar arası bağımlılık yüksek olduğundan çıkarım kararlılığı kritik önem taşıyor
    • Aynı model birden fazla sağlayıcıda bulunduğunda, AI Gateway birinde arıza yaşanırsa isteği otomatik olarak başka bir sağlayıcıya yönlendiriyor
    • Böylece geliştiricilerin ayrıca hata yönetimi mantığı yazması gerekmiyor
  • Agents SDK** kullanan uzun süre çalışan ajanlarda, akışlı çıkarım** bağlantı kopsa bile geri yüklenebiliyor

    • AI Gateway, akış yanıtlarını bağımsız olarak buffer’layarak kesinti sonrası yeniden bağlanıldığında aynı yanıtın tekrar kullanılmasını sağlıyor
    • Ek ücretlendirme olmadan aynı token’lar geri yükleniyor; SDK’nin checkpoint özelliğiyle birleştiğinde kullanıcı kesintiyi fark etmiyor

Replicate entegrasyonu

  • Replicate ekibi Cloudflare AI Platform ekibine katıldı ve tam entegrasyon süreci başladı
    • Replicate’in tüm modelleri AI Gateway’e taşınıyor; barındırılan modeller de Cloudflare altyapısına yeniden platformlanıyor
    • Kullanıcılar mevcut Replicate modellerini AI Gateway üzerinden çağırabilecek ya da Replicate’e dağıttıkları modelleri Workers AI üzerinde barındırabilecek

Başlarken

Cloudflare’ın rolü

  • Cloudflare, bağlantı odaklı bir bulut (connectivity cloud) olarak şirket ağlarını koruyor, büyük ölçekli uygulamaların kurulmasını sağlıyor, web performansını hızlandırıyor ve DDoS savunması ile Zero Trust güvenliğini destekliyor
  • Ücretsiz 1.1.1.1 uygulaması sayesinde daha hızlı ve daha güvenli internet kullanımı mümkün
  • Cloudflare’ın misyonu daha iyi bir internet inşa etmek; ek bilgi ve kariyer fırsatları resmi web sitesinde bulunabiliyor

1 yorum

 
GN⁺ 13 일 전
Hacker News görüşleri
  • Sonuçta bu, openrouter üzerine Cloudflare Argo networking eklenmiş bir şey gibi görünüyor
    Replicate satın alımını kullanarak daha ilginç bir şey ortaya koyabileceklerini düşünüyorum
    application-specific RL giderek daha iyi hale geliyor ama bunu ölçeklenebilir şekilde dağıtmanın yolları yetersiz
    Fireworks gibi yerler de LORA’ları ölçekli dağıttıklarını söylüyor ama pratikte pek çalışmıyor
    Bu yüzden şu anda uygulamamın temel yükünü garajımdaki birden fazla 3090 ile kendim host ediyorum. Komik ama ayda 1.000 dolar tasarruf etmiş oluyorum

    • Hangi modelleri çalıştırdığını ve ölçeği büyütürken kaç tane 3090 gerektiğini merak ediyorum
  • Bu oldukça faydalı görünüyor. Cloudflare iyi araçları bir araya getirmekte başarılı
    Özellikle D2, fiilen tek sqlite-as-a-service ve hem kararlı hem de ücretsiz plan limitleri cömert

    • Dokümanlar ve pazarlama “kullanıcı başına, tenant başına DB” gibi kullanım senaryolarını öne çıkarıyor ama pratikte Workers ile birlikte kullanmak zor
      Yeni bir DB bağlamak için Worker’ı yeniden deploy etmek gerekiyor, bu da fiilen imkânsız hale getiriyor
    • Bizim deneyimimizde D1’in kararlılığı iyi değildi
      İç ağ katmanında sorgular birkaç saniye, bazen onlarca saniye takılı kalıyordu
      Bazı sorgular observability panosunda bile görünmüyor, bu yüzden zaman aşımı tespitini kendiniz eklemezseniz sorunu fark etmiyorsunuz
      Transaction da desteklemiyor ve sorun başlığında PM bunun için bir uygulama planı olmadığını söylüyor
      Veri tutarlılığını garanti etmek için Durable Object kullanmanız gerekiyor ama bunun da ayrı maliyetleri ve trade-off’ları var
      Fikir iyi ama prodüksiyon için güvenmek zor, hobi projeleri içinse uygun
    • Keşke Cloudflare D1-R2 yedekleme sistemini varsayılan olarak sunsa
      Şu anda bu yalnızca Worker içinde özel kodla mümkün
    • D1’in 10GB sınırı fazla küçük. Oyuncak düzeyi projeler dışında zor görünüyor
    • Yakında REST API çıkaracaklarını söylüyorlar ama yapı Cloudflare lock-in yaratmaya yönelik gibi
      OpenRouter yaptıklarını söylerken yalnızca kendi runtime binding’lerini desteklemelerini anlamak zor
  • Workers AI model listesi ile
    AI model kataloğundaki model yapısı farklı
    “workers-ai/*” namespace’inde çok daha az model var. Bunun kasıtlı olup olmadığını merak ediyorum

    • Örneğin “workers-ai/@cf/google/gemma-4-26b-a4b-it” ya da
      “workers-ai/@cf/nvidia/nemotron-3-120b-a12b” gibi modeller
      gateway.ai.cloudflare.com’un /models endpoint’inde yok. Ama hosted model olarak varlar
  • Ben openrouter’ı Cloudflare Workers üzerinde sorunsuz kullanıyorum
    Model çevrimdışı olduğunda cascading ve waterfalling özellikleri de çok daha iyi
    Görünüşe göre V1’de bu henüz yok
    openrouter’ın neredeyse her yönünü seviyorum, neredeyse fanı oldum

  • İnference katmanı sorunu hızla çözülüyor
    Bir sonraki zor konu governance katmanı; yani ajanların ne yapabileceği ve bunun nasıl kanıtlanacağı
    Cloudflare’ın bu kısmı da düşünüp düşünmediğini merak ediyorum

    • zero-trust tabanlı otomatik kimlik doğrulama sistemi güzel olurdu
      Her ajanın RBAC kimlik bilgilerini sunarak yetki aldığı bir yapı hayal ediyorum
  • Replicate satın alımının sonunda sonuç üretmeye başladığını görmek güzel

  • Model sayfasında fiyat bilgisi görünmüyor
    Doğrudan sağlayıcıya ödemeye kıyasla ne kadar pahalı olduğunu merak ediyorum
    Cloudflare bunu maliyetine mi sunuyor?
    Ayrıca zero data retention varsayılan değil ve bazı sağlayıcılarda hiç desteklenmiyor
    OpenAI ve Anthropic tarzı completions çıktılarını da döndürebilse iyi olurdu

    • Cloudflare mühendisi olarak konuşuyorum. Yakında fiyat bilgisini dokümanlara ve panele ekleyeceğiz
      Şu anda sağlayıcı ücretleriyle aynı, yalnızca unified billing credits üzerinden küçük bir işlem ücreti ekleniyor
      OpenAI/Anthropic tarzı completions desteği de yakında gelecek
      unified billing açıklama bağlantısı
    • Workers AI fiyat bilgisi burada yer alıyor
  • Sonuçta bu openrouter benzeri bir hizmet gibi görünüyor

    • Evet. Ama model seçeneği daha dar, kendi modelinizi getirmeniz durumu hariç
    • Üzerine bir de Argo networking eklenmiş hali
  • Oldukça büyük bir duyuru. AWS Bedrock alternatifi olarak gayet rekabetçi görünüyor
    Anthropic veya AWS’ye kıyasla uptime’ının daha yüksek olması da mümkün