17 puan yazan xguru 2024-04-12 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Makine öğrenimi için veri pipeline'larını kolayca kurup dağıtmayı, yönetmeyi ve izlemeyi sağlayan açık kaynaklı uçtan uca bir feature platformu
  • Şu anda Airbnb içindeki tüm büyük ML uygulamalarında ve Stripe'ın önemli kullanım senaryolarında kullanılıyor

Başlıca özellikler

  • Çeşitli kaynaklardan veri toplayabilir: event stream'ler, DB tablo snapshot'ları, değişiklik veri akışları, servis endpoint'leri, warehouse tabloları vb. yavaş değişen boyutlar, fact veya dimension tabloları olarak modellenip kullanılabilir
  • Sonuçları çevrimiçi ve çevrimdışı bağlamlarda üretebilir: çevrimiçinde ölçeklenebilir, düşük gecikmeli endpoint'ler olarak; çevrimdışında ise eğitim verisi üretimi için hive tabloları olarak sunulur
  • Gerçek zamanlı veya batch doğruluğu seçilebilir:
    • Sonuçlar Temporal veya Snapshot doğruluğunda yapılandırılabilir
    • Temporal, çevrimiçi bağlamda feature değerlerinin gerçek zamanlı güncellenmesi ve çevrimdışı bağlamda belirli bir zamana uygun feature'ların üretilmesi anlamına gelir
    • Snapshot doğruluğu, feature'ların günde bir kez gece yarısında güncellenmesi anlamına gelir
  • Ham veriden eğitim veri setlerini backfill edebilir: model eğitimi için aylarca feature log'larının birikmesini beklemeye gerek kalmaz
  • Güçlü bir Python API sunar: veri kaynağı türleri, tazelik, bağlam vb. API düzeyi soyutlamalar sağlar ve group-by, join, select gibi sezgisel SQL yapı taşlarını güçlü geliştirmelerle birleştirerek kullanmayı mümkün kılar
  • Otomatikleştirilmiş feature izleme: eğitim verisi kalitesini anlama, eğitim-serving uyumsuzluğunu ölçme, feature drift'i izleme vb. için izleme pipeline'ları otomatik olarak oluşturulabilir

Geliştirme arka planı

  • Chronon, ML uzmanlarının modellemenin kendisinden çok, modeli besleyen veriyi yönetmeye zaman harcaması şeklindeki yaygın sorunu çözmek için geliştirildi

Mevcut yaklaşımların sınırları

  1. Çevrimdışı-çevrimiçi kopyalama yaklaşımı

    • ML uzmanları, veri warehouse'undaki verilerle modeli eğittikten sonra, ilgili feature'ları çevrimiçi ortamda nasıl kopyalayacaklarını arar
    • Avantajı: veri kaynakları ve büyük ölçekli veri dönüşümleri için güçlü araçlar dahil olmak üzere veri warehouse'unun tüm olanaklarından yararlanılabilir
    • Dezavantajı: çevrimiçi çıkarım için model feature'larını sunmanın net bir yolu olmadığından tutarsızlıklar ve label leakage ortaya çıkar, bu da model performansını ciddi biçimde etkiler
  2. Loglama ve bekleme yaklaşımı

    • ML uzmanları, model çıkarımının çalışacağı çevrimiçi serving ortamında erişilebilen verilerle başlar ve ilgili feature'ları veri warehouse'una loglar
    • Yeterli veri biriktiğinde bu loglardan modeli eğitir ve aynı verilerle serving yapar
    • Avantajı: tutarlılık garanti edilir ve sızıntı olasılığı düşüktür
    • Dezavantajı: uzun bekleme süresi nedeniyle değişen kullanıcı davranışlarına hızlı yanıt vermek zordur

Chronon'un yaklaşımı

  • Chronon, ML uzmanlarının bir feature'ı yalnızca bir kez tanımlayarak hem model eğitimi için çevrimdışı akışları hem de model çıkarımı için çevrimiçi akışları beslemesini sağlar
  • Ayrıca feature chaining, gözlemlenebilirlik, veri kalitesi, feature paylaşımı ve yönetimi için güçlü araçlar sunar
  • Böylece mevcut yaklaşımların güçlü yanları korunurken zayıf yanları telafi edilebilir

Henüz yorum yok.

Henüz yorum yok.