Chronon - Airbnb'nin açıkladığı açık kaynaklı ML özellik platformu
(github.com/airbnb)- Makine öğrenimi için veri pipeline'larını kolayca kurup dağıtmayı, yönetmeyi ve izlemeyi sağlayan açık kaynaklı uçtan uca bir feature platformu
- Şu anda Airbnb içindeki tüm büyük ML uygulamalarında ve Stripe'ın önemli kullanım senaryolarında kullanılıyor
Başlıca özellikler
- Çeşitli kaynaklardan veri toplayabilir: event stream'ler, DB tablo snapshot'ları, değişiklik veri akışları, servis endpoint'leri, warehouse tabloları vb. yavaş değişen boyutlar, fact veya dimension tabloları olarak modellenip kullanılabilir
- Sonuçları çevrimiçi ve çevrimdışı bağlamlarda üretebilir: çevrimiçinde ölçeklenebilir, düşük gecikmeli endpoint'ler olarak; çevrimdışında ise eğitim verisi üretimi için hive tabloları olarak sunulur
- Gerçek zamanlı veya batch doğruluğu seçilebilir:
- Sonuçlar Temporal veya Snapshot doğruluğunda yapılandırılabilir
- Temporal, çevrimiçi bağlamda feature değerlerinin gerçek zamanlı güncellenmesi ve çevrimdışı bağlamda belirli bir zamana uygun feature'ların üretilmesi anlamına gelir
- Snapshot doğruluğu, feature'ların günde bir kez gece yarısında güncellenmesi anlamına gelir
- Ham veriden eğitim veri setlerini backfill edebilir: model eğitimi için aylarca feature log'larının birikmesini beklemeye gerek kalmaz
- Güçlü bir Python API sunar: veri kaynağı türleri, tazelik, bağlam vb. API düzeyi soyutlamalar sağlar ve
group-by,join,selectgibi sezgisel SQL yapı taşlarını güçlü geliştirmelerle birleştirerek kullanmayı mümkün kılar - Otomatikleştirilmiş feature izleme: eğitim verisi kalitesini anlama, eğitim-serving uyumsuzluğunu ölçme, feature drift'i izleme vb. için izleme pipeline'ları otomatik olarak oluşturulabilir
Geliştirme arka planı
- Chronon, ML uzmanlarının modellemenin kendisinden çok, modeli besleyen veriyi yönetmeye zaman harcaması şeklindeki yaygın sorunu çözmek için geliştirildi
Mevcut yaklaşımların sınırları
-
Çevrimdışı-çevrimiçi kopyalama yaklaşımı
- ML uzmanları, veri warehouse'undaki verilerle modeli eğittikten sonra, ilgili feature'ları çevrimiçi ortamda nasıl kopyalayacaklarını arar
- Avantajı: veri kaynakları ve büyük ölçekli veri dönüşümleri için güçlü araçlar dahil olmak üzere veri warehouse'unun tüm olanaklarından yararlanılabilir
- Dezavantajı: çevrimiçi çıkarım için model feature'larını sunmanın net bir yolu olmadığından tutarsızlıklar ve label leakage ortaya çıkar, bu da model performansını ciddi biçimde etkiler
-
Loglama ve bekleme yaklaşımı
- ML uzmanları, model çıkarımının çalışacağı çevrimiçi serving ortamında erişilebilen verilerle başlar ve ilgili feature'ları veri warehouse'una loglar
- Yeterli veri biriktiğinde bu loglardan modeli eğitir ve aynı verilerle serving yapar
- Avantajı: tutarlılık garanti edilir ve sızıntı olasılığı düşüktür
- Dezavantajı: uzun bekleme süresi nedeniyle değişen kullanıcı davranışlarına hızlı yanıt vermek zordur
Chronon'un yaklaşımı
- Chronon, ML uzmanlarının bir feature'ı yalnızca bir kez tanımlayarak hem model eğitimi için çevrimdışı akışları hem de model çıkarımı için çevrimiçi akışları beslemesini sağlar
- Ayrıca feature chaining, gözlemlenebilirlik, veri kalitesi, feature paylaşımı ve yönetimi için güçlü araçlar sunar
- Böylece mevcut yaklaşımların güçlü yanları korunurken zayıf yanları telafi edilebilir
Henüz yorum yok.