DataChain açık kaynak olarak yayımlandı
- DataChain, yapılandırılmamış verileri yönetmek için yeni bir yöntem sunuyor.
- Görüntü, ses, video ve metin dosyalarını depoda yönetiyor ve ML modelleme sürecini yeniden üretilebilir iş akışları halinde düzenliyor.
- Üretken yapay zeka çağı için veri ve model sürüm kontrolü özellikleri sunuyor.
DataChain'in başlıca özellikleri
- Açıklamalı veri setleri, özel embedding'ler, otomatik etiketleme ve önyargı giderme özellikleriyle keşfedilip genişletilebiliyor.
- Veri kaynakları ve kod, pipeline'lara bağlanabiliyor; deneyler takip edilebiliyor ve modeller kaydedilebiliyor.
- GitOps ilkelerine dayanarak çalışıyor.
DataChain ve DVC entegrasyonu
- Veri kaynaklarını değiştirmeden ihtiyaç duyulan veri setleri oluşturulabiliyor.
- Sürüm kontrollü veri setleri, kod ve modelleri bağlayarak deneylerin etkili biçimde izlenmesini sağlayan pipeline'lar oluşturuyor.
- Git üzerinden deneyler takip edilebiliyor ve yeniden üretilebilir uçtan uca pipeline'lar kurulabiliyor.
GN⁺ özeti
- DataChain, yapılandırılmamış veri yönetimini ve ML modelleme sürecini verimli biçimde düzenlemek için kullanışlıdır.
- GitOps ilkelerine dayalı olarak veri kaynakları ve kod için sürüm kontrolü desteği sunarak deney takibini ve model kaydını kolaylaştırır.
- Veri setleri, özel embedding'ler ve otomatik etiketleme aracılığıyla genişletilebildiği için büyük ölçekli veri işleme için uygundur.
- Benzer özelliklere sahip diğer projeler arasında MLflow ve Pachyderm önerilmektedir.
Henüz yorum yok.