Rekabetçi Makine Öğreniminin Durumu 2022

xguru · 2023-03-22T11:05:02+09:00

Öne Çıkanlar Araçlar Python, PyData, Pytorch ve Gradient-boosted Decision Tree (GBDT) etrafında yakınsıyor Derin öğrenme, tablo biçimli verilerde hâlâ GBDT'nin yerini alamadı Transformer'lar NLP'ye liderlik ediyor ve bilgisayarlı görüde Konvolüsyonel Sinir Ağları (CNN) ile rekabet etmeye başlıyor Yarışmalar; bilgisayarlı görü, NLP, tablo biçimli veri, robotik ve zaman serisi analizi dâhil çeşitli araştırma alanlarını kapsıyor Tek model çözümleri bazen kazansa da, büyük ölçekli ensemble'lar genellikle kazanıyor Birden fazla makine öğrenimi yarışma platformu var ve ayrıca her yarışma için oluşturulmuş onlarca site bulunuyor Rekabetçi makine öğrenimi, akademi dâhil olmak üzere popülerliğini artırmaya devam ediyor Kazananların %50'si tek başına yarışan kişiler ve kazananların %50'si ilk kez kazananlar. %30'u ise daha önce iki veya daha fazla kez kazanmış Bazı yarışmacılar çözümlerini eğitmek için donanıma ciddi yatırım yapabilse de, Google Colab gibi ücretsiz donanım kullanan yarışmacılar da hâlâ kazanabiliyor Rekabetçi ML Ekosistemi Dikkat Çeken Yarışmalar ve Eğilimler Ödül miktarı açısından en büyüğü DrivenData'nın Snowcast Showdown yarışmasıydı (ABD İskân ve Kentsel Gelişim Bakanlığı sponsorluğunda). $500k ödül En popüler yarışma Kaggle'ın American Express Default Prediction yarışmasıydı. 4000'den fazla takım katıldı. $100k ödül. Birincilik, ilk kez katılan tek bir yarışmacıya gitti (neural net + LightGBM) En büyük bağımsız yarışma Stanford'un AI Audit Challenge yarışmasıydı En büyük alan bilgisayarlı görüydü: çevre, tıp İkinci en büyük alan NLP idi: NLP + arama, NLP + Reinforcement Learning Sequential Decision-Making alanı da büyüyor Platformlar Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,.. Diğer ilgi çekici platformlar: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,.. Amaç İyi yönetilen yarışmalar Çözmek isteyeceğiniz ilginç bir problemi eğitim verisiyle birlikte sunar Yetenekli potansiyel katılımcılardan oluşan bir havuz sağlar Overfitting yapan katılımcıları cezalandıran mekanizmalar içerir Katılımcıların problem çözmeye gerçek çaba harcamasını sağlayacak kadar yeterli (finansal) teşvik sunar Kazanan çözümler için kamuya açık inceleme sağlar (yarışma bittikten sonra) Kazanan Çözümler Kazanan araç seti: Python, ikinci sırada C++ En çok kullanılan Python paketleri PyData: Numpy, Pandas, SciPy, Scikit Learn Deep Learning: PyTorch GBDT: LightGBM, XGBoost, CatBoost Hyperparameter Optimisation: Optuna Experiment Tracking: W&B Visualiation: matplotlib, seaborn NLP Toolkit: Tranformers Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

(mlcontests.com)

21 puan yazan xguru 2023-03-22 | Henüz yorum yok. | WhatsApp'ta paylaş

Öne Çıkanlar

Araçlar Python, PyData, Pytorch ve Gradient-boosted Decision Tree (GBDT) etrafında yakınsıyor
Derin öğrenme, tablo biçimli verilerde hâlâ GBDT'nin yerini alamadı
Transformer'lar NLP'ye liderlik ediyor ve bilgisayarlı görüde Konvolüsyonel Sinir Ağları (CNN) ile rekabet etmeye başlıyor
Yarışmalar; bilgisayarlı görü, NLP, tablo biçimli veri, robotik ve zaman serisi analizi dâhil çeşitli araştırma alanlarını kapsıyor
Tek model çözümleri bazen kazansa da, büyük ölçekli ensemble'lar genellikle kazanıyor
Birden fazla makine öğrenimi yarışma platformu var ve ayrıca her yarışma için oluşturulmuş onlarca site bulunuyor
Rekabetçi makine öğrenimi, akademi dâhil olmak üzere popülerliğini artırmaya devam ediyor
Kazananların %50'si tek başına yarışan kişiler ve kazananların %50'si ilk kez kazananlar. %30'u ise daha önce iki veya daha fazla kez kazanmış
Bazı yarışmacılar çözümlerini eğitmek için donanıma ciddi yatırım yapabilse de, Google Colab gibi ücretsiz donanım kullanan yarışmacılar da hâlâ kazanabiliyor

Rekabetçi ML Ekosistemi

Dikkat Çeken Yarışmalar ve Eğilimler
- Ödül miktarı açısından en büyüğü DrivenData'nın Snowcast Showdown yarışmasıydı (ABD İskân ve Kentsel Gelişim Bakanlığı sponsorluğunda). $500k ödül
- En popüler yarışma Kaggle'ın American Express Default Prediction yarışmasıydı. 4000'den fazla takım katıldı. $100k ödül. Birincilik, ilk kez katılan tek bir yarışmacıya gitti (neural net + LightGBM)
- En büyük bağımsız yarışma Stanford'un AI Audit Challenge yarışmasıydı
- En büyük alan bilgisayarlı görüydü: çevre, tıp
- İkinci en büyük alan NLP idi: NLP + arama, NLP + Reinforcement Learning
- Sequential Decision-Making alanı da büyüyor
Platformlar
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Diğer ilgi çekici platformlar: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
Amaç
- İyi yönetilen yarışmalar
  - Çözmek isteyeceğiniz ilginç bir problemi eğitim verisiyle birlikte sunar
  - Yetenekli potansiyel katılımcılardan oluşan bir havuz sağlar
  - Overfitting yapan katılımcıları cezalandıran mekanizmalar içerir
  - Katılımcıların problem çözmeye gerçek çaba harcamasını sağlayacak kadar yeterli (finansal) teşvik sunar
  - Kazanan çözümler için kamuya açık inceleme sağlar (yarışma bittikten sonra)

Kazanan Çözümler

Kazanan araç seti: Python, ikinci sırada C++
En çok kullanılan Python paketleri
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation: Optuna
- Experiment Tracking: W&B
- Visualiation: matplotlib, seaborn
- NLP Toolkit: Tranformers
- Computer Vision Toolkit: Albumentations, OpenCV, pillow, scikit-image, timm

Rekabetçi Makine Öğreniminin Durumu 2022

Öne Çıkanlar

Rekabetçi ML Ekosistemi

Kazanan Çözümler

İlgili okumalar

Henüz yorum yok.