メモ:Bosch Production Line Performance Competition で使われたアルゴリズム
から抜粋してメモ.
1. Ankita Mangal & Nishant Kumar
カテゴリカル変数が 2k 個と多く,
one-hot representation してそのまま学習は辛い
→ Follow the Regularized Leader (FTRL) algorithm (何これ) を使って,
2k 個のカテゴリカル変数の代わりに,カテゴリカル変数から予測される確率の予測値を使う
(2k 次元を一気に削減できてしまっているが,なんでこんなことして良いんだろうか)
そのあと xgboost で 200個の変数を選び,最後に 200 変数の問題を xgboost で解く.
2. Abhinav Maurya
anomaly detection だから supervised learning だと思うと very imbalanced.
Gradient Boosting Machine を使うのだが,正例,負例の imbalance を解消するために
weight を Bayesian optimization でいい感じにする.
※ 今回は Matthew’s Correlation Coefficient (MCC) をスコアとして競っていたので,MCC を直接測って Bayesian optimization した.
MCCって何か知らないけど1次元だし Bayesian opt で問題はきっとないんだろう.
3. Bohdan Pavlyshenko
あんまり何言ってるかよくわからなかった. - logistic regression で見るべき特徴量を調べた - "Using Bayesian model, it is possible to receive the statistical distribution of model parameters, which can be used in the risk assessment analysis" (?) - パラメタとサンプルを変えて xgboost 予測結果を複数 (say, N) 出し, N カラムを特徴量として linear model or Baysian model (ここでいうbayesian model って何だろう) を作る