buq’s blog

覚えておきたいけど覚えておけなさそうなことを書きます?

メモ:Bosch Production Line Performance Competition で使われたアルゴリズム

blog.kaggle.com

から抜粋してメモ.

1. Ankita Mangal & Nishant Kumar

カテゴリカル変数が 2k 個と多く, one-hot representation してそのまま学習は辛い
→ Follow the Regularized Leader (FTRL) algorithm (何これ) を使って, 2k 個のカテゴリカル変数の代わりに,カテゴリカル変数から予測される確率の予測値を使う
(2k 次元を一気に削減できてしまっているが,なんでこんなことして良いんだろうか)

そのあと xgboost で 200個の変数を選び,最後に 200 変数の問題を xgboost で解く.

2. Abhinav Maurya

anomaly detection だから supervised learning だと思うと very imbalanced.

Gradient Boosting Machine を使うのだが,正例,負例の imbalance を解消するために weight を Bayesian optimization でいい感じにする.
※ 今回は Matthew’s Correlation Coefficient (MCC) をスコアとして競っていたので,MCC を直接測って Bayesian optimization した. MCCって何か知らないけど1次元だし Bayesian opt で問題はきっとないんだろう.

3. Bohdan Pavlyshenko

あんまり何言ってるかよくわからなかった. - logistic regression で見るべき特徴量を調べた - "Using Bayesian model, it is possible to receive the statistical distribution of model parameters, which can be used in the risk assessment analysis" (?) - パラメタとサンプルを変えて xgboost 予測結果を複数 (say, N) 出し, N カラムを特徴量として linear model or Baysian model (ここでいうbayesian model って何だろう) を作る