テスト

テスト

predict_proba

boschの続き

さて相変わらずxgboostと格闘してるわけですが、

ふつーにモデル作って、ふつーにfitさせて、predictするんですが、
全然スコアが上がらないんですよねー。


それで、kaggleや、コンペでは常識的なテクニックなのかもしれないですが、

どうやらみなさんは直接モデルに予測させることはなく(分類問題で)、
モデルからpredict_proba、つまりそのクラスに分類される確率を出力させて、
自分でcvしながら最適なthresholdを導いてるみたいです。

preds = (clf.predict_proba(X)[:,1] > best_threshold)

みたいな感じですね!!

最後の0.01ポイントを稼ぐのに使うのか、大きな差が出るのか・・・
どうなんでしょう??