predict_proba - テスト

boschの続き

さて相変わらずxgboostと格闘してるわけですが、

ふつーにモデル作って、ふつーにfitさせて、predictするんですが、
全然スコアが上がらないんですよねー。

それで、kaggleや、コンペでは常識的なテクニックなのかもしれないですが、

どうやらみなさんは直接モデルに予測させることはなく（分類問題で）、
モデルからpredict_proba、つまりそのクラスに分類される確率を出力させて、
自分でcvしながら最適なthresholdを導いてるみたいです。

preds = (clf.predict_proba(X)[:,1] > best_threshold)

みたいな感じですね！！

最後の0.01ポイントを稼ぐのに使うのか、大きな差が出るのか・・・
どうなんでしょう？？