predict_proba
boschの続き
さて相変わらずxgboostと格闘してるわけですが、
ふつーにモデル作って、ふつーにfitさせて、predictするんですが、
全然スコアが上がらないんですよねー。
それで、kaggleや、コンペでは常識的なテクニックなのかもしれないですが、
どうやらみなさんは直接モデルに予測させることはなく(分類問題で)、
モデルからpredict_proba、つまりそのクラスに分類される確率を出力させて、
自分でcvしながら最適なthresholdを導いてるみたいです。
preds = (clf.predict_proba(X)[:,1] > best_threshold)
みたいな感じですね!!
最後の0.01ポイントを稼ぐのに使うのか、大きな差が出るのか・・・
どうなんでしょう??