BOSCH その2
それではboschやってきます。
参考にしたカーネル
https://www.kaggle.com/mmueller/bosch-production-line-performance/road-2-0-4
今回のデーターはいかんせん巨大ということで・・・
pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments
pandasで読み込むときに、chunksizeを指定して、小分けにして詠み込もうねという話。
xgbのパラメータの話
xgboost のパラメータ - puyokwの日記
きになる記事
http://puyokw.hatenablog.com/entry/2015/12/12/090000
今回のデータについて
https://www.kaggle.com/c/bosch-production-line-performance/data
BOSCH社のとある製品が製造される工程で、記録されたある値が特徴量のようです。
何の製品か、それぞれ何の値なのかは企業秘密みたいです
特徴は具体的に、
L3_S36_F3939
のように表されており、三番目のラインの、36というステーション(工程?)の、3939番という意味みたいです。
あまりにも巨大なデータのため、テスト用と学習用それぞれが、numeric、categorical、dateの三つに、合計六つのデータがある!!とのことです。
ラベルデータ(??)は、Responseで、そのパーツに異常があるかないかを示すようです。
ただ、実際にはカテゴリカルデータは、ほとんどnanのためあまり有益ではないみたいです。(ProKagglerによると)
欠損値の割合の計算コピペ
print(1- (1.0 * date.count().sum() / date.size))
80%くらいのデータが欠損してるんですが、予測できちゃう機会学習すんげーなー、と思います。
pandasでサンプリングするには
X = pd.concat([pd.concat([dchunk, nchunk], axis=1).sample(frac=0.05) for dchunk, nchunk in zip(date_chunks, num_chunks)])
DataFrame.sample(frac=好きな数字)
で、何割のデータをサンプリングするか指定できるみたいです!