テスト

テスト

BOSCH その2

それではboschやってきます。

参考にしたカーネル
https://www.kaggle.com/mmueller/bosch-production-line-performance/road-2-0-4

今回のデーターはいかんせん巨大ということで・・・

pandas でメモリに乗らない 大容量ファイルを上手に扱う - StatsFragments

pandasで読み込むときに、chunksizeを指定して、小分けにして詠み込もうねという話。

xgbのパラメータの話
xgboost のパラメータ - puyokwの日記

きになる記事
http://puyokw.hatenablog.com/entry/2015/12/12/090000



今回のデータについて

https://www.kaggle.com/c/bosch-production-line-performance/data

BOSCH社のとある製品が製造される工程で、記録されたある値が特徴量のようです。
何の製品か、それぞれ何の値なのかは企業秘密みたいです

特徴は具体的に、

L3_S36_F3939

のように表されており、三番目のラインの、36というステーション(工程?)の、3939番という意味みたいです。

あまりにも巨大なデータのため、テスト用と学習用それぞれが、numeric、categorical、dateの三つに、合計六つのデータがある!!とのことです。

ラベルデータ(??)は、Responseで、そのパーツに異常があるかないかを示すようです。

ただ、実際にはカテゴリカルデータは、ほとんどnanのためあまり有益ではないみたいです。(ProKagglerによると)

欠損値の割合の計算コピペ

print(1- (1.0 * date.count().sum() / date.size))

80%くらいのデータが欠損してるんですが、予測できちゃう機会学習すんげーなー、と思います。

pandasでサンプリングするには

X = pd.concat([pd.concat([dchunk, nchunk], axis=1).sample(frac=0.05)
               for dchunk, nchunk in zip(date_chunks, num_chunks)])

DataFrame.sample(frac=好きな数字)

で、何割のデータをサンプリングするか指定できるみたいです!