BOSCH　その２ - テスト

それではboschやってきます。

今回のデーターはいかんせん巨大ということで・・・

pandasで読み込むときに、chunksizeを指定して、小分けにして詠み込もうねという話。

今回のデータについて

BOSCH社のとある製品が製造される工程で、記録されたある値が特徴量のようです。
何の製品か、それぞれ何の値なのかは企業秘密みたいです

特徴は具体的に、

L3_S36_F3939

のように表されており、三番目のラインの、36というステーション（工程？）の、3939番という意味みたいです。

あまりにも巨大なデータのため、テスト用と学習用それぞれが、numeric、categorical、dateの三つに、合計六つのデータがある！！とのことです。

ラベルデータ（？？）は、Responseで、そのパーツに異常があるかないかを示すようです。

ただ、実際にはカテゴリカルデータは、ほとんどnanのためあまり有益ではないみたいです。（ProKagglerによると）

欠損値の割合の計算コピペ

print(1- (1.0 * date.count().sum() / date.size))

80%くらいのデータが欠損してるんですが、予測できちゃう機会学習すんげーなー、と思います。

pandasでサンプリングするには

X = pd.concat([pd.concat([dchunk, nchunk], axis=1).sample(frac=0.05)
               for dchunk, nchunk in zip(date_chunks, num_chunks)])

DataFrame.sample(frac=好きな数字)

で、何割のデータをサンプリングするか指定できるみたいです！