houses prises
https://www.kaggle.com/c/house-prices-advanced-regression-techniques
houses prisesをやっていきます。
と思ったのですが、あまりに知識がないので、couseraを二週間強ぐらいやってました。
Ang先生に、とりあえず動くものを作るのがいいよと習ったので、まずは簡単なものからやろうと思います。
#I'm a super bigginer <:@|=<; import pandas as pd import matplotlib.pyplot as plt train = pd.read_csv('../input/train.csv') test = pd.read_csv('../input/test.csv') all_data = pd.concat((train.loc[:,'MSSubClass':'SaleCondition'], test.loc[:,'MSSubClass':'SaleCondition'])) all_data = pd.get_dummies(all_data) all_data = all_data.fillna(all_data.mean()) X_train = all_data[:train.shape[0]] X_test = all_data[train.shape[0]:] y = train.SalePrice from sklearn import linear_model from sklearn.linear_model import Ridge ridge = Ridge(alpha = 3) #model = linear_model.LinearRegression() model = ridge model.fit(X_train, y) preds = model.predict(X_test) solution = pd.DataFrame({"id":test.Id, "SalePrice":preds}) solution.to_csv("linear_regression.csv", index = False)
未処理のデータと普通の線形回帰だと、確か1000/1300位くらいだったのですが、
skewを除き、ridgeを使ったら成績が980位くらいまでアップしました。
ところでridgeってなんだ、lossoってなんだんだ・・・・。
ここからさらに改善していきます。