テスト

テスト

houses prises

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

houses prisesをやっていきます。
と思ったのですが、あまりに知識がないので、couseraを二週間強ぐらいやってました。

Ang先生に、とりあえず動くものを作るのがいいよと習ったので、まずは簡単なものからやろうと思います。

#I'm a super bigginer <:@|=<;

import pandas as pd
import matplotlib.pyplot as plt

train = pd.read_csv('../input/train.csv')
test = pd.read_csv('../input/test.csv')

all_data = pd.concat((train.loc[:,'MSSubClass':'SaleCondition'],
                      test.loc[:,'MSSubClass':'SaleCondition']))
all_data = pd.get_dummies(all_data)
all_data = all_data.fillna(all_data.mean())
X_train = all_data[:train.shape[0]]
X_test = all_data[train.shape[0]:]
y = train.SalePrice

from sklearn import linear_model
from sklearn.linear_model import Ridge
ridge = Ridge(alpha = 3)

#model = linear_model.LinearRegression()
model = ridge
model.fit(X_train, y)

preds = model.predict(X_test)
solution = pd.DataFrame({"id":test.Id, "SalePrice":preds})
solution.to_csv("linear_regression.csv", index = False)

未処理のデータと普通の線形回帰だと、確か1000/1300位くらいだったのですが、
skewを除き、ridgeを使ったら成績が980位くらいまでアップしました。

ところでridgeってなんだ、lossoってなんだんだ・・・・。

ここからさらに改善していきます。