前のページでは3次式で回帰式を求めました.ここでは3次の項の代わりに sin(x) の項を加えた
まず,必要なライブラリを読み込んだ後に回帰式と残差2乗和を取得する関数を定義します.回帰式(15行目)を僅かに変更するだけです.
import numpy as np
import pandas as pd
import scipy.optimize as optimize # 最適化
import matplotlib.pyplot as plt
# 高解像度ディスプレイ用
from IPython.display import set_matplotlib_formats
# from matplotlib_inline.backend_inline import set_matplotlib_formats # バージョンによってはこちらを有効に
set_matplotlib_formats('retina')
"""
関数の定義
"""
def my_func(w, x):
y = w[0] + w[1] * x + w[2] * x ** 2 + w[3] * np.sin(x)
return y
"""
残差2乗和を求める関数
Residual Sum-of-Squares
"""
def get_rss(w, x, y):
y_pred = my_func(w, x)
error = (y - y_pred)**2
return np.sum(error)
3次式の場合と全く同じ方法で最適化を行うことができます.推定するパラメータ数は4です.
# CSV ファイルを読み込む
url = "https://github.com/rinsaka/sample-data-sets/blob/master/lr.csv?raw=true"
df = pd.read_csv(url)
# NumPy 配列に変換する
x_data = df.loc[:, 'x'].values
y_data = df.loc[:, 'y'].values
# ネルダーミード法による最適化を行う
w = np.array([0.1, 0.1, 0.1, 0.1]) # 初期値を設定
results_nm = optimize.minimize(get_rss, w, args=(x_data, y_data), method='Nelder-Mead')
print(results_nm)
final_simplex: (array([[ 5.5846817 , 0.10520566, -0.0409104 , -2.83894916], [ 5.58470528, 0.10520542, -0.04091129, -2.83895043], [ 5.58462535, 0.10523994, -0.04091415, -2.83893978], [ 5.58459484, 0.10525809, -0.04091656, -2.83886373], [ 5.58461152, 0.10524295, -0.04091489, -2.83892004]]), array([67.70995983, 67.70995984, 67.70995985, 67.70995985, 67.70995986])) fun: 67.70995982522085 message: 'Optimization terminated successfully.' nfev: 532 nit: 320 status: 0 success: True x: array([ 5.5846817 , 0.10520566, -0.0409104 , -2.83894916])
上の結果を確認すると,目的関数すなわち残差2乗和が 67.71 となり,3次式の 143.93 から大きく減少したことがわかります.最適化での繰り返し回数 nit (Number of iterations performed by the optimizer) は 320 となり,3次式の 453 から減少していることもわかります.
最後に回帰式を散布図に重ねて描いてみます.
# 最適解を使って回帰直線のデータを作成する
x_plot = np.linspace(0, 10, 100)
y_pred = my_func(results_nm["x"], x_plot)
# グラフを描く
fig, ax = plt.subplots(1, 1, figsize=(6, 4))
ax.scatter(x_data, y_data, label="data")
ax.plot(x_plot, y_pred, label='model 4')
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_xlim(0,10)
ax.set_ylim(0,10)
ax.legend()
# plt.savefig('lr-model4.png', dpi=300, facecolor='white')
plt.show()
比較対象として,3次式の場合の結果も示しておきます.