摘要:項(xiàng)目描述保險(xiǎn)公司對(duì)個(gè)人投保時(shí)或根據(jù)歷史數(shù)據(jù)生成的模型來(lái)計(jì)算個(gè)人保費(fèi),那么本次我們就以這個(gè)模型的求解過(guò)程為例來(lái)實(shí)踐下多元線性回歸。則是當(dāng)前數(shù)據(jù)人上年度在保險(xiǎn)的額度。如何從數(shù)據(jù)估計(jì)線性回歸系數(shù)。如何使用線性回歸預(yù)測(cè)新數(shù)據(jù)。
1. 項(xiàng)目描述
保險(xiǎn)公司對(duì)個(gè)人投保時(shí)或根據(jù)歷史數(shù)據(jù)生成的模型來(lái)計(jì)算個(gè)人保費(fèi),那么本次我們就以這個(gè)模型的求解過(guò)程為例來(lái)實(shí)踐下多元線性回歸。
2 數(shù)據(jù)與簡(jiǎn)單分析數(shù)據(jù)集下載
數(shù)據(jù)信息如下圖所示:
我們已經(jīng)獲取到保險(xiǎn)公司部分?jǐn)?shù)據(jù),文件名為insurance.csv,文件內(nèi)容如下。
我們可以看出數(shù)據(jù)中共有六個(gè)維度:age(年齡),sex(性別),bmi(肥胖指數(shù)),children(孩子數(shù)量),smoker(是否吸煙),region(居住地)。charges則是當(dāng)前數(shù)據(jù)人上年度在保險(xiǎn)的額度。
所以我們可以構(gòu)建一個(gè)六維高維空間來(lái)求解這個(gè)模型。
相對(duì)于年齡來(lái)說(shuō), 年齡越大, 購(gòu)買保險(xiǎn)的金額應(yīng)該越大;
相對(duì)于性別來(lái)說(shuō),整體女性的壽命大于男性壽命大約10年, 因此男性的保險(xiǎn)額度應(yīng)該更大。
相對(duì)于肥胖指數(shù)來(lái)說(shuō), 肥胖指數(shù)越小, 身體狀況越不好, 購(gòu)買保險(xiǎn)的金額應(yīng)該越大;
相對(duì)于孩子的數(shù)量來(lái)說(shuō), 孩子的數(shù)量越多, 壓力越大, 越勞累, 購(gòu)買保險(xiǎn)的金額應(yīng)該越大;
相對(duì)于是否吸煙來(lái)說(shuō), 吸煙的人壽命遠(yuǎn)少于不吸煙的壽命, 因此 購(gòu)買保險(xiǎn)的金額應(yīng)該越大;
相對(duì)于地區(qū)來(lái)說(shuō), 地區(qū)環(huán)境越差, 有霧霾, 則越容易生病, 那么購(gòu)買保險(xiǎn)的金額應(yīng)該越大;
最后說(shuō)明一下,本章中的數(shù)據(jù)來(lái)源主要是來(lái)自某保險(xiǎn)公司內(nèi)部的真實(shí)歷史數(shù)據(jù)。
3 項(xiàng)目實(shí)踐完成本項(xiàng)目后,您將知道:
如何從訓(xùn)練數(shù)據(jù)中估計(jì)統(tǒng)計(jì)量。
如何從數(shù)據(jù)估計(jì)線性回歸系數(shù)。
如何使用線性回歸預(yù)測(cè)新數(shù)據(jù)。
import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.preprocessing import PolynomialFeatures from sklearn.linear_model import LinearRegression # 1). 讀取csv文件數(shù)據(jù); filename = "data/insurance.csv" data = pd.read_csv(filename) # 2). 清洗數(shù)據(jù) reg = LinearRegression() x = data[["age", "sex", "bmi", "children", "smoker", "region"]] y = data["charges"] # 轉(zhuǎn)換數(shù)據(jù)類型為整形 x = x.apply(pd.to_numeric, errors="corece") y = y.apply(pd.to_numeric, errors="coerce") # 填充空值 x.fillna(0, inplace=True) y.fillna(0, inplace=True) print(x) print(y) # 3). 開(kāi)始建模 # degree: 多項(xiàng)式的階數(shù),一般默認(rèn)是2; # interaction_only:如果值為true(默認(rèn)是false),則會(huì)產(chǎn)生相互影響的特征集。 # include_bias:是否包含偏差列 poly_features = PolynomialFeatures(degree=2, include_bias=False) # 降維 X_poly = poly_features.fit_transform(x) # 4). 用線性回歸進(jìn)行擬合 reg.fit(X_poly, y) print(reg.coef_) print(reg.intercept_) # 5). 預(yù)測(cè) y_predict = reg.predict(X_poly) # 5). 真實(shí)的y值繪制:圖形繪制顯示 plt.plot(x["age"], y, "b.") # 預(yù)測(cè)的y值繪制 plt.plot(X_poly[:, 0], y_predict, "r.") plt.show()
預(yù)測(cè)值與真實(shí)值的圖像顯示:
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/19983.html
摘要:項(xiàng)目描述保險(xiǎn)公司對(duì)個(gè)人投保時(shí)或根據(jù)歷史數(shù)據(jù)生成的模型來(lái)計(jì)算個(gè)人保費(fèi),那么本次我們就以這個(gè)模型的求解過(guò)程為例來(lái)實(shí)踐下多元線性回歸。則是當(dāng)前數(shù)據(jù)人上年度在保險(xiǎn)的額度。如何從數(shù)據(jù)估計(jì)線性回歸系數(shù)。如何使用線性回歸預(yù)測(cè)新數(shù)據(jù)。 1. 項(xiàng)目描述 保險(xiǎn)公司對(duì)個(gè)人投保時(shí)或根據(jù)歷史數(shù)據(jù)生成的模型來(lái)計(jì)算個(gè)人保費(fèi),那么本次我們就以這個(gè)模型的求解過(guò)程為例來(lái)實(shí)踐下多元線性回歸。 2 數(shù)據(jù)與簡(jiǎn)單分析 數(shù)據(jù)集下載...
摘要:機(jī)器學(xué)習(xí)算法類型從廣義上講,有種類型的機(jī)器學(xué)習(xí)算法。強(qiáng)化學(xué)習(xí)的例子馬爾可夫決策過(guò)程常用機(jī)器學(xué)習(xí)算法列表以下是常用機(jī)器學(xué)習(xí)算法的列表。我提供了對(duì)各種機(jī)器學(xué)習(xí)算法的高級(jí)理解以及運(yùn)行它們的代碼。決策樹(shù)是一種監(jiān)督學(xué)習(xí)算法,主要用于分類問(wèn)題。 showImg(https://segmentfault.com/img/remote/1460000019086462); 介紹 谷歌的自動(dòng)駕駛汽車和機(jī)...
閱讀 1246·2021-09-01 10:30
閱讀 2118·2021-07-23 10:38
閱讀 895·2019-08-29 15:06
閱讀 3151·2019-08-29 13:53
閱讀 3277·2019-08-26 11:54
閱讀 1822·2019-08-26 11:38
閱讀 2370·2019-08-26 10:29
閱讀 3128·2019-08-23 18:15