機器學習基礎

frank_fun 發布于2019-07-30 18:07 / 2554人閱讀

摘要：機器學習本質包含了數學原理推導與實際應用技巧推論事情的方法演繹法和歸納法。同樣或者類似的數據放在一起，透過放在一起的數據，分析學習，找到需要知道的答案，稱之為非監督式學習。

機器學習本質包含了數學原理推導與實際應用技巧

推論事情的方法：演繹法和歸納法。
根據經驗進行推論，就像人成長一樣。

基礎:

機器學習的目的是：歸納(Induction), 從詳細事實到一般推論

找出有效的預測模型

一開始都是從一個簡單的模型開始

藉由不斷喂入訓練數據，修改模型

不斷提升預測績效

機器學習的步驟：

使用者的行為

收集資料

數據轉換與清洗

建立模型

驗證模型（建立模型和驗證模型之間反復訓練與驗證）

部署模型

機器學習需要什么？
算法，數據，程序，評估，應用。

應用的方面：
數據挖掘，圖像識別，語音和自然語言，統計學習，計算機視覺。

虛擬環境

通過virtualenv來創建虛擬環境

通過anaconda來創建虛擬環境

virtualenv

virtualenv就是用來為每一個項目創建一套“獨立隔離”的Python運行環境的工具

pip install virtualenv

創建虛擬環境: virtualenv -p /usr/bin/python2.7 --no-site-packages venvs
啟動虛擬環境: source venvs/bin/activate
退出虛擬環境: deactivate
刪除虛擬環境: rm -r venvs

virtualenv -p /usr/local/bin/python --no-site-packages learn
source learn/bin/activate
deactivate
rm -r learn

可以一次性通過別的機器上或虛擬環境里，將文件里羅列的第三方庫安裝起來：
pip install -r requirements.txt

anaconda

安裝anaconda：anaconda download

# 查看幫助
conda -h 
# 基于python3.6版本創建一個名字為python36的環境
conda create --name python36 python=3.6 
# 激活此環境
source activate python36  
# 再來檢查python版本，顯示是 3.6
python -V  
# 退出當前環境
source deactivate python36 
# 刪除該環境
conda remove -n python36 --all
# 或者 
conda env remove  -n python36

# 查看所以安裝的環境
conda info -e

scikit-learn

scikit-learn官網

機器學習地圖：

一定量的樣本

classification

clustering

regression

dimensionality reduction

機器學習問題分類

監督式學習
回歸分析：連續性數值，使用一組已知對應值的數據產生的模型，預測新數據的對應值。
分類問題：類別標簽，根據已知標簽的訓練數據集，產生一個新模型，用以預測測試數據集的標簽。

非監督式學習
降低維度：產生一有最大變異數的字段線性組合,可用來降低原本問題的維度與復雜度
分群問題：物以類聚（近朱者赤，近墨者黑）

利用正確的答案的數據來進行學習，就可以稱之為監督式學習。
通過既有的答案來得到新的理論，調整一些演算的過程，建立模型。

同樣或者類似的數據放在一起，透過放在一起的數據，分析學習，找到需要知道的答案，稱之為非監督式學習。

回歸分析

線性回歸是研究單一因變量與一個或上一個自變量之間的關系

線性回歸有兩個主要用處：
預測指的是用已觀察的變量來預測因變量
因果分析則是將自變量當作因變量發生的原因

線性回歸

數學模型：

y = ax + b # 簡單線性回歸
y = ax^2 + bx + c # 二項式線性回歸

最小平方估計法：
找出殘差平方和最小的一條線

殘差計算公式

殘差平方和計算公式

繪制資料：

import pandas as pd
from matplotlib import pyplot as plt

df = pd.read_csv("Data/salary.csv", index_col=0)
X = df[["year"]]
Y = df["salary"].values

plt.scatter(X, Y, color="blue")
plt.xlabel("year")
plt.ylabel("salary")

plt.show()

繪制回歸線：

import pandas as pd
from matplotlib import pyplot as plt
from sklearn.linear_model import LinearRegression

df = pd.read_csv("Data/salary.csv", index_col=0)
X = df[["year"]]
Y = df["salary"].values

plt.scatter(X, Y, color="blue")
plt.xlabel("year")
plt.ylabel("salary")

# 使用scikit-learn進行預測
regr = LinearRegression()
regr.fit(X, Y)

# 將回歸線繪制在圖上
print("Coefficients:", regr.coef_) # 漲幅
print("Intercept:", regr.intercept_)

plt.plot(X, regr.predict(X), color="green", linewidth=3)

plt.show()

二次項線性回歸：

import pandas as pd
from matplotlib import pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

df = pd.read_csv("Data/salary.csv", index_col=0)
X = df[["year"]]
Y = df["salary"].values

# 使用scikit-learn進行預測
poly_reg = PolynomialFeatures(degree=2)  # 二次項
X_ = poly_reg.fit_transform(X)


regr = LinearRegression()
regr.fit(X_, Y)

X2 = X.sort_values(["year"])
X2_ = poly_reg.fit_transform(X2)

plt.scatter(X, Y, color="blue")
plt.plot(X2, regr.predict(X2_), color="green", linewidth=3)
plt.xlabel("year")
plt.ylabel("salary")

# 將回歸線繪制在圖上
print("Coefficients:", regr.coef_)
print("Intercept:", regr.intercept_)

plt.show()

回歸模型評估

驗證線性關系是顯著的。
驗證方法通過“假設”
目的：自變量是否有能力去影響自變量。

import pandas as pd
from matplotlib import pyplot as plt
import statsmodels.api as sm

df = pd.read_csv("Data/house-prices.csv")

# 建立Dummy Variable
s = pd.get_dummies(df["Brick"]) # 根據字段中的值，建立新的字段，并新的字段的值為0或1 # 必須去掉一個字段，去掉的這個字段通過其它一個字段生成。（如果同時存在，會產生共線性問題）
t = pd.get_dummies(df["Neighborhood"]) # 必須去掉一個字段，去掉的這個字段通過其它二個字段生成。

house = pd.concat([df, s, t], axis=1)

del house["No"]
del house["West"]
del house["Brick"]
del house["Neighborhood"]
del house["Home"]

X = house[["SqFt", "Bedrooms", "Bathrooms", "Offers", "Yes", "East", "North"]]
Y = house["Price"].values

X2 = sm.add_constant(X)
est = sm.OLS(Y, X2)
est2 = est.fit()
print(est2.summary()) # 回歸模型評估數據

假設顯著性標準是0.01

推翻假設的標準是p值 < 0.01 (假設不成立，可以推導出二者變量是密切聯系)

t = 2.658, P(>t)=0.009, P(0.09) < 0.01是不成立的，假設也不成立

驗證二者關系顯著

R-squared: 可作為自變量預測因變量準確度的指標。值越大越準確，0.5以上可以作為指標。
AIC: 鼓勵數據擬合的優良性但是盡量避免出現過度擬合的情況。所以優先考慮的模型應該是AIC值最小的那一個.

分析房天下的上海徐匯區數據

import pandas as pd
import time
from sklearn.linear_model import LinearRegression
from matplotlib import pyplot as plt
import statsmodels.api as sm

df = pd.read_excel("Data/house_price_regression.xlsx")

# 處理數據
now_year = time.localtime(time.time()).tm_year
df["age"] = df["age"].map(lambda e: now_year - int(e.strip().strip("建筑年代：")) )
df[["room", "living_room"]] = df["layout"].str.extract(r"(d+)室(d+)廳") # 抽取字段, 房間和廳
df["room"] = df["room"].astype(int)
df["living_room"] = df["living_room"].astype(int)
df["total_floor"] = df["floor_info"].str.extract(r"共(d+)層")
df["total_floor"] = df["total_floor"].astype(int)
df["floor"] = df["floor_info"].str.extract(r"^(.)層")
df["direction"] = df["direction"].map(lambda e: e.strip())

del df["layout"]
del df["floor_info"]
del df["title"]
del df["url"]

# 將values處理成字段
df = pd.concat([df, pd.get_dummies(df["direction"]), pd.get_dummies(df["floor"])], axis=1)

del df["direction"]
del df["floor"]
del df["南北向"]
del df["低"]


# 繪制散布圖
# 房價 與 平米
df[["price", "area"]].plot(kind="scatter", x="area", y="price", figsize=[10, 5])


# 繪制線性模型
x = df[["area"]]
y = df["price"]
regr = LinearRegression()
regr.fit(x, y)

print("Coefficent: {}".format(regr.coef_))
print("Intercept: {}".format(regr.intercept_))

plt.scatter(x, y, color="blue")
plt.plot(x, regr.predict(x), linewidth=2, color="red")
plt.xlabel("area")
plt.ylabel("price")

# 多元回歸預測
df_col = list(df.columns)
del df_col[2]
x = df[df_col]
y = df["price"]
regr = LinearRegression()
regr.fit(x, y)
print(x.info())

# 評估回歸模型
x2 = sm.add_constant(x)
est = sm.OLS(y, x2)
est2 = est.fit()
print(est2.summary())

plt.show()

資料分類

監督式學習

分類問題：根據已知標簽的訓練數據集，產生一個新模型，用以預測測試數據集的標簽

決策樹：

用于計算一個系統中的失序現象，也就是計算該系統混亂的程度。

決策樹的目的行為上的預測和實質的分類

單一變量的計算：

Entropy = -p * log * p - q * log * q

多變量的計算：

云服務器 GPU云服務器機器學習基礎學習學習機器學習基礎機器學習學習基礎機器學習基礎

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/42627.html

深度學習

摘要：深度學習在過去的幾年里取得了許多驚人的成果，均與息息相關。機器學習進階筆記之一安裝與入門是基于進行研發的第二代人工智能學習系統，被廣泛用于語音識別或圖像識別等多項機器深度學習領域。零基礎入門深度學習長短時記憶網絡。多圖｜入門必看：萬字長文帶你輕松了解LSTM全貌作者 | Edwin Chen編譯 | AI100第一次接觸長短期記憶神經網絡（LSTM）時，我驚呆了。原來，LSTM是神...

Vultr 2019-06-26 18:19 評論0 收藏0

發表評論

登陸后可評論

0條評論

frank_fun

男|高級講師

我要關注我要私信

TA的文章

BudgetVM：$29/月-4GB/200GB/100Mbps不限流量/高防/洛杉磯&am

閱讀 1733·2021-10-18 13:30
firstbyte.ru，新加坡VPS，10元/月，1核/512M內存/5GB SSD/不限流量/1

閱讀 2608·2021-10-09 10:02
????入行軟件測試坑！！！軟件測試人常用的軟件測試工具軟件推薦????

閱讀 2965·2021-09-28 09:35
使用Expect實現自動化交互

閱讀 2091·2019-08-26 13:39
理解React高階組件（裝飾器）

閱讀 3522·2019-08-26 13:36
使用 Linux 子系統部署 Node、Gradle 項目的構建工具

閱讀 1950·2019-08-26 11:46
高曉松：區塊鏈也可以有詩與遠方

閱讀 1135·2019-08-23 14:56
JavaScript實現簡單二叉查找樹

閱讀 1694·2019-08-23 10:38

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

機器學習基礎

相關文章

深度學習

發表評論

0條評論

frank_fun

男|高級講師

TA的文章

BudgetVM：$29/月-4GB/200GB/100Mbps不限流量/高防/洛杉磯&am

firstbyte.ru，新加坡VPS，10元/月，1核/512M內存/5GB SSD/不限流量/1

????入行軟件測試坑！！！軟件測試人常用的軟件測試工具軟件推薦????

使用Expect實現自動化交互

理解React高階組件（裝飾器）

使用 Linux 子系統部署 Node、Gradle 項目的構建工具

高曉松：區塊鏈也可以有詩與遠方

JavaScript實現簡單二叉查找樹

最新活動