機(jī)器學(xué)習(xí) | 樹回歸

CODING 發(fā)布于2019-07-31 10:14 / 535人閱讀

摘要：由于近期學(xué)業(yè)繁重，所以我就不說廢話了，直接上代碼運(yùn)行結(jié)果代碼使用二元切分法每次將數(shù)據(jù)集切成兩份如果數(shù)據(jù)的某特征值等于切分所要求的值，那么這些數(shù)據(jù)就進(jìn)入樹的左子樹，反之則進(jìn)入右子樹將每行映射成浮點(diǎn)數(shù)將文件中的所有數(shù)據(jù)都保存在同一個矩陣中參數(shù)數(shù)

由于近期學(xué)業(yè)繁重QAQ，所以我就不說廢話了，直接上代碼~

運(yùn)行結(jié)果

代碼

from numpy import *
#使用二元切分法——每次將數(shù)據(jù)集切成兩份
#如果數(shù)據(jù)的某特征值等于切分所要求的值，
#那么這些數(shù)據(jù)就進(jìn)入樹的左子樹，反之則
# 進(jìn)入右子樹
def loadDataSet(fileName):
    dataMat=[]
    fr=open(fileName)
    for line in fr.readlines():
        curLine=line.strip().split("	")
        #將每行映射成浮點(diǎn)數(shù)
        fltLine=list(map(float,curLine))
        dataMat.append(fltLine)
    #將文件中的所有數(shù)據(jù)都保存在同一個矩陣中
    return dataMat


#參數(shù)：數(shù)據(jù)集，待切分的特征，該特征的某個值
def binSplitDataSet(dataSet,feature,value):
    #將數(shù)據(jù)集合切分得到兩個子集并返回
    mat0 = dataSet[nonzero(dataSet[:,feature] > value)[0],:]
    mat1 = dataSet[nonzero(dataSet[:,feature] <= value)[0],:]

    return mat0,mat1

#建立葉結(jié)點(diǎn)的函數(shù)
#當(dāng)chooseBestSplit函數(shù)決定不再對數(shù)據(jù)集進(jìn)行切分時，將調(diào)用該regLeaf函數(shù)
#來得到葉節(jié)點(diǎn)的模型。在回歸樹種，該模型其實(shí)就是目標(biāo)變量的均值
def regLeaf(dataSet):
    return mean(dataSet[:,-1])

#計算誤差的函數(shù)——這里計算的是總方差
def regErr(dataSet):
    #均方差函數(shù)var*數(shù)據(jù)集中樣本的個數(shù)=總方差
    return var(dataSet[:,-1]) * shape(dataSet)[0]

#給定某個誤差計算方法，該函數(shù)會找到數(shù)據(jù)集上最佳的二元切割方式
#（他遍歷所有的特征及可能的取值來找到使誤差最小化的切分閾值）
#另外，該函數(shù)還要確定什么時候停止切分，一旦停止切分就會生成一個葉節(jié)點(diǎn)
#errType為平方誤差的總值（總方差）
def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
    #用戶指定的參數(shù)，用于控制函數(shù)停止時機(jī)
    #tolS為誤差下降值，tolN為切分的最少樣本數(shù)
    tolS = ops[0]; tolN = ops[1]
    #如果所有值相等則退出
    if len(set(dataSet[:,-1].T.tolist()[0])) == 1:
        #找不到一個“好”的二元切分，返回None并同時調(diào)用leafType來生成葉節(jié)點(diǎn)
        return None, leafType(dataSet)
    m,n = shape(dataSet)
    S = errType(dataSet)
    bestS = inf; bestIndex = 0; bestValue = 0
    for featIndex in range(n-1):
        for splitVal in set((dataSet[:,featIndex].T.A.tolist())[0]): 
            mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)
            if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): continue
            newS = errType(mat0) + errType(mat1)
            if newS < bestS: 
                bestIndex = featIndex
                bestValue = splitVal
                bestS = newS
    #如果誤差減少不大則退出
    if (S - bestS) < tolS: 
        return None, leafType(dataSet) 
    mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue)
    #如果切分出的數(shù)據(jù)集很小則退出
    if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): 
        return None, leafType(dataSet)
    #找到了一個“好”的切分方式，返回特征編號和切分特征值
    #找到了最佳的切分方式：切分后能達(dá)到最低誤差的切分
    return bestIndex,bestValue


#構(gòu)建樹的函數(shù)
#dataSet為數(shù)據(jù)集
#leafType為建立葉結(jié)點(diǎn)的函數(shù)，errType為誤差計算函數(shù)
#ops是一個包含書構(gòu)建所需其他參數(shù)的元組
def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
    #chooseBestSplit為切分函數(shù)
    #若滿足停止條件chooseBestSplit將返回None和某類模型的值
    #如果構(gòu)建的是回歸樹，該模型是一個常數(shù)，如果是模型樹，其
    #模型是一個線性方程(回歸樹假設(shè)葉節(jié)點(diǎn)是常數(shù)值)
    #若不滿足停止條件，chooseBestSplit將創(chuàng)建一個新的python
    #字典，并將數(shù)據(jù)集分成兩份，在這兩份數(shù)據(jù)集上分別繼續(xù)遞歸調(diào)
    #用createTree函數(shù)
    feat,val=chooseBestSplit(dataSet,leafType,errType,ops)
    #滿足停止條件時返回葉節(jié)點(diǎn)
    if feat==None:
        return val
    retTree={}
    retTree["spInd"]=feat
    retTree["spVal"]=val
    #將數(shù)據(jù)集按照待分特征和該特征的某個值進(jìn)行二分操作
    lSet,rSet=binSplitDataSet(dataSet,feat,val)
    #創(chuàng)建左右子樹
    retTree["left"]=createTree(lSet,leafType,errType,ops)
    retTree["right"]=createTree(rSet,leafType,errType,ops)
    return retTree


def drawFigure1():
    # import matplotlib.pyplot as plt 
    # myDat=loadDataSet("ex00.txt") 
    # myMat=mat(myDat) 
    # createTree(myMat) 
    # plt.plot(myMat[:,0],myMat[:,1],"ro") 
    # plt.show()
    import matplotlib.pyplot as plt 
    myDat=loadDataSet("ex0.txt") 
    myMat=mat(myDat) 
    createTree(myMat) 
    plt.plot(myMat[:,1],myMat[:,2],"ro") 
    plt.show()



def main():
    drawFigure1()
    # myDat=loadDataSet("ex00.txt")
    # myMat=mat(myDat)
    # myTree=createTree(myMat)
    # print(myTree)


    #建立一個主對角線元素全為1的矩陣
    #testMat=mat(eye(4))
    #print(testMat)
    #要分割的特征位于第一列
    #按照0.5去劃分
    #mat0,mat1=binSplitDataSet(testMat,0,0.5)
    # print(mat0)
    # print(mat1)

if __name__=="__main__":
    main()```


  [1]: /img/bVbqGCZ

云服務(wù)器 GPU云服務(wù)器機(jī)器學(xué)習(xí)回歸機(jī)器學(xué)習(xí)回歸算法機(jī)器學(xué)習(xí)決策樹機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://specialneedsforspecialkids.com/yun/43496.html

發(fā)表評論

登陸后可評論

0條評論

CODING

男|高級講師

我要關(guān)注我要私信

TA的文章

tab 切換下劃線跟隨實(shí)現(xiàn)

閱讀 899·2019-08-30 15:54
ie 9 背景透明的空白元素?zé)o法點(diǎn)擊

閱讀 1467·2019-08-30 15:54
小程序開發(fā)中的那些小坑

閱讀 2402·2019-08-29 16:25
文字在線中間，CSS巧妙實(shí)現(xiàn)分隔線的幾種方法

閱讀 1293·2019-08-29 15:24
前端實(shí)例練習(xí) - 模態(tài)框

閱讀 750·2019-08-29 12:11
TypeScript 初識 - 基礎(chǔ)

閱讀 2507·2019-08-26 10:43
【Vue原理】Compile - 源碼版之從新建實(shí)例到 compile結(jié)束的主要流程

閱讀 1229·2019-08-26 10:40
前端基礎(chǔ)之(1) - js篇

閱讀 468·2019-08-23 16:24

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

機(jī)器學(xué)習(xí) | 樹回歸

相關(guān)文章

ApacheCN 人工智能知識樹 v1.0

機(jī)器學(xué)習(xí)算法基礎(chǔ)（使用Python代碼）

**ApacheCN 數(shù)據(jù)科學(xué)/人工智能/機(jī)器學(xué)習(xí)知識樹 2019.2**

發(fā)表評論

0條評論

CODING

男|高級講師

TA的文章

tab 切換下劃線跟隨實(shí)現(xiàn)

ie 9 背景透明的空白元素?zé)o法點(diǎn)擊

小程序開發(fā)中的那些小坑

文字在線中間，CSS巧妙實(shí)現(xiàn)分隔線的幾種方法

前端實(shí)例練習(xí) - 模態(tài)框

TypeScript 初識 - 基礎(chǔ)

【Vue原理】Compile - 源碼版之從新建實(shí)例到 compile結(jié)束的主要流程

前端基礎(chǔ)之(1) - js篇

最新活動