【收藏】6000字人工智能科普，高中生都能讀懂 —— Jinkey原創(chuàng)

張巨偉發(fā)布于2019-06-26 18:31 / 2265人閱讀

摘要：人工智能概述簡史應(yīng)用領(lǐng)域安防實(shí)時(shí)從視頻中檢測出行人和車輛。通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型，幫助醫(yī)生設(shè)計(jì)手術(shù)，確保手術(shù)為我們每個(gè)人提供康建議和疾病風(fēng)險(xiǎn)預(yù)警，從而讓我們生活得更加健康。

0 引言

本文是《人工智能基礎(chǔ)（高中版）》的讀書筆記，這本書的配圖非常好，把難以理解的概念圖形化，所以讀后感會(huì)引用書中的圖片（圖片版權(quán)歸商湯科技所有）。

書中部分概念還是比較晦澀，讀者在小白的角度不好理解某些概念和方法之間微妙的差別，所以我用自己的理解和抹去一些難以理解的細(xì)節(jié)，以更通俗易懂的形式展示出來。

1 人工智能概述 1.1 簡史

1.2 應(yīng)用領(lǐng)域 安防

實(shí)時(shí)從視頻中檢測出行人和車輛。

自動(dòng)找到視頻中異常的行為（比如，醉酒的行人或者逆行的車輛），并及時(shí)發(fā)出帶有具體地點(diǎn)方位信息的警報(bào)。

自動(dòng)判斷人群的密度和人流的方向，提前發(fā)現(xiàn)過密人群帶來的潛在危險(xiǎn)，幫助工作人員引導(dǎo)和管理人流。

醫(yī)療

對(duì)醫(yī)學(xué)影像進(jìn)行自動(dòng)分析的技術(shù)。這些技術(shù)可以自動(dòng)找到醫(yī)學(xué)影像中的重點(diǎn)部位，并進(jìn)行對(duì)比比分析。

通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型，幫助醫(yī)生設(shè)計(jì)手術(shù)，確保手術(shù)

為我們每個(gè)人提供康建議和疾病風(fēng)險(xiǎn)預(yù)警，從而讓我們生活得更加健康。

智能客服

智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題，對(duì)問題的意義進(jìn)行分析（比如客戶是詢問價(jià)格呢還是咨詢產(chǎn)品的功能呢），進(jìn)行準(zhǔn)確得體并且個(gè)性化的回應(yīng)。

自動(dòng)駕駛

現(xiàn)在的自動(dòng)駕駛汽車通過多種傳感器，包括視頻攝像頭、激光雷達(dá)、衛(wèi)星定位系統(tǒng)（北斗衛(wèi)星導(dǎo)航系統(tǒng)BD)S、全球定位系統(tǒng)GPS等）等，來對(duì)行駛環(huán)境進(jìn)行實(shí)時(shí)感知。智能駕駛系統(tǒng)可以對(duì)多種感知信號(hào)進(jìn)行綜合分析，通過結(jié)合地圖和指示標(biāo)志（比如交通燈和路牌），實(shí)時(shí)規(guī)劃駕駛路線，并發(fā)出指令，控制車子的運(yùn)行。

工業(yè)制造

幫助工廠自動(dòng)檢測出形態(tài)各異的缺陷

1.3 概念

什么是人工智能？
人工智能是通過機(jī)器來模擬人類認(rèn)知能力的技術(shù)。

人工智能的三種訓(xùn)練方式分別是監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。下文會(huì)一一介紹。

2 這是不是鸞尾花（分類器） 2.1 特征提取

人類感官特征
花瓣數(shù)量、顏色

人工設(shè)計(jì)特征
先確定哪些特征，再通過測量轉(zhuǎn)化為具體數(shù)值

深度學(xué)習(xí)特征
這里先不提及，文章后面會(huì)說

2.2 感知器

老師給了一道題：

要區(qū)分兩種鸞尾花，得畫出一條直線區(qū)分兩類花，你可以畫出無數(shù)條直線，但是哪條才是最好的呢？

怎么辦呢？我可是學(xué)渣啊，靠懵！

隨便找三個(gè)數(shù)a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c，

每朵花的兩個(gè)特征也代入x[1]、x[2]，比如帶入(4, 1) 得出 y[預(yù)測] = 1，此時(shí) y[實(shí)際] = 1 （樣本設(shè)定變色鸞尾花為 1，山鸞尾為 -1 ），所以y[實(shí)際] - y[預(yù)測] = 0.

重復(fù)以上兩步，得出所有的『實(shí)際值和預(yù)測值的差距的綜合』，記為 Loss1

可怎么知道是不是最優(yōu)的直線呢？繼續(xù)猜啊！繼續(xù)懵！像猜世界杯一樣猜就好了。

通過沿 y = ax[1] + bx[2] + c 梯度（梯度就是求導(dǎo)數(shù)，高中有學(xué)的！）下降的方向繼續(xù)猜數(shù)字，具體過程大概是這樣子的：

上述所屬的實(shí)際值和預(yù)測值的差距 實(shí)際上是一種損失函數(shù)，還有其他的損失函數(shù)，比如兩點(diǎn)間直線距離公式，余弦相似度公式等等可以計(jì)算預(yù)測結(jié)果和實(shí)際結(jié)果之間的差距。

劃重點(diǎn)：損失函數(shù)就是現(xiàn)實(shí)和理想的差距（很殘酷）

2.3 支持向量機(jī)

方法	區(qū)別
感知器	猜線的依據(jù)是所有預(yù)測的點(diǎn)到實(shí)際的點(diǎn)之間的差值最小
支持向量機(jī)SVM	猜線的依據(jù)是所有點(diǎn)到直線距離最小

*判斷依據(jù)的區(qū)別也導(dǎo)致了損失函數(shù)的不同（但依舊是猜）

直觀的說，縫隙越大越好（老司機(jī)閉嘴！）

2.4 多分類

如果有多種花怎么辦？一趟植物課上，老師請(qǐng)來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。
老師拿出了一盤花給各個(gè)專家鑒定，牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。老師綜合了各位專家的意見后，告訴同學(xué)們，這是一盤梅花。

小明：這老師是不是傻，一朵花是啥都不知道，還要請(qǐng)三個(gè)專家
老師：你給我滾出去

實(shí)際計(jì)算過程就是通過用 2.2 和 2.3 等方法訓(xùn)練的二分類器，分別輸出對(duì)應(yīng)的分類值（比如三種花的分類器分別輸出-1，2，3），那怎么把這些分類值轉(zhuǎn)化成概率呢？這就要用到歸一化指數(shù)化函數(shù) Softmax（如果是二分類就用 Sigmoid函數(shù)），這里就不拿公式來說，可以直觀的看看書中這個(gè)表格就懂了：

2.5 非監(jiān)督學(xué)習(xí)

第 2.2 能從預(yù)測值和實(shí)際值的差別判斷"是否猜對(duì)了"，是因?yàn)樯锢蠋煾嬖V了學(xué)渣，哪些樣本是山鸞尾花，哪些變色鸞尾花。但如果老師連樣本實(shí)際的類別也不告訴學(xué)渣（非監(jiān)督式學(xué)習(xí)），學(xué)渣不知道樣本分別是什么花。

那該怎么辦呢？

機(jī)器學(xué)習(xí)的入門課程總是在講鸞尾花，也是夠煩的。這里我們換個(gè)場景：

假如你是某直播老板，要找一堆小主播，這時(shí)候你有一堆應(yīng)聘者，然而你只有她們的胸圍和臀圍數(shù)據(jù)。一堆8份簡歷擺在你面前，你是不知道哪些更加能干( capable啊 ! ) 的，更能吸引粉絲。你也沒空全部面試，那應(yīng)該怎么挑選呢？

這時(shí)候你把她們的胸圍和臀圍都標(biāo)準(zhǔn)在一張二維坐標(biāo)圖上：

這是你隨手一劃，把她們分成兩組，可以說“聚成兩類了”。

用某種計(jì)算方式（比如平均值）找到這個(gè)聚類的中心。點(diǎn)離聚類中心越近，代表越相似。

求出每個(gè)聚類中的點(diǎn)到藍(lán)色聚類中心點(diǎn)和黃色聚類中心的距離

如果一個(gè)點(diǎn)離黃色聚類中心更近卻被你隨手劃到了藍(lán)色分組（上圖用紅色邊框標(biāo)出的小方塊），那么就把它劃入黃色分組。

這時(shí)因?yàn)榉纸M范圍和分組內(nèi)包含哪些小姐姐都發(fā)生了變化。這時(shí)候你需要以步驟3 的方法重新計(jì)算聚類的中心

重復(fù)步驟 4 （算點(diǎn)中心距離）-> 重復(fù)步驟 5 （調(diào)整黃色小姐姐們和藍(lán)色小姐姐們）-> 重復(fù)步驟 3 （算中心），一直循環(huán)這個(gè)過程直到藍(lán)色和黃色聚類下所包含的小姐姐不再發(fā)生變化。那么就停止這一循環(huán)。

至此，小姐姐們已經(jīng)被分為兩大類。你可以得出兩類小姐姐：

計(jì)算機(jī)在沒有監(jiān)督的情況下，成功把小姐姐們分成兩類，接下來就可以在把兩種主播各投放2個(gè)到平臺(tái)看看誰更能干。效果更好的，以后就以那個(gè)聚類的樣本特征擴(kuò)充更多能干的主播。

小明：且，有什么了不起的，我一眼就能看出黃色小姐姐更能干
老師：你給我滾出去

上面聚類小姐姐的算法就叫做 K 鄰近算法，K 為要聚類的數(shù)量（這需要人工指定），上述例子 K=2.那么如果分成三類就是 K=3，訓(xùn)練過程可以看下圖，有個(gè)直觀的了解：

3 這是什么物品（圖像識(shí)別） 3.1 特征提取

人類感官特征
花瓣顏色、花瓣長度、有沒有翅膀（區(qū)分貓和小鳥）、有沒有嘴巴和眼睛（飛機(jī)和小鳥）

	小貓	小鳥	飛機(jī)	汽車
特征1：有沒有翅膀	否	是	是	否
特征2：有沒有眼睛	是	是	否	否

人工設(shè)計(jì)特征
感官的特征通過量化得到顏色（RGB值）、邊緣（圓角、直角、三角）、紋理（波浪、直線、網(wǎng)格）數(shù)值特征

深度學(xué)習(xí)特征
通過卷積提取圖像特征

劃重點(diǎn)：卷積的作用就是提取圖像有用信息，好比微信把你發(fā)出的圖片壓縮了，大小變小了，但是你依舊能分辨出圖像的主要內(nèi)容。

1維卷積 15+24+33=22、14+23+32=16、13+22+3*1=10

2維卷積 12+30+24+42=28...

通過卷積就可以得到圖像的特征信息，比如邊緣

3.2 深度學(xué)習(xí)和傳統(tǒng)模式分類的區(qū)別

既然有傳統(tǒng)模式分類，為什么還要神經(jīng)網(wǎng)絡(luò)呢？

區(qū)別就在于傳統(tǒng)的模式分類需要人為設(shè)置特征，比如花瓣長度、顏色等等。而深度學(xué)習(xí)省略掉人工設(shè)計(jì)特征的步驟，交由卷積操作去自動(dòng)提取，分類器的訓(xùn)練也同時(shí)融入到神經(jīng)網(wǎng)絡(luò)當(dāng)中，實(shí)現(xiàn)了端對(duì)端的學(xué)習(xí)

劃重點(diǎn)：端對(duì)端學(xué)習(xí)（End to End）就是從輸入直接得出輸出，沒有中間商，自己賺差價(jià)。

3.3 深(多)層神經(jīng)網(wǎng)絡(luò)存在的問題

一般來說，神經(jīng)網(wǎng)絡(luò)層數(shù)增多，會(huì)提高準(zhǔn)確率。但是，網(wǎng)絡(luò)層數(shù)加深導(dǎo)致：

過擬合
學(xué)渣把高考預(yù)測試題的答案都背一遍而不理解，考試的時(shí)候，如果試題是考生背過的，那么考生就能答對(duì)；如果沒背過那么考生就不會(huì)回答了。我們就可以說，學(xué)渣『過擬合』了預(yù)測試題。

與之對(duì)應(yīng)的是：欠擬合
渣得不能再渣的人，連預(yù)測試題都背不下來，即使考試試題和預(yù)測試題一模一樣，他也只能答對(duì)30%。那么就可以說這種人欠揍欠擬合。

有興趣的還可以了解一下
梯度彌散和梯度爆炸
下面是網(wǎng)上很火很勵(lì)志的一個(gè)公式，權(quán)重在多層網(wǎng)絡(luò)中相乘，比如每一層的權(quán)重都是0.01，傳遞100層就是 0.01 的100 次方，變得非常小，在梯度下降 Gradient Descent 的學(xué)習(xí)過程中，學(xué)習(xí)將變得非常慢。（好比從一個(gè)碗頂部放下一個(gè)小球，在底部徘徊的速度會(huì)越來越慢）

非凸優(yōu)化
學(xué)習(xí)過程可能在局部最小值（極小值）就停止了，因?yàn)樘荻龋ㄐ甭剩榱恪Ｔ诰植孔畹屯Ｖ苟皇侨肿畹屯Ｖ梗瑢W(xué)習(xí)到的模型就不夠準(zhǔn)確了。

看圖感受一下

你說的底不是底，你說的頂是什么頂

解決的辦法

均勻初始化權(quán)重值（Uniform Initialization）、批歸一化（Batch Normalization）、跳遠(yuǎn)鏈接（Shortcut）涉及到比較多數(shù)學(xué)邏輯，這里就不展開說明了。

3.4 應(yīng)用

人臉識(shí)別

自動(dòng)駕駛
把汽車頂部拍攝到的圖片切分層一個(gè)個(gè)小方塊，每個(gè)小方塊檢測物體是車還是行人還是狗，是紅燈還是綠燈，識(shí)別各種交通標(biāo)識(shí)等等。再配合雷達(dá)等判斷物體距離。

4 這是什么歌（語音識(shí)別） 4.1 特征提取

人類感官特征
音量、音調(diào)、音色

通過采樣、量化、編碼。實(shí)現(xiàn)聲波數(shù)字化（聲波轉(zhuǎn)電信號(hào)）

人工設(shè)計(jì)特征
梅爾頻率在低頻部分分辨率高，高頻部分分辨率低（這與人耳的聽覺感受是相似的，即在一定頻率范圍內(nèi)人對(duì)低頻聲音比較敏感而對(duì)高頻聲音不敏感）。關(guān)系為：

在每一個(gè)頻率區(qū)間對(duì)頻譜求均值，它代表了每個(gè)頻率范圍內(nèi)聲音能量的大小。一共有26個(gè)頻率范圍，從而得到26維的特征。倒譜操作后，得到 13 維的梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients，MFCCs)

深度學(xué)習(xí)特征
通過 3.1 所介紹的 1維卷積進(jìn)行特征提取

4.2 應(yīng)用

音樂風(fēng)格分類

輸入：音頻文件
特征：聲音特征
輸出：音樂種類

語音轉(zhuǎn)文字

輸入：音頻文件
特征：聲音特征
輸出：聲學(xué)模型（比如26個(gè)英文字母）

再把聲學(xué)模型送入另外的學(xué)習(xí)器

輸入：聲學(xué)模型
特征：語義和詞匯
輸出：通順的語句（可以查看第6點(diǎn)，如何讓計(jì)算機(jī)輸出通順的語句）

聽歌識(shí)曲
通過窗口掃描（把音樂分割成一小段一小段的），然后通過4.1說的方法提取這一段的特征，就得到一個(gè)特征向量。對(duì)數(shù)據(jù)庫的歌和用戶錄音的歌做同樣的操作得到特征向量，然后兩兩之間計(jì)算相似度（兩個(gè)向量的距離可以用余弦公式算夾角大小或者兩點(diǎn)間距離公式來算）

5 視頻里的人在做什么（視頻理解，動(dòng)作識(shí)別） 5.1 介紹

視頻，本質(zhì)是由一幀幀圖片連續(xù)組成的，因?yàn)槿艘曈X的暫留效應(yīng)（Persistence of vision，人眼在觀察景物時(shí)，光信號(hào)傳入大腦神經(jīng)，并不立即消失，讓人產(chǎn)生畫面連續(xù)的印象），看上去是連續(xù)的，也就是視頻。
識(shí)別視頻里面有什么物體，可以用上文說過的圖像識(shí)別和分類方法去實(shí)時(shí)分析單幀圖像，比如：

但是視頻相對(duì)于圖像有一個(gè)更重要的屬性：動(dòng)作（行為）。

怎么從一個(gè)連續(xù)的視頻分析動(dòng)作呢？

舉個(gè)例子，像上圖那只二哈，腿部的像素點(diǎn)相對(duì)于黃色的方框（框和狗相對(duì)靜止）在左右"移動(dòng)"，這里的"移動(dòng)"我們引入一個(gè)概念——光流（一個(gè)像素點(diǎn)從一個(gè)位置移動(dòng)到另一個(gè)位置），通過像素點(diǎn)移動(dòng)形成的光流作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征（X），『奔跑』作為訓(xùn)練目標(biāo)值（Y），經(jīng)過多次的迭代訓(xùn)練，機(jī)器就可以擬合得出一個(gè) Y = f(X) 用于判斷視頻中的物體（Object）是否在奔跑。

5.2 光流

假設(shè)，
1）相鄰兩幀中物體運(yùn)動(dòng)很小
2）相鄰兩幀中物體顏色基本不變

至于神經(jīng)網(wǎng)絡(luò)是怎么跟蹤某個(gè)像素點(diǎn)的，這里不展開說明。

第 t 時(shí)刻的點(diǎn)指向第 t+1 時(shí)刻該點(diǎn)的位置，就是該點(diǎn)的光流，是一個(gè)二維的向量。

整個(gè)畫面的光流就是這樣：

整個(gè)視頻的光流（軌跡）是這樣的

不同的虛線代表圖像上某個(gè)點(diǎn)移動(dòng)的軌跡

假設(shè)視頻寬width、高 height、一共有 m 幀，那么該視頻可以用 width * height * m * 2 的張量（就是立體的矩陣）來表示，把向量喂到神經(jīng)網(wǎng)絡(luò)即可進(jìn)行分類訓(xùn)練。

進(jìn)一步優(yōu)化，可以把光流簡化為8個(gè)方向上的，把視頻某一幀的所有光流累加到這八個(gè)方向上得出某一幀的光流直方圖，進(jìn)一步得出 8 維的特征向量。

6 一段文字在表達(dá)什么（自然語言處理） 6.1 特征提取

編號(hào)	句子	分類
1	科學(xué)證明游泳有利于身體發(fā)育。	體育
2	傅園慧在奧運(yùn)游泳比賽中獲得了金牌。	體育
3	優(yōu)讀是個(gè)很好用的知識(shí)管理應(yīng)用。	工具
4	一篇文章說明印象筆記在知識(shí)管理上的應(yīng)用。	工具

這里有4個(gè)句子，首先進(jìn)行分詞：

編號(hào)	句子
1	科學(xué) 證明游泳有利于身體發(fā)育。
2	傅園慧在奧運(yùn) 游泳比賽中獲得了金牌。
3	優(yōu)讀是個(gè) 很好用的知識(shí) 管理應(yīng)用。
4	一篇文章說明印象筆記在知識(shí) 管理上的應(yīng)用。

去掉停用詞（副詞、介詞、標(biāo)點(diǎn)符合等等，一般在文本處理上都有一個(gè)停用詞表）

編號(hào)	句子
1	科學(xué) 證明游泳有利身體發(fā)育
2	傅園慧奧運(yùn) 游泳比賽獲得金牌
3	優(yōu)讀好用知識(shí) 管理應(yīng)用
4	文章說明印象筆記知識(shí) 管理應(yīng)用

編碼詞表

句子向量化

這樣就得到一個(gè)句子19 維的特征向量，再把這19維的特征向量用普通卷積網(wǎng)絡(luò)或者 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)作為 X 讀入（喂它吃東西），文本的分類（比如積極、消極）作為訓(xùn)練標(biāo)簽值 Y，迭代訓(xùn)練得到的模型可以用于情感分析或文本分類等任務(wù)。

6.2 進(jìn)階

詞向量化
厲害-牛逼、計(jì)算機(jī)-電腦是同義詞。光從上面的步驟，我們可能認(rèn)為厲害和牛逼是兩個(gè)完全不一樣的詞語，但其實(shí)他們是近似的意思，怎么才能 AI 學(xué)習(xí)知道這點(diǎn)呢？需要從多個(gè)維度去進(jìn)一步給詞語更豐富的內(nèi)涵，比如：

舉例來說，男性用1表示，女性用0表示，不帶性別傾向就是0.5。多個(gè)維度擴(kuò)展之后，就得到“男人”這個(gè)詞的特征向量（1，0， 0.5，0，1）

逆向文檔頻率
一個(gè)詞在一類文章出現(xiàn)的多，而在另外分類的文章出現(xiàn)的少，越能說明這個(gè)次能代表這篇文章的分類。
比如游泳在體育類的文章中出現(xiàn)的多（2次），而在工具類的文章出現(xiàn)的少（0次），相比其他詞語（1次）更能代表體育類的文章。

假設(shè)句子中有 N 個(gè)詞，某個(gè)詞出現(xiàn)次數(shù)為 T，一共有 X 個(gè)句子，該詞語在 W 個(gè)句子出現(xiàn)，則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)

6.3 應(yīng)用

7 讓計(jì)算機(jī)畫畫（生成對(duì)抗網(wǎng)絡(luò)）

從前有個(gè)人，以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫：

第一次他畫成這樣子了：

鑒賞家一眼就看出來是假的，他不得不回去畫第二幅畫、第三幅畫...

經(jīng)過了10萬次"畫畫-鑒別"的過程，這個(gè)臨摹者畫出來的畫，鑒賞家居然認(rèn)為這是真的原作，以高價(jià)買入了這副畫。

這種生成（畫畫）- 鑒別（鑒偽）的模式正是生成對(duì)抗網(wǎng)絡(luò)（GAN）的核心。

通過生成器，把隨機(jī)像素點(diǎn)有序排列形成具有意義的畫面，再通過鑒別器得出生成的畫面的分類、和真實(shí)畫面之間的差距，并告訴生成器要往什么方向去優(yōu)化。多輪的訓(xùn)練之后，生成器就學(xué)會(huì)了畫『真畫』了。

計(jì)算機(jī)是怎么把隨機(jī)像素點(diǎn)變成有意義的畫面的呢？我們通過一個(gè)簡化的例子來看看。

直線上一些均勻分布的點(diǎn)，經(jīng)過 y=2x+1變換后變成了非均勻分布。一張隨機(jī)排布的像素點(diǎn)畫面，經(jīng)過某個(gè)f(x) 變換后就會(huì)變成具有某種意義的畫面，而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。

劃重點(diǎn)：函數(shù)可以變換數(shù)據(jù)分布（庫克說：可以把直的變成彎的）

8 AlphaGo是怎么下棋的？（強(qiáng)化學(xué)習(xí)） 8.1 粗略認(rèn)知

監(jiān)督/無監(jiān)督訓(xùn)練：盡可能讓每一次任務(wù)正確
強(qiáng)化學(xué)習(xí)：多次任務(wù)是否達(dá)成最終目標(biāo)

每一次任務(wù)都準(zhǔn)確，不就是能達(dá)成最終目標(biāo)嗎？我們來看一個(gè)例子：

一家批發(fā)商店的老板愛麗絲要求她的經(jīng)理比爾增加銷售額，比爾指導(dǎo)他的銷售員多賣一些收音機(jī)，其中一個(gè)銷售員查爾斯弄到了一個(gè)可以獲利的大單，但是之后公司因?yàn)楣?yīng)緊缺無法交付這些收音機(jī)。應(yīng)該責(zé)怪誰呢？從愛麗絲的角度來看，查爾斯的行為讓公司蒙羞了（最終任務(wù)沒完成）。但是從比爾的角度，查爾斯成功地完成了他的銷售任務(wù)，而比爾也增加了銷量（子任務(wù)達(dá)成）。——《心智社會(huì)》第7.7章

8.2 AlphaGo

下圍棋，最古老的辦法是決策樹，從左上角的位置開始到右下角的位置遍歷，每一個(gè)空的位置就是一個(gè)分支，然后預(yù)測每種棋局贏的概率，找出最大概率的走法玩。這就是落子預(yù)測器。

但是由于圍棋19X19的超大棋盤，空間復(fù)雜度高達(dá)10的360次方，要窮盡所有的走法幾乎是不可能的，如大海撈針。

要降低復(fù)雜度，關(guān)鍵是要降低搜索的廣度和深度。

我們?cè)耘嘁活w小盆栽的時(shí)候，如果不對(duì)枝葉進(jìn)行修剪，那么養(yǎng)分就會(huì)浪費(fèi)在沒長好的枝條上。需要及時(shí)對(duì)枯萎或者異常的枝條進(jìn)行修剪以保證養(yǎng)分往正常（或者說我們希望它生長的方向）枝條上輸送。

同樣的道理，有限的計(jì)算機(jī)算力如果浪費(fèi)在窮盡所有圍棋走法上，將導(dǎo)致棋局推演非常慢，而且耗費(fèi)大量的時(shí)間也難以找到最優(yōu)的方案。

是否可以通過 "修剪" 落子選擇器這顆龐大的決策樹，加快較優(yōu)落子方案的選擇呢？怎么判斷哪些是好的"枝條"，哪些是壞的"枝條"呢？這就需要棋局價(jià)值評(píng)估器（哪個(gè)棋盤的贏的概率更大），把沒有價(jià)值的棋局先去掉不再往下遍歷，這就同時(shí)減少了搜索的廣度和深度。

其中，
落子預(yù)測器有個(gè)名稱，叫做政策網(wǎng)絡(luò)（policy network）
價(jià)值評(píng)估器有個(gè)名稱，叫做價(jià)值網(wǎng)絡(luò)（value network）
政策網(wǎng)絡(luò)（policy network）利用蒙特卡洛搜索樹從當(dāng)前棋局推演（隨機(jī)下棋）到最終的棋局，最終勝則回報(bào)為正，反之回報(bào)為負(fù)。之后該算法會(huì)反向沿著該對(duì)弈過程的落子方案步步回溯，將路徑上勝者所選擇的落子方案分?jǐn)?shù)提高，與此對(duì)應(yīng)將敗者的落子方案分?jǐn)?shù)降低，所以之后遇到相同局面時(shí)選擇勝者方案的概率就會(huì)增加。因此可以加速落子選擇，稱為快速走子網(wǎng)絡(luò)。

通過 政策網(wǎng)絡(luò) + 價(jià)值網(wǎng)絡(luò) + 蒙特卡洛搜索樹 實(shí)現(xiàn)最優(yōu)落子方案的選擇，同時(shí)兩個(gè)機(jī)器人互相對(duì)弈，這樣就不停地訓(xùn)練網(wǎng)絡(luò)，學(xué)習(xí)落子方案。

8.3 定義

接下來說一下枯燥的定義

什么是強(qiáng)化學(xué)習(xí)?

當(dāng)我們關(guān)注的不是某個(gè)判斷是否準(zhǔn)確，而是行動(dòng)過程能否帶來最大的收益時(shí)使用強(qiáng)化學(xué)習(xí)(reinforeement learning)。比如在下棋、股票交易或商業(yè)決策等場景中。

強(qiáng)化學(xué)習(xí)的目標(biāo)是要獲得一個(gè)策略(poliey)去指導(dǎo)行動(dòng)。
比如在圍棋博弈中，這個(gè)策略可以根據(jù)盤面形勢(shì)指導(dǎo)每一步應(yīng)該在哪里落子；在股票交易中，這個(gè)策略會(huì)告訴我們?cè)谑裁磿r(shí)候買入、什么時(shí)候賣出。

一個(gè)強(qiáng)化學(xué)習(xí)模型一般包含如下幾個(gè)部分：

一組可以動(dòng)態(tài)變化的狀態(tài)(sute)對(duì)于圍棋棋盤上黑白子的分布位置
對(duì)于股票交易來說，就是股票的價(jià)格
一組可以選取的動(dòng)作(metion)
對(duì)于圍棋來說，就是可以落子的位置；
對(duì)于股票交易來說，就是每個(gè)時(shí)間點(diǎn)，買入或者賣出的股票以及數(shù)量。
一個(gè)可以和決策主體(agent)進(jìn)行交互的環(huán)境(environment)
這個(gè)環(huán)境會(huì)決定每個(gè)動(dòng)作后狀態(tài)如何變化。
棋手（主體）的落子會(huì)影響棋局（環(huán)境），環(huán)境給主體獎(jiǎng)勵(lì)（贏）或懲罰（輸）
操盤手（主體）的買入或賣出會(huì)影響股票價(jià)格（環(huán)境，供求關(guān)系決定價(jià)格），環(huán)境給主體獎(jiǎng)勵(lì)（賺錢）或懲罰（虧錢）
回報(bào)(reward)規(guī)則
當(dāng)決策主體通過行動(dòng)使?fàn)顟B(tài)發(fā)生變化時(shí)，它會(huì)獲得回報(bào)或者受到懲罰（回報(bào)為負(fù)值）。

《人工智能基礎(chǔ)高中版》這本書，有時(shí)間建議讀者可以自己閱讀，圖書鏈接

原文鏈接 https://jinkey.ai/post/tech/5...
本文作者 Jinkey（微信公眾號(hào) jinkey-love，官網(wǎng) https://jinkey.ai）
文章允許非篡改署名轉(zhuǎn)載，刪除或修改本段版權(quán)信息轉(zhuǎn)載的，視為侵犯知識(shí)產(chǎn)權(quán)，我們保留追求您法律責(zé)任的權(quán)利，特此聲明！

云服務(wù)器 GPU云服務(wù)器高中生如何應(yīng)對(duì)人工智能高中生應(yīng)如何應(yīng)對(duì)人工智能高中生能學(xué)會(huì)人工智能嗎人工智能高中作文

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/19783.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

張巨偉

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow與keras

閱讀 2077·2023-04-25 19:15
K8s對(duì)pod進(jìn)行網(wǎng)絡(luò)抓包

閱讀 2244·2021-11-23 09:51
基于Springboot實(shí)現(xiàn)在線打印平臺(tái)

閱讀 1263·2021-11-17 09:33
RackNerd：VPS、虛擬主機(jī)全場75折優(yōu)惠，推薦幾款性價(jià)比較高的套餐

閱讀 2164·2021-08-26 14:15
jsu系列之表格組件 ---- jsu.Table

閱讀 2475·2019-08-30 15:54
雙飛翼布局

閱讀 1581·2019-08-30 15:54
Css文件引用的最優(yōu)方法

閱讀 2166·2019-08-30 12:50
擼個(gè)查詢物流的小程序，歡迎體驗(yàn)

閱讀 1131·2019-08-29 17:08

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

【收藏】6000字人工智能科普，高中生都能讀懂 —— Jinkey原創(chuàng)

相關(guān)文章