摘要:人工智能概述簡史應(yīng)用領(lǐng)域安防實(shí)時(shí)從視頻中檢測出行人和車輛。通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型,幫助醫(yī)生設(shè)計(jì)手術(shù),確保手術(shù)為我們每個(gè)人提供康建議和疾病風(fēng)險(xiǎn)預(yù)警,從而讓我們生活得更加健康。
0 引言
本文是《人工智能基礎(chǔ)(高中版)》的讀書筆記,這本書的配圖非常好,把難以理解的概念圖形化,所以讀后感會(huì)引用書中的圖片(圖片版權(quán)歸商湯科技所有)。
書中部分概念還是比較晦澀,讀者在小白的角度不好理解某些概念和方法之間微妙的差別,所以我用自己的理解和抹去一些難以理解的細(xì)節(jié),以更通俗易懂的形式展示出來。
實(shí)時(shí)從視頻中檢測出行人和車輛。
自動(dòng)找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時(shí)發(fā)出帶有具體地點(diǎn)方位信息的警報(bào)。
自動(dòng)判斷人群的密度和人流的方向,提前發(fā)現(xiàn)過密人群帶來的潛在危險(xiǎn),幫助工作人員引導(dǎo)和管理人流。
醫(yī)療對(duì)醫(yī)學(xué)影像進(jìn)行自動(dòng)分析的技術(shù)。這些技術(shù)可以自動(dòng)找到醫(yī)學(xué)影像中的重點(diǎn)部位,并進(jìn)行對(duì)比比分析。
通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型,幫助醫(yī)生設(shè)計(jì)手術(shù),確保手術(shù)
為我們每個(gè)人提供康建議和疾病風(fēng)險(xiǎn)預(yù)警,從而讓我們生活得更加健康。
智能客服智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對(duì)問題的意義進(jìn)行分析(比如客戶是詢問價(jià)格呢還是咨詢產(chǎn)品的功能呢),進(jìn)行準(zhǔn)確得體并且個(gè)性化的回應(yīng)。
自動(dòng)駕駛現(xiàn)在的自動(dòng)駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達(dá)、衛(wèi)星定位系統(tǒng)(北斗衛(wèi)星導(dǎo)航系統(tǒng)BD)S、全球定位系統(tǒng)GPS等)等,來對(duì)行駛環(huán)境進(jìn)行實(shí)時(shí)感知。智能駕駛系統(tǒng)可以對(duì)多種感知信號(hào)進(jìn)行綜合分析,通過結(jié)合地圖和指示標(biāo)志(比如交通燈和路牌),實(shí)時(shí)規(guī)劃駕駛路線,并發(fā)出指令,控制車子的運(yùn)行。
工業(yè)制造幫助工廠自動(dòng)檢測出形態(tài)各異的缺陷
1.3 概念什么是人工智能?
人工智能是通過機(jī)器來模擬人類認(rèn)知能力的技術(shù)。
人工智能的三種訓(xùn)練方式分別是監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。下文會(huì)一一介紹。
2 這是不是鸞尾花(分類器) 2.1 特征提取人類感官特征
花瓣數(shù)量、顏色
人工設(shè)計(jì)特征
先確定哪些特征,再通過測量轉(zhuǎn)化為具體數(shù)值
深度學(xué)習(xí)特征
這里先不提及,文章后面會(huì)說
老師給了一道題:
要區(qū)分兩種鸞尾花,得畫出一條直線區(qū)分兩類花,你可以畫出無數(shù)條直線,但是哪條才是最好的呢?
怎么辦呢?我可是學(xué)渣啊,靠懵!
隨便找三個(gè)數(shù)a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,
每朵花的兩個(gè)特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預(yù)測] = 1,此時(shí) y[實(shí)際] = 1 (樣本設(shè)定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實(shí)際] - y[預(yù)測] = 0.
重復(fù)以上兩步,得出所有的『實(shí)際值和預(yù)測值的差距的綜合』,記為 Loss1
可怎么知道是不是最優(yōu)的直線呢?繼續(xù)猜啊!繼續(xù)懵!像猜世界杯一樣猜就好了。
通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導(dǎo)數(shù),高中有學(xué)的!)下降的方向繼續(xù)猜數(shù)字,具體過程大概是這樣子的:
上述所屬的實(shí)際值和預(yù)測值的差距 實(shí)際上是一種損失函數(shù),還有其他的損失函數(shù),比如兩點(diǎn)間直線距離公式,余弦相似度公式等等可以計(jì)算預(yù)測結(jié)果和實(shí)際結(jié)果之間的差距。
劃重點(diǎn):損失函數(shù)就是現(xiàn)實(shí)和理想的差距(很殘酷)2.3 支持向量機(jī)
方法 | 區(qū)別 |
---|---|
感知器 | 猜線的依據(jù)是所有預(yù)測的點(diǎn)到實(shí)際的點(diǎn)之間的差值最小 |
支持向量機(jī)SVM | 猜線的依據(jù)是所有點(diǎn)到直線距離最小 |
*判斷依據(jù)的區(qū)別也導(dǎo)致了損失函數(shù)的不同(但依舊是猜)
直觀的說,縫隙越大越好(老司機(jī)閉嘴!)
2.4 多分類如果有多種花怎么辦?一趟植物課上,老師請(qǐng)來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。
老師拿出了一盤花給各個(gè)專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。老師綜合了各位專家的意見后,告訴同學(xué)們,這是一盤梅花。
小明:這老師是不是傻,一朵花是啥都不知道,還要請(qǐng)三個(gè)專家
老師:你給我滾出去
實(shí)際計(jì)算過程就是通過用 2.2 和 2.3 等方法訓(xùn)練的二分類器,分別輸出對(duì)應(yīng)的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉(zhuǎn)化成概率呢?這就要用到歸一化指數(shù)化函數(shù) Softmax(如果是二分類就用 Sigmoid函數(shù)),這里就不拿公式來說,可以直觀的看看書中這個(gè)表格就懂了:
第 2.2 能從預(yù)測值和實(shí)際值的差別判斷"是否猜對(duì)了",是因?yàn)樯锢蠋煾嬖V了學(xué)渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實(shí)際的類別也不告訴學(xué)渣(非監(jiān)督式學(xué)習(xí)),學(xué)渣不知道樣本分別是什么花。
那該怎么辦呢?
機(jī)器學(xué)習(xí)的入門課程總是在講鸞尾花,也是夠煩的。這里我們換個(gè)場景:
假如你是某直播老板,要找一堆小主播,這時(shí)候你有一堆應(yīng)聘者,然而你只有她們的胸圍和臀圍數(shù)據(jù)。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應(yīng)該怎么挑選呢?
這時(shí)候你把她們的胸圍和臀圍都標(biāo)準(zhǔn)在一張二維坐標(biāo)圖上:
這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。
用某種計(jì)算方式(比如平均值)找到這個(gè)聚類的中心。點(diǎn)離聚類中心越近,代表越相似。
求出每個(gè)聚類中的點(diǎn)到藍(lán)色聚類中心點(diǎn)和黃色聚類中心的距離
如果一個(gè)點(diǎn)離黃色聚類中心更近卻被你隨手劃到了藍(lán)色分組(上圖用紅色邊框標(biāo)出的小方塊),那么就把它劃入黃色分組。
這時(shí)因?yàn)榉纸M范圍和分組內(nèi)包含哪些小姐姐都發(fā)生了變化。這時(shí)候你需要以 步驟3 的方法重新計(jì)算聚類的中心
重復(fù)步驟 4 (算點(diǎn)中心距離)-> 重復(fù)步驟 5 (調(diào)整黃色小姐姐們和藍(lán)色小姐姐們)-> 重復(fù)步驟 3 (算中心),一直循環(huán)這個(gè)過程直到藍(lán)色和黃色聚類下所包含的小姐姐不再發(fā)生變化。那么就停止這一循環(huán)。
至此,小姐姐們已經(jīng)被分為兩大類。你可以得出兩類小姐姐:
計(jì)算機(jī)在沒有監(jiān)督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個(gè)到平臺(tái)看看誰更能干。效果更好的,以后就以那個(gè)聚類的樣本特征擴(kuò)充更多能干的主播。
小明:且,有什么了不起的,我一眼就能看出黃色小姐姐更能干
老師:你給我滾出去
上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數(shù)量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓(xùn)練過程可以看下圖,有個(gè)直觀的了解:
3 這是什么物品(圖像識(shí)別) 3.1 特征提取人類感官特征
花瓣顏色、花瓣長度、有沒有翅膀(區(qū)分貓和小鳥)、有沒有嘴巴和眼睛(飛機(jī)和小鳥)
小貓 | 小鳥 | 飛機(jī) | 汽車 | |
---|---|---|---|---|
特征1:有沒有翅膀 | 否 | 是 | 是 | 否 |
特征2:有沒有眼睛 | 是 | 是 | 否 | 否 |
人工設(shè)計(jì)特征
感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網(wǎng)格)數(shù)值特征
深度學(xué)習(xí)特征
通過卷積提取圖像特征
劃重點(diǎn):卷積的作用就是提取圖像有用信息,好比微信把你發(fā)出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內(nèi)容。
1維卷積 15+24+33=22、14+23+32=16、13+22+3*1=10
2維卷積 12+30+24+42=28...
通過卷積就可以得到圖像的特征信息,比如邊緣
既然有傳統(tǒng)模式分類,為什么還要神經(jīng)網(wǎng)絡(luò)呢?
區(qū)別就在于傳統(tǒng)的模式分類需要人為設(shè)置特征,比如花瓣長度、顏色等等。而深度學(xué)習(xí)省略掉人工設(shè)計(jì)特征的步驟,交由卷積操作去自動(dòng)提取,分類器的訓(xùn)練也同時(shí)融入到神經(jīng)網(wǎng)絡(luò)當(dāng)中,實(shí)現(xiàn)了端對(duì)端的學(xué)習(xí)
劃重點(diǎn):端對(duì)端學(xué)習(xí)(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價(jià)。3.3 深(多)層神經(jīng)網(wǎng)絡(luò)存在的問題
一般來說,神經(jīng)網(wǎng)絡(luò)層數(shù)增多,會(huì)提高準(zhǔn)確率。但是,網(wǎng)絡(luò)層數(shù)加深導(dǎo)致:
過擬合
學(xué)渣把高考預(yù)測試題的答案都背一遍而不理解,考試的時(shí)候,如果試題是考生背過的,那么考生就能答對(duì);如果沒背過那么考生就不會(huì)回答了。我們就可以說,學(xué)渣『過擬合』了預(yù)測試題。
與之對(duì)應(yīng)的是:欠擬合
渣得不能再渣的人,連預(yù)測試題都背不下來,即使考試試題和預(yù)測試題一模一樣,他也只能答對(duì)30%。那么就可以說這種人欠揍欠擬合。
有興趣的還可以了解一下
梯度彌散和梯度爆炸
下面是網(wǎng)上很火很勵(lì)志的一個(gè)公式,權(quán)重在多層網(wǎng)絡(luò)中相乘,比如每一層的權(quán)重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學(xué)習(xí)過程中,學(xué)習(xí)將變得非常慢。(好比從一個(gè)碗頂部放下一個(gè)小球,在底部徘徊的速度會(huì)越來越慢)
非凸優(yōu)化
學(xué)習(xí)過程可能在局部最小值(極小值)就停止了,因?yàn)樘荻龋ㄐ甭剩榱恪T诰植孔畹屯V苟皇侨肿畹屯V梗瑢W(xué)習(xí)到的模型就不夠準(zhǔn)確了。
看圖感受一下
你說的底不是底,你說的頂是什么頂
解決的辦法
均勻初始化權(quán)重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠(yuǎn)鏈接(Shortcut)涉及到比較多數(shù)學(xué)邏輯,這里就不展開說明了。
3.4 應(yīng)用人臉識(shí)別
自動(dòng)駕駛
把汽車頂部拍攝到的圖片切分層一個(gè)個(gè)小方塊,每個(gè)小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識(shí)別各種交通標(biāo)識(shí)等等。再配合雷達(dá)等判斷物體距離。
人類感官特征
音量、音調(diào)、音色
通過采樣、量化、編碼。實(shí)現(xiàn)聲波數(shù)字化(聲波轉(zhuǎn)電信號(hào))
人工設(shè)計(jì)特征
梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內(nèi)人對(duì)低頻聲音比較敏感而對(duì)高頻聲音不敏感)。關(guān)系為:
在每一個(gè)頻率區(qū)間對(duì)頻譜求均值,它代表了每個(gè)頻率范圍內(nèi)聲音能量的大小。一共有26個(gè)頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCCs)
深度學(xué)習(xí)特征
通過 3.1 所介紹的 1維卷積進(jìn)行特征提取
音樂風(fēng)格分類
輸入:音頻文件
特征:聲音特征
輸出:音樂種類
語音轉(zhuǎn)文字
輸入:音頻文件
特征:聲音特征
輸出:聲學(xué)模型(比如26個(gè)英文字母)
再把聲學(xué)模型送入另外的學(xué)習(xí)器
輸入:聲學(xué)模型
特征:語義和詞匯
輸出:通順的語句(可以查看第6點(diǎn),如何讓計(jì)算機(jī)輸出通順的語句)
聽歌識(shí)曲
通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個(gè)特征向量。對(duì)數(shù)據(jù)庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計(jì)算相似度(兩個(gè)向量的距離可以用余弦公式算夾角大小或者兩點(diǎn)間距離公式來算)
視頻,本質(zhì)是由一幀幀圖片連續(xù)組成的,因?yàn)槿艘曈X的暫留效應(yīng)(Persistence of vision,人眼在觀察景物時(shí),光信號(hào)傳入大腦神經(jīng),并不立即消失,讓人產(chǎn)生畫面連續(xù)的印象),看上去是連續(xù)的,也就是視頻。
識(shí)別視頻里面有什么物體,可以用上文說過的圖像識(shí)別和分類方法去實(shí)時(shí)分析單幀圖像,比如:
但是視頻相對(duì)于圖像有一個(gè)更重要的屬性:動(dòng)作(行為)。
怎么從一個(gè)連續(xù)的視頻分析動(dòng)作呢?
舉個(gè)例子,像上圖那只二哈,腿部的像素點(diǎn)相對(duì)于黃色的方框(框和狗相對(duì)靜止)在左右"移動(dòng)",這里的"移動(dòng)"我們引入一個(gè)概念——光流(一個(gè)像素點(diǎn)從一個(gè)位置移動(dòng)到另一個(gè)位置),通過像素點(diǎn)移動(dòng)形成的光流作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征(X),『奔跑』作為訓(xùn)練目標(biāo)值(Y),經(jīng)過多次的迭代訓(xùn)練,機(jī)器就可以擬合得出一個(gè) Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。
5.2 光流假設(shè),
1)相鄰兩幀中物體運(yùn)動(dòng)很小
2)相鄰兩幀中物體顏色基本不變
至于神經(jīng)網(wǎng)絡(luò)是怎么跟蹤某個(gè)像素點(diǎn)的,這里不展開說明。
第 t 時(shí)刻的點(diǎn)指向第 t+1 時(shí)刻該點(diǎn)的位置,就是該點(diǎn)的光流,是一個(gè)二維的向量。
整個(gè)畫面的光流就是這樣:
整個(gè)視頻的光流(軌跡)是這樣的
不同的虛線代表圖像上某個(gè)點(diǎn)移動(dòng)的軌跡
假設(shè)視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經(jīng)網(wǎng)絡(luò)即可進(jìn)行分類訓(xùn)練。
進(jìn)一步優(yōu)化,可以把光流簡化為8個(gè)方向上的,把視頻某一幀的所有光流累加到這八個(gè)方向上得出某一幀的光流直方圖,進(jìn)一步得出 8 維的特征向量。
編號(hào) | 句子 | 分類 |
---|---|---|
1 | 科學(xué)證明游泳有利于身體發(fā)育。 | 體育 |
2 | 傅園慧在奧運(yùn)游泳比賽中獲得了金牌。 | 體育 |
3 | 優(yōu)讀是個(gè)很好用的知識(shí)管理應(yīng)用。 | 工具 |
4 | 一篇文章說明印象筆記在知識(shí)管理上的應(yīng)用。 | 工具 |
這里有4個(gè)句子,首先進(jìn)行分詞:
編號(hào) | 句子 |
---|---|
1 | 科學(xué) 證明 游泳 有利 于 身體 發(fā)育 。 |
2 | 傅園慧 在 奧運(yùn) 游泳 比賽 中 獲得 了 金牌 。 |
3 | 優(yōu)讀 是 個(gè) 很 好用的 知識(shí) 管理 應(yīng)用 。 |
4 | 一篇 文章 說明 印象筆記 在 知識(shí) 管理 上 的 應(yīng)用 。 |
去掉停用詞(副詞、介詞、標(biāo)點(diǎn)符合等等,一般在文本處理上都有一個(gè)停用詞表)
編號(hào) | 句子 |
---|---|
1 | 科學(xué) 證明 游泳 有利 身體 發(fā)育 |
2 | 傅園慧 奧運(yùn) 游泳 比賽 獲得 金牌 |
3 | 優(yōu)讀 好用 知識(shí) 管理 應(yīng)用 |
4 | 文章 說明 印象筆記 知識(shí) 管理 應(yīng)用 |
編碼詞表
句子向量化
這樣就得到一個(gè)句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網(wǎng)絡(luò)或者 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓(xùn)練標(biāo)簽值 Y,迭代訓(xùn)練得到的模型可以用于情感分析或文本分類等任務(wù)。
詞向量化
厲害-牛逼、計(jì)算機(jī)-電腦是同義詞。光從上面的步驟,我們可能認(rèn)為厲害和牛逼是兩個(gè)完全不一樣的詞語,但其實(shí)他們是近似的意思,怎么才能 AI 學(xué)習(xí)知道這點(diǎn)呢?需要從多個(gè)維度去進(jìn)一步給詞語更豐富的內(nèi)涵,比如:
舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個(gè)維度擴(kuò)展之后,就得到“男人”這個(gè)詞的特征向量(1,0, 0.5,0,1)
逆向文檔頻率
一個(gè)詞在一類文章出現(xiàn)的多,而在另外分類的文章出現(xiàn)的少,越能說明這個(gè)次能代表這篇文章的分類。
比如游泳在體育類的文章中出現(xiàn)的多(2次),而在工具類的文章出現(xiàn)的少(0次),相比其他詞語(1次)更能代表體育類的文章。
假設(shè)句子中有 N 個(gè)詞, 某個(gè)詞出現(xiàn)次數(shù)為 T,一共有 X 個(gè)句子,該詞語在 W 個(gè)句子出現(xiàn),則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)
6.3 應(yīng)用 7 讓計(jì)算機(jī)畫畫(生成對(duì)抗網(wǎng)絡(luò))從前有個(gè)人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:
第一次他畫成這樣子了:
鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫...
經(jīng)過了10萬次"畫畫-鑒別"的過程,這個(gè)臨摹者畫出來的畫,鑒賞家居然認(rèn)為這是真的原作,以高價(jià)買入了這副畫。
這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對(duì)抗網(wǎng)絡(luò)(GAN)的核心。
通過生成器,把隨機(jī)像素點(diǎn)有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實(shí)畫面之間的差距,并告訴生成器要往什么方向去優(yōu)化。多輪的訓(xùn)練之后,生成器就學(xué)會(huì)了畫『真畫』了。
計(jì)算機(jī)是怎么把隨機(jī)像素點(diǎn)變成有意義的畫面的呢?我們通過一個(gè)簡化的例子來看看。
直線上一些均勻分布的點(diǎn),經(jīng)過 y=2x+1變換后變成了非均勻分布。一張隨機(jī)排布的像素點(diǎn)畫面,經(jīng)過某個(gè)f(x) 變換后就會(huì)變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。
劃重點(diǎn):函數(shù)可以變換數(shù)據(jù)分布(庫克說:可以把直的變成彎的)8 AlphaGo是怎么下棋的?(強(qiáng)化學(xué)習(xí)) 8.1 粗略認(rèn)知
監(jiān)督/無監(jiān)督訓(xùn)練:盡可能讓每一次任務(wù)正確
強(qiáng)化學(xué)習(xí):多次任務(wù)是否達(dá)成最終目標(biāo)
每一次任務(wù)都準(zhǔn)確,不就是能達(dá)成最終目標(biāo)嗎?我們來看一個(gè)例子:
一家批發(fā)商店的老板愛麗絲要求她的經(jīng)理比爾增加銷售額,比爾指導(dǎo)他的銷售員多賣一些收音機(jī),其中一個(gè)銷售員查爾斯弄到了一個(gè)可以獲利的大單,但是之后公司因?yàn)楣?yīng)緊缺無法交付這些收音機(jī)。應(yīng)該責(zé)怪誰呢?從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務(wù)沒完成)。但是從比爾的角度,查爾斯成功地完成了他的銷售任務(wù),而比爾也增加了銷量(子任務(wù)達(dá)成)。——《心智社會(huì)》第7.7章8.2 AlphaGo
下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個(gè)空的位置就是一個(gè)分支,然后預(yù)測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預(yù)測器。
但是由于圍棋19X19的超大棋盤,空間復(fù)雜度高達(dá)10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。
要降低復(fù)雜度,關(guān)鍵是要降低搜索的廣度和深度。
我們?cè)耘嘁活w小盆栽的時(shí)候,如果不對(duì)枝葉進(jìn)行修剪,那么養(yǎng)分就會(huì)浪費(fèi)在沒長好的枝條上。需要及時(shí)對(duì)枯萎或者異常的枝條進(jìn)行修剪以保證養(yǎng)分往正常(或者說我們希望它生長的方向)枝條上輸送。
同樣的道理,有限的計(jì)算機(jī)算力如果浪費(fèi)在窮盡所有圍棋走法上,將導(dǎo)致棋局推演非常慢,而且耗費(fèi)大量的時(shí)間也難以找到最優(yōu)的方案。
是否可以通過 "修剪" 落子選擇器這顆龐大的決策樹,加快較優(yōu)落子方案的選擇呢?怎么判斷哪些是好的"枝條",哪些是壞的"枝條"呢?這就需要棋局價(jià)值評(píng)估器(哪個(gè)棋盤的贏的概率更大),把沒有價(jià)值的棋局先去掉不再往下遍歷,這就同時(shí)減少了搜索的廣度和深度。
其中,
落子預(yù)測器有個(gè)名稱,叫做政策網(wǎng)絡(luò)(policy network)
價(jià)值評(píng)估器有個(gè)名稱,叫做價(jià)值網(wǎng)絡(luò)(value network)
政策網(wǎng)絡(luò)(policy network)利用蒙特卡洛搜索樹從當(dāng)前棋局推演(隨機(jī)下棋)到最終的棋局,最終勝則回報(bào)為正,反之回報(bào)為負(fù)。之后該算法會(huì)反向沿著該對(duì)弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分?jǐn)?shù)提高,與此對(duì)應(yīng)將敗者的落子方案分?jǐn)?shù)降低,所以之后遇到相同局面時(shí)選擇勝者方案的概率就會(huì)增加。因此可以加速落子選擇,稱為快速走子網(wǎng)絡(luò)。
通過 政策網(wǎng)絡(luò) + 價(jià)值網(wǎng)絡(luò) + 蒙特卡洛搜索樹 實(shí)現(xiàn)最優(yōu)落子方案的選擇,同時(shí)兩個(gè)機(jī)器人互相對(duì)弈,這樣就不停地訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)落子方案。
8.3 定義接下來說一下枯燥的定義
什么是強(qiáng)化學(xué)習(xí)?
當(dāng)我們關(guān)注的不是某個(gè)判斷是否準(zhǔn)確,而是行動(dòng)過程能否帶來最大的收益時(shí)使用強(qiáng)化學(xué)習(xí)(reinforeement learning)。比如在下棋、股票交易或商業(yè)決策等場景中。
強(qiáng)化學(xué)習(xí)的目標(biāo)是要獲得一個(gè)策略(poliey)去指導(dǎo)行動(dòng)。
比如在圍棋博弈中,這個(gè)策略可以根據(jù)盤面形勢(shì)指導(dǎo)每一步應(yīng)該在哪里落子;在股票交易中,這個(gè)策略會(huì)告訴我們?cè)谑裁磿r(shí)候買入、什么時(shí)候賣出。
一個(gè)強(qiáng)化學(xué)習(xí)模型一般包含如下幾個(gè)部分:
一組可以動(dòng)態(tài)變化的狀態(tài)(sute)對(duì)于圍棋棋盤上黑白子的分布位置
對(duì)于股票交易來說,就是股票的價(jià)格一組可以選取的動(dòng)作(metion)
對(duì)于圍棋來說,就是可以落子的位置;
對(duì)于股票交易來說,就是每個(gè)時(shí)間點(diǎn),買入或者賣出的股票以及數(shù)量。一個(gè)可以和決策主體(agent)進(jìn)行交互的環(huán)境(environment)
這個(gè)環(huán)境會(huì)決定每個(gè)動(dòng)作后狀態(tài)如何變化。棋手(主體)的落子會(huì)影響棋局(環(huán)境),環(huán)境給主體獎(jiǎng)勵(lì)(贏)或懲罰(輸)
操盤手(主體)的買入或賣出會(huì)影響股票價(jià)格(環(huán)境,供求關(guān)系決定價(jià)格),環(huán)境給主體獎(jiǎng)勵(lì)(賺錢)或懲罰(虧錢)回報(bào)(reward)規(guī)則
當(dāng)決策主體通過行動(dòng)使?fàn)顟B(tài)發(fā)生變化時(shí),它會(huì)獲得回報(bào)或者受到懲罰(回報(bào)為負(fù)值)。
《人工智能基礎(chǔ)高中版》這本書,有時(shí)間建議讀者可以自己閱讀,圖書鏈接
原文鏈接 https://jinkey.ai/post/tech/5...
本文作者 Jinkey(微信公眾號(hào) jinkey-love,官網(wǎng) https://jinkey.ai)
文章允許非篡改署名轉(zhuǎn)載,刪除或修改本段版權(quán)信息轉(zhuǎn)載的,視為侵犯知識(shí)產(chǎn)權(quán),我們保留追求您法律責(zé)任的權(quán)利,特此聲明!
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/19783.html
摘要:人工智能概述簡史應(yīng)用領(lǐng)域安防實(shí)時(shí)從視頻中檢測出行人和車輛。通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型,幫助醫(yī)生設(shè)計(jì)手術(shù),確保手術(shù)為我們每個(gè)人提供康建議和疾病風(fēng)險(xiǎn)預(yù)警,從而讓我們生活得更加健康。 showImg(https://segmentfault.com/img/remote/1460000015971504); 0 引言 本文是《人工智能基礎(chǔ)(高中版)》的讀書筆記,這本書的配圖非...
摘要:為了讓大家更好的理解公鏈的模型,我們?yōu)榇蠹規(guī)韮善谛“锥寄茏x懂的模型文章。該篇是小白都能讀懂的模型系列文章之一秘猿科技區(qū)塊鏈小課堂第期只能存放數(shù)字的盒子我們先從區(qū)塊鏈鼻祖說起。 設(shè)計(jì)一條好的底層公鏈,必須從技術(shù)角度、經(jīng)濟(jì)角度、以及共識(shí)角度進(jìn)行全方位的考量。我們花了 4 期(第 16/17/18/19 期)向大家解釋了底層公鏈 CKB 技術(shù)實(shí)現(xiàn)中的關(guān)鍵點(diǎn)之一:Cell 模型。為了讓大家更...
閱讀 2077·2023-04-25 19:15
閱讀 2244·2021-11-23 09:51
閱讀 1263·2021-11-17 09:33
閱讀 2164·2021-08-26 14:15
閱讀 2475·2019-08-30 15:54
閱讀 1581·2019-08-30 15:54
閱讀 2166·2019-08-30 12:50
閱讀 1131·2019-08-29 17:08