關于增強學習你應該了解的五件事兒

huangjinnan 發布于2019-06-26 18:21 / 1319人閱讀

摘要：摘要本文主要是講解了機器學習中的增強學習方法的基本原理，常用算法及應用場景，最后給出了學習資源，對于初學者而言可以將其作為入門指南。下圖表示了強化學習模型中涉及的基本思想和要素。

摘要：本文主要是講解了機器學習中的增強學習方法的基本原理，常用算法及應用場景，最后給出了學習資源，對于初學者而言可以將其作為入門指南。

強化學習（Reinforcement Learning）是當前最熱門的研究課題之一，它在AlphaGo中大放光彩，同時也變得越來越受科研人員的喜愛。本文主要介紹關于增強學習5件有用的事兒。

1.強化學習是什么？與其它機器學習方法有什么關系？

強化學習是一種機器學習方法，它使Agent能夠在交互式環境中年通過試驗并根據自己的行動和經驗反饋的錯誤來進行學習。雖然監督學習和強化學習都使用輸入和輸出之間的映射關系，但強化學習與監督學習不同，監督學習提供給Agent的反饋是執行任務的正確行為，而強化學習使用獎勵和懲罰作為積極和消極行為的信號。

與無監督學習相比而言，強化學習在目標方面有所不同。雖然無監督學習的目標是找出數據點之間的相似性和不同性，但是在強化學習中，其目標是找到一個合適的動作模型，能夠最大化Agent的累積獎勵總額。下圖表示了強化學習模型中涉及的基本思想和要素。

圖1 增強學習模型框圖

2.如何創建一個基本的強化學習問題？

在介紹本節內容之前，先介紹下增強學習問題中的一些關鍵術語：

環境（Environment）：Agent操作的現實世界

狀態（State）：Agent的現狀

獎勵（Reward）：來自環境的反饋

策略（Policy）：將Agent的狀態映射到動作的方法

價值（Value）：Agent在特定狀態下采取行動所得到的報酬

可以通過游戲很好地解釋強化學習問題，以PacMan游戲為例，Agent的目標是在網絡中吃掉食物，同時也要躲避幽靈。網格世界就是Agent的交互環境，如果PacMan吃掉食物，則獲得獎勵；但如果被幽靈殺死（輸掉游戲），則受到懲罰。PacMan在網格中的位置就是其所處的狀態，達到累積獎勵總額則PacMan贏得比賽。

為了建立一個最優策略，Agent需要不斷探索新的狀態，同時最大化其所獲獎勵累積額度，這也被稱作試探和權衡。

馬爾可夫決策過程（MDPs）是用來描述增強學習環境的數學框架，幾乎所有的增強學習問題都可以轉化為MDps。MDP由一組有限環境狀態S、每個狀態中存在的一組可能行為A(s)、一個實值獎勵函數R(s)以及一個轉移模型P(s",s|a)組成。然而，現實世界環境可能更缺乏對動態環境的任何先驗知識。在這種情況下，Model-free很有效。Model-free一直在每一步中去嘗試學習最優的策略，在多次迭代后就得到了整個環境最優的策略（Q-learning）。

Q-learning是一種常用的模型，能夠用于構建自己玩PacMan的Agent，它始終圍繞著更新Q值，Q值表示在狀態s時執行動作a的值，價值更新規則是Q-learning算法的核心。

圖2 增強學習更新規則

圖3 PacMan游戲

3.最常用的強化學習算法有哪些？

Q-learning和SARSA（State-Action-Reward-State-Action）是兩種常用的model-free強化學習算法。雖然它們的探索策略不同，但是它們的開發策略卻相似。雖然Q-learning是一種離線（off-policy）學習方法，其中Agent根據從另一個策略得到的行動a*學習價值，但SARSA是一個在線（on-policy）學習方法，它從目前的策略中獲得當前行動的價值。這兩種方法實施起來很簡單，但缺乏一般性，因為無法估計出不可見狀態的價值。

但以上問題可以通過更先進的算法來克服，比如使用神經網絡估計Q值的Deep Q-Networks（DQN）。但是DQN只能處理離散、低維動作空間，因此對于高維、連續動作空間，科研人員發明了一種名為Deep Deterministic Policy Gradient（DDPG）的算法，該算法是一個model-free、離線演員評判家算法（Actor-critic algorithm）。

圖4 Actor-critic algorithm

4.強化學習有哪些實際應用？

由于增強學習需要大量的數據，因此它最適用于模擬數據領域，比如游戲、機器人等。

在電腦游戲中，增強學習被廣泛地應用于人工智能的構建中。AlphaGo Zero是圍棋界第一個擊敗世界冠軍的計算機程序，類似的還有ATARI游戲、西洋雙陸棋等。

在機器人和工業自動化領域，增強學習被用于使機器人為其自身創建一個高效的自適應控制系統，從而能夠從自己的經驗和行為中學習。DeepMind在深度增強學習上的成果也是一個很好的例子。

增強學習的其它應用包括文本摘要引擎、對話代理（文本、語言），它們可以從用戶交互中學習，并隨著時間的推移而不斷改進。此外，對于醫療保健和在線股票交易而言，基于增強學習的性能也是最佳的。

5.如何開始學習增強學習？

以下有一些相關的學習資源：

1.強化學習第二版（Reinforcement Learning-An Introduction），增強學習之父RicharSutton和其導師Andrew barto所寫的書籍，一本不錯的權威資料，在線閱讀鏈接：http://incompleteideas.net/bo...

2.教材，David Sliver老師的視頻講座，是一份很好的增強學習入門課程。

3.其它關于增強學習的技術教程，由Pieter Abbeel和John Schulman所寫（Open AI/Berkeley人工智能實驗室）

4.從構建和測試增強學習agent開始學習之旅

5.該鏈接的博客能夠幫助你使用僅僅130行Python代碼啟動并運行自己的第一個深度增強學習模型

6.DeepMind Lab是公開的一款開源立體游戲平臺，專門為研究通用人工智能和機器學習系統而設計。

7.Project Malmo是微軟公司開源的人工智能項目，也是支持人工智能領域的基礎研究。

8.OpenAI Gym是開發和比較強化學習算法的工具包。

作者信息

Shweta Bhatt，人工智能研究員，數據科學家

詳細內容請查看原文

云服務器 GPU云服務器你應該知道說說你所了解的人工智能外呼系統阿里云服務器你了解了嗎深度學習的五個深度

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/19703.html

關于大數據你應該了解的五件事兒

摘要：對于大數據而言，數據量沒有一定的要求，只要足夠得出可靠的結論即可。與大數據相關的職業隨著市場對大數據相關需求的增加，與之相關的職業需求數量也在上升。摘要：本文從基本概念、行業趨勢、學習途徑等幾個方面介紹了大數據的相關內容，適合對大數據感興趣的讀者作為入門材料閱讀。隨著科技的發展，目前已經步入了大數據的時代，很多社交媒體和互聯網公司也非常關注大數據這一行業。那么對于大數據而言，這里...

yzd 2019-07-31 11:05 評論0 收藏0
MongoDB 資源、庫、工具、應用程序精選列表中文版

摘要：推薦閱讀資源庫工具應用程序精選列表中文版有哪些鮮為人知，但是很有意思的網站一份攻城獅筆記每天搜集上優秀的項目一些有趣的民間故事超好用的谷歌瀏覽器油猴插件合集目錄資源文檔文章圖書會談教程更多庫工具管理數據部署桌面發展監控應用資源文檔介紹文檔教推薦閱讀 MongoDB 資源、庫、工具、應用程序精選列表中文版有哪些鮮為人知，但是很有意思的網站？一份攻城獅筆記每天搜集 Github ...

e10101 2019-06-26 17:58 評論0 收藏0
前端開發-從入門到Offer - 收藏集 - 掘金

摘要：一些知識點有哪些方法方法前端從入門菜鳥到實踐老司機所需要的資料與指南合集前端掘金前端從入門菜鳥到實踐老司機所需要的資料與指南合集歸屬于筆者的前端入門與最佳實踐。工欲善其事必先利其器-前端實習簡歷篇 - 掘金有幸認識很多在大廠工作的學長，在春招正式開始前為我提供很多內部推薦的機會，非常感謝他們對我的幫助?，F在就要去北京了，對第一份正式的實習工作也充滿期待，也希望把自己遇到的一些問題和...

sf_wangchong 2019-08-20 16:10 評論0 收藏0
背包問題學習筆記

摘要：狀態轉移方程背包問題的狀態轉移方程是其中即表示前件物品恰放入一個容量為的背包可以獲得的最大價值。求解將哪些物品裝入背包可使這些物品的體積總和不超過背包容量，且價值總和最大。 01背包 01背包的概念有N件物品和一個容量為V的背包。第i件物品的費用是c[i]，價值是w[i]。求解將哪些物品裝入背包可使價值總和最大。從這個題目中可以看出，01背包的特點就是：每種物品僅有一件，可以選擇放或...

xiao7cn 2019-08-20 18:05 評論0 收藏0

發表評論

登陸后可評論

0條評論

huangjinnan

男|高級講師

我要關注我要私信

TA的文章

CMIVPS：VPS主機月付8折年付7折,香港大帶寬/直連線路月付5.6美元起

閱讀 1375·2021-11-04 16:11
基于SSM福來客棧民宿預約管理系統

閱讀 3034·2021-10-12 10:11
NCCK：香港CN2服務器,雙E5-處理器;24核/32G內存/10M無限流量/CN2GIA,五折$

閱讀 2968·2021-09-29 09:47
如何登錄云主機-怎么登錄云主機？

閱讀 1607·2021-09-22 15:40
前端每日實戰：52# 視頻演示如何用純 CSS 創作一個小球繞著圓環盤旋的動畫

閱讀 1006·2019-08-29 15:43
關于Angular樣式封裝

閱讀 2797·2019-08-29 13:50
css3 實現一個k歌效果和一個進度條的效果

閱讀 1571·2019-08-29 13:28
案例 - 收藏集 - 掘金

閱讀 2684·2019-08-29 12:54

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

關于增強學習你應該了解的五件事兒

相關文章

**關于大數據你應該了解的五件事兒**

MongoDB 資源、庫、工具、應用程序精選列表中文版

前端開發-從入門到Offer - 收藏集 - 掘金

背包問題學習筆記

發表評論

0條評論

huangjinnan

男|高級講師

TA的文章

CMIVPS：VPS主機月付8折年付7折,香港大帶寬/直連線路月付5.6美元起

基于SSM福來客棧民宿預約管理系統

NCCK：香港CN2服務器,雙E5-處理器;24核/32G內存/10M無限流量/CN2GIA,五折$

如何登錄云主機-怎么登錄云主機？

前端每日實戰：52# 視頻演示如何用純 CSS 創作一個小球繞著圓環盤旋的動畫

關于Angular樣式封裝

css3 實現一個k歌效果和一個進度條的效果

案例 - 收藏集 - 掘金

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

關于增強學習你應該了解的五件事兒

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！