摘要:棋類游戲和電子游戲通常都會有定義明確的回饋函數(shù),這使得用增強(qiáng)學(xué)習(xí)算法來直接進(jìn)行優(yōu)化成為可能。增強(qiáng)學(xué)習(xí)算法或智能體的目標(biāo)是通過與任務(wù)或者環(huán)境進(jìn)行互動,學(xué)會執(zhí)行復(fù)雜的新穎的任務(wù)。使得增強(qiáng)學(xué)習(xí)算法和環(huán)境的開放與測試變得更加簡便了。
機(jī)器學(xué)習(xí)的進(jìn)步由多個領(lǐng)域的創(chuàng)新和創(chuàng)意驅(qū)動。從人類學(xué)習(xí)事物的方式獲得啟發(fā),增強(qiáng)學(xué)習(xí)(RL)指的是系列算法,能夠通過試錯的回饋來進(jìn)行提升,可以進(jìn)一步優(yōu)化未來的表現(xiàn)。
?
棋類游戲和電子游戲通常都會有定義明確的回饋函數(shù),這使得用增強(qiáng)學(xué)習(xí)算法來直接進(jìn)行優(yōu)化成為可能。然而,隨著算法的不斷進(jìn)步,RL 在解決現(xiàn)實問題上也可以得到應(yīng)用,比如,高自由度的機(jī)器人控制以及大規(guī)模的推薦任務(wù),這些任務(wù)往往附帶著復(fù)雜的目標(biāo)。
?
Twitter Cortex 采用較先進(jìn)的機(jī)器學(xué)習(xí)方法來提升Twitter的產(chǎn)品質(zhì)量。Twitter正在把增強(qiáng)學(xué)習(xí)當(dāng)成一種學(xué)習(xí)范式來進(jìn)行探索,為了達(dá)到這一目的,Twitter Cortex 開發(fā)了一個用于發(fā)展增強(qiáng)學(xué)習(xí)的框架。今天,Twitter 正式向全世界開源這一框架——torch-twrl 。
?
增強(qiáng)學(xué)習(xí)算法(或智能體)的目標(biāo)是通過與任務(wù)(或者環(huán)境)進(jìn)行互動,學(xué)會執(zhí)行復(fù)雜的、新穎的任務(wù)。為了開發(fā)有效的算法,快速地迭代和測試是至關(guān)重要的,torch-twrl 的目標(biāo)就是讓落實和創(chuàng)新變得迅速和容易。
?
借鑒其他的增強(qiáng)學(xué)習(xí)框架,torch-twrl ?希望提供:
一個在Lua/Torch 中的、擁有最小函數(shù)依賴的增強(qiáng)學(xué)習(xí)框架;
定義清晰的、模塊化的代碼帶來的快速開發(fā);
與Open AI 的增強(qiáng)學(xué)習(xí)基準(zhǔn)框架Gym 的無縫對接。
Gym 提供了對增強(qiáng)學(xué)習(xí)環(huán)境的深度匯總。torch-twrl ?通過HTTP API 與這些環(huán)境進(jìn)行互動。torch-twrl ?提供了一個簡答且模塊化的方法,讓開發(fā)者可以使用自己已經(jīng)擁有的Torch/Lua 代碼來開始使用增強(qiáng)學(xué)習(xí)進(jìn)行開發(fā)。
如果你想要開始試用 torch-twrl ,你可以在Github 上找到主要的文件包:https://github.com/twitter/torch-twrl。根據(jù)安裝指導(dǎo),你可以隨時解決 RL 問題。
?torch-twrl 使得增強(qiáng)學(xué)習(xí)算法和環(huán)境的開放與測試變得更加簡便了。以下是如何解決一個經(jīng)典的增強(qiáng)學(xué)習(xí)控制難題的案例。為了讓你更好地體會到這有多么簡單,我們采納了一個簡便的腳本,來運行一個基本的策略梯度智能體,用于解決經(jīng)典的增強(qiáng)學(xué)習(xí)車擺難題。
?
實驗開始前,首先需要設(shè)置你的環(huán)境和智能體實驗參數(shù)。智能體要求有一個策略、一個模型和一個使用相關(guān)參數(shù)的學(xué)習(xí)更新。
以上的實驗結(jié)果來自O(shè)penAI Gym 的排行榜(Leaderboard)。當(dāng)你使用 torch-twrl 運行一個算法,可以選擇自動地把結(jié)果上傳到排行榜上,它能自動創(chuàng)造一個好的結(jié)果圖,生成一個關(guān)于結(jié)果的簡短GIF 圖。
在把你的結(jié)果與其他的方法進(jìn)行對比時,排行榜也很有價值。
基本的RL框架中,會有一個智能體與環(huán)境進(jìn)行交互,智能體的構(gòu)成是:
模型:智能體模型描繪出行動的狀態(tài)
策略:如何選擇活動
學(xué)習(xí)更新:模型如何用收到的反饋進(jìn)行更新
Note:許多別的參數(shù)也可以進(jìn)行設(shè)置,具體的參數(shù)包括:策略、學(xué)習(xí)更新、模型、監(jiān)控等,完整的描述參見我們提供的文檔。(https://github.com/twitter/torch-twrl)
我們希望torch-twrl 作為一個RL 框架可以不斷發(fā)展,與 RLLab 一樣,讓 Torch 和 Lua 上的開發(fā)者進(jìn)行使用。增強(qiáng)學(xué)習(xí)的研究是一個非常活躍的領(lǐng)域,其中包括了各種各樣的環(huán)境以及對較先進(jìn)算法的采用。我們正計劃擴(kuò)大關(guān)于新的 RL 算法的資料庫。
雖然目前基于Torch,已經(jīng)有一些很好的增強(qiáng)學(xué)習(xí)框架,我們想要的是一個從零開始搭建的框架,可以將外部依賴降到最小,這樣就能更好地解決Twitter的內(nèi)部問題。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/4397.html
摘要:在本節(jié)中,我們將看到一些最流行和最常用的庫,用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是用于數(shù)據(jù)挖掘,分析和機(jī)器學(xué)習(xí)的最流行的庫。愿碼提示網(wǎng)址是一個基于的框架,用于使用多個或進(jìn)行有效的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。 showImg(https://segmentfault.com/img/remote/1460000018961827?w=999&h=562); 來源 | 愿碼(ChainDesk.CN)內(nèi)容編輯...
摘要:日期和時間處理日期和時間的函數(shù)庫。使用中可觀察序列,創(chuàng)建異步基于事件應(yīng)用程序的函數(shù)庫。為分布式系統(tǒng)提供延遲和容錯處理。發(fā)布使用本機(jī)格式分發(fā)應(yīng)用程序的工具。將程序資源和打包成和的本機(jī)文件。圖像處理用來幫助創(chuàng)建評估或操作圖形的函數(shù)庫。 好資源要分享原文 譯者 唐尤華 翻譯自 github akullpp 構(gòu)建 這里搜集了用來構(gòu)建應(yīng)用程序的工具。 Apache Maven:Mave...
摘要:月日,在風(fēng)云際會百度云計算戰(zhàn)略發(fā)布會上,百度云計算事業(yè)部總經(jīng)理劉煬正式發(fā)布智能物聯(lián)網(wǎng)平臺天工。為解決上述問題,百度云計算推出了天工智能物聯(lián)網(wǎng)平臺,助力行業(yè)跨越鴻溝,實現(xiàn)產(chǎn)業(yè)升級。? 《天工開物》是世界上第一部關(guān)于農(nóng)業(yè)和手工業(yè)生產(chǎn)的綜合性著作,強(qiáng)調(diào)人類與自然的協(xié)調(diào)。7月13日,在2016風(fēng)云際會百度云計算戰(zhàn)略發(fā)布會上,百度云計算事業(yè)部總經(jīng)理劉煬正式發(fā)布智能物聯(lián)網(wǎng)平臺——天工。秉承天工之理念,...
摘要:在全面兼容Apache Kafka生態(tài)的基礎(chǔ)上,消息隊列Kafka徹底解決ApacheKafka穩(wěn)定性不足的長期痛點,并且支持消息無縫遷移到云上。 近日,阿里云宣布正式推出消息隊列Kafka,全面融合開源生態(tài)。在全面兼容Apache Kafka生態(tài)的基礎(chǔ)上,消息隊列Kafka還具備了超易用,超高可用可靠性,擴(kuò)縮容不操心,全方位安全診斷,數(shù)據(jù)安全有保障的特點。可用行達(dá)99.9%,數(shù)據(jù)可靠行99...
摘要:訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)需要大量的內(nèi)存,用戶使用這個工具包,可以在計算時間成本僅增加的基礎(chǔ)上,在上運行規(guī)模大倍的前饋模型。使用導(dǎo)入此功能,與使用方法相同,使用梯度函數(shù)來計算參數(shù)的損失梯度。隨后,在反向傳播中重新計算檢查點之間的節(jié)點。 OpenAI是電動汽車制造商特斯拉創(chuàng)始人 Elon Musk和著名的科技孵化器公司 Y Combinator總裁 Sam Altman于 2016年聯(lián)合創(chuàng)立的 AI公司...
閱讀 3110·2021-11-10 11:36
閱讀 3312·2021-10-13 09:40
閱讀 6050·2021-09-26 09:46
閱讀 661·2019-08-30 15:55
閱讀 1409·2019-08-30 15:53
閱讀 1578·2019-08-29 13:55
閱讀 2997·2019-08-29 12:46
閱讀 3204·2019-08-29 12:34