鄧力：如何把深度強化學習用于BOT開發

cnsworder 發布于2019-04-25 18:04 / 1661人閱讀

摘要：月，谷歌宣布要開發驅動的，即谷歌助理。由于最近機器學習和有了巨大進展，人工智能現在已經成為可能。人工智能會采用迭代和反饋回路來自我發展，并趨于完美。這種的獎勵函數用于深度強化學習算法先簡單稱之為情感智能不可能被輕而易舉地量化。

今年三月，微軟CEO Satya Nadella談到現在的行業趨勢是更普遍地使用人類語言與計算設備交互，他將這一趨勢稱為“對話即平臺”（conversationas a platform）。

他還宣布了幾項聊天機器人（bot）計劃，包括微軟公司的聊天機器人開發工具（bot framework）。今年四月，Facebook推出了帶有 bot 的 Messenger platform。5月，谷歌宣布要開發AI驅動的bot，即谷歌助理。自此，bot被廣泛認為是一種新的用戶界面（UI），會從根本上改變人們對計算機的體驗。

APP和網頁模式有什么問題？

App平臺是蘋果公司多年前為其智能手機發明的，之后，谷歌也推出自己的Google Play Store。APP平臺建立在一個統一的資源模型上（該模型假定具有一定的內存容量和處理速度的手機能為你提供所需要的一切）。但這也帶來一個負面影響，那就是手機屏幕被大量的APP圖標霸屏，雖然人們經常使用的APP還不足20個。

事實上，活躍的APP數量正在減少。整體而言，雖然已發布的APP數量有好幾百萬，可其中有許多從未被使用。這無疑是在浪費設備資源和用戶下載、安裝和管理APP的時間。

網頁模式對于移動端的 UI 來說更加糟糕。通過手機使用web服務的頻率很低，原因是許多熱門網站的設計和優化都是針對非移動的PC端的，而PC通常都接入了寬帶。

智能手機的帶寬和計算能力有限，這對許多Web服務而言是很大的障礙。此外，大多數網站都遵循以頁面為中心配置信息的規范，導致（非移動端）瀏覽器的就像是電子書閱讀器。這對于移動設備而言，這并不是較佳選擇。

這樣帶來的結果是：我們需要重新設計手機的UI，以實現移動時代的全部潛力。

移動端UI的新范式：對話

幸運的是，在重新設計和再實現過程中，出現了一種適合手機的新模式。這種新的“對話即平臺”模式讓移動用戶能發現、訪問和使用與日常生活相關的信息和服務。這種模式下，有用的信息和服務能自然地融入對話里。

這種對話式UI模式將會形成一個新的生態，該生態比以前的web生態和app生態有更大的規模優勢。這很可能是因為信息產業正在進入一個物質世界數字化的新時代，正在將這些虛擬的聯系與現實服務連接起來。這個物質的、交互的、以服務為中心的世界正在超越以往靜態的web信息配置時代。

消息（messaging）是新型對話模式的核心，包括一連串的短文本、音頻和視頻消息。因其具有異步和實時兩種性質，消息能推動數字對話的發展。用戶不再需要為交互而提前挪出時間，就可以發起近乎實時的對話。

作為智能對話交互代理的Bot

對話交互提供的各種類型的智能服務對以對話為中心的移動UI模式更加重要。我們現在有智能個人助理，如Siri、Google Now、Cortana和Alexa。我們還有能通過自動會話界面來獲取的個人聊天機器人（bot）。

在新的對話模式的最后階段：用戶可能不再需要下載APP；人工智能的 bot 利用語音和自然語言能力，能智能監控并通過消息UI做出響應，自動將必要的服務資源（很可能儲存在云端）提供給用戶。

由于最近機器學習和AI有了巨大進展，人工智能bot現在已經成為可能。這些進展使我們能將越來越多的我們所關心的東西自動化。過去幾年發展起來的深度學習，特別是過去一年半里產生的深度強化學習（RL），高效利用了日益增加的數據和計算資源，提高我們為世界環境和所有與我們生活相關的應用領域建立計算模型的能力。

在機器學習技術中，RL具有鮮明的特色。你需要用戶的反饋，同時也需要獎勵用戶。這和下國際象棋很像，你在玩的時候不知道獎勵是什么，但是最終你會知道。你知道與AI的交互最后的結果是任務完成。你知道目標是預訂航班，但是bot只會說那些可以實現這一目標的話，即便用戶可能不明白的是，這個bot正在努力追求最終目標和獎勵。

這些進展使得自動語音和自然語言理解觸手可及，最終使我們能夠解決在許多領域對話理解和對話的問題。基于深度強化學習的AI bot 會理解所有領域的語義，還能夠擴展到現在還無法涉足的領域。

人工智能 bot 會采用迭代和反饋回路來自我發展，并趨于完美。人工智能bot的強化學習組件中內置的環境模式，能夠自動地且精致地檢測、獲取、創造并積累新知識，讓我們能發展越來越多的智能服務并積累更多經驗，特別是像預定、支付等行為導向型的服務。

三種類型的人工智能bot

大體來說，人工智能 bot有三種類型。第一種是搜尋信息的 bot，其目標是明確的。第二種是要完成某種任務，其中也可能需要搜尋信息，但在短時間內其目標可能是不明確的。你可能問電影院的開放時間。這不是說你的目標只局限在答案上，而是說獲得答案是你達到最終目標（看電影）的一個步驟。對于第一種類型，獎賞是明確定義的；而對于第二種類型，獎賞也是相當明確的（或者將會是這樣）。

當使用強大的深度強化學習技術進行構建時，以上這兩種 bots都有自己定義相當明確的獎勵函數（這是強化學習的關鍵組件）---或者搜尋信息，或者試圖完成特定任務（比如預定機票和酒店）。

第三種類型的AI bot 需要的指導最多，它們是社交 bot ，有時也被叫做聊天 bot 或閑聊 bot 。這種 bot 的獎勵函數（用于深度強化學習算法）——先簡單稱之為「情感智能」——不可能被輕而易舉地量化。舉個例子，你可能向聊天 bot 尋求建議，或者問一些含糊的問題，比如今天做什么, 或者在同 bot 討論買人壽保險之前先聊聊天。

處理聊天 bot 十分復雜的獎賞函數需要擴大能力，為了給這種能力提供數學基礎，研究界和從業者需要深入調查。這里的目標是將普遍使用的強化學習算法（例如用于 AlphaGo 中的關鍵學習方法）擴展成更好的算法，這種算法能利用信息理論上的和內在激勵的獎勵。

在切換到其他試圖完成任務的 bot 對話之前，這種獎勵捕捉用戶在與 bot 的對話中獲得的情感上的滿足感。對于計算機科學家和電子工程師而言，這是一個前景很好的AI研究領域。

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

云服務器 GPU云服務器深度強化學習和深度學習深度學習與強化學習深度學習和強化學習強化學習與深度學習

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4392.html

利用遺傳算法優化神經網絡：Uber提出深度學習訓練新方式

摘要：和的得分均未超過右遺傳算法在也表現得很好。深度遺傳算法成功演化了有著萬自由參數的網絡，這是通過一個傳統的進化算法演化的較大的神經網絡。 Uber 涉及領域廣泛，其中許多領域都可以利用機器學習改進其運作。開發包括神經進化在內的各種有力的學習方法將幫助 Uber 發展更安全、更可靠的運輸方案。遺傳算法——訓練深度學習網絡的有力競爭者我們驚訝地發現，通過使用我們發明的一種新技術來高效演化 DNN，...

AlienZHOU 2019-04-25 18:22 評論0 收藏0
DeepMind、MIT等27位重磅論文，圖網絡讓深度學習也能因果推理

摘要：康納爾大學數學博士博士后則認為，圖神經網絡可能解決圖靈獎得主指出的深度學習無法做因果推理的核心問題。圖靈獎得主深度學習的因果推理之殤年初，承接有關深度學習煉金術的辯論，深度學習又迎來了一位重要的批評者。作為行業的標桿，DeepMind的動向一直是AI業界關注的熱點。最近，這家世界最較高級的AI實驗室似乎是把他們的重點放在了探索關系上面，6月份以來，接連發布了好幾篇帶關系的論文，比如：關系歸...

Wuv1Up 2019-04-25 18:27 評論0 收藏0
深度強化學習：基于像素的乒乓游戲

摘要：在這個問題強化學習里，我遇到過很多人，他們始終不相信我們能夠通過一套算法，從像素開始從頭學會玩游戲這太驚人了，我自己也曾經這么想。基于像素的乒乓游戲乒乓游戲是研究簡單強化學習的一個非常好的例子。這是一篇早就應該寫的關于強化學習的文章。強化學習現在很火！你可能已經注意到計算機現在可以自動（從游戲畫面的像素中）學會玩雅達利（Atari）游戲[1]，它們已經擊敗了圍棋界的世界冠軍，四足機器人學會...

hikui 2019-04-25 18:02 評論0 收藏0
90年代的興衰——強化學習與遞歸神經網絡

摘要：強化學習這就是神經網絡流行起來的地方。而且，我們也在這一范圍內取得了強化學習史上最重要的成績之一一個學習并成為西洋雙陸棋玩家的神經網絡。遞歸神經網絡圖。這是「神經網絡和深度學習簡史」的第三部分（第一部分，第二部分）。在這一部分，我們將繼續了解90年代研究的飛速發展，搞清楚神經網絡在60年代末失去眾多青睞的原因。神經網絡做決定神經網絡運用于無監督學習的發現之旅結束后，讓我們也快速了解一下它們...

rozbo 2019-04-25 18:01 評論0 收藏0
Jeff Dean「Hot Chips 2017」演講：AI對計算機系統設計的影響

摘要：谷歌也不例外，在大會中介紹了人工智能近期的發展及其對計算機系統設計的影響，同時他也對進行了詳細介紹。表示，在谷歌產品中的應用已經超過了個月，用于搜索神經機器翻譯的系統等。此外，學習優化更新規則也是自動機器學習趨勢中的一個信號。在剛剛結束的 2017 年國際高性能微處理器研討會（Hot Chips 2017）上，微軟、百度、英特爾等公司都發布了一系列硬件方面的新信息，比如微軟的 Projec...

explorer_ddf 2019-04-25 18:16 評論0 收藏0