40張圖看懂撲克AI對抗人類30年歷史，解密冷撲大師前世今生

YuboonaZhang 發布于2019-04-25 18:18 / 3018人閱讀

摘要：月，卡耐基梅隆大學的程序在一對一不限注的撲克比賽中，擊敗了一組的德州撲克職業選手。概述擊敗人類冠軍的三件事的深藍，由卡內基梅隆大學開飯，在年的復賽中擊敗國際象棋世界冠軍卡斯帕羅夫。年，奧克蘭大學發布。

2017年是AI在撲克上取得突破的一年，在AI的發展歷史上，具有里程碑的意義。

1月，卡耐基梅隆大學的 AI 程序在“一對一不限注”的撲克比賽中，擊敗了一組的德州撲克職業選手。出乎所有人的意外，這一程序對人類專業撲克手的勝利幾乎是壓倒性的：14bb/h。

（注，德州撲克中，線下按bb/h，超過15bb/h，你已經完全統治這個級別的桌子了，能打到5bb/h-10bb/h已經很不錯了。線上按bb/100手，超過5bb/100已經非常厲害了。）

比賽一共打了12萬手，最后 AI 程序贏得170萬籌碼，也就是約 1.7 萬大盲注，接近 90 個買入。對職業撲克玩家來說，還好這不是真正的錢，雖然他們在這場比賽中潰不成軍。團隊里每個人都敗給了機器。

這個 AI 程序被稱為 Libratus，它的開發者之一，CMU 博士生 Noam Brown 稱它是“撲克AI的圣杯”。Libratus 是 Noam Brown 和 CMU 教授 Tuomas Sandholm 一起開發的，而它只是 CMU 研發的一系列撲克 AI 程序中的一個。此前，從來沒有機器能在一對一不限注德州撲克游戲中擊敗的人類職業玩家。

卡耐基梅隆大學的 AI 程序 Libratus 的開發者Tuomas Sandholm 教授（右）與 Noam Brown 博士

根據 Brown 的說法，后續版本的 Libratus 還能有很大的提升空間，升級后的程序理論上能贏 50bb/h。

2017 年 11 月 8 日，在北京國家會議中心舉辦的 AI WORLD 2017 世界人工智能大會上，我們特別邀請到“冷撲大師”之父 Tuomas Sandholm 到場，現場揭開“不完全信息”下的智能博弈。

而在驚人的 Libratus 之前，來自加拿大和捷克的幾位計算機科學研究者近日在 arXiv 上貼出論文，介紹了一種用于不完美信息（例如撲克）的新算法，DeepStack 結合使用循環推理來處理信息不對稱，使用分解將計算集中在相關的決策上，并且使用一種深度學習技術從單人游戲中自動學習的有關撲克任意狀態的直覺形式。研究者在論文中稱，在一項有數十名參賽者進行的44000手撲克的比賽中，DeepStack 成為第一個在一對一無限注德州撲克中擊敗職業撲克玩家的計算機程序。

隨后，Science以封面文章的方式，對這一AI 在不完美信息博弈中堪稱里程碑式的突破進行了報道。

撲克網站pokersites.me.uk近日發布了一篇文章，以信息圖的方式，完整地介紹了人類開發AI程序以對抗撲克玩家的里程，從1984年開始，我們已經在這一方向上探索了30多年，在2017年獲得最值得驕傲的成功。冷撲大師“ Libratus” 和DeepStack 不僅僅意味著在撲克上的突破，更多的是深度學習和人工智能綜合性的成就和技術高度。

下文，我們將從歷史、技術原理、對戰細節、AI 的優勢、撲克AI的延伸應用以及未來等多個方面，介紹以撲克為攻克的目標的這一人工智能突破路徑。不完美信息博弈上，AI技術的成熟與應用，將會進一步擴展AI的應用邊界，比如，在商業談判、醫療健康、網絡安全、拍賣等等領域得到廣泛應用。

對抗人類：機器的崛起

撲克AI標志著AI研究歷史上的又一個里程碑。

概述：AI擊敗人類冠軍的三件事

IBM的“深藍”，由卡內基梅隆大學開飯，在1997年的復賽中擊敗國際象棋世界冠軍卡斯帕羅夫。

谷歌的AlphaGo AI程序擊敗圍棋手李世石。

2011年，IBM的超級計算機 Watson 在Jeopardy比賽中擊敗兩位世界冠軍。

人類如何認知AI：人口統計數字

超過55歲的人群，只有35%的人信任AI；

17歲到24歲的人群，信任AI的人比例為62%；

超過50歲的人中，71%的人認為，智能虛擬助理將會在未來簡化他們的生活。

撲克中反映的通用問題?

最近10年，驅動撲克AI研究發展的力量

阿爾伯塔大學

卡內基梅隆大學

奧克蘭大學

撲克AI背后的科學家：

Noam Brown，卡內基梅隆大學

Tuomas Sandholm，卡內基梅隆大學

Michael Bowling，阿爾伯塔大學

撲克AI的歷史，關鍵時刻

1. 1984年，Mike Caro 創建的基礎撲克AI軟件Orac參加了WSOP的比賽。

注：世界撲克大賽（World Series of Poker，簡稱WSOP）是世界上具有重要影響力的撲克錦標賽，每年在美國拉斯維加斯舉辦。此項賽事的起源可以追溯到1970年，當時奔尼·比尼恩（Benny Binion）邀請了六位知名撲克選手在馬蹄鐵賭場（Binion"s Horseshoe Casino）舉辦了第一屆比賽，當時的冠軍是由投票選出的。（來源：維基百科）

2. 1997年，阿爾伯塔大學（UoA）發布了撲克AI Loki，專攻有限下注的德州撲克比賽。

3. 2003年，撲克AI開發者開始從國際象棋方法論的模型中轉移，尋找新的辦法。

4. 2005年，在Golden Palace舉辦了撲克機器人世界系列賽。

5. 2006年，年度計算機撲克競賽（ACPC）開始舉辦。

6. 2008年，UoA的撲克機器人Polaris 6位人類玩家進行了一對一的無限下注競賽，成績為3勝2負一平。

7. 2009年，奧克蘭大學發布 Sartres 。

8. 2012年，拉斯維加斯Bellagio 賭場啟動了2/4美元有限下注的機器人，每個人都能嘗試與之進行對抗。

9.2015年，有限下注的比賽以及被阿爾伯塔大學的撲克機器人Cepheus攻克。

10. 2016年，在ACPC上出現了兩個較高級的AI：1）前谷歌工程師Eric Jackson 開發的Slumbot，在WSOP上大賺一筆；2）CMU 博士生開發的“Act1”數年來在線上撲克對戰中保持常勝。

11. 2017年，阿爾伯塔大學開發的DeepStack擊敗了撲克專業玩家。同時，來自CMU的神秘AI也完勝較好的人類撲克玩家。

解密冷撲大師Libratus：成功騙過較佳撲克專業玩家的撲克AI

Libratus 基于匹茲堡超級計算中心1500萬小時核心計算制定自己的撲克策略。

匹茲堡超級計算中心的超級計算機“嫁接”資源

比一般的現代桌面計算機快30000倍

RAM達到274 TeraBytes

成本：965萬美元

撲克游戲的特征

在有限下注的對抗中，一共包含了31600萬億個不同的游戲狀態。

無限下注的對抗所包含的獨特的情景數量比宇宙中原子的數量還多。

以每秒一次的頻率，一個人需要100億年的時間，才能嘗試完所有的有限下注狀態。

Libratus的策略：

Libratus依賴于一個算法來計算策略，而非修正已經被寫入程序的策略。

Libratus每天都在分析自己的下法，并修正錯誤，每天都在進行不同的對戰。

Libratus會將自己的行動隨機化，讓對手不能確定自己是不是在bluffing。

Libratus的算法不是專用于撲克的，還能夠應用到任何的不完美信息情景中。

Libratus三大模塊。Libratus有三大模塊，每一個都在執行不同的任務：

1. 學習撲克游戲規則，嘗試找到能解決每一個場景的對應不同策略；

2. 在每一手牌中，為每一次行動進行決策；

3. 持續地更新，對進入到系統中的每一個新信息進行記錄和存檔。

冷撲與其他AI的不同之處

Libratus：沒有深度神經網絡，從頭開始學習規則，所運用的策略完全獨立于人類玩家。

其他AI：有深度神經網絡，對舊的玩法進行分享以學習規則，所運用的策略不獨立于人類玩家。

過渡時期，無限下注德州撲克的解決也不遠了

人腦 VS AI

Claudico?

2015年，Tuomas Sandholm和CMU的同事發布了一個超級智能的撲克AI Claudico，用于無限注的撲克對抗。

四名較好的玩家：Doug Polk，Bjorn Li，Dong Kim 和 Jason Les 在Rivers 賭場完成了與Claudico的對抗。

在為期13天的比賽中，一共進行了8萬手的比賽，下注的虛擬貨幣數量總額為1.7億美元。

四名玩家一起擊敗了Claudico，贏了732713美元。

2017年，UoA發布了DeepStack，專攻無限下注的德州撲克。DeepStack采用了深度神經網絡，來模仿人類在圍棋游戲中的“直覺”和學習能力。DeepStack將游戲的場景“壓縮”到10的14次方，由此一來，兩個玩家的對抗產生的可能的游戲場景就是10的160次方。

結果：整個研究涉及了幾十名參與者，包含了44萬手撲克。DeepStack的平均獲勝率是450 mbb/g，在專業撲克玩家中，50 mbb/g的贏率就可以稱得上是優秀了。與DeepStack對戰的都是優秀的玩家，但是，它還沒有與較高級玩家過招。

2017年，CMU的冷撲大師 Libratus 橫空出世，創造了撲克AI與人類玩家對抗更為壓倒性的勝利。

2017年1月，四位人類最較高級的玩家與Libratus 進行對抗，一共進行了12萬手的比賽。

每一手對抗中，人類玩家和AI各自擁有2萬籌碼，盲注為50/100。

Libratus 分別擊敗了四位玩家，并且贏率為14.72美元每一手。

Libratus的贏率為14.7 bb 每一百手，這對AI來說是一個非常優秀的結果了。

所有的四名人類玩家都輸掉了自己的3萬手對抗，等于輸掉了176萬6250美元。

專業撲克手 VS AI撲克手，戰役還是戰爭？

AI 的優勢在哪？

AI不會疲勞，不會在累的情況下做出錯誤決策；

AI 能夠找到玩家的特定缺陷；

AI 對錢的價值沒有概念；

AI 沒有情感，不會被偏見影響；

AI對風險不會感到害怕，如果Libratus有10%的機率贏得2萬美元，同時也有90%的機率打平，或者有保證得到1999美元，它一般都會采納10%。

較高級的AI模擬和訓練軟件，能夠幫助人類

線上撲克Bot

紙牌之外的下一步，AI的未來

趨勢與可能性

對于撲克AI來說，下一個挑戰是，一次對抗多個人類玩家。

電子的循環比生物化學的速度要快幾百萬倍。

Libratus 的聯合開發者Noam Brown 預計，一個完美的GTO bot可能會以15 bb每一百手的勝率擊敗Libratus。

AI 每周能夠完成人類需要2萬年才完成的工作。

到2021年，網絡安全中機器學習的應用，將能推動大數據、智能和分析行業超過960億美元的開支。

不完美信息的應用：商業談判、醫療健康、網絡安全、拍賣等等。

參考資料

完整版圖片，請訪問：https://pokersites.me.uk/poker-ai/#respond

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

云服務器 GPU云服務器一張圖看懂區塊鏈 webrtc 前世今生張圖看 4幅圖看懂webrtc的架構

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4623.html

深度學習out了？深度解讀AI領域三大前瞻技術

摘要：而這種舉一反三的能力在機器學習領域同樣適用，科學家將其稱之為遷移學習。與深度學習相比，我們技術較大優點是具有可證明的性能保證。近幾年的人工智能熱潮中，深度學習是最主流的技術，以及之后的成功，更是使其幾乎成為的代名詞。如今，人類將自己的未來放到了技術手里，無論是讓人工智能更像人類思考的算法，還是讓機器人大腦運轉更快的芯片，都在向奇點靠近。谷歌工程總監、《奇點臨近》的作者庫茲韋爾認為，一旦智能...

muddyway 2019-04-25 18:27 評論0 收藏0
【人工智能】一張圖看懂華為云EI的年度心路歷程

摘要：人工智能一張圖看懂華為云的年度心路歷程我們總是聽到人工智能這個詞就會把它與科幻電影相結合例如星球大戰終結者等等。看完下面的長圖或許你可以從中探得華為云整年的心路歷程。【人工智能】一張圖看懂華為云EI的年度心路歷程我們總是聽到人工智能這個詞,就會把它與科幻電影相結合,例如星球大戰、終結者等等。科幻大片大都是虛構的,所以人們總覺得人工智能缺乏真實感,但是如今,它已經切切實實地從實驗室...

seanHai 2019-06-26 18:46 評論0 收藏0
深度學習的下一個熱點——GANs將改變世界

摘要：生成式對抗網絡簡稱將成為深度學習的下一個熱點，它將改變我們認知世界的方式。配圖針對三年級學生的對抗式訓練屬于你的最嚴厲的批評家五年前，我在哥倫比亞大學舉行的一場橄欖球比賽中傷到了自己的頭部，導致我右半身腰部以上癱瘓。本文作者 Nikolai Yakovenko 畢業于哥倫比亞大學，目前是 Google 的工程師，致力于構建人工智能系統，專注于語言處理、文本分類、解析與生成。生成式對抗網絡—...

ningwang 2019-04-25 18:07 評論0 收藏0
ES6-前世今生（0）

摘要：更新了個版本，最新正式版是語言的下一代標準，早已在年月正式發布。基本不支持移動端瀏覽器對的支持情況版起便可以支持的新特性。比較通用的工具方案有，，，等。 1、ECMAScript是什么？和 JavaScript 有著怎樣的關系？ 1996 年 11 月，Netscape 創造了javascript并將其提交給了標準化組織 ECMA，次年，ECMA 發布 262 號標準文件（ECMA-...

LeviDing 2019-08-26 13:41 評論0 收藏0