摘要:世界杯小組賽將收官,你還依然信嗎冷門頻出,黑馬擊敗豪強。以本屆世界杯開幕戰俄羅斯對陣沙特阿拉伯的比賽為例,兩隊上次交手是在年的一場友誼賽,距今已經年。然后進入第二步,預測回報率導向。在足球領域,這個回報率已非常不俗。
世界杯小組賽將收官,你還依然信AI嗎?
冷門頻出,黑馬擊敗豪強。不少AI模型始料未及。
到底還能不能愉快找到科學規律?或者說足球比賽乃至其他競技體育賽事,數據科學家在AI加持下,究竟能做到多大程度的預測?
瓶頸在核心數據匱乏
如果讓謝波回答這個問題,他會告訴你:“單利用神經網絡模型對世界杯的勝負、比分進行預測,存在一定難度?!?/p>
謝波是北京猜猜科技CEO,他認為世界杯預測難,最根本的原因是核心數據的匱乏:比如國家隊之間的歷史交戰記錄非常稀疏,無法提供足夠多的信號支持預測的結果。
以本屆世界杯開幕戰俄羅斯對陣沙特阿拉伯的比賽為例,兩隊上次交手是在1993年的一場友誼賽,距今已經25年。神經網絡模型很難在這樣的數據基礎上發揮它的威力。
但球賽預測也不是完全毫無辦法,在動手實踐后,謝波團隊發現,如果把包括五大聯賽在內的職業聯賽當做預測樣本,效果將大大不同。
五大聯賽指的是歐洲五大職業足球聯賽,分別包括英超、西甲、德甲、法甲和意甲聯賽。這些聯賽有比較完整的商業化體系,也有比較領先的數據采集和數據流轉的商業化機制。
所以第一步,獲取數據。
相對挑戰的是,體育行業的數據相對金融等其他領域,具有來源眾多、標準各異、置信度參差不齊等特點,導致很難從某個權威的數據公司獲取到一份全面、準確并且標準化的數據。
舉個例子,描述一場比賽的賠率數據和基本面數據存在于不同的來源。不同來源的數據需要通過一個非常嚴密數據流程進行關聯和加工,僅僅隊名這個最簡單的字段在不同來源的叫法都不一樣,任何一個小的數據偏差或者丟失都會導致最終神經網絡預測結果偏差,影響準確率。這里面的技術活非常的具有挑戰性。
此外,還要考慮足球比賽的實時性。所以在已經積累了歐洲主流聯賽近10年的數萬場比賽歷史數據后,猜猜科技的模型還加入了百萬量級的賽中實時數據。
然后進入第二步,預測回報率導向。
體育競猜領域有幾個常見的誤區。比如,比賽的賠率是博彩公司通過對于比賽本身的判斷以及大眾投注的選擇等因素,綜合考慮后給出的比賽投注回報。
例如博彩公司開出主隊贏2.25的賠率,其意義就是投注者如果投主隊獲勝,且比賽結果真是主隊獲勝,則投注者可以獲得其投注額的2.25倍的回報。
而對比賽結果進行一定的判斷,給出一定的概率估算,這里預測的是概率。
在此基礎上,更為重要的一個概念是價值回報率,該指標則是綜合考慮了賠率和結果概率,對于每場比賽的勝負平等結果,都是其對應賠率和預測概率的乘積。
價值回報率可以認為是賠率的可套利空間,或者說是賠率的期望回報值。
于是從預測回報率的角度出發,公式如下:
Returns = Max { Σ Odds | Pro, Val, α } ,其中Odds為預測結果的賠率,Pro為預測的概率,Val為預測的價值回報率,α為選擇的策略。
緊接著,就可以看看這個專為預測而打造的模型了,分為兩部分:
基于深度學習技術的比賽預測模型,以及基于價值回報率的投注策略模型。
一個個看。
基于深度學習的比賽結果預測模型
深度學習技術作為傳統神經網絡算法的延伸和擴展,當前在圖像識別、語音識別、自然語言處理等領域獲得了巨大的成功。
將深度學習技術引入到足球比賽的結果預測中,可以綜合利用歷史的比賽記錄,以及各種實時的數據信息,進行訓練和計算。經過數萬場比賽的洗禮,龐大數據量的分析,以學習掌握決定勝負的關鍵因素。
無論是賽前球員的傷病,還是教練的奇招,眾多的線索都可以從海量的數據中能獲得“蛛絲馬跡”,幫助模型得到準確的預測結果。
圖:基于深度神經網絡的比賽預測
當前猜猜科技的深度學習模型通過對過去兩萬多場比賽的訓練,利用百余維特征,包括球隊的基本面(射門數、搶斷數、助攻數、控球率等等),幾十個渠道(歐賠、亞賠等)的賠率信息,以及歷史上的戰績。
經過神經網絡的編碼和序列解碼,以及有效的注意力機制的引入,可以對比賽結果進行準確的預測(包括結果和比分)。
進一步,團隊后續還利用多組子模型進行多層次的結果融合,獲得較大的性能收益。當前最優的模型可以穩定的達到68%的預測準確性。已經超過了人類專家的較高級水平。
引入價值回報率的最優投資組合的搜索
在已知結果概率和賠率的情況下,選擇哪些比賽進行投注,投注的比例又是如何,這是投注策略所關注的問題。
不同的預測概率,會有不同的價值回報值,根據不同的價值回報率,我們會采取不同的下注策略,這就涉及到一個最優投資組合的搜索問題。
搜索的空間是根據賠率,預測的概率,價值回報率以及不同的預測模型等組合而成,如何在百萬計的投資組合中進行最優搜索,成為核心問題。
圖:基于遺傳算法的參數組合搜索
猜猜科技利用剪枝優化的策略,結合遺傳算法等多種搜索策略,對最優參數空間進行檢索。
遺傳算法等并不基于梯度進行計算,算法本身能擴展到巨大的參數空間。重點設計并優化算法的初始條件、選擇運算、交叉運算以及變異運算的關鍵步驟,并且將啟發式的裁剪策略運用在遺傳算子中,較大限度優化搜索的空間和時間消耗,最終獲得較高投資回報比的投資組合參數。
為了測試這套模型, 猜猜科技對 2012 年到 2018 年期間 2 萬場足球比賽進行了模擬訓練,在測試集300場比賽進行測試,回報率為41%。
在足球領域,這個回報率已非常不俗。
背后團隊
最后,介紹下該模型的核心打造團隊——猜猜科技,CEO謝波和CTO郭楊,和包括首席科學家在內的神經網絡團隊,均來自“西二旗”,是前百度核心業務部門的技術和產品骨干。
CTO郭楊透露,打造該預測模型,只是因時制宜的牛刀小試,希望打造一個類似AlphaGo的圍棋培訓和教學工具,最終目的是能夠幫助國內的彩民群體提升他們的賽事分析能力和投注技巧。
但只是一個機器輔助決策類的應用,后續更廣泛的場景,是希望將能力應用到更多有意思的領域,比如電子競技、創造101選秀競猜、加密貨幣價格走勢中……
聲明:文章收集于網絡,如有侵權,請聯系小編及時處理,謝謝!
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4794.html
摘要:全球四大云巨頭營收規模對比,亞馬遜是參天大樹,而阿里云則是一個小樹苗。盡管阿里云依托國內龐大市場,近年來呈現高速增長態勢,但相比亞馬遜微軟及谷歌差距巨大。全球四大云巨頭營收規模對比,亞馬遜AWS是參天大樹,而阿里云則是一個小樹苗。亞馬遜AWS在2018年創造了1700億元人民幣營收,而阿里云為213.6億。盡管阿里云依托國內龐大市場,近年來呈現高速增長態勢,但相比亞馬遜、微軟及谷歌差距巨大。...
摘要:而這種舉一反三的能力在機器學習領域同樣適用,科學家將其稱之為遷移學習。與深度學習相比,我們技術較大優點是具有可證明的性能保證。近幾年的人工智能熱潮中,深度學習是最主流的技術,以及之后的成功,更是使其幾乎成為的代名詞。 如今,人類將自己的未來放到了技術手里,無論是讓人工智能更像人類思考的算法,還是讓機器人大腦運轉更快的芯片,都在向奇點靠近。谷歌工程總監、《奇點臨近》的作者庫茲韋爾認為,一旦智能...
摘要:目前,的全棧邊緣計算產品包括虛擬機安全容器和裸金屬。契機之下,雷鋒網對話了高級產品負責人曾凱源,聽他闡述的邊緣計算布局戰略打法做與不做。曾凱源表示,邊緣計算含在戰略中,提供的是基礎計算能力。云廠商推進邊緣計算,已成有趣共識邊緣計算的概念自2017年起就以摧枯拉朽之勢裹挾著技術人和投資人追捧,還曾一度引發股市熱炒和瘋狂套現,漸漸形成與云計算分庭抗禮的格局,此后國內一大批邊緣計算產業聯盟破土而出...
摘要:可預見的未來激情賽事已經過半,阿里云視頻技術在本次世界杯中也成功落地,而這并不是結局,這是將視頻應用于體育行業以及更多其他行業的開端。 本屆世界杯互聯網直播的順利進行,離不開各大云計算廠商的支持。在這其中,阿里云是當之無愧的C位,除了優酷外,阿里云還支撐了CNTV、CCTV5客戶端,為全網70%的世界杯直播流量保駕護航。 對于世界杯這種超大觀看量級、超強影響力的重要體育賽事,阿里云一直...
摘要:機器學習就是用算法解析數據,不斷學習,對世界中發生的事做出判斷和預測的一項技術。顯然,深度學習是與機器學習中的神經網絡是強相關,神經網絡也是其主要的算法和手段或者我們可以將深度學習稱之為改良版的神經網絡算法。 什么是 AI、機器學習與深度學習? 大家好,我是楊鋒,作為一個大數據從業人員,相信大家整天都在被 AI、機器學習、深度學習等一些概念轟炸。有時候甚至有點誠惶誠恐,一方面作為一個業...
閱讀 2014·2021-11-15 11:38
閱讀 2048·2019-08-30 15:55
閱讀 2182·2019-08-30 15:52
閱讀 3167·2019-08-30 14:01
閱讀 2684·2019-08-30 12:47
閱讀 1128·2019-08-29 13:17
閱讀 1062·2019-08-26 13:55
閱讀 2629·2019-08-26 13:46