摘要:預(yù)測(cè)事件本質(zhì)上是我們通過機(jī)器學(xué)習(xí)預(yù)測(cè)系統(tǒng),創(chuàng)造出來的一個(gè)假想事件,并根據(jù)預(yù)測(cè)閾值的不同,可以在下載安裝及最終付費(fèi)之間做優(yōu)化調(diào)節(jié)。目前,此機(jī)器學(xué)習(xí)系統(tǒng)已在行業(yè)內(nèi)上線,每天會(huì)分析預(yù)測(cè)上百萬用戶,幫助他們優(yōu)化游戲內(nèi)及廣告體驗(yàn)。
近年來,移動(dòng)端游戲隨著智能手機(jī)技術(shù)的發(fā)展,越來越成為人們娛樂休閑的新模式。據(jù) NewZoo 數(shù)據(jù)調(diào)查研究發(fā)現(xiàn),全球手機(jī)端游戲已達(dá)到 21 億玩家規(guī)模,呈 14% 同比年增長(zhǎng)趨勢(shì),其中大部分玩家有在游戲中付費(fèi)的經(jīng)歷。
對(duì)于 SLG 策略類型手機(jī)游戲,由于前期用戶需要時(shí)間了解及熟練游戲操作,即使有付費(fèi)傾向,一般也會(huì)比較滯后。這種滯后為游戲的內(nèi)部運(yùn)營(yíng),市場(chǎng)投放效果的衡量及優(yōu)化帶來了很大挑戰(zhàn)。本文基于一款日活 600 萬的明星 SLG 游戲,根據(jù)游戲內(nèi)用戶的 500+ 個(gè)特征行為,對(duì)未付費(fèi)用戶在下載安裝后 28 天內(nèi)是否會(huì)轉(zhuǎn)化為付費(fèi)用戶加以預(yù)測(cè)。
文章盡量避免涉及過多的技術(shù)細(xì)節(jié),主要從系統(tǒng)架構(gòu)的角度加以闡述,如何自動(dòng)化一套機(jī)器學(xué)習(xí)預(yù)測(cè)系統(tǒng)并與 Google UAC (通用應(yīng)用廣告平臺(tái)) 相結(jié)合,最終提高 7 倍轉(zhuǎn)化率,2.6 倍投資回報(bào)率,降低 63% 付費(fèi)用戶獲取成本。
數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)包括兩部分, 預(yù)測(cè)目標(biāo) Y 及用戶參數(shù) X,其中用戶參數(shù) X 又分為狀態(tài)參數(shù) Xs 和行為參數(shù) Xb。
原始數(shù)據(jù)符合如下模板:
其中,每行數(shù)據(jù)為每一位用戶每天的行為參數(shù)匯總和狀態(tài)快照。如若用戶當(dāng)天未登錄,則不需記錄當(dāng)天狀態(tài)或行為。如果用戶前 n-1 天未付費(fèi),在第 n 天發(fā)生付費(fèi)轉(zhuǎn)化,則該用戶有 n 行數(shù)據(jù) (假設(shè)用戶每天登陸)。
狀態(tài)參數(shù) (當(dāng)天零點(diǎn)快照) 包括但不限于,游戲內(nèi)人物等級(jí),游戲內(nèi)金幣數(shù)量,登陸游戲手機(jī)品牌,登陸游戲地點(diǎn)等。
行為參數(shù)包括但不限于 (推薦四種對(duì)預(yù)測(cè)付費(fèi)最重要的行為,其他行為越多越好):
付費(fèi)相關(guān)類行為:打開付費(fèi)窗口,點(diǎn)擊付費(fèi)按鈕(還未確認(rèn)付費(fèi)成功)
游戲幣購(gòu)買物品:這里物品可縮小范圍到游戲的核心追求品類,如皮膚,武器等
社交行為:是否加入公會(huì),在團(tuán)隊(duì)發(fā)言次數(shù),社交賬號(hào)分享等
打折類行為:打開打折商店等
對(duì)原始數(shù)據(jù)處理后,得到如下數(shù)據(jù) (假設(shè)模型目標(biāo)是基于未付費(fèi)用戶下載后 7 天行為預(yù)測(cè)下載后 28 天內(nèi)是否會(huì)付費(fèi)):
預(yù)測(cè)目標(biāo) Y:如果用戶下載游戲后 28 天內(nèi)發(fā)生付費(fèi)轉(zhuǎn)化,則為 1,否則為 0
用戶參數(shù) X:假設(shè)原始數(shù)據(jù)中對(duì)于用戶 i, 有 j 行數(shù)據(jù),經(jīng)過處理后每個(gè)用戶只有一行數(shù)據(jù)
注 1:推薦取 7 天以內(nèi)行為作預(yù)測(cè)基礎(chǔ),這樣可以在用戶下載安裝 APP 后七天內(nèi)產(chǎn)生預(yù)測(cè),進(jìn)而及時(shí)把預(yù)測(cè)信號(hào)發(fā)送給 Google UAC 廣告投放平臺(tái),便于 UAC 平臺(tái)內(nèi)的機(jī)器學(xué)習(xí)。
注 2:推薦取 28 天內(nèi)的付費(fèi)作預(yù)測(cè)目標(biāo),這樣便于在一個(gè)月內(nèi)完成預(yù)測(cè)效果及 Google UAC 廣告平臺(tái)投放效果的衡量。
數(shù)據(jù)清洗與特征工程
對(duì)數(shù)據(jù)進(jìn)行清洗
用 0 填充所有缺失值
以列為單位,標(biāo)準(zhǔn)化變形。sklearn.preprocessing.StandardScaler
主成分分析 PCA:降維到原緯度數(shù)量的一半。
經(jīng)過數(shù)據(jù)清洗和特征工程處理后,得到如下數(shù)據(jù)(假設(shè)模型目標(biāo)是基于未付費(fèi)用戶下載后7天行為預(yù)測(cè)下載后 28 天內(nèi)會(huì)不會(huì)付費(fèi)):
將處理后的數(shù)據(jù)按 1:1 分成兩部分,train 和 test
預(yù)測(cè)目標(biāo)沒有變化,即 Y_noTransform_train, Y_noTransform_test:如果用戶下載游戲后 28 天內(nèi)付過費(fèi),則為 1,否則為 0;
相對(duì)應(yīng)的用戶參數(shù)經(jīng)過變形,即 X_transformed_train, X_transformed_test;每個(gè)用戶一行數(shù)據(jù),但經(jīng)過 PCA 降維之后,很難理解X中每一列代表什么行為。
基于TensorFlow深度神經(jīng)網(wǎng)絡(luò)分類器建模
創(chuàng)建分類器
設(shè)計(jì)系統(tǒng)時(shí),選擇調(diào)用 tensorflow Python API,直接建立 DNNClassifier 對(duì)象,省去了大量從底層開始架構(gòu)模型的時(shí)間。對(duì)解決簡(jiǎn)單分類問題很有效,推薦給大家。
classifier = tf.estimator.DNNClassifier()
訓(xùn)練分類器
調(diào)用 DNNClassifier 對(duì)象的 fit 函數(shù),建立訓(xùn)練模塊。
classifier.fit(X_transformed_train, Y_noTransform_train, steps=2000, batch_size=5000)
分類器預(yù)測(cè)
調(diào)用 DNNClassifier 對(duì)象的 predict 函數(shù),建立預(yù)測(cè)模塊。輸出為 0 或 1,0 代表分類器認(rèn)為轉(zhuǎn)化概率低于 50%,即不會(huì)付費(fèi)轉(zhuǎn)化,1 代表分類器認(rèn)為轉(zhuǎn)化概率大于等于 50%,即大概率付費(fèi)轉(zhuǎn)化。50% 為 predict 函數(shù)默認(rèn)的缺省閾值,如需改變此閾值,則要調(diào)用 predict_proba 函數(shù),輸出為轉(zhuǎn)化概率,而不再是 0 或 1。
Y_predict = classifier.predict(X_transformed_test)
分類器驗(yàn)證
Y_predict 和 Y_noTransform_test 都是真對(duì)同一批測(cè)試者,前者為預(yù)測(cè)值,后者為實(shí)際值。通過比較得出 Precision 和 Recall,以此衡量預(yù)測(cè)模型的準(zhǔn)確度。如果用于 Google 廣告平臺(tái)的投放,則 Recall 比 Precision 重要,應(yīng)盡量提高 Recall。如果用戶內(nèi)部運(yùn)營(yíng),則 Precision 比 Recall 重要,應(yīng)盡量提高 Precision。
其中 precision 代表精度,recall 代表廣度。f1 是綜合考慮 precision,recall 的整體參數(shù)。具體定義如下:
經(jīng)過多次調(diào)參迭代,模型性能如下所示,
注:藍(lán)色豎虛線與 x 軸的交點(diǎn)是使 f1 達(dá)到較高點(diǎn)的預(yù)測(cè)概率的取值
系統(tǒng)設(shè)計(jì)
系統(tǒng)基于 Google Cloud Platform,簡(jiǎn)稱 GCP,進(jìn)行架構(gòu)。激活了 GCP 中三個(gè)組件,BigQuery, Compute Engine 和 Storage。每天,基于游戲內(nèi)新產(chǎn)生的數(shù)據(jù)運(yùn)行“預(yù)測(cè)模塊”,對(duì)每個(gè)用戶加以評(píng)估,是否會(huì)付費(fèi)轉(zhuǎn)化。每季度初,基于過去 120 天內(nèi)注冊(cè)的用戶數(shù)據(jù)運(yùn)行“訓(xùn)練模塊”,對(duì)模型加以更新。這里采用了混合數(shù)據(jù)集的方法,即90天新數(shù)據(jù),30 天老數(shù)據(jù),以保證模型和谷歌廣告投放平臺(tái)的合作順暢。
每季度
每天
預(yù)測(cè)結(jié)果在 Google UAC 廣告平臺(tái)的應(yīng)用
Univeral App Campaign 即通用應(yīng)用廣告系列(以下簡(jiǎn)稱 UAC),是 Google 開發(fā)的基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的移動(dòng)端應(yīng)用廣告投放平臺(tái)。旨在幫助用戶簡(jiǎn)化廣告投放流程,更輕松地在 Google 用戶量最多的各款產(chǎn)品和服務(wù)(包括 Google 搜索、Google Play、YouTube 和 Google 展示廣告網(wǎng)絡(luò))中宣傳自己的應(yīng)用 APP。用戶只需添加幾行文字、設(shè)置出價(jià)、提供一些素材資料,系統(tǒng)會(huì)自動(dòng)優(yōu)化其余部分(包括具體廣告的設(shè)計(jì)、廣告投放的目標(biāo)定位和出價(jià)等),從而幫助用戶推廣應(yīng)用 APP。
目前有三個(gè)版本,根據(jù)推廣目標(biāo)不同,分別為以提升 APP 下載安裝量為目標(biāo)、提升 APP 內(nèi)事件觸發(fā)頻次為目標(biāo)和提升 APP 內(nèi)用戶價(jià)值為目標(biāo)。本文主要應(yīng)用在 UAC 的第二個(gè)版本,以提升 APP 內(nèi)事件觸發(fā)頻次為目標(biāo)。
APP 內(nèi)的事件多種多樣,游戲內(nèi)充值付費(fèi)(以下簡(jiǎn)稱 IAP,In-App-Purchase)應(yīng)屬最簡(jiǎn)單明了也最便于嘗試的事件之一。大多數(shù)用戶都有測(cè)試,但效果有好有壞,究竟是什么因素導(dǎo)致了效果的不同?有沒有一種方法可以提升 UAC 廣告投放效果?本文希望通過對(duì)大量投放經(jīng)驗(yàn)的總結(jié),提出一種基于預(yù)測(cè)付費(fèi)用戶的新的 UAC 廣告投放方式,用于高質(zhì)量的新用戶獲取。
如之前章節(jié)所述,最后得出的預(yù)測(cè)結(jié)果應(yīng)為兩列數(shù)據(jù),DeviceID 及預(yù)測(cè)標(biāo)簽 (0 或1)。取決于預(yù)測(cè)概率閾值的不同,被標(biāo)記為 1 (有付費(fèi)傾向) 的用戶數(shù)量及準(zhǔn)確度也會(huì)不同。閾值越高,被標(biāo)記為 1 的要求越苛刻,既被認(rèn)為有付費(fèi)傾向的用戶數(shù)量越少,準(zhǔn)確度越高,如圖二所示。當(dāng)閾值達(dá)到較高 100%,則預(yù)測(cè)事件等同于實(shí)際付費(fèi)事件;當(dāng)閾值達(dá)到較低 0%,則預(yù)測(cè)事件等同于 APP 安裝事件。“預(yù)測(cè)事件”本質(zhì)上是我們通過機(jī)器學(xué)習(xí)預(yù)測(cè)系統(tǒng),創(chuàng)造出來的一個(gè)“假想”事件,并根據(jù)預(yù)測(cè)閾值的不同,可以在APP下載安裝及最終付費(fèi)之間做優(yōu)化調(diào)節(jié)。
經(jīng)大量實(shí)驗(yàn)研究發(fā)現(xiàn),如果考慮把預(yù)測(cè)結(jié)果應(yīng)用在 UAC 上,應(yīng)盡量調(diào)節(jié)閾值,犧牲一些 precision,使 recall 盡可能高。
如下圖所示,闡述了基于 TensorFlow 的機(jī)器學(xué)習(xí)預(yù)測(cè)系統(tǒng)與 Google UAC 廣告投放平臺(tái)結(jié)合的工作原理。左邊藍(lán)色的部分為本文搭建的預(yù)測(cè)系統(tǒng),右側(cè)綠色的部分為 UAC 系統(tǒng)。通過分析預(yù)測(cè),找出潛在付費(fèi)用戶,擴(kuò)大了發(fā)送給 UAC 的種子人群數(shù)量,縮短了從 APP 安裝到有效轉(zhuǎn)化發(fā)生的效果回饋時(shí)間,進(jìn)而提升了 UAC 機(jī)器學(xué)習(xí)和廣告投放的效果。
注:用戶需要思考是否充值付費(fèi)的時(shí)間越長(zhǎng),潛在付費(fèi)用戶群體越大
結(jié)論及未來展望
本文通過對(duì)行業(yè)背景的分析,提出了策略類手機(jī)游戲面臨的挑戰(zhàn)。并從系統(tǒng)架構(gòu)的角度,介紹了如何對(duì)數(shù)據(jù)進(jìn)行清理、特征工程、預(yù)測(cè)分類器的建模及系統(tǒng)自動(dòng)化。其中,數(shù)據(jù)的搜集處理對(duì)模型的準(zhǔn)確性及應(yīng)用性有很大影響。文章也給出了四種對(duì)預(yù)測(cè)游戲內(nèi)付費(fèi)有重要影響的行為參數(shù),并通過 PCA 主成分分析的特征降維方法,極大提高了模型的性能。另外,通過調(diào)節(jié)預(yù)測(cè)轉(zhuǎn)化概率的閾值,可在精度和廣度之間作以取舍,使模型的預(yù)測(cè)結(jié)果適用于不同的領(lǐng)域。
目前,此機(jī)器學(xué)習(xí)系統(tǒng)已在行業(yè)內(nèi)上線,每天會(huì)分析預(yù)測(cè)上百萬用戶,幫助他們優(yōu)化游戲內(nèi)及廣告體驗(yàn)。預(yù)測(cè)是為了更好地了解用戶,進(jìn)而更有效率地幫助用戶。預(yù)測(cè)結(jié)果可對(duì)用戶加以分層,可應(yīng)用于內(nèi)部運(yùn)營(yíng)、市場(chǎng)再營(yíng)銷、新用戶獲取等領(lǐng)域。在此案例中,通過把機(jī)器學(xué)習(xí)系統(tǒng)與 Google UAC 廣告平臺(tái)的結(jié)合,在新用戶獲取領(lǐng)域極大的提高了用戶質(zhì)量,使付費(fèi)率提高了 7 倍,投資回報(bào)率提高了 2.6 倍。關(guān)于具體實(shí)施的細(xì)節(jié),如感興趣,請(qǐng)聯(lián)系您的 Google Awords 賬戶經(jīng)理,我們很樂意與您分享相關(guān)經(jīng)驗(yàn),這里不再贅述。
未來,我們會(huì)對(duì)用戶終身價(jià)值 pltv 加以建模研究,期望基于用戶的行為及付費(fèi)數(shù)據(jù),預(yù)測(cè)用戶未來在游戲內(nèi)的活躍時(shí)間及終身價(jià)值。這樣可以幫助我們更細(xì)顆粒度地區(qū)分用戶,構(gòu)建千人千面的用戶體驗(yàn)。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/4761.html
摘要:文和,創(chuàng)意實(shí)驗(yàn)室創(chuàng)意技術(shù)專家在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域,姿勢(shì)預(yù)測(cè)或根據(jù)圖像數(shù)據(jù)探測(cè)人體及其姿勢(shì)的能力,堪稱最令人興奮而又最棘手的一個(gè)話題。使用,用戶可以直接在瀏覽器中運(yùn)行機(jī)器學(xué)習(xí)模型,無需服務(wù)器。 文 / ?Jane Friedhoff 和 Irene Alvarado,Google 創(chuàng)意實(shí)驗(yàn)室創(chuàng)意技術(shù)專家在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域,姿勢(shì)預(yù)測(cè)或根據(jù)圖像數(shù)據(jù)探測(cè)人體及其姿勢(shì)的能力,堪稱最令人興...
摘要:自從年月開源以來,我們做了一些重大改進(jìn)。現(xiàn)在,讓我們?cè)倩氐竭@個(gè)項(xiàng)目開始的地方,回顧我們的進(jìn)展過程,并分享我們下一步的方向。 自從2016年2月 TensorFlow Serving 開源以來,我們做了一些重大改進(jìn)。現(xiàn)在,讓我們?cè)倩氐竭@個(gè)項(xiàng)目開始的地方,回顧我們的進(jìn)展過程,并分享我們下一步的方向。在 TensorFlow Serving 啟動(dòng)之前,谷歌公司內(nèi)的 TensorFlow 用戶也必須...
摘要:現(xiàn)場(chǎng)宣布全球領(lǐng)先的深度學(xué)習(xí)開源框架正式對(duì)外發(fā)布版本,并保證的本次發(fā)布版本的接口滿足生產(chǎn)環(huán)境穩(wěn)定性要求。有趣的應(yīng)用案例皮膚癌圖像分類皮膚癌在全世界范圍內(nèi)影響深遠(yuǎn),患病人數(shù)眾多,嚴(yán)重威脅身體機(jī)能。 前言本文屬于介紹性文章,其中會(huì)介紹許多TensorFlow的新feature和summit上介紹的一些有意思的案例,文章比較長(zhǎng),可能會(huì)花費(fèi)30分鐘到一個(gè)小時(shí)Google于2017年2月16日(北京時(shí)間...
摘要:接下來,介紹了使用深度學(xué)習(xí)的計(jì)算機(jī)視覺系統(tǒng)在農(nóng)業(yè)零售業(yè)服裝量身定制廣告制造等產(chǎn)業(yè)中的應(yīng)用和趨勢(shì),以及在這些產(chǎn)業(yè)中值得關(guān)注的企業(yè)。 嵌入式視覺聯(lián)盟主編Brian Dipert今天發(fā)布博文,介紹了2016年嵌入式視覺峰會(huì)(Embedded Vision Summit)中有關(guān)深度學(xué)習(xí)的內(nèi)容:谷歌工程師Pete Warden介紹如何利用TensorFlow框架,開發(fā)為Google Translate...
閱讀 535·2019-08-30 15:55
閱讀 944·2019-08-29 15:35
閱讀 1198·2019-08-29 13:48
閱讀 1910·2019-08-26 13:29
閱讀 2933·2019-08-23 18:26
閱讀 1237·2019-08-23 18:20
閱讀 2834·2019-08-23 16:43
閱讀 2709·2019-08-23 15:58