Google內(nèi)部案例分享 | 是如何構(gòu)建定制化TensorFlow預(yù)測(cè)系統(tǒng)的？

Batkid 發(fā)布于2019-04-25 18:26 / 2741人閱讀

摘要：預(yù)測(cè)事件本質(zhì)上是我們通過機(jī)器學(xué)習(xí)預(yù)測(cè)系統(tǒng)，創(chuàng)造出來的一個(gè)假想事件，并根據(jù)預(yù)測(cè)閾值的不同，可以在下載安裝及最終付費(fèi)之間做優(yōu)化調(diào)節(jié)。目前，此機(jī)器學(xué)習(xí)系統(tǒng)已在行業(yè)內(nèi)上線，每天會(huì)分析預(yù)測(cè)上百萬用戶，幫助他們優(yōu)化游戲內(nèi)及廣告體驗(yàn)。

近年來，移動(dòng)端游戲隨著智能手機(jī)技術(shù)的發(fā)展，越來越成為人們娛樂休閑的新模式。據(jù) NewZoo 數(shù)據(jù)調(diào)查研究發(fā)現(xiàn)，全球手機(jī)端游戲已達(dá)到 21 億玩家規(guī)模，呈 14% 同比年增長(zhǎng)趨勢(shì)，其中大部分玩家有在游戲中付費(fèi)的經(jīng)歷。

對(duì)于 SLG 策略類型手機(jī)游戲，由于前期用戶需要時(shí)間了解及熟練游戲操作，即使有付費(fèi)傾向，一般也會(huì)比較滯后。這種滯后為游戲的內(nèi)部運(yùn)營(yíng)，市場(chǎng)投放效果的衡量及優(yōu)化帶來了很大挑戰(zhàn)。本文基于一款日活 600 萬的明星 SLG 游戲，根據(jù)游戲內(nèi)用戶的 500+ 個(gè)特征行為，對(duì)未付費(fèi)用戶在下載安裝后 28 天內(nèi)是否會(huì)轉(zhuǎn)化為付費(fèi)用戶加以預(yù)測(cè)。

文章盡量避免涉及過多的技術(shù)細(xì)節(jié)，主要從系統(tǒng)架構(gòu)的角度加以闡述，如何自動(dòng)化一套機(jī)器學(xué)習(xí)預(yù)測(cè)系統(tǒng)并與 Google UAC (通用應(yīng)用廣告平臺(tái)) 相結(jié)合，最終提高 7 倍轉(zhuǎn)化率，2.6 倍投資回報(bào)率，降低 63% 付費(fèi)用戶獲取成本。

數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)包括兩部分，預(yù)測(cè)目標(biāo) Y 及用戶參數(shù) X，其中用戶參數(shù) X 又分為狀態(tài)參數(shù) Xs 和行為參數(shù) Xb。

原始數(shù)據(jù)符合如下模板：

其中，每行數(shù)據(jù)為每一位用戶每天的行為參數(shù)匯總和狀態(tài)快照。如若用戶當(dāng)天未登錄，則不需記錄當(dāng)天狀態(tài)或行為。如果用戶前 n-1 天未付費(fèi)，在第 n 天發(fā)生付費(fèi)轉(zhuǎn)化，則該用戶有 n 行數(shù)據(jù) (假設(shè)用戶每天登陸)。

狀態(tài)參數(shù) (當(dāng)天零點(diǎn)快照) 包括但不限于，游戲內(nèi)人物等級(jí)，游戲內(nèi)金幣數(shù)量，登陸游戲手機(jī)品牌，登陸游戲地點(diǎn)等。

行為參數(shù)包括但不限于 (推薦四種對(duì)預(yù)測(cè)付費(fèi)最重要的行為，其他行為越多越好)：

付費(fèi)相關(guān)類行為：打開付費(fèi)窗口，點(diǎn)擊付費(fèi)按鈕（還未確認(rèn)付費(fèi)成功）

游戲幣購(gòu)買物品：這里物品可縮小范圍到游戲的核心追求品類，如皮膚，武器等

社交行為：是否加入公會(huì)，在團(tuán)隊(duì)發(fā)言次數(shù)，社交賬號(hào)分享等

打折類行為：打開打折商店等

對(duì)原始數(shù)據(jù)處理后，得到如下數(shù)據(jù) (假設(shè)模型目標(biāo)是基于未付費(fèi)用戶下載后 7 天行為預(yù)測(cè)下載后 28 天內(nèi)是否會(huì)付費(fèi))：

預(yù)測(cè)目標(biāo) Y：如果用戶下載游戲后 28 天內(nèi)發(fā)生付費(fèi)轉(zhuǎn)化，則為 1，否則為 0

用戶參數(shù) X：假設(shè)原始數(shù)據(jù)中對(duì)于用戶 i, 有 j 行數(shù)據(jù)，經(jīng)過處理后每個(gè)用戶只有一行數(shù)據(jù)

注 1：推薦取 7 天以內(nèi)行為作預(yù)測(cè)基礎(chǔ)，這樣可以在用戶下載安裝 APP 后七天內(nèi)產(chǎn)生預(yù)測(cè)，進(jìn)而及時(shí)把預(yù)測(cè)信號(hào)發(fā)送給 Google UAC 廣告投放平臺(tái)，便于 UAC 平臺(tái)內(nèi)的機(jī)器學(xué)習(xí)。

注 2：推薦取 28 天內(nèi)的付費(fèi)作預(yù)測(cè)目標(biāo)，這樣便于在一個(gè)月內(nèi)完成預(yù)測(cè)效果及 Google UAC 廣告平臺(tái)投放效果的衡量。

數(shù)據(jù)清洗與特征工程

對(duì)數(shù)據(jù)進(jìn)行清洗

用 0 填充所有缺失值

以列為單位，標(biāo)準(zhǔn)化變形。sklearn.preprocessing.StandardScaler

主成分分析 PCA：降維到原緯度數(shù)量的一半。

經(jīng)過數(shù)據(jù)清洗和特征工程處理后，得到如下數(shù)據(jù)（假設(shè)模型目標(biāo)是基于未付費(fèi)用戶下載后7天行為預(yù)測(cè)下載后 28 天內(nèi)會(huì)不會(huì)付費(fèi)）：

將處理后的數(shù)據(jù)按 1:1 分成兩部分，train 和 test

預(yù)測(cè)目標(biāo)沒有變化，即 Y_noTransform_train, Y_noTransform_test：如果用戶下載游戲后 28 天內(nèi)付過費(fèi)，則為 1，否則為 0;

相對(duì)應(yīng)的用戶參數(shù)經(jīng)過變形，即 X_transformed_train, X_transformed_test；每個(gè)用戶一行數(shù)據(jù)，但經(jīng)過 PCA 降維之后，很難理解X中每一列代表什么行為。

基于TensorFlow深度神經(jīng)網(wǎng)絡(luò)分類器建模

創(chuàng)建分類器

設(shè)計(jì)系統(tǒng)時(shí)，選擇調(diào)用 tensorflow Python API，直接建立 DNNClassifier 對(duì)象，省去了大量從底層開始架構(gòu)模型的時(shí)間。對(duì)解決簡(jiǎn)單分類問題很有效，推薦給大家。

classifier = tf.estimator.DNNClassifier()

訓(xùn)練分類器

調(diào)用 DNNClassifier 對(duì)象的 fit 函數(shù)，建立訓(xùn)練模塊。

classifier.fit(X_transformed_train, Y_noTransform_train, steps=2000, batch_size=5000)

分類器預(yù)測(cè)

調(diào)用 DNNClassifier 對(duì)象的 predict 函數(shù)，建立預(yù)測(cè)模塊。輸出為 0 或 1，0 代表分類器認(rèn)為轉(zhuǎn)化概率低于 50%，即不會(huì)付費(fèi)轉(zhuǎn)化，1 代表分類器認(rèn)為轉(zhuǎn)化概率大于等于 50%，即大概率付費(fèi)轉(zhuǎn)化。50% 為 predict 函數(shù)默認(rèn)的缺省閾值，如需改變此閾值，則要調(diào)用 predict_proba 函數(shù)，輸出為轉(zhuǎn)化概率，而不再是 0 或 1。

Y_predict = classifier.predict(X_transformed_test)

分類器驗(yàn)證

Y_predict 和 Y_noTransform_test 都是真對(duì)同一批測(cè)試者，前者為預(yù)測(cè)值，后者為實(shí)際值。通過比較得出 Precision 和 Recall，以此衡量預(yù)測(cè)模型的準(zhǔn)確度。如果用于 Google 廣告平臺(tái)的投放，則 Recall 比 Precision 重要，應(yīng)盡量提高 Recall。如果用戶內(nèi)部運(yùn)營(yíng)，則 Precision 比 Recall 重要，應(yīng)盡量提高 Precision。

其中 precision 代表精度，recall 代表廣度。f1 是綜合考慮 precision，recall 的整體參數(shù)。具體定義如下：

經(jīng)過多次調(diào)參迭代，模型性能如下所示，

注：藍(lán)色豎虛線與 x 軸的交點(diǎn)是使 f1 達(dá)到較高點(diǎn)的預(yù)測(cè)概率的取值

系統(tǒng)設(shè)計(jì)

系統(tǒng)基于 Google Cloud Platform，簡(jiǎn)稱 GCP，進(jìn)行架構(gòu)。激活了 GCP 中三個(gè)組件，BigQuery, Compute Engine 和 Storage。每天，基于游戲內(nèi)新產(chǎn)生的數(shù)據(jù)運(yùn)行“預(yù)測(cè)模塊”，對(duì)每個(gè)用戶加以評(píng)估，是否會(huì)付費(fèi)轉(zhuǎn)化。每季度初，基于過去 120 天內(nèi)注冊(cè)的用戶數(shù)據(jù)運(yùn)行“訓(xùn)練模塊”，對(duì)模型加以更新。這里采用了混合數(shù)據(jù)集的方法，即90天新數(shù)據(jù)，30 天老數(shù)據(jù)，以保證模型和谷歌廣告投放平臺(tái)的合作順暢。

每季度

每天

預(yù)測(cè)結(jié)果在 Google UAC 廣告平臺(tái)的應(yīng)用

Univeral App Campaign 即通用應(yīng)用廣告系列（以下簡(jiǎn)稱 UAC），是 Google 開發(fā)的基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的移動(dòng)端應(yīng)用廣告投放平臺(tái)。旨在幫助用戶簡(jiǎn)化廣告投放流程，更輕松地在 Google 用戶量最多的各款產(chǎn)品和服務(wù)（包括 Google 搜索、Google Play、YouTube 和 Google 展示廣告網(wǎng)絡(luò)）中宣傳自己的應(yīng)用 APP。用戶只需添加幾行文字、設(shè)置出價(jià)、提供一些素材資料，系統(tǒng)會(huì)自動(dòng)優(yōu)化其余部分（包括具體廣告的設(shè)計(jì)、廣告投放的目標(biāo)定位和出價(jià)等），從而幫助用戶推廣應(yīng)用 APP。

目前有三個(gè)版本，根據(jù)推廣目標(biāo)不同，分別為以提升 APP 下載安裝量為目標(biāo)、提升 APP 內(nèi)事件觸發(fā)頻次為目標(biāo)和提升 APP 內(nèi)用戶價(jià)值為目標(biāo)。本文主要應(yīng)用在 UAC 的第二個(gè)版本，以提升 APP 內(nèi)事件觸發(fā)頻次為目標(biāo)。

APP 內(nèi)的事件多種多樣，游戲內(nèi)充值付費(fèi)（以下簡(jiǎn)稱 IAP，In-App-Purchase）應(yīng)屬最簡(jiǎn)單明了也最便于嘗試的事件之一。大多數(shù)用戶都有測(cè)試，但效果有好有壞，究竟是什么因素導(dǎo)致了效果的不同？有沒有一種方法可以提升 UAC 廣告投放效果？本文希望通過對(duì)大量投放經(jīng)驗(yàn)的總結(jié)，提出一種基于預(yù)測(cè)付費(fèi)用戶的新的 UAC 廣告投放方式，用于高質(zhì)量的新用戶獲取。

如之前章節(jié)所述，最后得出的預(yù)測(cè)結(jié)果應(yīng)為兩列數(shù)據(jù)，DeviceID 及預(yù)測(cè)標(biāo)簽 (0 或1)。取決于預(yù)測(cè)概率閾值的不同，被標(biāo)記為 1 (有付費(fèi)傾向) 的用戶數(shù)量及準(zhǔn)確度也會(huì)不同。閾值越高，被標(biāo)記為 1 的要求越苛刻，既被認(rèn)為有付費(fèi)傾向的用戶數(shù)量越少，準(zhǔn)確度越高，如圖二所示。當(dāng)閾值達(dá)到較高 100%，則預(yù)測(cè)事件等同于實(shí)際付費(fèi)事件；當(dāng)閾值達(dá)到較低 0%，則預(yù)測(cè)事件等同于 APP 安裝事件。“預(yù)測(cè)事件”本質(zhì)上是我們通過機(jī)器學(xué)習(xí)預(yù)測(cè)系統(tǒng)，創(chuàng)造出來的一個(gè)“假想”事件，并根據(jù)預(yù)測(cè)閾值的不同，可以在APP下載安裝及最終付費(fèi)之間做優(yōu)化調(diào)節(jié)。

經(jīng)大量實(shí)驗(yàn)研究發(fā)現(xiàn)，如果考慮把預(yù)測(cè)結(jié)果應(yīng)用在 UAC 上，應(yīng)盡量調(diào)節(jié)閾值，犧牲一些 precision，使 recall 盡可能高。

如下圖所示，闡述了基于 TensorFlow 的機(jī)器學(xué)習(xí)預(yù)測(cè)系統(tǒng)與 Google UAC 廣告投放平臺(tái)結(jié)合的工作原理。左邊藍(lán)色的部分為本文搭建的預(yù)測(cè)系統(tǒng)，右側(cè)綠色的部分為 UAC 系統(tǒng)。通過分析預(yù)測(cè)，找出潛在付費(fèi)用戶，擴(kuò)大了發(fā)送給 UAC 的種子人群數(shù)量，縮短了從 APP 安裝到有效轉(zhuǎn)化發(fā)生的效果回饋時(shí)間，進(jìn)而提升了 UAC 機(jī)器學(xué)習(xí)和廣告投放的效果。

注：用戶需要思考是否充值付費(fèi)的時(shí)間越長(zhǎng)，潛在付費(fèi)用戶群體越大

結(jié)論及未來展望

本文通過對(duì)行業(yè)背景的分析，提出了策略類手機(jī)游戲面臨的挑戰(zhàn)。并從系統(tǒng)架構(gòu)的角度，介紹了如何對(duì)數(shù)據(jù)進(jìn)行清理、特征工程、預(yù)測(cè)分類器的建模及系統(tǒng)自動(dòng)化。其中，數(shù)據(jù)的搜集處理對(duì)模型的準(zhǔn)確性及應(yīng)用性有很大影響。文章也給出了四種對(duì)預(yù)測(cè)游戲內(nèi)付費(fèi)有重要影響的行為參數(shù)，并通過 PCA 主成分分析的特征降維方法，極大提高了模型的性能。另外，通過調(diào)節(jié)預(yù)測(cè)轉(zhuǎn)化概率的閾值，可在精度和廣度之間作以取舍，使模型的預(yù)測(cè)結(jié)果適用于不同的領(lǐng)域。

目前，此機(jī)器學(xué)習(xí)系統(tǒng)已在行業(yè)內(nèi)上線，每天會(huì)分析預(yù)測(cè)上百萬用戶，幫助他們優(yōu)化游戲內(nèi)及廣告體驗(yàn)。預(yù)測(cè)是為了更好地了解用戶，進(jìn)而更有效率地幫助用戶。預(yù)測(cè)結(jié)果可對(duì)用戶加以分層，可應(yīng)用于內(nèi)部運(yùn)營(yíng)、市場(chǎng)再營(yíng)銷、新用戶獲取等領(lǐng)域。在此案例中，通過把機(jī)器學(xué)習(xí)系統(tǒng)與 Google UAC 廣告平臺(tái)的結(jié)合，在新用戶獲取領(lǐng)域極大的提高了用戶質(zhì)量，使付費(fèi)率提高了 7 倍，投資回報(bào)率提高了 2.6 倍。關(guān)于具體實(shí)施的細(xì)節(jié)，如感興趣，請(qǐng)聯(lián)系您的 Google Awords 賬戶經(jīng)理，我們很樂意與您分享相關(guān)經(jīng)驗(yàn)，這里不再贅述。

未來，我們會(huì)對(duì)用戶終身價(jià)值 pltv 加以建模研究，期望基于用戶的行為及付費(fèi)數(shù)據(jù)，預(yù)測(cè)用戶未來在游戲內(nèi)的活躍時(shí)間及終身價(jià)值。這樣可以幫助我們更細(xì)顆粒度地區(qū)分用戶，構(gòu)建千人千面的用戶體驗(yàn)。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

GPU云服務(wù)器云服務(wù)器如何asp系統(tǒng)構(gòu)建定制化定制化服務(wù) 內(nèi)部分享

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://specialneedsforspecialkids.com/yun/4761.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Batkid

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

張老師的小測(cè)試

閱讀 535·2019-08-30 15:55
前端面試筆試題（二）

閱讀 944·2019-08-29 15:35
Google LOGO的CSS Sprite

閱讀 1198·2019-08-29 13:48
YodaOS：一個(gè)屬于 Node.js 社區(qū)的操作系統(tǒng)

閱讀 1910·2019-08-26 13:29
為vue3學(xué)點(diǎn)typescript(1), 體驗(yàn)typescript

閱讀 2933·2019-08-23 18:26
jQuery源碼解析之$().animate()（上）

閱讀 1237·2019-08-23 18:20
靈活使用 console 讓 js 調(diào)試更簡(jiǎn)單

閱讀 2834·2019-08-23 16:43
return/break語句的妙用

閱讀 2709·2019-08-23 15:58

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

Google內(nèi)部案例分享 | 是如何構(gòu)建定制化TensorFlow預(yù)測(cè)系統(tǒng)的？

相關(guān)文章

**Move Mirror：使用 TensorFlow.js 在瀏覽器中預(yù)測(cè)姿勢(shì)之 AI 實(shí)驗(yàn)**

**【TensorFlow開源2年官方回顧】下一個(gè)重要方向是分布式模型服務(wù)**

TensorFlow-dev-summit：那些TensorFlow上好玩的和黑科技

計(jì)算機(jī)視覺中的深度學(xué)習(xí)：技術(shù)、市場(chǎng)和5個(gè)你想不到的未來

發(fā)表評(píng)論

0條評(píng)論

Batkid

男|高級(jí)講師

TA的文章

張老師的小測(cè)試

前端面試筆試題（二）

Google LOGO的CSS Sprite

YodaOS：一個(gè)屬于 Node.js 社區(qū)的操作系統(tǒng)

為vue3學(xué)點(diǎn)typescript(1), 體驗(yàn)typescript

jQuery源碼解析之$().animate()（上）

靈活使用 console 讓 js 調(diào)試更簡(jiǎn)單

return/break語句的妙用

最新活動(dòng)