国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

[譯] 解密 Airbnb 的數據科學部門如何構建知識倉庫

Taonce / 2253人閱讀

摘要:在同行評議上,我們檢查方法論的改進現有工作的關聯性以及準確的解釋性聲明。學習價值通過之前一系列的工作,現在數據科學家可以分享自己的新方法論代碼技術并且加快品牌化推廣,讓團隊之外的人可以快速了解自己的領域。

頑疾

Airbnb的數據團隊很重要的一個職責就是傳播基于數據的決策方法。我們將數據的獲取民主化,使得每一個Airbnb的成員都可以量化他們基于數據的決策影響力并且借此洞察用戶偏好,提升數據產品的用戶體驗。最近,我們開始解決一個令人頭疼的問題。隨著組織的擴大,如何確保我們的一個洞見有效地在社交網絡傳播開,這在我們內部稱之為知識擴張。

當我們團隊僅由幾個樂于分享和發現研究技巧的人組成這不是什么難題。但是當我們團隊開始快速擴張時,這個問題一下就被放大了。Jennifer是一位新來的數據科學家,她正在研究如何通過房東拒租的話題和同事開展工作。
這里是我們所看到的:

Jennifer 找到了一堆的PPT、Email、Google Docs 并且詢問團隊其他成員有關這個項目的歷史。

前人的代碼已經不是最新的了,但 Jennifer 還是從 GitHub 或者原來作者的機器上弄下來代碼。

在和代碼一頓混戰之后, Jennifer 意識到之前的項目有些許問題,她決定從頭開始擼代碼。

在浪費大量重復工作之后,Jennifer 又放棄了重頭開始的想法,她感到精疲力盡。

Jennifer 留下了一堆的 PPT、Email、Google Doc, 循環往復。

基于其他公司的對話,我們發現這個現象實在太普遍了。隨著組織的擴張,跨團隊跨時期的知識傳輸成本不斷增長,一個低效、烏合的研究環境使得這種情況雪上加霜,放慢了分析和決策的速度。因此,一個更加一氣呵成的解決方案可以加快決策落地的速度并且保持公司在知識洪流中立于不敗之地。

藥方

隨著我們看到這個問題工作流的不斷發生,我們意識到我們可以做得更好。作為一個團隊,我們在一起決定了做研究的五個關鍵原則:

可重復性 - 代碼不應該分離,整個查詢、轉化、可視化、文檔撰寫應該一氣呵成,并且保證結果是盡量更新的。

質量?-?沒有經過正確性和準確性審查的研究都不應該被共享。

用戶體驗 - 研究結果應該是讓讀者容易理解的,我們也應該將美感和品牌延伸考慮在內。

可得性 - 任何人都可以發現、瀏覽并且保持在相關工作話題上的更新。

學習價值 - ?與可重復性,其他研究者應該能夠通過工具和技術從其他人的工作中增益自己的能力。

根據這些原則,我們多帶帶調查了現有的工具來解決這個問題。我們注意到Rmarkdown和 iPython notebook 是一個可重復性研究的一個優秀解決方案。 GitHub 提供了一個審查框架,但是對于代碼之外的內容和文檔,比如圖片就沒有什么好的解決方案。 可得性通常是基于文件夾的形式的,但是類似Quora這樣的其他站點內在對標簽和話題又有特殊的審查機制。

綜上,我們將這些想法集成到一個系統里面。我們的解決方案整合了貢獻和審查的工作,用一個工具來呈現和傳播知識。我們內部稱之為"知識倉庫"。

這里的核心其實是一個我們提交工作成果的 Git 倉庫。我們在 Jupyter 筆記、Rmarkdown 文件或者純 markdown都會發布在這里,所有的文件(包括查詢文件和腳本)都會被提交。每個文件都從一個很小的結構化元數據開始,包括作者、標簽以及TLDR,再用一個Pyhon腳本驗證內容并用Markdown格式轉化為純文本。我們使用 GitHub 從審查流程中拉取請求系統。最后,用一個 Flask的 web-app 來渲染Repo的內容作為一個按時間、話題、內容排序的內部博客。

這些工具集的最頂層,我們有一個流程 專注于確保所有研究是高質量和高可用的。和工程代碼不同,低質量的研究是不會產生指標下降或崩潰日志的。相反,低質量的研究表現為知識的環境嘈雜,而團隊只能信任他們自己創建的研究。

為了避免這種現象的發生,我們將流程封裝在工具里面,結合了工程上的代碼評審和學術上的同行評議方法,保證我們的研究結果以一個startup的速度在推進。在代碼評審的環節,我們檢查代碼的正確性、最佳實踐和工具。在同行評議上,我們檢查方法論的改進、現有工作的關聯性以及準確的解釋性聲明。我們通常不指望一個研究是面面俱到的,但是也不能草率迭代,這些對他們都是有正確的和透明的限制的。我們能夠駕馭內部的R和Python包并維護品牌調性、整合數據倉庫的函數庫、以及基于GitHub的R和Python筆記的文件處理流程。


圖一 - 一個兩篇文章的總結卡牌的知識流截圖


圖二?—?一篇房東同意接待的缺口天數的研究文章示例

這些工作為我們的智囊團提供了強大的功能。

可重復性?—?這個工作從核心的ETL表查詢到轉化、可視化到整理文章都是在一個文件里完成的。通常是 Jupyter 筆記, RMarkdown, 或 markdown 文件。
質量?—?通過學習GitHub來發表、審查以及版本控制直接推動了我們整個工作流。
高可用 - markdown 將我們的 web-app 隱藏在代碼之后并且我們使用了內部一致的美學風格,對非技術讀者也更加友好。同行評審用評論也能提供反饋和交流并提高了項目的影響力。
可得性 - 元數據的結構非常有利于通篇瀏覽歷史研究。每個文章都有一組tag,并有一個類似于知乎話題的多對一的內置話題機制。用戶可以訂閱話題并且收到新消息提醒。文章可以以書簽收藏、通過讀者瀏覽或者在博客流中訂閱。
學習價值 - 通過之前一系列的工作,現在數據科學家可以分享自己的新方法論、代碼技術并且加快品牌化推廣,讓團隊之外的人可以快速了解自己的領域。

這個知識倉庫囊括了海量的內容。大量的工作都是和某個非嘗試性問題的深挖,但是對實驗結果的檢驗沒有被我們的實驗記者記錄也是很普遍的。此外也有一些純粹關于如何擴展數據分析的文章,包括新方法論的撰寫、工具或包的示例、使用SQL和Spark的教程等等。我們也在知識倉庫上公開數據博客文章,當然也包括這一篇。總的來說,這個原則就是:如果這個東西將來可能對一些人有用就可以發。

未來

知識倉庫仍然是個在建工程。小團隊正在持續滿足新需求特性。我們也在公司內部的其他團隊推廣這種方法,比如一些不使用GitHub的量化研究。最后,我們正在測試一個基于Markdown的內建審查編輯應用,這個應用另一個可能的特性是主編對研究議題的管理,我們也正在考慮現有文章的遷移問題。

原作者:Chetan Sharma 和 Jan Overgoor 翻譯:Harry Zhu
英文原文地址:Scaling Knowledge at Airbnb

推薦閱讀

數據流編程教程:如何使用Airflow構建數據科學工作流

Python 開發者如何正確使用 RStudio 編輯器

文檔定義應用:數據科學的文檔革命

作為分享主義者(sharism),本人所有互聯網發布的圖文均遵從CC版權,轉載請保留作者信息并注明作者 Harry Zhu 的 FinanceR專欄:https://segmentfault.com/blog...,如果涉及源代碼請注明GitHub地址:https://github.com/harryprince。微信號: harryzhustudio
商業使用請聯系作者。

文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。

轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/37932.html

相關文章

  • [原]文檔定義應用:數據科學文檔革命

    摘要:對于數據科學的研究可以說已經是本文我將介紹如何以文檔定義應用的方式成為數據科學中的標準交付。參考前文解密的數據科學部門如果構建知識倉庫,作為一個謝大大的死忠,我很自然選擇了作為我文檔輸出的首選工具。 showImg(https://segmentfault.com/img/remote/1460000006760433?w=423&h=426); 概述 隨著近年來,Rstudio 通過...

    wh469012917 評論0 收藏0
  • [] 解密 Uber 數據部門數據可視化最佳實踐

    摘要:讓我們看看都做了哪些工作可視化分析增強數據可操作性測試平臺的表格和置信區間可視化可視化分析主要都是由抽象數據可視化組成的。大多數有效的可視化分析在這種情況下都是關于報告儀表盤實時分析的圖標和網絡圖。 showImg(https://segmentfault.com/img/remote/1460000006771644); 概述 在2015年初,我們在Uber規劃了一個官方的數據科學團...

    darkbug 評論0 收藏0
  • [] 解密 Uber 數據部門數據可視化最佳實踐

    摘要:讓我們看看都做了哪些工作可視化分析增強數據可操作性測試平臺的表格和置信區間可視化可視化分析主要都是由抽象數據可視化組成的。大多數有效的可視化分析在這種情況下都是關于報告儀表盤實時分析的圖標和網絡圖。 showImg(https://segmentfault.com/img/remote/1460000006771644); 概述 在2015年初,我們在Uber規劃了一個官方的數據科學團...

    susheng 評論0 收藏0
  • [] 解密 Airbnb 數據流編程神器:Airflow 中技巧和陷阱

    摘要:顯然,這單獨執行不起作用這將通過子操作符被作為像是自己的調度任務中那樣運行。子也必須有個可用調度即使子作為其父的一部分被觸發子也必須有一個調度如果他們的調度是設成,這個子操作符將不會觸發任何任務。這兩個例子都是緣起子操作符被當做了回填工作。 showImg(https://segmentfault.com/img/remote/1460000006768714); 前言 Airbnb的...

    zsy888 評論0 收藏0
  • [原]解密Airbnb 自助BI神器:Superset 顛覆 Tableau

    摘要:概述我非常認同前百度數據工程師現神策分析創始人桑老師最近談到的數據分析三重境界統計計數多維分析機器學習數據分析的統計計數和多維分析,我們通常稱之為數據探索式分析,這個步驟旨在了解數據的特性,有助于我們進一步挖掘數據的價值。 showImg(https://camo.githubusercontent.com/f98421e503a81176b003ddd310d97e1e1214625...

    Keagan 評論0 收藏0

發表評論

0條評論

Taonce

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<