摘要:送餐在廚師看來,他的工作已經完成了,做好了一道美味的披薩。機器學習就像點外賣一樣,當中需要許多人參與,合作付出努力,但最終結果都很美味總結幾個要點如果原料有問題,菜品也會有問題。
*作者 | Daniel Godoy
翻譯 | Mika
本文為 CDA 數據分析師原創作品,轉載需授權*
想象一下你點了一份披薩外賣,過了一會兒美味熱騰騰的披薩就送到家門口了。
你有沒有想過從下單點外賣到披薩送過來當中的工作流程呢?我指的是完成的工作流程,包括從種下披薩上的西紅柿到外賣騎手送單到你的樓下。其實這一系列過程與與機器學習工作流程并沒有什么不同。
不妨讓我們來看看。
這篇文章的靈感來自Google首席決策科學家Cassie Kozyrkov在柏林Data Natives Conference上發表的演講。
1.播種
農民播種的種子之后會長為披薩的配料,比如西紅柿等。
這相當于數據生成過程,例如用戶操作、移動、觸發傳感器等。
2.收獲
接著到了收獲的時節,也就是蔬菜或水果成熟的時候。
這相當于數據收集,也就是瀏覽器或傳感器將用戶操作或觸發傳感器的事件轉換為實際數據。
3.運輸
收獲后,產品會被運到目的地,作為披薩中的原料。
這相當于將數據提取到存儲庫中,以便之后從中獲取數據庫,如數據庫或數據湖。
4.選擇廚具和設備
每種原料都需要適合的用具來處理。如果要切片,就用刀;如果要攪拌,就用勺子。設備方面也是如此,如果要烤,就用烤箱;如果要炒,就用爐子。你還可以使微波爐等更復雜的設備。
在機器學習中,廚具是用于預處理數據的技術,而設備就相當于線性回歸、隨機森林等算法。你也可以使用微波爐等復雜的設備,這也就相當于深度學習。當中不同的就是超參數,在簡單的設備(算法)中只有少數參數;而復雜設備(算法)中,涉及到的參數更多。但這并不意味著復雜的算法就能提供更好的性能。因此,你需要明智地選擇算法。
5.選擇菜譜
僅有原料和用具是不夠的。你還需要菜譜,當中包括你準備這道菜的所有步驟。
這就是模型,記住模型與算法不同,模型包括所有算法需要的預處理和之后的處理過程。
6.準備配料
我敢打賭,大多數菜譜的第一條指令都是:“ 切片 ”,削皮等等。而不是洗蔬菜等,因為這是理所當然的,沒人想吃沒洗的蔬菜。
同樣,數據也是如此,沒有人想要臟數據。你必須清理數據,即處理缺失值和異常值。然后需要進行削皮和切片,也就是進行預處理,對變量進行分類(例如男性或女性)編碼為數字變量(0或1)。
沒有人喜歡清洗這個部分。無論是數據科學家還是廚師。
7.特別準備
有時你可以用原料來創新,以達到更好的品味或更復雜的表現。
你可以將牛排風干獲得不同的風味,或者將胡蘿卜削成玫瑰的形狀作為裝飾。
這就是特征工程。這是一個重要的步驟,如果完成得好能夠顯著提高模型的性能。
幾乎每個數據科學家都喜歡這個環節,我猜廚師們也是如此。
8.烹飪
這是最重要的步驟,如果不開火炒菜一切都是徒勞。你將準備好的配料放入炊具中,調節油溫等等。
這就模型訓練的環節。你將數據提供給算法,調整其超參數并等待一段時間再重新檢查。
9.嘗一嘗
即使你嚴格按照菜譜來做菜,你也不能保證一切都是完全正確的。那么,怎么知道你是否做對了?品嘗它!如果不好你可以添加更多鹽來調味。或者調解下火力,繼續烹飪。
但有時披薩會燒糊,或者味道糟糕到難以挽救。那么只能扔進垃圾箱,吸取教訓并重新開始。
堅持不懈加上一點點運氣就能做出美味的披薩。
品嘗就是評估過程。你需要評估模型,檢查它是否運行正常。如果沒有,你需要添加更多特征,還可以更改超參數。但你繼續訓練!
不幸的是,有時你的模型不會得出合適的解決方案,或者做出錯誤的預測,沒有任何辦法修改和挽救。那么這時你只能放棄這個模型,從中吸取教訓然后重新開始。
堅持不懈和一點點運氣將會產生一個高性能的模型。
10.送餐
在廚師看來,他的工作已經完成了,做好了一道美味的披薩。
但是,如果披薩沒有及時送到顧客的手中也是不成功的。
披薩做好后必須立即包裝,保持溫度,及時送給顧客。如果外賣騎手沒有到達目的地,或在途中丟失了披薩,或者把披薩顛簸得面目全非,之前所有的功夫都將是徒勞的。
送餐就相當于部署。不是部署披薩,而是預測。預測必須好好包裝,不是用餐盒,而是包裝成數據產品,因此才能送到用戶手里。如果這個流程出了問題,中間崩潰了或者預測發生了變動,那么前面花費力氣所做的模型訓練和驗證工作也就沒有價值了。
結語
就是這樣。機器學習就像點外賣一樣,當中需要許多人參與,合作付出努力,但最終結果都很美味!
總結幾個要點:
如果原料有問題,菜品也會有問題。沒有任何菜譜或炊具能解決這個問題。
如果你是廚師,那不要忘了,如果沒有送餐這一步,烹飪就沒有意義,因為沒有人會品嘗到美味的食物 ;
如果你是餐館老板,不要強迫你的廚師使用某種炊具或設備,有時微波爐并不是最好的選擇。如果讓廚師花大量的時間在清洗和切食材上,這也會讓廚師很不開心。?
好了不說了,去點披薩吃了。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19891.html
摘要:本文從定義,作用,技術架構,安裝和使用等全方位帶你看懂。如圖中左邊紅框中和右邊的紅框中都唯一表示為同一個鏡像。最后,于開發者而言提供了一種開發環境的管理辦法,與測試人員而言保證了環境的同步,于運維人員提供了可移植的標準化部署流程。 作者丨唐文廣:騰訊工程師,負責無線研發部地圖測試。 導語:Docker,近兩年才流行起來的超輕量級虛擬機,它可以讓你輕松完成持續集成、自動交付、自動部署...
閱讀 2526·2021-10-11 10:59
閱讀 2708·2021-09-22 15:49
閱讀 2645·2021-08-13 13:25
閱讀 1288·2019-08-30 13:14
閱讀 2391·2019-08-29 18:45
閱讀 2998·2019-08-29 18:36
閱讀 1488·2019-08-29 13:21
閱讀 1162·2019-08-26 11:44