摘要:機器學習項目通常會有一個重要的學習者設計組成部分,從業者需要有一些專業知識。在機器學習中,這通常意味著,給定兩個具有相同訓練錯誤的分類器,其中較簡單的分類器可能具有最低的測試錯誤。機器學習通常應用于觀察性數據,其中預測變量不受學習者的控制。
摘要: 這是機器學習研究人員和從業人員所學到的12個關鍵經驗教訓的總結,包括避免陷阱,重點問題以及常見問題的答案。
論文解讀:華盛頓大學教授Pedro Domingos技術論文:機器學習中一些有用的知識(一)
論文地址:https://homes.cs.washington.e...
7:特征工程是關鍵有些機器學習項目成功了,有些失敗了,到底什么在其中起到關鍵作用?最容易使用的特征是最重要的因素。如果你有許多獨立的特征,每個特征都與類相關聯,學習是很容易。另一方面,如果這個類是一個非常復雜的特征,你可能無法學習它。通常情況下,原始數據不是可以學習的形式,但是可以從中構建特征。這通常是機器學習項目中的大部分工作所在,它通常也是最有趣的部分之一,其中直覺、創造力和“黑色藝術”與技術材料一樣重要。
初學者常常驚訝于機器學習項目實際進行機器學習的時間太少。但是,如果考慮收集數據,整合數據,清理數據并對數據進行預處理以及進行特征設計的嘗試和錯誤可能會花費多少時間,你會發現這些才是真正費時間的。此外,機器學習不是建立數據集和運行模型的一步式過程,而是運行模型、分析結果、修改數據或模型并重復的迭代過程。訓練通常是最快速的部分,但那是因為我們已經掌握了很好的技巧!特征工程是最困難的,因為它是特定領域的,而訓練是通用標準執行的。但是,兩者之間沒有明顯的邊界。
8:更多數據擊敗更聰明的算法在大多數計算機科學中,這兩種主要的有限資源是時間和記憶。在機器學習中,還有第三個:訓練數據。在20世紀80年代,數據是稀缺的。今天往往是時間是寶貴的。大量的數據是可用的,但沒有足夠的時間來處理它,所以它沒有被使用。這導致了一個矛盾:盡管原則上更多的數據意味著可以學習更復雜的分類器,但在實踐中是更簡單的分類器被使用,因為復雜的分類器學習時間過長。今天所有的研究者都想找到快速訓練復雜分類器的方法,而且在這方面確實取得了顯著的進展。
部分原因是使用更聰明的算法。所有學習者本質上都是通過將附近的例子分組到同一個類來工作的,關鍵的區別在于“附近”。由于數據分布不均勻,訓練可以產生廣泛不同的邊界,同時在重要的區域仍然做出相同的預測(具有大量訓練實例的那些預測),大多數文本示例可能會出現。
通常,首先嘗試最簡單的訓練(例如,邏輯回歸之前的樸素貝葉斯,支持向量機之前的k-最近鄰居)。更復雜的訓練是誘人的,但他們通常更難以使用,因為他們有更多的參數需要調整以獲得更好的結果,并且他們的內部更不透明。
模型可以分為兩種主要類型:表示具有固定大小的線性分類器,以及表示可隨數據增長的線性分類器,如決策樹。固定大小的分類器只能利用這么多的數據。原則上可變大小的分類器可以在給定足夠數據的情況下學習任何函數,但實際上,由于算法或計算成本的限制,它們可能不會。而且,由于維度的詛咒,沒有現有的數據量可能就足夠了。出于這些原因,那些充分利用數據和計算資源的算法,通常會表現得很好,只要你愿意付出努力。機器學習項目通常會有一個重要的學習者設計組成部分,從業者需要有一些專業知識。
9:模型不只是一個在機器學習的早期,每個人都有自己喜歡的模型,以及一些先驗理由相信它的優越性。大部分人努力嘗試很多參數的變化,并選擇了最好的一個。然后系統的經驗表明,不同應用的最佳模型往往是不同,并且包含許多模型的系統開始出現。但是隨后研究人員注意到,如果不是選擇找到的最佳變體,我們可以結合了許多變體,結果會更好。并且對設計者而言沒有額外的工作量。
創建這樣的模型集合有一個通用的名詞:裝箱。我們只需通過重采樣生成隨機變化的訓練集,分別學習分類器并結合,看看他們的性能即可。這是有效的,因為它極大地減少了方差,而偏差只是稍微增加。在訓練過程中,訓練樣例有權重,而且這些都是不同的,這樣每個新的分類器都會將重點放在前面往往出錯的例子上。在堆疊中,單個分類器的輸出成為“更高層次”的輸入,該模型計算出如何最好地組合它們。
在Netflix獎中,來自世界各地的團隊競相建立最佳視頻推薦系統。隨著比賽的進行,團隊發現他們通過將學習者與其他團隊相結合而獲得最佳成績。獲勝者和亞軍都是由100多名學習者組成的合并隊伍,合并在一起進一步提高了模型的性能。毫無疑問,這將是未來的趨勢。
10:簡單并不意味著準確奧卡姆的剃刀這個故事地指出,實體不應該超出必要的倍增。在機器學習中,這通常意味著,給定兩個具有相同訓練錯誤的分類器,其中較簡單的分類器可能具有最低的測試錯誤。有關這一說法的證據經常出現在文獻中,但事實上,它有很多反例,而“無免費午餐”定理暗示它不可能是真實的。
我們在前一部分看到一個反例:模型集合。即使在訓練誤差達到零之后,分類器的泛化誤差也會繼續提高。因此,與直覺相反,模型的參數數量與其過度擬合的傾向之間沒有必然的聯系。
相反,更復雜的觀點將復雜性等同于假設空間的大小,因為較小的空間允許假設由較短的代碼表示。如上面關于理論保證部分的界限可能會被視為暗示更短的假設。這可以通過將更短的代碼分配給我們有一些先驗偏好的空間中的假設來進一步細化。但將此視為準確性與簡單性之間權衡的“證明”是循環推理:我們通過設計使我們喜歡的假設更簡單,如果它們準確,那是因為我們的偏好是準確的,而不是因為假設“簡單”代表了我們選擇。
11:可描述并不意味著可以學習本質上,所有可變規模模型的描述都具有形式的相關定理:“使用這種描述,每個函數都可以被描述或近似地描述”。然而,僅僅因為一個函數可以描述,并不意味著它可以被學習。例如,標準決策樹模型不能學習含有更多葉子的樹干。在連續的空間中,使用一組固定的基元描述甚至簡單的函數往往需要無數的組件。
此外,如果假設空間具有許多評估函數的局部最優值(通常情況如此),則學習者可能無法找到真正的函數,即使它是可描述的。給定有限的數據、時間和記憶,標準模型只能學習所有可能函數的一小部分,而這些子集對于具有不同表述的模型是不同的。因此,關鍵問題不是“能否描述出來?
12:相關并不意味著因果關系相關性并不意味著因果關系。但是,盡管我們討論過的那種模型只能學習相關性,但他們的結果往往被視為代表因果關系。這不是錯了嗎?如果是這樣,那么人們為什么這樣做呢?
通常情況下,訓練預測模型的目標是將它們用作行動指南。如果我們發現啤酒和尿布經常在超市買到,那么也許把啤酒放在尿布部分旁邊會增加銷售。但實際上實驗很難說清楚。機器學習通常應用于觀察性數據,其中預測變量不受學習者的控制。一些學習算法可能潛在地從觀測數據中提取因果信息,但它們的適用性相當有限。另一方面,相關性是潛在因果關系的標志,我們可以用它作為進一步調查的指導。
結論像任何學科一樣,機器學習有很多的“民間智慧”,雖然不是100%正確,但對成功至關重要。多明戈斯教授的論文總結了一些最重要的內容。學習更多知識是他的書The Master Algorithm,這是一個非技術性的機器學習入門。他還教授在線機器學習課程,可以在這里查看。
文章原標題《12-useful-things-know-about-machine-learning》,
譯者:虎說八道,審校:袁虎。
詳情請閱讀原文
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19717.html
摘要:機器學習初學者最常犯的錯誤是測試訓練數據,并有成功的幻覺。機器學習中的每個人都知道過度擬合,但它有很多形式,并不是很明顯。事實上,理論與實踐的密切相互作用是機器學習多年來取得如此巨大進步的主要原因之一。 摘要: 這是機器學習研究人員和從業人員所學到的12個關鍵經驗教訓的總結,包括避免陷阱,重點問題以及常見問題的答案。 showImg(https://segmentfault.com/i...
摘要:我的核心觀點是盡管我提出了這么多問題,但我不認為我們需要放棄深度學習。對于層級特征,深度學習是非常好,也許是有史以來效果較好的。認為有問題的是監督學習,并非深度學習。但是,其他監督學習技術同病相連,無法真正幫助深度學習。 所有真理必經過三個階段:第一,被嘲笑;第二,被激烈反對;第三,被不證自明地接受。——叔本華(德國哲學家,1788-1860)在上篇文章中(參見:打響新年第一炮,Gary M...
摘要:機器學習初學者中最常見的錯誤就是對訓練數據進行測試并自以為大獲成功。綜上來看,機器學習需要知識這點并不奇怪。機器學習更像是種田,讓大自然完成大部分的工作。這個問題被稱為過擬合,是機器學習中的難題。 機器學習算法可以通過學習就可以弄清楚如何去執行一些重要的任務。在手動編程不可行的情況下,這種方法通常既可行又經濟有效。隨著可獲取的數據在逐步增多,越來越多更加復雜的問題可以用機器學習來解決。...
閱讀 2751·2021-11-22 13:54
閱讀 2688·2021-10-14 09:42
閱讀 3987·2021-09-28 09:47
閱讀 2162·2021-09-03 10:28
閱讀 1203·2021-07-26 23:38
閱讀 2557·2019-08-30 15:54
閱讀 2639·2019-08-29 16:35
閱讀 1426·2019-08-29 15:42