機器學習研究趨勢分析：TensorFlow已超越Caffe成研究最常用框架

buildupchao 發布于2019-04-25 18:11 / 1538人閱讀

摘要：深度學習框架作為熱身，我們先看一下深度學習框架。在年有急劇的增長，但在過去幾個月被超越。

你是否使用過 Google Trends？相當的酷，你在里面輸入關鍵詞，看一下谷歌搜索中這一詞條如何隨時間變化的。我想，過去 5 年中 arxiv-sanity 數據庫中剛好有 28303 篇機器學習論文，為什么不做一些類似的工作，看一下過去 5 年機器學習研究有何進化？結果相當的有趣，所以我把它貼了出來。

arXiv 奇點

首先，讓我們看一下在 arxiv-sanity 類別下（cs.AI、cs.LG、cs.CV、cs.CL、cs.NE、stat.ML）所遞交論文的總數。隨時間變化，得出以下結果：

是的，2017 年 3 月，該領域有幾乎 2000 篇論文被提交。這一峰值可能是由于大會截止日期（例如 NIPS/ICML)。注意，這不是關于該領域自身體量的一個直接說明，因為不是每個人都會把論文提交到 arXiv 上，而且研究人員做研究的分類也會隨時間變化。但有一點可以說明，人工智能領域正有大量論文被發現、瀏覽、閱讀。

把論文的總量做為分母，我們現在看一下有多少比例的論文包含確切的關鍵詞。

深度學習框架

作為熱身，我們先看一下深度學習框架。為了計算這個關鍵詞，我們記錄了在全部文本中的某處提到框架名的論文以及其比例（任何地方，包括 bibiliography 等）。在 2017 年三月份提交的論文中，我們得出了下面的結果：

也就是說，2017 年 3 月提交的論文中 10% 提到了 TensorFlow。當然，不是每篇論文都宣布使用了該框架，如果我們假設那些提到框架的論文都有一定概率使用該框架，那看起來社區中有 40% 的人在使用 TensorFlow（或者更多，如果你把帶有 TF 后端的 Keras 也算在內）。下面是更多框架隨時間變化的圖繪：

我們能看到 Theano 已經出現很長時間了，但其增長趨于停滯。Caffe 在 2014 年有急劇的增長，但在過去幾個月被 TensorFlow 超越。Torch（以及最近的 PyTorch）也在攀爬階段，緩慢卻穩定。接下來幾個月的發展值得注意，我個人的猜測是 Caffe／Theano 將繼續緩慢的衰退，TensorFlow 也會因為 PyTorch 出現，增長速度變的更慢。

ConvNet 模型

接下來看一下常見的 ConvNet 模型。下圖中，我們能清楚的看到 ResNet 的漲幅，直到三月份所有論文的 9% 提到了它。

還有，在 InceptionNet 之前誰在討論「inception」？對此也很好奇。

優化算法

在優化算法方面，看起來 Adam 正在流行，所有論文中 23% 提到了 Adam。實際使用的比例難以估計，但可能要比 23% 高，因為一些論文沒有公布用到的優化算法，而且一批論文可能沒優化任何神經網絡。然后它可能還低了 5%，也就是 Adam「隱藏」在背后，可能與作者的名字沖突，因為 Adam 優化算法到了 2014 年 12 月才發布。

研究人員

我們對深度學習中一些重要人物出現的比例也很好奇，所以進行了繪圖。這有點類似于引用量，但它要比論文非零即一的統計更為穩健，而且對所有的論文進行了標準化。

可以注意的：所有提交的論文中 35% 提到了「bengio」，但研究人員中有兩個 Bengio：Samy 和 Yoshua，在此圖中是合并統計的。特別提到的一點，在所有新論文中有超過 30% 提到了 Geoff Hinton，看起來非常的多。

熱詞或非關鍵詞

最后，除了手動查閱的關鍵詞類別，讓我們看一下一些熱詞或不熱的關鍵詞。

較高級熱詞

有很多方式可對此進行定義，但該實驗中我觀察了所有論文中的單字母組合或雙子母詞組，并記錄了相比于去年較大使用量的比例。超越此標準的論文就是一年前還是有潛力的，但在今年就有相當高關聯頻率的論文。列表如下：

例如，ResNet 的比例是 8.17。因為一年前它在所有提交論文中出現的比率是 1.044%（2016 年 3 月），但今年 3 月它出現的比例是 8.53，所以 8.53 除以 1.044 約等于 8.17。所以得出的結果是，過去一年所有的核心創新領域是 1) ResNets, 2) GANs, 3) Adam, 4) BatchNorm，在研究中多使用下這些模型。在研究興趣方面，我們看到 1) 風格遷移，2) 深度強化學習，3) 神經機器翻譯，以及 4) 圖像生成。在架構上，熱于使用 1) 全卷機網絡 (FCN)，2) LSTMs/GRUs，3) Siamese 網絡，以及 4) 編碼器-解碼器網絡。

較高級但不熱

相反的一面呢？過去一年有哪些詞有較少的提交，但歷史上有更高的比例？下面列出了一些：

我不太確定「fractal」指代什么，但更普遍的可能是貝葉斯非參數在被攻擊。

結論

現在提交論文的主題應該圍繞把全卷積編碼器解碼器 BatchNorm ResNet GAN（Fully Convolutional Encoder Decoder BatchNorm ResNet GAN）應用于風格遷移，用 Adam 進行優化。聽起來也不那么不靠譜。?

原文鏈接：https://medium.com/@karpathy/a-peek-at-trends-in-machine-learning-ab8a1085a106

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

云服務器 GPU云服務器機器學習研究研究數據分析數據分析研究大數據研究分析

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4505.html

通過28303篇ML論文總結出的27大主流學習框架

摘要：在過去五年里，我碰巧使用了一個收藏了篇機器學習論文的數據庫，這些論文都來自于。因此，本文將這五年間機器學習的發展趨勢進行了簡單的總結。我們得到了如下結果是的，年月份，接受了多篇與機器學習領域有關的論文。機器學習的趨勢概述如果你用過谷歌趨勢（Google Trends），你一定會發現它很酷——你輸入一些關鍵詞，你就能夠看到這些關鍵詞的谷歌搜索量是如何隨著時間而變化的。在過去五年里，我碰巧使用...

elisa.yang 2019-04-25 18:11 評論0 收藏0
TensorFlow、MXNet、Keras如何取舍？常用深度學習框架對比

摘要：簡稱，是基于聚焦行業應用且提供商業支持的分布式深度學習框架，其宗旨是在合理的時間內解決各類涉及大量數據的問題。是負責開發的用編寫，通過引擎加速的深度學習框架，是目前受關注最多的深度學習框架。作者簡介魏秀參，曠視科技 Face++ 南京研究院負責人。南京大學 LAMDA 研究所博士，主要研究領域為計算機視覺和機器學習。在相關領域較高級國際期刊如 IEEE TIP、IEEE TNNLS、Mac...

AlphaGooo 2019-04-25 18:31 評論0 收藏0
最新Github上各DL框架Star數量大PK

摘要：下圖總結了絕大多數上的開源深度學習框架項目，根據項目在的數量來評級，數據采集于年月初。然而，近期宣布將轉向作為其推薦深度學習框架因為它支持移動設備開發。該框架可以出色完成圖像識別，欺詐檢測和自然語言處理任務。很多神經網絡框架已開源多年，支持機器學習和人工智能的專有解決方案也有很多。多年以來，開發人員在Github上發布了一系列的可以支持圖像、手寫字、視頻、語音識別、自然語言處理、物體檢測的...

oogh 2019-04-25 18:12 評論0 收藏0
深度學習：你該知道八大開源框架

摘要：作為當下最熱門的話題，等巨頭都圍繞深度學習重點投資了一系列新興項目，他們也一直在支持一些開源深度學習框架。八來自一個日本的深度學習創業公司，今年月發布的一個框架。深度學習(Deep Learning)是機器學習中一種基于對數據進行表征學習的方法，深度學習的好處是用非監督式或半監督式的特征學習、分層特征提取高效算法來替代手工獲取特征(feature)。作為當下最熱門的話題，Google...

Rindia 2019-04-25 18:04 評論0 收藏0
MATLAB更新R2017b：轉換CUDA代碼極大提升推斷速度

摘要：陳建平說訓練是十分重要的，尤其是對關注算法本身的研究者。代碼生成其實在中也十分簡單，陳建平不僅利用車道線識別模型向我們演示了如何使用生成高效的代碼，同時還展示了在脫離環境下運行代碼進行推斷的效果。近日，Mathworks 推出了包含 MATLAB 和 Simulink 產品系列的 Release 2017b（R2017b），該版本大大加強了 MATLAB 對深度學習的支持，并簡化了工程師、...

Corwien 2019-04-25 18:19 評論0 收藏0