機器學習和深度學習引用量最高的20篇論文（2014-2017）

jollywing 發布于2019-04-25 18:11 / 3291人閱讀

摘要：機器學習和深度學習的研究進展正深刻變革著人類的技術，本文列出了自年以來這兩個領域發表的最重要被引用次數最多的篇科學論文，以饗讀者。注意第篇論文去年才發表要了解機器學習和深度學習的進展，這些論文一定不能錯過。

機器學習和深度學習的研究進展正深刻變革著人類的技術，本文列出了自 2014 年以來這兩個領域發表的最重要（被引用次數最多）的 20 篇科學論文，以饗讀者。

機器學習，尤其是其子領域深度學習，在近些年來取得了許多驚人的進展。重要的研究論文可能帶來使全球數十億人受益的技術突破。這一領域的研究目前發展非常快，為了幫助你了解進展狀況，我們列出了自 2014 年以來最重要的 20 篇科學論文。

我們篩選論文的標準是來自三大學術搜索引擎谷歌學術（scholar.google.com）、微軟學術（academic.microsoft.com）和 semanticscholar.org 的引用量。由于不同搜索引擎的引用量數據各不相同，所以我們在這里僅列出了微軟學術的數據，其數據比其它兩家稍低一點。

我們還給出了每篇論文的發表時間、高度有影響力的引用數量（HIC）和引用速度（CV），以上數據由 semanticscholar.org 提供。HIC 表示了以此為基礎的論文情況和與其它論文的關系，代表了有意義的引用。CV 是最近 3 年每年引用數量的加權平均。有些引用的 CV 是 0，那是因為 semanticscholar.org 上沒有給出數據。這 20 篇論文中大多數（包括前 8 篇）都是關于深度學習的，但同時也很多樣性，僅有一位作者（Yoshua Bengio）有 2 篇論文，而且這些論文發表在很多不同的地方：CoRR (3)、ECCV (3)、IEEE CVPR (3)、NIPS (2)、ACM Comp Surveys、ICML、IEEE PAMI、IEEE TKDE、Information Fusion、Int. J. on Computers & EE、JMLR、KDD 和 Neural Networks。前 2 篇論文的引用量目前遠遠高于其它論文。注意第 2 篇論文去年才發表！要了解機器學習和深度學習的進展，這些論文一定不能錯過。

1. 論文：Dropout：一種防止神經網絡過擬合的簡單方法（Dropout: a simple way to prevent neural networks from overfitting）

鏈接：http://suo.im/3o6l4B

作者：Hinton, G.E., Krizhevsky, A., Srivastava, N., Sutskever, I., & Salakhutdinov, R. (2014). Journal of Machine Learning Research, 15, 1929-1958.

數據：引用：2084、HIC：142、CV：536

摘要：其關鍵思想是在神經網絡的訓練過程中隨機丟棄單元（連同它們的連接點）。這能防止單元適應過度，顯著減少過擬合，并相對于其它正則化方法有重大改進。

2. 論文：用于圖像識別的深度殘差學習（Deep Residual Learning for Image Recognition）

鏈接：http://suo.im/1JrYXX

作者：He, K., Ren, S., Sun, J., & Zhang, X. (2016). CoRR

數據：引用：1436、HIC：137、CV：582

摘要：目前的深度學習網絡層數越來越多，越來越難以訓練，因此我們提出了一種減緩訓練壓力的殘差學習框架。我們明確地將這些層重新定義為與輸入層有關的學習殘差函數，而不是學習未被引用的函數。與此同時，我們提供了全面的經驗證據以表明殘差網絡更容易優化，并可通過增加其層數來提升較精確度。

3. 論文：批標準化：通過減少內部協移加速深度神經網絡訓練（Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift）

鏈接：http://suo.im/3sJtk1

作者：Sergey Ioffe, Christian Szegedy (2015) ICML.

數據：引用：946、HIC：56、CV：0

摘要：訓練深度神經網絡的過程很復雜，原因在于每層的輸入分布隨著訓練過程中引起的前面層的參數變化而變化。我們把這種現象稱為內部協變量轉移（internal covariate shift），并可利用歸一化層輸入來解決此問題。通過將此方法應用到較先進的圖像分類模型，批標準化在訓練次數減少了 14 倍的條件下達到了與原始模型相同的精度，這表明批標準化具有明顯的優勢。

4. 論文：利用卷積神經網絡進行大規模視頻分類（Large-Scale Video Classification with Convolutional Neural Networks）

鏈接：http://suo.im/25lfXF

作者：Fei-Fei, L., Karpathy, A., Leung, T., Shetty, S., Sukthankar, R., & Toderici, G. (2014). IEEE Conference on Computer Vision and Pattern Recognition

數據：引用：865、HIC：24、CV：239

摘要：針對圖像識別問題，卷積神經網絡（CNN）被認為是一類強大的模型。受到這些結果的激勵，我們使用了一個包含 487 個類別、100 萬 YouTube 視頻的大型數據集，對利用 CNN 進行大規模視頻分類作了一次廣泛的實證評估。

5. 論文：Microsoft COCO：語境中的通用對象（Microsoft COCO: Common Objects in Context）

鏈接：http://suo.im/DAXwA

作者：Belongie, S.J., Dollár, P., Hays, J., Lin, T., Maire, M., Perona, P., Ramanan, D., & Zitnick, C.L. (2014). ECCV.

數據：引用：830、HIC：78、CV：279

摘要：我們展示了一個新的數據集，通過將對象識別問題放入更廣泛的場景理解問題的語境中，以推進當前對象識別領域中較先進的技術。我們的數據集包含了 91 種對象類型的照片，這些圖片對于一個 4 歲大的孩子而言，很容易識別。最后，我們利用可變形部件模型（DPM）為邊界框和分割檢測結果提供了一個基線性能分析。

6. 論文：使用場景數據庫學習場景識別中的深層特征（Learning deep features for scene recognition using places database）

鏈接：http://suo.im/2EOBTa

作者：Lapedriza, à., Oliva, A., Torralba, A., Xiao, J., & Zhou, B. (2014). NIPS.

數據：引用：644、HIC：65、CV：0

摘要：我們引入了一個以場景為中心的新數據庫，這個數據庫稱為「Places」，里面包含了超過 700 萬個標注好了的場景。我們提議使用新方法去比較圖像數據集的密度和多樣性，以表明 Places 與其它場景數據庫一樣密集并更具多樣性。

7. 論文：生成對抗網絡（Generative adversarial nets）

鏈接：http://suo.im/3YS5F6

作者：Bengio, Y., Courville, A.C., Goodfellow, I.J., Mirza, M., Ozair, S., Pouget-Abadie, J., Warde-Farley, D., & Xu, B. (2014) NIPS.

數據：引用：463、HIC：55、CV：0

摘要：通過對抗過程，我們提出了一個評估生成模型的新框架。在此框架中，我們同時訓練兩個模型：生成模型 G 捕獲數據分布；判別模型 D 評估樣本示來自訓練數據集（而不是來自 G 中）的概率。

8. 論文：通過內核相關濾波器實現高速跟蹤（High-Speed Tracking with Kernelized Correlation Filters）

鏈接：http://suo.im/2BBOea

作者：Batista, J., Caseiro, R., Henriques, J.F., & Martins, P. (2015). CoRR

數據：引用：439、HIC：43、CV：0

摘要：大多數的現代追蹤器，為應對自然圖像中的變化，典型的方法是采用翻譯和縮放樣本補丁訓練分類器。我們針對包含成千上萬個翻譯補丁數據集提出了一個分析模型。結果表明結果數據矩陣是循環的，我們可以利用離散傅立葉變換對角化已有的循環矩陣，將存儲和計算量降低了幾個數量級。

9. 論文：多標簽學習算法綜述（A Review on Multi-Label Learning Algorithms）

鏈接：http://suo.im/3LgpGf

作者：Zhang, M., & Zhou, Z. (2014). IEEE TKDE

數據：引用：436、HIC：7、CV：91

摘要：本論文的主要目的是對多標簽學習問題進行及時回顧。在多標簽學習問題中，一個實例代表一個樣本，同時，一個樣本與一組標簽相關聯。

10. 論文：深層神經網絡特征的可傳遞性（How transferable are features in deep neural networks）

鏈接：http://suo.im/aDLgu

作者：Bengio, Y., Clune, J., Lipson, H., & Yosinski, J. (2014) CoRR

數據：引用：402、HIC：14、CV：0

摘要：我們用實驗量化了深層卷積神經網絡中每層神經元的一般性與特異性，并報告了一些令人驚訝的結果。可傳遞性受到兩個不同問題的不利影響：（1）以犧牲目標任務的性能為代價，實現更高層神經元對原始人物的專業化，這是預料之中的；（2）與分裂共同適應神經元（co-adapted neuron）之間的網絡有關的優化困難，這是預料之外的。

11. 論文：我們需要數百種分類器來解決真實世界的分類問題嗎？（Do we need hundreds of classifiers to solve real world classification problems）

鏈接：http://suo.im/2w14RK

作者：Amorim, D.G., Barro, S., Cernadas, E., & Delgado, M.F. (2014). Journal of Machine Learning Research

數據：引用：387、HIC：3、CV：0

摘要：我們評估了來自 17 個「家族」（判別分析、貝葉斯、神經網絡、支持向量機、決策樹、基于規則的分類器、提升、裝袋、堆疊、隨機森林、集成方法、廣義線性模型、最近鄰、部分最小二乘和主成分回歸、邏輯和多項回歸、多元自適應回歸樣條法等）的 179 個分類器。我們使用了來自 UCI 數據庫中的 121 個數據集來研究分類器行為，這些行為不依賴于所選取的數據集。最終勝出的是使用 R 語言實現的隨機森林方法和 C 中使用 LibSVM 實現的帶有高斯內核的 SVM。

12. 論文：知識庫：一種概率知識融合的網絡規模方法（Knowledge vault: a web-scale approach to probabilistic knowledge fusion）

鏈接：http://suo.im/3qCSs6

作者：Dong, X., Gabrilovich, E., Heitz, G., Horn, W., Lao, N., Murphy, K., ... & Zhang, W.(2014, August). In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining ACM

數據：引用：334、HIC：7、CV：107

摘要：我們引入了一個網絡規模的概率知識庫，它將網頁內容提取（通過文本分析、表格數據、頁面結構和人工注釋獲得）與來自現存知識庫中的先驗知識相結合，以構建新知識庫。我們部署監督學習方法去融合不同的信息源。該知識庫比先前發布的任何結構化知識庫大得多，并且具有概率推理系統，該概率推理系統能計算事實準確性的校準概率。

13. 論文：用于高維數據的可擴展最近鄰算法（Scalable Nearest Neighbor Algorithms for High Dimensional Data）

鏈接：http://suo.im/hjTa4

作者：Lowe, D.G., & Muja, M. (2014). IEEE Trans. Pattern Anal. Mach. Intell.

數據：引用：324、HIC：11、CV：69

摘要：我們提出了用于近似最近鄰匹配的新算法，并將其與以前的算法進行比較。為了將其擴展到大型數據集（不適合單機的存儲處理）上，我們提出了一種分布式最近鄰匹配框架，該框架可以與論文中描述的任何算法一起使用。

14. 論文：回顧超限學習機的發展趨勢（Trends in extreme learning machines: a review）

鏈接：http://suo.im/3WSEQi

作者：Huang, G., Huang, G., Song, S., & You, K. (2015). Neural Networks

數據：引用：323、HIC：0、CV：0

摘要：我們的目標是報告超限學習機（ELM）的理論研究和實踐進展所處的現狀。除了分類和回歸，ELM 最近已經被擴展到集群、特征選擇、代表性學習和許多其他學習任務。由于其驚人的高效性、簡單性和令人印象深刻的泛化能力，ELM 已經被廣泛用于各種領域，如生物醫學工程、計算機視覺、系統識別、控制和機器人。

15. 論文：一份關于概念漂移適應的調查（A survey on concept drift adaptation）

鏈接：http://suo.im/3bQkiz

作者：Bifet, A., Bouchachia, A., Gama, J., Pechenizkiy, M., & Zliobaite, I. ACM Comput. Surv., 2014

數據：引用：314、HIC：4、CV：23

摘要：該文全面介紹了概念漂移適應。它指的是當輸入數據與目標變量之間的關系隨時間變化之時的在線監督學習場景。

16. 論文：深度卷積激活特征的多尺度無序池化（Multi-scale Orderless Pooling of Deep Convolutional Activation Features）

鏈接：http://suo.im/3gNw8e

作者：Gong, Y., Guo, R., Lazebnik, S., & Wang, L. (2014). ECCV

數據：引用：293、HIC：23、CV：95

摘要：為了在不降低其辨別力的同時改善卷積神經網絡激活特征的不變性，本文提出了一種簡單但有效的方案：多尺度無序池化（MOP-CNN）。

17. 論文：同時檢測和分割（Simultaneous Detection and Segmentation）

鏈接：http://suo.im/4b0ye0

作者：Arbeláez, P.A., Girshick, R.B., Hariharan, B., & Malik, J. (2014) ECCV

數據：引用：286、HIC：23、CV：94

摘要：本文的目標是檢測圖像中一個類別的所有實例，并為每個實例標記屬于它的像素。我們稱將此任務稱為同時檢測和分割（SDS）。

18. 論文：一份關于特征選擇方法的調查（A survey on feature selection methods）

鏈接：http://suo.im/4BDdKA

作者：Chandrashekar, G., & Sahin, F. Int. J. on Computers & Electrical Engineering

數據：引用：279、HIC：1、CV：58

摘要：在文獻中，有許多特征選擇方法可用，由于某些數據集具有數百個可用的特征，這會導致數據具有非常高的維度。

19. 論文：用回歸樹集成方法在一毫秒內實現人臉校準（One Millisecond Face Alignment with an Ensemble of Regression Trees）

鏈接：http://suo.im/1iFyub

作者：Kazemi, Vahid, and Josephine Sullivan, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2014

數據：引用：277、HIC：15、CV：0

摘要：本文解決了單個圖像的人臉校準問題。我們展示了怎樣使用回歸樹集成來直接從像素強度的稀疏子集估計面部的地標位置，并通過高質量的預測實現了超實時性能。

20. 論文：關于作為混合系統的多分類器系統的調查（A survey of multiple classifier systems as hybrid systems）

鏈接：http://suo.im/3c9EFD

作者：Corchado, E., Gra?a, M., & Wozniak, M. (2014). Information Fusion, 16, 3-17.

數據：引用：269、HIC：1、CV：22

摘要：模式分類領域目前關注的焦點是幾種分類器系統的組合，構建這些分類器系統可以使用相同或者不同的模型和／或數據集構建。

原文地址：http://www.kdnuggets.com/2017/04/top-20-papers-machine-learning.html

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器機器學習和深度學習的區別深度學習和機器學習的區別深度學習和機器學習機器學習和深度學習

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4502.html

通過28303篇ML論文總結出的27大主流學習框架

摘要：在過去五年里，我碰巧使用了一個收藏了篇機器學習論文的數據庫，這些論文都來自于。因此，本文將這五年間機器學習的發展趨勢進行了簡單的總結。我們得到了如下結果是的，年月份，接受了多篇與機器學習領域有關的論文。機器學習的趨勢概述如果你用過谷歌趨勢（Google Trends），你一定會發現它很酷——你輸入一些關鍵詞，你就能夠看到這些關鍵詞的谷歌搜索量是如何隨著時間而變化的。在過去五年里，我碰巧使用...

elisa.yang 2019-04-25 18:11 評論0 收藏0
三年前，我差點成了爬蟲大師

摘要：期間，我從爬蟲入手，一路摸爬滾打，實現了千萬級微博評論自動抓取，在即將成為爬蟲專家前，受師兄指點轉向算法。確定研究方向經過前面的理論學習，你應該發現深度學習領域有很多細分方向，例如語音自然語言處理視覺強化學習純深度學習理論。最近很多剛入學的學弟學妹給我們留言，聽說算法崗現在競爭很激烈，...

Codeing_ls 2021-09-22 10:02 評論0 收藏0
深度學習out了？深度解讀AI領域三大前瞻技術

摘要：而這種舉一反三的能力在機器學習領域同樣適用，科學家將其稱之為遷移學習。與深度學習相比，我們技術較大優點是具有可證明的性能保證。近幾年的人工智能熱潮中，深度學習是最主流的技術，以及之后的成功，更是使其幾乎成為的代名詞。如今，人類將自己的未來放到了技術手里，無論是讓人工智能更像人類思考的算法，還是讓機器人大腦運轉更快的芯片，都在向奇點靠近。谷歌工程總監、《奇點臨近》的作者庫茲韋爾認為，一旦智能...

muddyway 2019-04-25 18:27 評論0 收藏0
機器學習研究趨勢分析：TensorFlow已超越Caffe成研究最常用框架

摘要：深度學習框架作為熱身，我們先看一下深度學習框架。在年有急劇的增長，但在過去幾個月被超越。你是否使用過 Google Trends？相當的酷，你在里面輸入關鍵詞，看一下谷歌搜索中這一詞條如何隨時間變化的。我想，過去 5 年中 arxiv-sanity 數據庫中剛好有 28303 篇機器學習論文，為什么不做一些類似的工作，看一下過去 5 年機器學習研究有何進化？結果相當的有趣，所以我把它貼了出...

buildupchao 2019-04-25 18:11 評論0 收藏0
「我是可微分編程的粉絲」，Gary Marcus再回應深度學習批判言論

摘要：我的核心觀點是盡管我提出了這么多問題，但我不認為我們需要放棄深度學習。對于層級特征，深度學習是非常好，也許是有史以來效果較好的。認為有問題的是監督學習，并非深度學習。但是，其他監督學習技術同病相連，無法真正幫助深度學習。所有真理必經過三個階段：第一，被嘲笑；第二，被激烈反對；第三，被不證自明地接受。——叔本華（德國哲學家，1788-1860）在上篇文章中（參見：打響新年第一炮，Gary M...

Leo_chen 2019-04-25 18:23 評論0 收藏0