再接著,看到了今年10月份在天津的一次計算
會議上,微軟首席科學家Richard F. Rashid在上面演講關于語音識別的時候,演示了其使用深度學習技術(他的原話是:deep
neural network,深度神經網絡,屬于深度學習的一種)來提高語音識別準確率的效果(),
相比目前較先進的基于Hidden Markov Model的技術,其準確率提升了大約30%(If you use that to take it
much more data than had previously been able to be used with the hidden
markov models, so that one change that particular break through
increased recognition rates by approximately thirty
percent)。然而,在7分35秒的時候,我也抑制不住地”哇”起來,原來,那個系統在進行語音識別的同時,還進行了識別,把英文翻譯成了中文,不僅
如此,它還學習了Richard的發音和腔調,用中文把翻譯的結果念了出來,博得現場一片掌聲。雖然仔細一看,有些中文還是沒有實時翻譯過來,發出中文聲
音也需要在原說話人發音之后大約2秒左右,但這已經是非常之牛,想想國內語音識別的先驅科大訊飛,目前還真是無法望其項背。
當前,國外在這方面的研究就是三分天下的局面,University of
Toronto的Geoffrey E. Hinton與微軟合作,Stanford University的Andrew Y.
Ng和Google合作,以及New York University的計算機科學家Yann LeCun和Rob
Fergus。國內方面百度的于凱是這方面的先行者;據說企鵝也在招人搞這個,又據說是在做索引結構方面也能有一個質的飛躍,一篇文章提取特征后就剩一個
20維的向量,也還不確定是否真能如此神,另外還有文獻提到可以用來做detection,因為目前adaboost確實是在訓練上很花時間,自己之前在
家搞了個手表的訓練,也花了一周時間,而深度學習在特征選擇方面還是挺有優勢的,不過之前看Andrew教授的視頻,提到未監督學習用在做
detection上還是沒有什么突破,不知道這里做檢測效果會怎樣;學術界現在在這塊就是在與時間賽跑,誰先跑出個成果誰就是第一個吃螃蟹的(做人臉的
山世光也對于凱在這方面的report挺看重)。下面就先附上一些個人覺得比較重要的相關論文,其中部分還未細讀,有些因為放在springlink或者
sciencedirect上無法下載,待有時間再請人找找后深入學習。
Learning multiple layers of representation, 2007.
這篇論文,篇幅短小,適合初學者理解DBNs,特別是非數學專業的。
Deep machine learning – a new frontier in artificial intelligence research, 2010.
深度學習的入門材料。
Learning deep architecture for AI, 2009.
深度學習的經典論文,可以當作深度學習的學習材料。
To recognize shapes, first learn to generate images, 2006.
多倫多大學的內部講義。目前還沒找到。
A fast learning algorithm for deep belief nets, 2006.
摘要:深度學習學習筆記整理系列作者聲明該的學習系列是整理自網上很大牛和機器學習專家所無私奉獻的資料的。但是自年以來,機器學習領域,取得了突破性的進展。
Deep Learning(深度學習)學習筆記整理系列
zouxy09@qq.com
http://blog.csdn.net/zouxy09
作者:Zouxy
version 1.0? 2013-04-08聲明:1)該Deep Lea...