機器視覺與深度神經網絡：洗去浮華，一窺珠璣

Joonas 發布于2019-04-25 18:00 / 1206人閱讀

摘要：近年來機器學習領域隨著深度神經網絡的崛起而迎來新一波的春天，尤其最近兩年無論學界還是業界，或是各大媒體，甚至文盲老百姓都言必稱智能。

近年來機器學習、AI領域隨著深度神經網絡（DNN）的崛起而迎來新一波的春天，尤其最近兩年無論學界還是業界，或是各大媒體，甚至文盲老百姓都言必稱“智能”。關于這方面，可討論的東西實在太多太多，我不想寫成一本厚厚的書，所以在此僅以機器學習在計算機視覺和圖像領域的人臉識別應用作為一個例子，來陪著大家看看這場熱潮、浮華背后有哪些被專家學者們忽視或輕視，但卻有著根本性重要的東西，并同時提出本領域的若干值得展開的創新性研究方向。好了，廢話少說，且看DNN的大戲上演。

2014年對于人臉識別領域來講可謂是“歡欣鼓舞”的一年，在LFW數據集（labeled faces in the wild）上的評測結果被連續“刷表”，首先是Facebook的AI Lab發表論文Deep Face報告了accuracy達到97.25%，緊接著Face++的《Learning Deep Face Representation》小小勝出達到97.3%，結果板凳還沒坐熱就被香港中文大學的Xiaoou Tang和Xiaogang Wang實驗室的GaussianFace刷到了98.52%，宣稱首次超越了“人類的識別能力”（97.53%）。然后，此次在新加坡VISVA 2014 winter-school上看到Xiaogang Wang報告，他們的DeepID2將上述記錄刷到了99.15%。下圖1是引自Gaussian Face一文，作為展示各大新近算法那“優美”ROC曲線的一個示例。

圖1：多種算法在LFW數據集上的ROC曲線

可以想象，各大科技媒體、投資機構、業界巨頭等都將目光、熱忱投向了AI領域，仿佛雙目所及都是滿滿的“$_$”；各大磚家學者、大蝦菜鳥也都或奔走相告、粉墨登場如巡回演唱般，或摩拳擦掌、瘋狂涌入想著趁熱沾沾光、分一杯羹。

古人云，“不知者不罪”，對于那些不懂AI、機器學習以及深度神經網絡（后簡稱DNN）理論及方法的人還情有可原，但是那些具備多年知識積淀和實戰經驗的磚家們，我就分不清他們是真的“too young too naive”還是另有原因了。在這場浮華背后，我為大家撥開云霧，看看那些被忽視或掩蓋起來的本質問題。

1、Unfair comparison

各大研究機構論文中報告的accuracy，通常都會同時與其它的多個算法系統進行對比，但是這些對比是unfair的！因為它們在模型的訓練階段，使用的training data差別迥異，而且絕大多數image都是不在LFW數據集里面out-set data。眾所周知，欲對比算法、模型的優劣，必先固定訓練數據集與測試數據集，為各candidates營造公平的周邊條件和評價準繩。

2、算法之間的性能差異未經統計檢驗——不靠譜

“拍拍腦袋，設計了一個新算法，一頓coding之后，放到XXX數據集上一跑，做個10-fold cross validation，拿著accuracy rate跟其它論文方法一對比，發現有0.5個百分點的提升，于是欣喜若狂、普大喜奔、paper滿天飛”……這就是計算機視覺領域乃至整個AI領域的現狀。然而，學過統計的人都應該提這樣的問題：“算法A與算法B的差異，究竟是隨機因素引起的波動，還是具有統計顯著性的？它們的output error rate波動特性如何？……”這本身又可以看成一個假設檢驗問題，例如可使用ANOVA、F-test、t-檢驗等來研究，看看是否在（=0.05）顯著性水平上，算法A優于算法B這個假設是可接受的。但可笑的是，從未見有人用這種“科學”態度和精神來對待這些“科學問題”！

3、人臉識別算法性能超越人類？——我讀書少，你別騙我

假設某算法A在某數據集X上的accuracy比某“人”的識別結果高，能斷言算法A優于“人類”的識別性能嗎？請別欺我沒學過統計。這個問題有點類似上述問題2，但是稍微更復雜點。

對于一個具體的人，例如張三，他的decision model可以簡記為“算法B”。而“人類”是一個類屬概念，可以認為是很多不同的decision models構成的model-class。好吧，至此在我有限的知識范圍內，縱觀數學和計算機學界還沒有人提出過一個合理的metric（度量），來評價一個算法A與某個“模型族”的性能差異，以及該差異的統計檢驗指標……

如果有哪位專家對此領域頗有建樹，已經超越美帝、秘密而低調地走在國際最前沿，還敬請回信指教，在此我先行謝過。

4、只看數字指標，忘了產品和應用“標的”

究竟我們研究人臉識別算法干嘛用？這里簡單談兩個方面的應用，一者娛樂用，另一者那是相當的“不娛樂”啊。先說前者，舉個栗子就是百度魔圖去年搞的“pk大咖明星臉”（測測你與哪個明星長得像，如圖2a）和“全民大穿越”（看看你跟各種電視劇里的誰比較像，圖2b）。顯然，對于這樣的非嚴肅場景，即使識別錯了也無妨，甚至還錯得蠻可愛的。在這類應用中，根本無需太追求算法的accuracy，更遑論絞盡腦汁、苦苦地追尋那97%到98%的微不足道的、毫無意義的提升。

圖2：百度魔圖的兩個娛樂應用

然而對于另一類應用，例如biometric（生物身份識別），那就千萬馬虎不得了。打個比方某銀行推出了“刷臉取錢”的快捷服務，就是你往ATM機前一站，它能自動識別你是張三還是李四，然后驗證通過就咔咔吐出一堆鈔票，確實挺酷。現在拿目前較先進的算法DeepID2來看，號稱accuracy 99%。于是張三在ATM機前多晃悠幾十次，就沒準碰上被誤識別為李四，畢竟1%的概率嘛（這是個戲謔的概數，嚴謹來說不是這個值，此處暫且按下不表），然后把李四賬戶的錢全卷跑了。

通常，在金融系統中，要求在0.1%的FAR（false accept rate）下verification rate達到99%，才可以投入實用。而根據的研究發現，在FAR=0.1%的約束下，目前較好的算法verification rate=41.66%，還遠遠達不到實用的地步。

至此，我所理解的全世界專家們孜孜不倦地追求high accuracy的算法，應該是要應用到類似biometric這樣的嚴肅場合。那么問題來了，他們為何不直接采用這類場合通用的評價標準“verification rate @ low FAR”，卻籠統地用了個掩耳盜鈴的accuracy。

5、全自動機器學習？——作為“人”還是別對自己的智商妄自菲薄吧

很多技術論壇以及國際學術會議上，都常常聽到某些“看起來像是”磚家大神的，吐沫橫飛地講著“用DNN可以讓機器實現全自動地學習，并超越人類handcrafted的特征和方法”，抑或是言必稱DNN多么多么復雜，不把自己顯得高大上誓不罷休。其實在我看來，DNN是非常非常簡單的一個東西，它的外在的、看似復雜的樣子也只是由內在的很多簡單的組件加在一起所展現出來的表面的繁雜而已（在此暫不展開說）。而且更重要的是，說handcrafted或啟發式方法不好，那純粹是一種惡意的詆毀。

首先，DNN本身的結構中，layer的數量、每個layer的node數、卷積層與全連接層的組合模式、卷積kernel的大小、max-pooling層的位置、輸出層的log-transform、輸入層的數據模式等等，無一不是handcrafted。除了結構和參數，就連訓練方法中也融入了很多啟發式的設置，例如采用drop-out來緩解耦合與過擬合，又如神經元之間以及相鄰layer之間的locality-influence方式來幫助增強稀疏化。

其次，除了DNN外，無論logistic regression（LR）還是SVM或是其它很多模型，都是人類智慧的結晶，是非常美的東西。例如LR中sigmod函數（也常被用于DNN）的平滑、對稱和雙邊飽和特性，又如SVM的較大間隔原理和VC維理論所刻畫的簡單性原理，這些都是極其符合自然美學的設計，也彰顯了大繁至簡。其實將較大間隔與VC維的理念融入DNN，尋找結合點，也是很值得研究的方向之一，直覺能夠為DNN帶來再一次的不小的提升。

此外，還有值得一提的是，DNN的高層網絡中，某些神經元的刺激響應模式類似圖3a所示，對人臉和貓臉的輪廓會輸出極大響應值。聯想PCA人臉識別方法中的eigenface，如圖3b所示，其實兩者存在很多相似的地方，這絕非偶然。實際上，DNN在某種意義上可以理解為一種級聯的變換或encoder，在information loss和對非線性的處理能力上增強了；而PCA是一種線性變換，對于數據的非線性特性和豐富的細節，描述能力較差（information loss較大），所以出現圖3這樣的差別就不難理解了。在某種意義上可以把DNN看做“非線性化的PCA”。事實上，筆者思考和粗略提出了clustering-based PCA以及multi-stage residual-boosting PCA方法，感興趣的讀者可以交流并一起嘗試研究，或許可以揭示DNN與PCA的某些內在關聯。

圖3：DNN人臉&貓臉（a）與PCA的eigenface（b）

行文至此，作為總結，皆化作一句話：“面臨機器學習尤其是DNN被大肆吹捧的熱潮和浮華，諸君當冷靜而理性視之，做到不卑不亢、靜水流深，方能真正登堂入室”。

GPU云服務器云服務器機器視覺與機器學習機器人與機器視覺機器視覺與圖像識別計算機與機器視覺

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4326.html

警察必備工具！用空間融合卷積神經網絡鑒別偽裝的「壞蛋」

摘要：劍橋大學印度國家技術學院近日聯合發布了一篇論文，名為利用空間融合卷積神經網絡通過面部關鍵點進行偽裝人臉識別，該論文利用空間融合卷積神經網絡為刑偵過程的人臉識別提供了有力的支持，我們來一窺究竟。劍橋大學、印度國家技術學院近日聯合發布了一篇論文，名為《利用空間融合卷積神經網絡通過面部關鍵點進行偽裝人臉識別Disguised Face Identification (DFI) with Faci...

anyway 2019-04-25 18:17 評論0 收藏0
計算機視覺中的深度學習：技術、市場和5個你想不到的未來

摘要：接下來，介紹了使用深度學習的計算機視覺系統在農業零售業服裝量身定制廣告制造等產業中的應用和趨勢，以及在這些產業中值得關注的企業。嵌入式視覺聯盟主編Brian Dipert今天發布博文，介紹了2016年嵌入式視覺峰會（Embedded Vision Summit）中有關深度學習的內容：谷歌工程師Pete Warden介紹如何利用TensorFlow框架，開發為Google Translate...

baukh789 2019-04-25 18:03 評論0 收藏0
吳恩達眼中的深度學習七雄

摘要：的研究興趣涵蓋大多數深度學習主題，特別是生成模型以及機器學習的安全和隱私。與以及教授一起造就了年始的深度學習復興。目前他是僅存的幾個仍然全身心投入在學術界的深度學習教授之一。 Andrej Karpathy特斯拉 AI 主管Andrej Karpathy 擁有斯坦福大學計算機視覺博士學位，讀博期間師從現任 Google AI 首席科學家李飛飛，研究卷積神經網絡在計算機視覺、自然語言處理上的應...

MingjunYang 2019-04-25 18:19 評論0 收藏0
深度學習：推動NLP領域發展的新引擎

摘要：深度學習推動領域發展的新引擎圖擁有記憶能力最早是提出用來解決圖像識別的問題的一種深度神經網絡。深度學習推動領域發展的新引擎圖深度神經網絡最近相關的改進模型也被用于領域。從2015年ACL會議的論文可以看出，目前NLP最流行的方法還是機器學習尤其是深度學習，所以本文會從深度神經網絡的角度分析目前NLP研究的熱點和未來的發展方向。我們主要關注Word Embedding、RNN/LSTM/CN...

shiyang6017 2019-04-25 18:02 評論0 收藏0