摘要:雅虎開源了一個進行色情圖像檢測的深度學習解決方案。卷積神經網絡架構和權衡近年來,卷積神經網絡已經在圖像分類問題中取得了巨大成功。自年以來,新的卷積神經網絡架構一直在不斷改進標準分類挑戰的精度。
雅虎開源了一個進行色情圖像檢測的深度學習解決方案。據文章介紹,這可能是較早的識別 NSFW 圖像的開源模型。
開源地址:https://github.com/yahoo/open_nsfw
自動識別一張對工作做來說并不適合/不保險的圖像(Not Suitable/Safe For Work - NSFW)——包括暴力圖像和成人圖像——是研究者們幾十年來一直在試圖解決的重要問題。由于當下圖像與用戶生成的內容主宰了互聯網,過濾 NSFW 圖像成為網頁應用和移動應用的一個重要組成部分。
隨著計算機視覺、改進的訓練數據和深度學習算法的發展,計算機現在能夠以更高的精度來自動分類 NSFW 圖像內容。
NSFW 素材的定義是主觀的,而識別這些圖像的任務并非沒有價值。此外,在某一語境下使人反感的東西卻可以適合于另一語境。為此,我們下文所描述的模型只側重于一種 NSFW 內容:色情圖像。NSFW 簡筆圖、漫畫、文字、寫實暴力圖像或其他不當內容的識別解決方案不適用于此模型。
據我們目前所知,還沒有用以識別 NSFW 圖像的開源模型或算法。秉承合作精神并懷揣推進這一努力的希望,我們發布了自己的深度學習模型,它能讓開發者使用一個 NSFW 檢測分類器來進行實驗,同時向我們提供反饋以改善分類器的性能。
我們的通用 Caffe 深度神經網絡模型(general purpose Caffe deep neural network model)以圖像作為輸入并輸出一個概率(即一個介于 0 和 1 之間的數字),可用于檢測和過濾 NSFW 圖像。開發者可以針對具體使用情況來用這個概率過濾掉 ROC 曲線上低于某個適當閾值的圖像,或用在搜索結果中進行圖像排名。
卷積神經網絡架構和權衡
近年來,卷積神經網絡已經在圖像分類問題中取得了巨大成功。自 2012 年以來,新的卷積神經網絡架構一直在不斷改進標準 ImageNet 分類挑戰的精度。一些主要突破包括了 AlexNet(2012)、GoogLeNet、VGG(2013)和殘差網絡(Residual Networks)(2015)。
這些網絡在運行時間、內存需求和準確性方面有不同的權衡。運行時間和內存需求的主要指標是:
Flops 或連接——一個神經網絡中的連接數量決定了向前傳播過程之中的計算操作數量,這與圖像識別時的網絡運行時間成比例。
參數——一個神經網絡中的參數數量決定了加載網絡所需的內存量。
理想情況下,我們希望一個網絡擁有最少的 flops 和最少的參數,而達到較大精度。
訓練用于 NSFW 識別的深度網絡
我們使用一個包含正(即 NSFW)圖像和負(即 SFW-suitable/safe for work)圖像的數據集來訓練模型。
由于數據屬性的問題,我們沒有發布訓練圖像或其他細節,但我們開源了可用于開發者獨立進行分類的輸出模型。
我們使用 Caffe 深度學習庫(Caffe deep learning library)和 CaffeOnSpark;后者是一個用于分布式學習的強大開源框架,令你可以在 Hadoop 和 Spark 模型訓練集群中使用 Caffe 深度學習。
在訓練過程中,圖像被重新調整到 256x256 像素,水平翻轉進行數據增強,并被隨機裁剪為 224x224 像素,然后送入網絡。在訓練殘差網絡時,我們使用了 ResNet 論文中所描述的規模增大(scale augmentation)來避免過度擬合。我們評估各種架構來找到運行時間和精度之間的權衡。
MS_CTC——這種架構是由微軟限制時間成本的那篇論文提出。它在卷積層和全連接層相結合的速度和精度方面秒殺了 AlexNet。
Squeezenet——這種架構提出了 fire 模塊——包含層擠壓,然后擴大輸入數據團。這有助于節省參數數量,使 Imagenet 的精度與 AlexNet 的一樣好,盡管內存需求僅為 6MB。
VGG——這種架構有 13 層卷積層和 3 層 FC 層。
GoogLeNet——GoogLeNet 提出了 Inception 模塊并擁有 20 個卷積層階段。它還在中間層中使用 hanging loss functions 來解決深度網絡中的梯度遞減問題。
ResNet——ResNet 使用快捷連接來解決梯度遞減問題。我們使用了作者所發布的 50 層的殘差網絡。
ResNet-thin——該模型是使用我們的 pynetbuilder 工具生成,并復制了殘差網絡論文中的 50 層網絡(每層過濾器的半數)。你可以在這里(https://github.com/jay-mahadeokar/pynetbuilder/tree/master/models/imagenet)找到更多有關如何生成和訓練模型的細節。
不同架構之間的權衡:精度 vs(網絡中的)flops 數量 vs(網絡中的)參數數量。
深度模型首次在 ImageNet 1000 類數據集上進行預訓練。我們將每個網絡的最后一層(FC1000)更換為 2 節點的全連接層。然后我們精調 NSFW 數據集中的權重。注意我們讓與最后的 FC 層相乘的學習率是精調后的其他層的 5 倍。我們還調整了超參數(hyper parameters)(步長、基本學習率)以優化性能。
我們觀察到,NSFW 分類任務的模型性能與 ImageNet 分類任務中的預訓練模型性能有關,所以如果我們有一個更好的預訓練模型,它將有助于精調分類任務。下面的圖表顯示了我們所提出的 NSFW 評估集合的相對性能。請注意,圖中的假正率(FPR)和一個固定的假負率(FNR)所針對的是我們的評估數據,在這里作說明用。要用該模型進行 NSFW 過濾的話,我們建議你們使用自己的數據來繪制 ROC 曲線并挑選一個合適的閾值。
在 Imagenet 上的模型與在 NSFW 數據集上精調的模型的性能比較
我們發布了 thin ResNet 50 模型,因為它在準確度方面做了很好的折中,并且該模型在運行時間(CPU 上運行時間 < 0.5 秒)和內存(~ 23 MB)方面體量輕巧。請參閱我們的 Git 庫來查看我們的模型指令和用法。我們鼓勵開發者嘗試將此模型用于 NSFW 過濾的情況。如有任何關于模型性能的問題或反饋,我們都會支持并盡快回復。
結果可以通過在你的數據集上精調模型來改進。如果你改善了性能或者訓練了一個使用不同架構的 NSFW 模型,我們都鼓勵那么為模型貢獻出力或將鏈接分享到我們的描述頁面。
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4417.html
摘要:沒有顯卡也沒有關系,可以看看我前面發布的兩篇文章谷歌云計算平臺,免費又好用上安裝本文采用的深度學習模型是雅虎開源的深度學習色情圖片檢測模型,這里的代表,該項目基于框架。你還可以讀利用人工智能檢測色情圖片谷歌云計算平臺,免費又好用上安裝隨著互聯網的快速發展,越來越多的圖片和視頻出現在網絡,特別是UCG產品,激發人們上傳圖片和視頻的熱情,比如微信每天上傳的圖片就高達10億多張。每個人都可以上傳,...
摘要:人工智能技術的初步應用隨著網絡強國戰略思想加強網絡內容建設等指導思想的推出和強化,內容安全已經成為互聯網企業生存和發展的生命線。 歡迎訪問網易云社區,了解更多網易技術產品運營經驗。 10月16日,2018年 AIIA人工智能開發者大會在蘇州舉辦。會議邀請了國內外人工智能產業知名人物、國家政府主管部門、行業內頂尖企業、知名學者代表、開源社區優秀貢獻團隊及個人,共同交流了技術現狀趨勢、生態...
摘要:而使用某些特定的表示方法更容易從實例中學習任務例如,人臉識別或面部表情識別。維基百科關于深度學習的應用,網上有非常多的出色案例,伯樂在線在本文摘錄個。 深度學習是機器學習中一種基于對數據進行表征學習的方法。觀測值(例如一幅圖像)可以使用多種方式來表示,如每個像素強度值的向量,或者更抽象地表示成一系列邊、特定形狀的區域等。而使用某些特定的表示方法更容易從實例中學習任務(例如,人臉識別或面部表情...
摘要:阿里巴巴集團安全部今年在直播管控中的特色在于大量采用人工智能和深度學習等技術,配合優化后的高性能多媒體計算集群,大幅度降低人工審核成本的同時,提升了對內容風險的防控能力。 阿里巴巴直播內容風險防控中的AI力量 直播作為近來新興的互動形態和今年阿里巴巴雙十一的一大亮點,其內容風險監控是一個全新的課題,技術的挑戰非常大,管控難點主要包括業界缺乏成熟方案和標準、主播行為、直播內容不可控、峰值...
閱讀 2414·2021-09-01 10:41
閱讀 1438·2019-08-30 14:12
閱讀 506·2019-08-29 12:32
閱讀 2855·2019-08-29 12:25
閱讀 2933·2019-08-28 18:30
閱讀 1703·2019-08-26 11:47
閱讀 972·2019-08-26 10:35
閱讀 2585·2019-08-23 18:06