摘要:沒錯,火遍朋友圈的修圖工具的背后就是最近流行的四個字深度學(xué)習(xí)。這樣處理后得到的僅是圖片的紋理而不是整體布局。這就是提供給我們的修圖效果。以上用一句話概括就是,深度學(xué)習(xí)實現(xiàn)了藝術(shù)內(nèi)容和藝術(shù)風(fēng)格的分離與重構(gòu)。
引子:有段子手言,地球上的人一半在用Pokemon Go追皮卡丘的時候,剩下的一半在用Prisma修圖!這款由俄羅斯創(chuàng)業(yè)團(tuán)隊研發(fā)的圖片處理app,從研發(fā)到上線僅幾個月就用戶量驚人,更讓人驚訝的是,團(tuán)隊僅僅只有四個人。這真的可能嗎?
如果你是因為標(biāo)題黨而進(jìn)來,謝謝并希望你離開的時候能獲得你想要的干貨;如果你已經(jīng)猜到了答案,也謝謝你愿意進(jìn)來驗證你的猜測。
沒錯,火遍朋友圈的修圖工具Prisma的背后就是最近流行的四個字:深度學(xué)習(xí)。啊對,深度學(xué)習(xí)就是弄一個深度神經(jīng)網(wǎng)絡(luò)模型,很深很深的網(wǎng)絡(luò)模型,大概有19層那么深。(咦這個確實好深啊,貌似那個下圍棋的alphago也就13層~)
不是說干貨么,這就完了?當(dāng)然不行。那咱能直接跑一個模型玩玩嗎?貌似也不太行。跑這樣一個神經(jīng)網(wǎng)絡(luò)模型,需要你的計算機(jī)有一顆強(qiáng)大的心臟(較好有個GPU啥的),然后,你要安裝一堆lua,torch,caffe,cuda之類的玩意兒。你以為prisma和別的app一樣,是靠你那小手機(jī)就能搞的那么炫酷的嗎?非也,它的背后必須有一個強(qiáng)大的云服務(wù)器。不信你斷網(wǎng),再拿prisma試試。
所以,prisma是把你的圖片壓縮好后,用網(wǎng)絡(luò)傳送到了他家服務(wù)器,然后處理結(jié)束再傳給了你。
嗯這還不是特別干的干貨,下面才進(jìn)入正題。也許你會覺得有點枯燥,不過希望我盡量能講的通俗,你盡量能收點干貨,而那些繁瑣的數(shù)學(xué)公式和略晦澀的術(shù)語我會跳過。
下文參考自:A Neural Algorithm of Artistic Style(by Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge)
在深度神經(jīng)網(wǎng)絡(luò)的家族里,處理圖片最給力的模型叫卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)。CNN的每一層結(jié)構(gòu)和一般的NN不太一樣,它的每一層就像一個過濾器,分層次的處理輸入圖像。每經(jīng)過一層,就會更抽象一些,術(shù)語上來說是對上一層的特征提取。所以,每一層都可以看作為一個特征映射(feature maps)。
當(dāng)CNN被用來訓(xùn)練識別物體(object recognition)時,研究者構(gòu)造了一種網(wǎng)絡(luò)結(jié)構(gòu),它可以使物體信息逐層更明顯地提取出來,也就是說,這種網(wǎng)絡(luò)結(jié)構(gòu)關(guān)心的是圖片內(nèi)容(content)。每一層的feature maps都可以用來重構(gòu)圖片,較深層次(high-level)的重構(gòu),如下圖第二排d,e,更多的捕捉內(nèi)容而忽略像素,而較淺的,如下圖第二排a,b,c,僅僅是像素的復(fù)制。因此,研究者多采用較深的網(wǎng)絡(luò)結(jié)構(gòu)來做內(nèi)容重構(gòu)(content representation)。
而CNN模型也同樣可以用來做風(fēng)格重現(xiàn)(style representations)。這時,研究者使用一種原創(chuàng)設(shè)計的特征空間(feature space)來提取圖片的紋理信息(texture information)。feature space會加在每一層過濾層之上,它包含的是不同過濾層處理后的feature maps之間的相關(guān)性。這樣處理后得到的僅是圖片的紋理而不是整體布局(global arrangement)。如上圖第一排所示。同樣的,較深的網(wǎng)絡(luò)層可以更好的提取紋理而忽略內(nèi)容。
論文研究者的發(fā)現(xiàn)是:content representations和style representations是可以分離的!并且重新組合后可以成為一張全新的圖片,它具備名畫(artwork)的風(fēng)格和我們自己的照片的內(nèi)容。這就是prisma提供給我們的修圖效果。同時,內(nèi)容重現(xiàn)和風(fēng)格重現(xiàn)在重構(gòu)過程中是可以權(quán)衡的(trade-off)。所以,prisma也具備了百分比設(shè)置功能,即多大程度保留內(nèi)容。
而其實這項技術(shù)在2015年8月左右就已經(jīng)在github上開源了,搜索關(guān)鍵詞deepdream可以找到。而如今它真的成為了一款流行市場的互聯(lián)網(wǎng)產(chǎn)品,歷時將近一年。這從技術(shù)開發(fā)到面向市場的速率也非常驚人。再看自動駕駛技術(shù),糅合人工智能,AR/VR等技術(shù),雖然如今還事故頻頻,但相信不久也會技驚四座。
以上用一句話概括就是,深度學(xué)習(xí)實現(xiàn)了藝術(shù)內(nèi)容和藝術(shù)風(fēng)格的分離與重構(gòu)。雖然這還談不上創(chuàng)造力,但也算art and science的完美結(jié)合!這不愧說—— Data scientist is the sexist job of 21st century.
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/4368.html
摘要:該研究成果由韓國團(tuán)隊發(fā)表于論文地址訓(xùn)練數(shù)據(jù)恰當(dāng)?shù)挠?xùn)練數(shù)據(jù)有助于提高網(wǎng)絡(luò)訓(xùn)練性能。在將損失函數(shù)應(yīng)用于輸入圖像之前,用輸入圖像替換了掩模外部的圖像的剩余部分??傮w損失函數(shù)如下其中,發(fā)生器用進(jìn)行訓(xùn)練,鑒別器用進(jìn)行訓(xùn)練。 為一個設(shè)計師,是否整天因為繁瑣枯燥的修圖工作不勝其煩?現(xiàn)在,一款基于GAN的AI修圖大師可以將你從這類工作中解放出來。修輪廓、改表情、生發(fā)、加耳環(huán)、去眼鏡、補(bǔ)殘圖,你能想到的它都能...
摘要:百煉成仙走紅該書于年月出版,作者楊逸飛是一名從事開發(fā)六年的程序員,寫過諸多技術(shù)博客。作者在博客上對粉絲提出關(guān)于百煉成仙的問題進(jìn)行了統(tǒng)一回復(fù),該博文持續(xù)占據(jù)熱榜第二,熱度達(dá)。 剛接觸編程的小伙伴,估計都想過把枯燥無聊的編程教材變成小說讀的念頭,這不,說曹操曹操就來了,真的有程序員用寫修仙小說的...
摘要:發(fā)布是由團(tuán)隊開源的,操作接口庫,已成為事實上的瀏覽器操作標(biāo)準(zhǔn)。本周正式發(fā)布,為我們帶來了,,支持自定義頭部與腳部,支持增強(qiáng),兼容原生協(xié)議等特性變化。新特性介紹日前發(fā)布了大版本更新,引入了一系列的新特性與提升,本文即是對這些變化進(jìn)行深入解讀。 showImg(https://segmentfault.com/img/remote/1460000012940044); 前端每周清單專注前端...
閱讀 3648·2021-10-09 09:58
閱讀 1187·2021-09-22 15:20
閱讀 2495·2019-08-30 15:54
閱讀 3509·2019-08-30 14:08
閱讀 886·2019-08-30 13:06
閱讀 1817·2019-08-26 12:16
閱讀 2678·2019-08-26 12:11
閱讀 2507·2019-08-26 10:38