摘要:雖說(shuō)都是些量少易懂的知識(shí)點(diǎn),卻主角般地貫穿著整個(gè)學(xué)習(xí)過(guò)程,而且作為從小白到學(xué)習(xí)者思維轉(zhuǎn)換的橋梁,其必要性是肯定的。所以對(duì)于從未接觸過(guò)深度學(xué)習(xí)的小白,強(qiáng)烈推薦了解,非小白可跳過(guò)圖像分類首先來(lái)了解在計(jì)算機(jī)視覺(jué)領(lǐng)域上的圖像指的是什么。
【DL-CV】【深度學(xué)習(xí)-計(jì)算機(jī)視覺(jué)】系列簡(jiǎn)介及入門(mén)推薦<前篇----后篇>【DL-CV】線性分類器
在初次進(jìn)入坑,接觸高深的算法環(huán)節(jié)之前,有必要對(duì)計(jì)算機(jī)視覺(jué)的目標(biāo)和實(shí)現(xiàn)有一個(gè)大概的了解。雖說(shuō)都是些量少易懂的知識(shí)點(diǎn),卻主角般地貫穿著整個(gè)學(xué)習(xí)過(guò)程,而且作為從小白到學(xué)習(xí)者思維轉(zhuǎn)換的橋梁,其必要性是肯定的。所以對(duì)于從未接觸過(guò)深度學(xué)習(xí)的小白,強(qiáng)烈推薦了解,非小白可跳過(guò)
圖像分類首先來(lái)了解在計(jì)算機(jī)視覺(jué)領(lǐng)域上的圖像指的是什么。——圖像由像素組成,每個(gè)像素通過(guò)三原色(RGB)的明暗組合形成一種顏色,RGB各有256級(jí)亮度用數(shù)字0~255表示。最終圖像就是一個(gè)由數(shù)字組成的三維數(shù)組Rw*h*c,三個(gè)維度分別是寬、高、顏色通道。
所謂的圖像分類問(wèn)題,則是在已有固定的分類標(biāo)簽集合中找出一個(gè)標(biāo)簽分配給輸入的圖像。這是計(jì)算機(jī)視覺(jué)領(lǐng)域的核心問(wèn)題之一,并且有著各種各樣的實(shí)際應(yīng)用。計(jì)算機(jī)視覺(jué)領(lǐng)域中很多看似不同的問(wèn)題(比如物體檢測(cè)和分割),都可以被歸結(jié)為圖像分類問(wèn)題,許多算法和原理都是為解決此問(wèn)題服務(wù)的。
圖像分類對(duì)人來(lái)說(shuō)是簡(jiǎn)單至極的,但對(duì)于本質(zhì)上只會(huì)算數(shù)的計(jì)算機(jī)來(lái)說(shuō),問(wèn)題變得復(fù)雜起來(lái)。“把代表圖像的一堆數(shù)字通過(guò)數(shù)學(xué)運(yùn)算變成一個(gè)標(biāo)簽(通過(guò)計(jì)算獲得視覺(jué))” 光是這個(gè)過(guò)程就看似無(wú)法理解了,但實(shí)際上這是可行的,不少現(xiàn)有的模型能獲得不錯(cuò)的結(jié)果,原理與實(shí)現(xiàn)之后會(huì)介紹,現(xiàn)在我們來(lái)談?wù)動(dòng)?jì)算機(jī)視覺(jué)算法在圖像識(shí)別方面遇到的一些困難
視角變化(Viewpoint variation):同一個(gè)物體,攝像機(jī)可以從多個(gè)角度來(lái)展現(xiàn)。
大小變化(Scale variation):物體可視的大小通常是會(huì)變化的。
形變(Deformation):很多東西的形狀并非一成不變,會(huì)有很大變化。
遮擋(Occlusion):目標(biāo)物體可能被擋住。有時(shí)候只有物體的一小部分是可見(jiàn)的。
光照條件(Illumination conditions):在像素層面上,光照的影響非常大。
背景干擾(Background clutter):物體可能混入背景之中,使之難以被辨認(rèn)。
類內(nèi)差異(Intra-class variation):同一類物體的個(gè)體之間外形差異可能很大。
這些在人看來(lái)不太影響分類的變化,在計(jì)算機(jī)看來(lái)簡(jiǎn)直是天差地別,每一種變化都讓輸入的數(shù)字?jǐn)?shù)組發(fā)生巨大變化。如何提高算法的健壯性,增強(qiáng)噪音抵抗力,在維持分類結(jié)論穩(wěn)定的同時(shí),保持對(duì)類間差異足夠敏感,這些都是算法設(shè)計(jì)者要考慮的問(wèn)題
數(shù)據(jù)驅(qū)動(dòng)方法關(guān)于詳細(xì)的解釋,可以參考這篇文章。這里只簡(jiǎn)單的說(shuō)明一下,由于類別的多樣性與同類的相似性,在算法中逐一指定參數(shù)實(shí)現(xiàn)某個(gè)類的區(qū)分是很不現(xiàn)實(shí)的(先不考慮能不能直接找出這堆參數(shù)),所以目前流行的算法更類似于人類學(xué)習(xí)的過(guò)程——給計(jì)算機(jī)很多已分類好的數(shù)據(jù),然后實(shí)現(xiàn)學(xué)習(xí)算法,讓計(jì)算機(jī)自己調(diào)整這堆參數(shù),從而學(xué)習(xí)到每個(gè)類的區(qū)分。這種方法,就是數(shù)據(jù)驅(qū)動(dòng)方法。
以此為基礎(chǔ),整個(gè)圖像分類過(guò)程可以總結(jié)為三步:
輸入: 輸入是包含N個(gè)圖像(3維數(shù)組)的集合,每個(gè)圖像的標(biāo)簽是K種分類標(biāo)簽中的一種。這個(gè)集合稱為訓(xùn)練集。
學(xué)習(xí): 用訓(xùn)練集來(lái)學(xué)習(xí)每個(gè)類到底長(zhǎng)什么樣。一般該步驟叫做訓(xùn)練分類器或者學(xué)習(xí)一個(gè)模型。
評(píng)價(jià): 讓分類器來(lái)預(yù)測(cè)它未曾見(jiàn)過(guò)的圖像(測(cè)試集)的分類標(biāo)簽,并以此來(lái)評(píng)價(jià)分類器的好壞。如果分類器預(yù)測(cè)的分類標(biāo)簽和圖像真正的分類標(biāo)簽一致,那很棒。
關(guān)于數(shù)據(jù)來(lái)源,cs231n課程使用的是圖像分類數(shù)據(jù)集CIFAR-10,這個(gè)數(shù)據(jù)集包含了60000張32X32的小圖像。每張圖像都有10種分類標(biāo)簽中的一種。這60000張圖像被分為包含50000張圖像的訓(xùn)練集和包含10000張圖像的測(cè)試集。本系列也將基于此數(shù)據(jù)進(jìn)行實(shí)踐。
超參數(shù)及其調(diào)優(yōu)在構(gòu)造分類器(算法)的時(shí)候,某些參數(shù)和函數(shù)的是必須要人為選擇的,但是關(guān)于選擇哪個(gè)才能獲得最佳效果,不實(shí)踐的話很難直接給出答案。類似這樣的選擇,就叫做超參數(shù)。這樣一說(shuō),調(diào)優(yōu)的方法就很明了了,把可能的選擇都試一遍,選擇準(zhǔn)確率最高的一個(gè)就行了(通常作圖分析取峰值)。
但要注意的是千萬(wàn)不能用測(cè)試集來(lái)進(jìn)行調(diào)優(yōu),因?yàn)檫@會(huì)帶來(lái)對(duì)測(cè)試集過(guò)擬合的風(fēng)險(xiǎn)(用測(cè)試集訓(xùn)練出來(lái)的分類器跑測(cè)試集當(dāng)然表現(xiàn)好,都熟悉了
)。正確的做法是從訓(xùn)練集中分一部分(通常10%~50%)作為驗(yàn)證集用于調(diào)優(yōu),剩下的再作為訓(xùn)練集用于學(xué)習(xí)。
測(cè)試數(shù)據(jù)集只使用一次,即在訓(xùn)練完成后評(píng)價(jià)最終的模型時(shí)使用。交叉驗(yàn)證
有時(shí)候訓(xùn)練集數(shù)量較少,分得的驗(yàn)證集更少,不利于超參數(shù)的調(diào)優(yōu),這時(shí)會(huì)用交叉驗(yàn)證的方法,盡可能榨干整個(gè)訓(xùn)練集。
原理是把訓(xùn)練集分成N份(通常3,5,10),循環(huán)著取其中一份作為驗(yàn)證集,其他作為訓(xùn)練集,共跑N次。對(duì)于每個(gè)超參數(shù)的N個(gè)結(jié)果取它們的平均值作為該參數(shù)的表現(xiàn),所有平均值畫(huà)線連接取峰值對(duì)應(yīng)的參數(shù)即可。
通常在深度學(xué)習(xí)(大型模型)中不會(huì)用交叉驗(yàn)證,因?yàn)檫@會(huì)使計(jì)算量翻N倍。但對(duì)于小型數(shù)據(jù)集值得一試。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/19786.html
摘要:雖說(shuō)都是些量少易懂的知識(shí)點(diǎn),卻主角般地貫穿著整個(gè)學(xué)習(xí)過(guò)程,而且作為從小白到學(xué)習(xí)者思維轉(zhuǎn)換的橋梁,其必要性是肯定的。所以對(duì)于從未接觸過(guò)深度學(xué)習(xí)的小白,強(qiáng)烈推薦了解,非小白可跳過(guò)圖像分類首先來(lái)了解在計(jì)算機(jī)視覺(jué)領(lǐng)域上的圖像指的是什么。 【DL-CV】【深度學(xué)習(xí)-計(jì)算機(jī)視覺(jué)】系列簡(jiǎn)介及入門(mén)推薦【DL-CV】線性分類器 在初次進(jìn)入坑,接觸高深的算法環(huán)節(jié)之前,有必要對(duì)計(jì)算機(jī)視覺(jué)的目標(biāo)和實(shí)現(xiàn)有一個(gè)大...
摘要:最后還是強(qiáng)調(diào)一下自學(xué)的重要性,深度學(xué)習(xí)及其分支都是一個(gè)大坑,知識(shí)量巨大,希望大家充分利用搜索引擎對(duì)已學(xué)知識(shí)點(diǎn)進(jìn)行補(bǔ)充或解疑,觀摩大佬們的代碼,不要滿足于這小小的系列 【DL-CV】計(jì)算機(jī)視覺(jué)前置了解 showImg(https://segmentfault.com/img/bVbeOwJ?w=1464&h=1000); 閑了就要找事做,不能被四公主和NS誘惑。所以在搞完了爬蟲(chóng)進(jìn)入假期時(shí)...
閱讀 2067·2021-11-23 09:51
閱讀 3358·2021-09-28 09:36
閱讀 1129·2021-09-08 09:35
閱讀 1771·2021-07-23 10:23
閱讀 3268·2019-08-30 15:54
閱讀 3005·2019-08-29 17:05
閱讀 444·2019-08-29 13:23
閱讀 1300·2019-08-28 17:51