摘要:折交叉驗(yàn)證集,每折包含約張訓(xùn)練圖像和張測(cè)試圖像,正樣本邊界負(fù)樣本其他負(fù)樣本,訓(xùn)練集中共圖像塊。浸潤(rùn)性導(dǎo)管癌是乳腺癌中最長(zhǎng)出現(xiàn)的亞種。
Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases
Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases
Andrew Janowczyk, Anant Madabhushi
本文共考察了7個(gè)數(shù)字病理學(xué)的實(shí)例,具體見表1。
Challenge
細(xì)胞核形態(tài)是多數(shù)癌癥定級(jí)中重要的依據(jù),所以需要進(jìn)行細(xì)胞核分割。近期研究發(fā)現(xiàn)檢測(cè)細(xì)胞核的技術(shù)趨于成熟,
但是發(fā)現(xiàn)它們的精確邊界或者分離開有重疊區(qū)域的細(xì)胞核還是比較困難。生成訓(xùn)練圖像塊也要注意,一般用標(biāo)識(shí)好的圖像生成二值掩碼,然后從正/負(fù)區(qū)域隨機(jī)剪切產(chǎn)生正/負(fù)樣本,但是負(fù)樣本中可能包含未標(biāo)記的正樣本區(qū)域。
Patch selection technique
圖像塊選取的一種標(biāo)準(zhǔn)方法是在正樣本掩碼區(qū)域選取正樣本,在負(fù)樣本掩碼區(qū)域使用閾值化的color-deconvolved圖像選取負(fù)樣本(如圖2所示)。這主要是依據(jù)非細(xì)胞核區(qū)域很少吸收染色劑的原理。圖2顯示了這種方法提取的樣本所屬類別都是正確的,但是負(fù)樣本(圖2a)對(duì)于訓(xùn)練該任務(wù)網(wǎng)絡(luò)不會(huì)提供太多有用信息。結(jié)果(圖3d)顯示用上述方法選取的樣本訓(xùn)練的模型性能并不好,無法描繪出細(xì)胞核的正確輪廓,這是因?yàn)樵谟?xùn)練集中沒有強(qiáng)調(diào)邊界信息。
本文在上述方法的基礎(chǔ)上進(jìn)行改進(jìn),選取更多更有挑戰(zhàn)性的負(fù)樣本以增強(qiáng)訓(xùn)練集中的邊界信息。圖3a展示了一張示例圖像,圖3b是其掩碼圖像,需要注意的是只有部分細(xì)胞核被標(biāo)識(shí),使用為改進(jìn)的樣本選取方法所獲得的訓(xùn)練集來訓(xùn)練模型的預(yù)測(cè)結(jié)果如圖3d所示,可以看到網(wǎng)絡(luò)沒有準(zhǔn)確確定出細(xì)胞核邊界。為了增強(qiáng)邊界信息,使用形態(tài)學(xué)方法處理圖3b中所示掩碼圖像,得到如圖3c中所示的邊界掩碼圖像。依據(jù)圖3c掩碼圖像選取負(fù)樣本(如圖2c所示),這些樣本與正樣本相似,所以學(xué)習(xí)難度提升。另外也保留一定比例的圖2a樣式的負(fù)樣本,以確保這部分樣本在訓(xùn)練集中也有很好的表示。使用改進(jìn)方法選取的樣本所訓(xùn)練的模型的預(yù)測(cè)結(jié)果見圖3e,可以看出模型對(duì)邊界的確認(rèn)更準(zhǔn)確。
Results and Discussions
5折交叉驗(yàn)證集,每折包含約100張訓(xùn)練圖像和28張測(cè)試圖像,正樣本:邊界負(fù)樣本:其他負(fù)樣本=1:1:0.3,訓(xùn)練集中共130k圖像塊,在20倍和40倍分辨率上進(jìn)行度量,使用的度量方法有F-score、true positive rate (TPR)、positive predictive value (PPV),DL生成的概率圖0.5閾值化后得到二值結(jié)果。
定性來看,圖4顯示了一個(gè)可視化結(jié)果,可以看出網(wǎng)絡(luò)在40倍分辨率上的邊界比在20倍上更加準(zhǔn)確。
定量來看,從表4中可以看出,網(wǎng)絡(luò)在40倍分辨率上的各項(xiàng)度量指標(biāo)都優(yōu)于20倍。Dropout在這個(gè)實(shí)例上存在消極影響。
Challenge
癌細(xì)胞一般出現(xiàn)在上皮組織,而基質(zhì)的組織模式有助于預(yù)測(cè)乳腺癌患者的生存期,所以上皮組織-基質(zhì)(epithelium-stroma)分離就尤為重要。但是該任務(wù)一般不太明確,因?yàn)闃?biāo)記數(shù)據(jù)比較抽象并且都是低放大倍數(shù),圖5顯示了標(biāo)記和預(yù)測(cè)的對(duì)比,這種差異使得訓(xùn)練和評(píng)估都更加困難,本文也考慮用額外的專家評(píng)價(jià)指標(biāo)來評(píng)估結(jié)果。
Patch selection technique
首先確定放大倍數(shù),基本的原則是相應(yīng)分辨率的圖像塊中有足夠的環(huán)境信息,人類專家可以做出正確的判斷,所以要根據(jù)先驗(yàn)知識(shí)來確定合適的放大倍數(shù)。本文使用10倍放大倍數(shù),如果網(wǎng)絡(luò)接受的輸入尺寸較大,可能需要更高的放大倍數(shù)。首先在灰度圖使用0.8閾值去除脂肪或背景區(qū)域,不在這些區(qū)域選取訓(xùn)練樣本,然后使用上節(jié)的改進(jìn)方法提取樣本。
Results and Discussion
5折交叉驗(yàn)證集,每折包含約34張訓(xùn)練圖像和8張測(cè)試圖像,正樣本:邊界負(fù)樣本:其他負(fù)樣本=5:5:1.5,訓(xùn)練集中共765k圖像塊。
定量分析結(jié)果如表5,使用F-score作為度量指標(biāo)。在度量之前(a)閾值化去掉背景區(qū)域(b)去除面積<300的區(qū)域。
定性來看,病理學(xué)家將這個(gè)任務(wù)視為更高等級(jí)的抽象,而并不是像素級(jí)的分類,如圖5所示。病理學(xué)家一般不會(huì)將背景分離標(biāo)識(shí)出來,有時(shí)也會(huì)忽略掉小區(qū)域。
5.4 Tubule Segmentation Use CaseChallenge
細(xì)管的形態(tài)可以體現(xiàn)癌癥的侵略性,癌癥后期病人的細(xì)管形態(tài)逐漸呈無組織狀態(tài),如圖6所示。識(shí)別和分割細(xì)管有兩個(gè)方面用處:(a)自動(dòng)進(jìn)行面積估算,減少inter-/intra-reader差異;(b)提供更大的特異性,可能更好的制訂預(yù)后指標(biāo)。
細(xì)管被認(rèn)為是迄今為止發(fā)現(xiàn)的最復(fù)雜的結(jié)構(gòu),它包含多種成分(如細(xì)胞核、上皮組織、內(nèi)腔),這些組成成分的組織結(jié)構(gòu)確定了細(xì)管的邊界。不同階段的癌癥不同的潛在侵略性的細(xì)管的形態(tài)有很大差異。良性(如圖6a)整體有組織性,每個(gè)細(xì)管的尺寸和形態(tài)特征比較相似,比較容易進(jìn)行分割;但患癌(如圖6c)時(shí)細(xì)管就沒有組織性,也不容易精確確定它們的邊界。另外細(xì)管整體比其中的組成成分要大得多,所以需要在更大的視野中進(jìn)行觀察以保證有足夠的環(huán)境信息來確保評(píng)估的準(zhǔn)確性。
Patch selection technique
引入一種經(jīng)濟(jì)的預(yù)處理方法來確定較難訓(xùn)練的圖像塊,使用這些樣本可以增加信息和多樣性。首先在每張圖像中隨機(jī)選取一些像素點(diǎn)(如15000個(gè))作為訓(xùn)練集,這些像素點(diǎn)應(yīng)該覆蓋所有類別,并計(jì)算一些簡(jiǎn)單的紋理特征(如對(duì)比度、相關(guān)性、能量、同質(zhì)性等);然后使用樸素貝葉斯分類器來確定同一張圖像中所有像素點(diǎn)的類別。經(jīng)過上述處理,可以確定哪些像素點(diǎn)可能容易判斷錯(cuò)誤(假陽(yáng)/陰),選取這些像素點(diǎn)可以增加樣本的表示能力。可以根據(jù)誤分類像素的置信度來選取,例如偏向于選取預(yù)測(cè)概率趨向于1的假陽(yáng)樣本。這種方法不需要相關(guān)領(lǐng)域的知識(shí),能很好的去除重要性低的樣本。
良性組織中的細(xì)管要比患癌的更容易分割,那么不均衡的多選患癌樣本可以提高模型的泛化性能。
Results and Discussion
5折交叉驗(yàn)證集,每折包含約21張訓(xùn)練圖像和5張測(cè)試圖像,惡性樣本數(shù)量是良性的2倍,并且包含一些旋轉(zhuǎn)處理(180、270)的惡性樣本,共320k個(gè)訓(xùn)練圖像塊。閾值0.5時(shí)的平均F-score為0.827±0.05,使用最優(yōu)閾值時(shí)0.836±0.05。
Challenge
浸潤(rùn)性導(dǎo)管癌(Invasive Ductal Carcinoma, IDC)是乳腺癌中最長(zhǎng)出現(xiàn)的亞種。病理學(xué)家一般都是根據(jù)包含IDC區(qū)域的組織狀態(tài)來判斷侵略性等級(jí),所以對(duì)侵略性定級(jí)的一個(gè)常見的預(yù)處理就是提取包含IDC的區(qū)域。
Patch selection technique
使用已有的數(shù)據(jù)集,將放大倍率40的原圖像降采樣1/16,以提供更豐富的環(huán)境信息,圖像塊尺寸為50x50,本文網(wǎng)絡(luò)輸入尺寸32x32,分別做以下不同處理:
Resizing:直接將50x50的圖像縮放為32x32。
Cropping:剪切50x50圖像的中心32x32區(qū)域。
Cropping+additional rotations:為了解決數(shù)據(jù)不均衡問題,將正樣本進(jìn)行旋轉(zhuǎn)增加數(shù)量,最終正負(fù)樣本數(shù)量基本一致。
Results and Discussion
圖7顯示了不同處理方式對(duì)訓(xùn)練模型的影響。
表6定量評(píng)估了不同樣本處理方式的影響。值得注意的是resizing的性能是最好的,cropping可能是因?yàn)閾p失了部分環(huán)境信息,另外dropout對(duì)泛化性能并沒有提升,數(shù)據(jù)均衡處理也沒有明顯效果。
注:對(duì)于文中醫(yī)學(xué)相關(guān)的名詞翻譯可能不準(zhǔn)確,如有異議請(qǐng)指正。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/19646.html
摘要:摘要背景深度學(xué)習(xí)是一種表示學(xué)習(xí)方法,非常適合用來處理數(shù)字病理學(xué)中的圖像分析問題。優(yōu)質(zhì)的注釋樣本是深度學(xué)習(xí)重要的先決條件,但是處理數(shù)字病理學(xué)中最大的挑戰(zhàn)就是獲取高質(zhì)量的注釋樣本。本文使用的深度學(xué)習(xí)主要由四個(gè)模塊組成。 Deep learning for digital pathology image analysis: A comprehensive tutorial with sele...
摘要:淋巴細(xì)胞是白細(xì)胞的一個(gè)亞種,在免疫系統(tǒng)中很重要。患病或有異物的區(qū)域淋巴細(xì)胞數(shù)量會(huì)極大增加,所以通過確認(rèn)和定量淋巴細(xì)胞的密度和位置有助于評(píng)估疾病。本節(jié)目標(biāo)是確定淋巴細(xì)胞的中心,是一個(gè)檢測(cè)任務(wù)。常見的假陽(yáng)性和真實(shí)正例見圖。 Deep learning for digital pathology image analysis: A comprehensive tutorial with se...
摘要:貢獻(xiàn)者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長(zhǎng)時(shí)間,如果你一本書一本書看的話,的確要用很長(zhǎng)時(shí)間。為了方便大家,我就把每本書的章節(jié)拆開,再按照知識(shí)點(diǎn)合并,手動(dòng)整理了這個(gè)知識(shí)樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻(xiàn)者:飛龍版...
閱讀 786·2021-08-23 09:46
閱讀 928·2019-08-30 15:44
閱讀 2586·2019-08-30 13:53
閱讀 3039·2019-08-29 12:48
閱讀 3847·2019-08-26 13:46
閱讀 1780·2019-08-26 13:36
閱讀 3510·2019-08-26 11:46
閱讀 1408·2019-08-26 10:48