摘要:淋巴細胞是白細胞的一個亞種,在免疫系統中很重要。患病或有異物的區域淋巴細胞數量會極大增加,所以通過確認和定量淋巴細胞的密度和位置有助于評估疾病。本節目標是確定淋巴細胞的中心,是一個檢測任務。常見的假陽性和真實正例見圖。
Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases
Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases
Andrew Janowczyk, Anant Madabhushi
本文共考察了7個數字病理學的實例,具體見表1。
Challenge
淋巴細胞是白細胞的一個亞種,在免疫系統中很重要。患病或有異物的區域淋巴細胞數量會極大增加,所以通過確認和定量淋巴細胞的密度和位置有助于評估疾病。
淋巴細胞在吸收了著色劑后呈淡藍色,在色調上與細胞核相近,所以在某些情況下難以區分。但是淋巴細胞一般要更小,分布更密集,形狀也偏圓形。本節目標是確定淋巴細胞的中心,是一個檢測任務。
Patch selection technique
放大倍率40的圖像中淋巴細胞約10x10像素,遠小于32x32的出入尺寸,這樣樣本中90%都是無效區域,會影響模型性能,所以將圖像再放大4倍,使淋巴細胞幾乎占滿輸入圖像。
選取以淋巴細胞中心位置3x3的鄰域為中心的區域為正樣本區域;負樣本的選取如下:(a)隨機選取1000個像素點,訓練一個樸素貝葉斯分類器,計算該圖像所有像素點的后驗概率(b)計算所有假陽性像素點和距離它最近的真實正樣本像素點的距離(c)選擇距離最大的部分像素點為中心的區域為負樣本。正樣本的數量較少,加入額外的旋轉樣本來擴充訓練集。
測試階段,計算測試圖像中所有像素點的后驗概率,然后使用環狀核(disk kernel)卷積操作篩選出概率最大的區域,選取概率最高的點為中心點,并去除周邊對中心點的預測位置,一般淋巴細胞的尺寸基本一致,這樣可以避免在同一個淋巴細胞中預測多個中心點。
Results and Discussion
5折交叉驗證集,每折包含約80張訓練圖像和21張測試圖像,正負樣本數量比例1:1,包含一些旋轉處理(180、270)的正樣本,共700k個訓練圖像塊。使用其中的1折來確定各種參數(如清除的半徑、卷積操作的尺寸、閾值等),然后應用于其他折數據上。最終結果為平均F-score=0.90±0.01,平均TPR=0.93±0.01,PPV=0.87±0.02,圖8顯示了該方法可以檢測大部分的淋巴細胞,但位于邊界的細胞無法檢測。
Challenge
每個高倍視野中有絲分裂的數量對于乳腺癌等級非常重要。一般來說,癌癥越具有侵略性則細胞分裂更快,可以通過統計組織切片中的有絲分裂來進行估計。當前的定級策略分三級,在每10個高倍視野中發現(i)小于7個有絲分裂(ii)8-14個(iii)大于等于15個。
在實際中病理學家是通過改變光學顯微鏡的焦距來觀察有絲分裂的三維結構,這樣可以排除假陽性的判斷,所以在二維數字病理圖像上對有絲分裂進行準確判定是很有挑戰性的。
Patch selection technique
調整放大倍數,確保一個圖像塊中就包含完整的有絲分裂圖像,這樣可以提供足夠的環境信息。這對后期或末期的有絲分裂尤為重要,另外基準點的坐標實際是位于兩個新細胞的中間位置。
選取以基準點鄰域4x4為中心的區域作為正樣本圖像塊,并增加多角度旋轉操作(0、45、90、135、180、215、270)來擴充正樣本規模。blue-ratio分割方法可以突出有絲分裂區域(如圖9a),在此基礎上使用膨脹操作(如圖9b),在這些區域中選取負樣本,可以去除不重要的樣本。選取比正樣本多2.5倍的負樣本并旋轉(0、90、190、270)度,這樣可以包含更多不同的區塊。
先構建一個如文獻[8]中的模型,使用樸素貝葉斯計算訓練集中樣本的概率掩碼,然后新建一個模型,過采樣第一個模型判斷的假陽性樣本為訓練集,這樣就可以更多的聚焦于分類更困難的樣本。特別的,對于基準點會增加15度間隔的旋轉正樣本。對于負類只考慮它們位于blue ratio生成的掩碼中的概率,并按照它們的權重進行采樣,這樣可以得到那些被錯誤的判定為有絲分裂的負樣本。這個方法最終得到約600k圖像塊用于第一階段的訓練,4百萬圖像塊用于第二階段的訓練。為了最終定位細胞有絲分裂,使用環形核卷積操作并設定閾值來判定。
Results and Discussion
數據分5折,使用第一階段模型平均F-score=0.37±0.2,加上第二階段模型后平均F-score=0.54±0.1,說明使用連續的網絡可以極大提高性能,其中第二個模型的訓練集是第一個模型預測的假陽性樣本。本文的結果只比最佳的文獻[8]稍低,但是[8]是在放大倍率40圖像塊101x101上進行,要比本文有更強的分類能力。當使用交叉驗證時不同折的閾值變換很大,那么評估訓練模型時需要一個獨立的驗證集。常見的假陽性和真實正例見圖10。
Challenge
淋巴瘤的三個子類型:chronic lymphocytic leukemia (CLL)、follicular lymphoma (FL)、mantle cell lymphoma (MCL)。該數據集可反映真實狀況,包含了不同位置并由不同病理學家預處理的樣本,額外選取了一些樣本使得樣本集中著色差異更大,樣本示例見圖11。
Patch selection technique
生成訓練集時,先將圖像拆解為36x36的圖像塊,然后利用Caffe在訓練時隨機剪切32x32。在測試階段使用相同的方法,并使用投票的方法決定最終結果,得到最高票的類別就是整張圖像的預測類別。
Results and Discussion
5折交叉驗證集,每折包含約300張訓練圖像和75張測試圖像,共825k個訓練圖像塊。平均準確率96.58%±0.01%,這比wnd-chrm軟件提高了10%,這兩個方法使用了相同的數據集,并且都沒有參考專業領域知識。
誤分類的情況一般都是因為圖像質量差,如圖12所示,這張圖像預測投票CLL814票,FL562票,MCL0票,這也顯示了最終判斷的不確定性。正常的正確分類預測結果相差會很大,例如{5,1357,14},這說明如果投票不呈現一家獨大的情況時應該人工確認。
從本文的實驗中可以看出以下幾點:
(一)dropout在這些實驗中并沒有性能提升,可能是因為使用的數據集規模都比較大,有足夠的樣本避免了過擬合;
(二)最重要的就是對于不同的任務選擇合適的放大倍率,一般的原則就是保證病理學家可以在剪切的圖像塊中有足夠的環境信息來做出正確的判斷;
(三)本文主要工作就是探索簡單但魯棒的方法來確定選取具有挑戰性的訓練樣本,這些樣本包含更多信息。隨機選取的樣本中有很多不重要的,并不能提升網絡的學習能力。另一個技術就是使用連續兩個分類階段來確定重要樣本,過采樣第一階段的假陽/陰性樣本用于訓練第二階段的分類器。
(四)深度學習由數據驅動,一般人工標注并不會精細到像素級,如果提高標記信息的精度則可以提升網絡性能,人工標注與DL預測的差異見圖5。可以先使用DL產生高質量的基準標注,然后領域專家在此基礎上進行修正。
(五)醫療領域的數據集復雜度很高,所以衡量模型性能應該針對同一數據集。
本文展示了使用深度學習算法處理數字病理學中多種圖像分析任務,提出一些網絡架構、數據處理等指導意見,并在七個實例中進行分析。
本文指南也存在一些限制。平均同一個圖像塊不同旋轉角度的預測可以減小輸出結果的方差。融合多個網絡(如不同架構、不同初始化等)可提高性能。
本文的方法沒有參考領域相關的先驗知識,但是同時使用領域相關設計的特征和深度學習算法應該可以提升模型性能。
計算效率也是需要考慮的問題。另外blue-ratio分割和color deconvolution可以作為深度學習處理數字病理學圖像的預處理方法。
本文所使用的方法并不是最優的,可以根據實際任務調整各種設置。
注:對于文中醫學相關的名詞翻譯可能不準確,如有異議請指正。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19672.html
摘要:折交叉驗證集,每折包含約張訓練圖像和張測試圖像,正樣本邊界負樣本其他負樣本,訓練集中共圖像塊。浸潤性導管癌是乳腺癌中最長出現的亞種。 Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases Deep learning for digital ...
摘要:摘要背景深度學習是一種表示學習方法,非常適合用來處理數字病理學中的圖像分析問題。優質的注釋樣本是深度學習重要的先決條件,但是處理數字病理學中最大的挑戰就是獲取高質量的注釋樣本。本文使用的深度學習主要由四個模塊組成。 Deep learning for digital pathology image analysis: A comprehensive tutorial with sele...
摘要:貢獻者飛龍版本最近總是有人問我,把這些資料看完一遍要用多長時間,如果你一本書一本書看的話,的確要用很長時間。為了方便大家,我就把每本書的章節拆開,再按照知識點合并,手動整理了這個知識樹。 Special Sponsors showImg(https://segmentfault.com/img/remote/1460000018907426?w=1760&h=200); 貢獻者:飛龍版...
閱讀 1387·2021-09-22 10:02
閱讀 1894·2021-09-08 09:35
閱讀 4057·2021-08-12 13:29
閱讀 2603·2019-08-30 15:55
閱讀 2263·2019-08-30 15:53
閱讀 2299·2019-08-29 17:13
閱讀 2759·2019-08-29 16:31
閱讀 2952·2019-08-29 12:24