摘要:深度學(xué)習(xí)方法是否已經(jīng)強(qiáng)大到可以使科學(xué)分析任務(wù)產(chǎn)生最前沿的表現(xiàn)在這篇文章中我們介紹了從不同科學(xué)領(lǐng)域中選擇的一系列案例,來(lái)展示深度學(xué)習(xí)方法有能力促進(jìn)科學(xué)發(fā)現(xiàn)。
深度學(xué)習(xí)在很多商業(yè)應(yīng)用中取得了前所未有的成功。大約十年以前,很少有從業(yè)者可以預(yù)測(cè)到深度學(xué)習(xí)驅(qū)動(dòng)的系統(tǒng)可以在計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別領(lǐng)域超過(guò)人類水平。在勞倫斯伯克利國(guó)家實(shí)驗(yàn)室(LBNL)里,我們面臨著科學(xué)領(lǐng)域中最具挑戰(zhàn)性的數(shù)據(jù)分析問(wèn)題。雖然商業(yè)應(yīng)用和科學(xué)應(yīng)用在所有分析任務(wù)方面(分類、聚類、異常檢測(cè)等)存在著相似之處,但是之前的經(jīng)驗(yàn)讓我們沒(méi)辦法相信科學(xué)數(shù)據(jù)集的潛在復(fù)雜性會(huì)跟ImageNet數(shù)據(jù)集有可比性。深度學(xué)習(xí)方法是否已經(jīng)強(qiáng)大到可以使科學(xué)分析任務(wù)產(chǎn)生最前沿的表現(xiàn)?在這篇文章中我們介紹了從不同科學(xué)領(lǐng)域中選擇的一系列案例,來(lái)展示深度學(xué)習(xí)方法有能力促進(jìn)科學(xué)發(fā)現(xiàn)。
我最近跟O’Reilly的Jon Bruner在Bots Podcast探討了這些相關(guān)話題。我們討論了LBNL超級(jí)計(jì)算中心的架構(gòu),及其推進(jìn)深度學(xué)習(xí)庫(kù)整合進(jìn)這一架構(gòu)中的工作,并探討了一些引人矚目的可擴(kuò)展到極大數(shù)據(jù)集的深度學(xué)習(xí)用例,例如對(duì)象或模式檢測(cè)。下面是我們的采訪音頻:
使用概率自編碼器對(duì)星系形狀建模
貢獻(xiàn)者:Jeffrey Regier,Jon McAullife
星系模型在天文學(xué)方面有很多應(yīng)用。例如一個(gè)星系外觀輕微的變形可能表示附近有暗有物質(zhì)的引力拉扯。暗物質(zhì)的總量被假定為普通物質(zhì)的五倍,但是對(duì)于它是否存在并沒(méi)有一個(gè)定論。如果沒(méi)有一個(gè)看起來(lái)未變形的星系形狀模型,就沒(méi)有推斷星系存在扭曲的基礎(chǔ)。
因?yàn)樾窍敌螤钣泻芏喙餐c(diǎn),所以適用于星系樣本的模型可以準(zhǔn)確地表示整個(gè)星系群。這些共享特征包括“螺旋臂”(見(jiàn)下圖1)、“環(huán)”(圖2)和即使是在不規(guī)則的星系中也存在的隨著距離遠(yuǎn)離中心降低的亮度(圖3)。這些共同點(diǎn)是高層次的特征,因此不容易在單個(gè)像素的級(jí)別上描述。
到目前為止,大多數(shù)神經(jīng)網(wǎng)絡(luò)已經(jīng)在監(jiān)督學(xué)習(xí)問(wèn)題上取得了成功:給定輸入、預(yù)測(cè)輸出。如果預(yù)測(cè)的輸出與正確答案不符,則會(huì)調(diào)整網(wǎng)絡(luò)的權(quán)重。而對(duì)于星系模型來(lái)說(shuō)則沒(méi)有正確的輸出。所以我們?cè)趯で笠粋€(gè)將星系圖像賦予高概率的圖像概率模型,同時(shí)所有可能圖像的概率總和為一。神經(jīng)網(wǎng)絡(luò)在這個(gè)模型中指定一個(gè)條件概率。
在概率模型中可以從一個(gè)多變量標(biāo)準(zhǔn)正態(tài)分布中得到一個(gè)不可觀測(cè)的隨機(jī)向量$z$。神經(jīng)網(wǎng)絡(luò)將$z$映射到一個(gè)平均值和一個(gè)協(xié)方差矩陣,這就參數(shù)化了高維多元正態(tài)分布,星系圖像的每個(gè)像素對(duì)應(yīng)一維。這個(gè)神經(jīng)網(wǎng)絡(luò)可以有盡可能多的有助于表示映射的網(wǎng)絡(luò)層和節(jié)點(diǎn)。圖4顯示了某個(gè)特定星系圖像的多變量正態(tài)分布的平均值,圖5顯示了協(xié)方差矩陣的對(duì)角線。最后,從這個(gè)多變量正態(tài)分布中抽樣一個(gè)星系圖像。
可以選擇從我們的過(guò)程的兩個(gè)角度中的任一個(gè)來(lái)從星系圖像里學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)權(quán)重:算法和統(tǒng)計(jì)。算法上講,我們的程序訓(xùn)練了一個(gè)自編碼器。輸入是一張圖片,低維向量$z$是添加過(guò)噪聲的網(wǎng)絡(luò)中間的一個(gè)窄層,輸出是輸入圖像的重建。損失測(cè)量的是輸入和輸出的差異。不過(guò),我們選擇的損失函數(shù)和添加到自編碼器中的噪聲類型遵循統(tǒng)計(jì)模型。基于這些選擇,訓(xùn)練自動(dòng)編碼器相當(dāng)于通過(guò)一種稱為“變分推斷”的技術(shù)來(lái)學(xué)習(xí)不可觀測(cè)向量$z$的近似后驗(yàn)分布。一個(gè)星系的后驗(yàn)分布會(huì)告訴我們所想知道的:星系最可能出現(xiàn)的樣子(例如后驗(yàn)的模式)和其外觀不確定性的數(shù)量。它把我們關(guān)于星系通常看起來(lái)的樣子的先驗(yàn)經(jīng)驗(yàn)跟我們從星系圖像學(xué)習(xí)到內(nèi)容相結(jié)合。
我們使用基于Caffe的Julia神經(jīng)網(wǎng)絡(luò)框架Mocha.jl來(lái)實(shí)現(xiàn)了所提出來(lái)的變分自編碼器(VAE)。我們使用了43444張星系圖片來(lái)訓(xùn)練我們的模型,每張圖片都基于一個(gè)主導(dǎo)的星系裁剪并縮小到69 x 69像素。VAE模型相對(duì)于常見(jiàn)的使用雙變量高斯密度的星系模型,會(huì)對(duì)保留數(shù)據(jù)集里的97.2%的星系圖片賦予更高的概率。
圖1 一個(gè)典型的螺旋星系。 資料來(lái)源:歐洲航天局與美國(guó)航空航天局維基共享資源
圖2 環(huán)形星系。 資料來(lái)源:美國(guó)航空航天局、歐洲航天局和哈勃遺產(chǎn)團(tuán)隊(duì)(AURA / STScI)的維基共享資料
圖3 不規(guī)則形狀星系。 資料來(lái)源:歐洲航天局/哈勃、美國(guó)航空航天局、D. Calzetti(馬薩諸塞大學(xué))和LEGUS小組的維基共享資料
圖4 某個(gè)特定星系的69×69像素圖像,其中每個(gè)像素是平均強(qiáng)度。 來(lái)源:由Jeffrey Regier和Jon McAullife生成,并經(jīng)許可使用
圖5 特定星系的69×69像素圖像,其中每個(gè)像素是強(qiáng)度的方差。 資料來(lái)源:由Jeffrey Regier和Jon McAullife生成,并經(jīng)許可使用
在氣候模擬中尋找極端天氣事件
貢獻(xiàn)者:Evan Racah,Christopher Beckham,Tegan Maharaj,Yunjie Liu,Chris Pal
極端天氣事件對(duì)生態(tài)系統(tǒng)、基礎(chǔ)設(shè)施和人類健康有著巨大的潛在風(fēng)險(xiǎn)。基于衛(wèi)星和氣象站的觀測(cè)記錄來(lái)分析極端天氣,以及在未來(lái)氣候條件的模擬中描述極端天氣變化是一項(xiàng)重要的任務(wù)。通常氣象界是通過(guò)手工編碼、多變量閾值條件來(lái)指定模式標(biāo)準(zhǔn)。這種標(biāo)準(zhǔn)多是主觀的,氣象界通常對(duì)于應(yīng)該使用的具體算法很少有一致的意見(jiàn)。我們已經(jīng)探索了一個(gè)完全不同的范式,也就是訓(xùn)練一個(gè)基于人類真實(shí)標(biāo)注數(shù)據(jù)的深度學(xué)習(xí)系統(tǒng)來(lái)學(xué)習(xí)模式分類器。
我們的第一步是考慮以熱帶氣旋和大氣河流為中心的剪切圖片集的監(jiān)督分類問(wèn)題。我們首先確定了5000-10000個(gè)剪切圖像,并通過(guò)在Speamint中進(jìn)行超參數(shù)調(diào)優(yōu)來(lái)訓(xùn)練了一個(gè)Caffe中的香草卷積神經(jīng)網(wǎng)絡(luò)。我們發(fā)現(xiàn)對(duì)監(jiān)督分類任務(wù)可以獲得90%-99%的分類準(zhǔn)確度。下一步就是考慮用一個(gè)統(tǒng)一的網(wǎng)絡(luò)對(duì)多種類型模型(熱帶氣旋、大氣河流、超熱帶氣旋等)同時(shí)進(jìn)行模式分類,并利用包圍盒來(lái)定位這些模式。這是對(duì)這個(gè)問(wèn)題一個(gè)更高級(jí)的半監(jiān)督的思路。我們當(dāng)前的網(wǎng)絡(luò)如圖6所示。
圖6 氣候模式定位及分類的半監(jiān)督網(wǎng)絡(luò)結(jié)構(gòu)。圖片由Evan Racah,LBNL友情提供
圖7 天氣模式及其位置的示例結(jié)果(真實(shí)狀況:綠色,深度學(xué)習(xí)預(yù)測(cè):紅色)。 圖片由Evan Racah,LBNL友情提供
圖7顯示了通過(guò)半監(jiān)督架構(gòu)獲得的一些示例結(jié)果。雖然對(duì)架構(gòu)的進(jìn)一步調(diào)整還正在進(jìn)行中,但是底層群集的t-SNE圖顯示了該方法有能力在數(shù)據(jù)集中發(fā)現(xiàn)新的相干流體流量結(jié)構(gòu)。目前的架構(gòu)運(yùn)行在氣象數(shù)據(jù)的即時(shí)快照上,我們正在擴(kuò)展模型以包含時(shí)間來(lái)得到更較精確的預(yù)測(cè)。
學(xué)習(xí)宇宙質(zhì)量天體圖中的模式
貢獻(xiàn)者:Debbie Bard, Shiwangi Singh, Mayur Mudigonda
即將進(jìn)行的天文巡天項(xiàng)目會(huì)獲得數(shù)百億個(gè)星系的測(cè)量數(shù)據(jù),從而能夠較精確得到描述暗物質(zhì)特性的參數(shù),這些暗物質(zhì)是加速宇宙擴(kuò)展的力量。例如可以使用引力透鏡技術(shù)用宇宙中的常規(guī)物質(zhì)和暗物質(zhì)來(lái)構(gòu)建天體圖。描繪這些質(zhì)量天體圖讓我們可以區(qū)分不同的暗物質(zhì)理論模型。
我們探索了新型的深度學(xué)習(xí)技術(shù)來(lái)找出快速分析宇宙天體圖數(shù)據(jù)的新方法。這些模型提供了識(shí)別物質(zhì)天體圖中意想不到的功能的潛力,從而為宇宙的結(jié)構(gòu)給出了新的見(jiàn)解。我們開(kāi)發(fā)了一個(gè)非監(jiān)督的去噪卷積自編碼模型,用來(lái)從我們的數(shù)據(jù)中直接學(xué)習(xí)一個(gè)抽象表示。該模型使用了一個(gè)卷積-去卷積架構(gòu),它從一個(gè)理論宇宙的模擬中獲得輸入數(shù)據(jù)(用二項(xiàng)式噪聲去破壞數(shù)據(jù)以防止過(guò)擬合)。我們使用了四層卷積層、兩個(gè)瓶頸層和四個(gè)去卷積層,并用Lasagne包實(shí)現(xiàn)。它使用了10000張質(zhì)量天體圖的圖片進(jìn)行訓(xùn)練,每張圖片的大小為128×128像素。我們的模型能夠使用梯度下降有效地最小化輸入和輸出之間的均方誤差,從而產(chǎn)生一個(gè)在理論上能夠廣泛解決其他類似結(jié)構(gòu)化問(wèn)題的模型。我們使用這個(gè)模型成功地重建了模擬的質(zhì)量天體圖并識(shí)別它們內(nèi)部的結(jié)構(gòu)(見(jiàn)圖8)。我們還確定了哪些結(jié)構(gòu)具有較高的重要性,也就是哪些結(jié)構(gòu)表達(dá)了最典型的數(shù)據(jù),參見(jiàn)圖9。我們注意到在我們的重建模型中最重要的結(jié)構(gòu)是在高質(zhì)量集中的周圍,這對(duì)應(yīng)于大的星系集群。
圖8 左圖:來(lái)自宇宙模擬的質(zhì)量天體圖。右圖:使用我們的卷積自編碼器重建的此天體圖。我們平滑了這個(gè)天體圖,因此丟失了小的細(xì)節(jié),但天體圖的特征被較精確地復(fù)制了。圖片由Shiwangi Singh和 Debbie Bard,LBNL友情提供
圖9 左圖:來(lái)自宇宙模擬的質(zhì)量天體圖。右圖:使用卷積自編碼器重建的此天體圖的最重要特征的顯著圖。我們看到高質(zhì)量集中區(qū)域比低質(zhì)量區(qū)域更為重要。圖片由Shiwangi Singh和Debbie Bard友情提供
我們還開(kāi)發(fā)了一個(gè)具有四個(gè)隱藏層的監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)(CNN)用以基于兩種不同的模擬理論模型來(lái)進(jìn)行宇宙質(zhì)量圖分類。CNN使用softmax分類器最小化估計(jì)分布和真實(shí)分布之間的二進(jìn)制交叉熵?fù)p失。換句話說(shuō),給定一張從未見(jiàn)過(guò)的收斂的天體圖,訓(xùn)練好的CNN模型能夠概率地決定最擬合數(shù)據(jù)集的理論模型。使用兩個(gè)理論模型的5000張?zhí)祗w圖(128×128像素)進(jìn)行訓(xùn)練,這個(gè)初步結(jié)果表明我們可以以80%的精度來(lái)分類產(chǎn)生收斂的天體圖的宇宙模型(見(jiàn)圖10)。
圖10 從質(zhì)量天體圖中提取的用2維表示的特征向量t-SNE圖。紅色和藍(lán)色分別代表了來(lái)自兩種不同的理論宇宙模型中的質(zhì)量天體圖。圖片由Shiwangi Singh和Debbie Bard, LBNL友情提供
從人類神經(jīng)記錄中解碼語(yǔ)音
貢獻(xiàn)者:Jesse Livezey, Edward Chang, Kristofer Bouchard
能夠看似輕松地產(chǎn)生由復(fù)雜語(yǔ)法結(jié)構(gòu)和聲學(xué)模式構(gòu)成的語(yǔ)音的能力是人類所獨(dú)有的。Penfield和Boldrey在20世紀(jì)30年代的開(kāi)創(chuàng)性工作表明,人體不同部分(包括聲道)都跟大腦的空間局部區(qū)域相關(guān)聯(lián)。大腦是如何跨越一組相關(guān)聯(lián)的大腦區(qū)域來(lái)協(xié)調(diào)聲道的發(fā)音器,這個(gè)神經(jīng)活動(dòng)的時(shí)間模式(諸如圖11里所示的)仍然是一個(gè)懸而未決的問(wèn)題。
圖11 說(shuō)話過(guò)程中人類皮質(zhì)表面的神經(jīng)記錄。第一行顯示了發(fā)出輔音“b”、“d”、“g”時(shí)的聲道的圖解示意圖。而中間行顯示了發(fā)出語(yǔ)音“ba”,“da”和“ga”的聲譜(以不同頻率作為時(shí)間的函數(shù)的聲功率)。下面的彩色軌跡顯示了在語(yǔ)音中神經(jīng)活動(dòng)記錄的時(shí)空模式。這些語(yǔ)音聲音是通過(guò)皮質(zhì)活動(dòng)的重疊而又獨(dú)立的時(shí)空模式產(chǎn)生的。圖片由Jesse Livezey and Kris Bouchard友情提供
大腦由非線性處理單元(神經(jīng)元)組成,其表現(xiàn)為一種普通的信號(hào)被連續(xù)處理的層次結(jié)構(gòu)。因此,我們假設(shè)深層神經(jīng)網(wǎng)絡(luò)(DNN)的分層及非線性處理將會(huì)跟語(yǔ)音生成的復(fù)雜神經(jīng)動(dòng)力學(xué)相匹配。在有著數(shù)百萬(wàn)樣本的大且復(fù)雜的數(shù)據(jù)集上,DNN已經(jīng)被證明了其性能在許多任務(wù)中勝過(guò)傳統(tǒng)方法。然而這種先進(jìn)方法還沒(méi)有在神經(jīng)科學(xué)分析任務(wù)中得到證實(shí),因?yàn)樗鼈兊臄?shù)據(jù)量要小的多(數(shù)千個(gè))。
在最近的工作中,我們發(fā)現(xiàn)即使在通過(guò)神經(jīng)科學(xué)實(shí)驗(yàn)獲得的相對(duì)較小的數(shù)據(jù)集上,DNN方法優(yōu)于傳統(tǒng)的解碼(即翻譯)大腦信號(hào)產(chǎn)生語(yǔ)音的方法,達(dá)到了較先進(jìn)的語(yǔ)音分類性能(高達(dá)39%的準(zhǔn)確度,是隨機(jī)瞎猜的25倍多)。此外隨著訓(xùn)練數(shù)據(jù)集的增大,DNN的表現(xiàn)會(huì)比傳統(tǒng)的分類器更好,其在相對(duì)有限但非常有價(jià)值的數(shù)據(jù)上實(shí)現(xiàn)了回報(bào)較大化。輸入數(shù)據(jù)集包括85個(gè)頻道和250個(gè)時(shí)間采樣信號(hào),分成了1到57個(gè)類別。一個(gè)多帶帶主題的數(shù)據(jù)集通常只有2000個(gè)訓(xùn)練樣本,需要大量的超參數(shù)搜索以得到較佳表現(xiàn)。較好的網(wǎng)絡(luò)具有一個(gè)或兩個(gè)具有雙曲正切非線性的隱藏層,并使用Theano庫(kù)在GPU和CPU上進(jìn)行訓(xùn)練。每個(gè)模型訓(xùn)練相對(duì)較快(30分鐘),但是很多模型已經(jīng)在超參數(shù)搜索中訓(xùn)練好了。這些結(jié)果表明,DNN將來(lái)可能成為大腦-機(jī)器接口的較先進(jìn)的方法,這需要更多的工作來(lái)找到在小型數(shù)據(jù)集上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的較佳實(shí)踐。
除了對(duì)義肢修復(fù)至關(guān)重要的大腦信號(hào)的解碼能力,我們還研究了DNN用作揭示神經(jīng)科學(xué)結(jié)構(gòu)的分析工具的能力。我們發(fā)現(xiàn)DNN能夠在嘈雜的單次實(shí)驗(yàn)錄音中提取語(yǔ)音組織的一個(gè)豐富層次結(jié)構(gòu)。提取的層次結(jié)構(gòu)(見(jiàn)圖12)提供了對(duì)語(yǔ)音控制的皮質(zhì)基礎(chǔ)的洞察。我們期望應(yīng)用于神經(jīng)科學(xué)中的數(shù)據(jù)分析問(wèn)題的深度學(xué)習(xí)能夠隨著更大和更復(fù)雜的神經(jīng)數(shù)據(jù)集的發(fā)展而發(fā)展。
圖12 由DNN訓(xùn)練的音節(jié)之間的混淆(即誤差)構(gòu)成的樹(shù)狀圖,用以分類來(lái)自人類大腦活動(dòng)的語(yǔ)音。我們觀察到的語(yǔ)言特征的層次結(jié)構(gòu),提供了對(duì)語(yǔ)言運(yùn)動(dòng)控制的皮質(zhì)組織的新見(jiàn)解。圖片由Jesse Livezey和Kris Bouchard友情提供
使用去噪自編碼器聚類大亞灣數(shù)據(jù)
貢獻(xiàn)者:Samuel Kohn,Evan Racah,Craig Tull,Wahid Bhimji
大亞灣反應(yīng)堆的微中子實(shí)驗(yàn)通過(guò)測(cè)量反微中子的特性和在一個(gè)核反應(yīng)堆中由β-衰變產(chǎn)生的基本的亞原子粒子,來(lái)探索能夠超過(guò)粒子物理學(xué)標(biāo)準(zhǔn)模型的物理模型。物理學(xué)家監(jiān)測(cè)大容量探測(cè)器介質(zhì)(稱為液體閃爍體),并尋找來(lái)自反中微子相互作用的特有的雙閃光。其它背景過(guò)程也會(huì)產(chǎn)生閃光。有些背景閃光(如宇宙射線μ介子)很容易識(shí)別,但是其它的閃光(如由μ介子產(chǎn)生的鋰-9同位素的衰變)跟微中子信號(hào)非常相似。將反中微子信號(hào)跟背景做分離是一項(xiàng)艱巨的任務(wù)。這可能會(huì)導(dǎo)致系統(tǒng)性的不穩(wěn)定和信號(hào)效率降低,因?yàn)檎嬲姆次⒅凶邮录赡軙?huì)在無(wú)意中被忽略。
目前大亞灣數(shù)據(jù)分析使用時(shí)間和總能量來(lái)區(qū)分信號(hào)與背景。但是在光空間分布上還存在信息,因此這可能會(huì)存在更好的區(qū)分方法。通過(guò)使用無(wú)監(jiān)督的深度學(xué)習(xí)技術(shù),我們可以學(xué)習(xí)到識(shí)別與鋰-9衰變不同的反微中子信號(hào)的特征。利用識(shí)別特征的知識(shí),我們可以更新分析模型的分界以增強(qiáng)其識(shí)別能力并提高微中子測(cè)量的精度。
在一個(gè)案例研究中,無(wú)監(jiān)督深度學(xué)習(xí)用于從已知的背景中區(qū)分由兩個(gè)不相關(guān)的閃光引起的反微中子信號(hào)的能力是顯而易見(jiàn)的。在我們的案例研究中,使用真實(shí)數(shù)據(jù)而不是模擬數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。這在監(jiān)督學(xué)習(xí)中是不常見(jiàn)的,但它在無(wú)監(jiān)督制度中發(fā)揮了很好的作用,這是因?yàn)樗四M數(shù)據(jù)和實(shí)際數(shù)據(jù)之間的差異導(dǎo)致的不確定性和偏差。之前的這個(gè)研究使用無(wú)監(jiān)督學(xué)習(xí)來(lái)解決大亞灣實(shí)驗(yàn)中有關(guān)信號(hào)與背景的問(wèn)題。
我們使用去噪卷積自編碼神經(jīng)網(wǎng)絡(luò)(圖13),其分為三個(gè)階段:
損壞階段:三分之一的圖像像素被設(shè)置為零;
編碼階段:物理事件的圖像被壓縮成編碼;
解碼階段:解壓編碼以嘗試恢復(fù)原始物理事件圖像。
為了成功恢復(fù)原始的未破壞圖像,自編碼器必須學(xué)習(xí)如何從所提供的損壞圖像中推斷丟失的信息。當(dāng)被訓(xùn)練正確后,自編碼器會(huì)創(chuàng)建包含輸入圖像的重要區(qū)分特征信息的編碼。
圖13.用于本研究的去噪自編碼器的架構(gòu)。圖片由Samuel Kohn, LBNL友情提供
通過(guò)使用t-SNE維度縮減算法,我們可以在2維笛卡爾平面上顯示16維編碼。在圖14中,神經(jīng)網(wǎng)絡(luò)很明顯地將我們的信號(hào)事件跟意外背景區(qū)分開(kāi),而不是對(duì)單個(gè)事件標(biāo)簽進(jìn)行訓(xùn)練。這是一個(gè)有前途的進(jìn)步,它有助于驗(yàn)證使用無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練真實(shí)數(shù)據(jù)。我們會(huì)繼續(xù)使用意外背景事件的實(shí)驗(yàn)數(shù)據(jù)來(lái)改進(jìn)網(wǎng)絡(luò)架構(gòu),并確定哪些特征對(duì)神經(jīng)網(wǎng)絡(luò)重要。等技術(shù)進(jìn)一步發(fā)展,我們會(huì)將其應(yīng)用于分離鋰-9背景的物理問(wèn)題。
圖14 顯示信號(hào)事件(藍(lán)色)和背景事件(紅色)的編碼的t-SNE圖。藍(lán)色與紅色的分離表示神經(jīng)網(wǎng)絡(luò)識(shí)別出了不在背景中的信號(hào)特征,反之亦然。圖由Samuel Kohn,LBNL友情提供
在大型強(qiáng)子對(duì)撞機(jī)(LHC)上進(jìn)行新的物理事件的分類
貢獻(xiàn)者:Thorsten Kurth,Wahid Bhimji,Steve Farrell,Evan Racah
大型強(qiáng)子對(duì)撞機(jī)(LHC)讓質(zhì)子以能獲得的較高能量每秒碰撞4000萬(wàn)次。每次碰撞會(huì)產(chǎn)生能在諸如ATLAS檢測(cè)器(圖15)這樣的儀器中檢測(cè)到的粒子噴霧,其中電子設(shè)備的數(shù)億通道試圖發(fā)現(xiàn)前所未知的新粒子。LHC的高曝光度升級(jí)(HL-LHC)版預(yù)計(jì)會(huì)使碰撞速度提高一個(gè)數(shù)量級(jí)。來(lái)自當(dāng)前檢測(cè)器的數(shù)據(jù)已經(jīng)達(dá)到數(shù)以百計(jì)的千兆字節(jié)。處理這些巨大且復(fù)雜的數(shù)據(jù)的方法就是使用檢測(cè)器上的“觸發(fā)器”和離線數(shù)據(jù)分析的過(guò)濾器來(lái)快速過(guò)濾掉大部分?jǐn)?shù)據(jù)。在觸發(fā)器對(duì)數(shù)據(jù)進(jìn)行采樣完成后(大約每秒200個(gè)事件),再將其重建為諸如粒子軌跡和能量沉積物的對(duì)象,每個(gè)事件降低到數(shù)百維。然后進(jìn)一步采樣得到分析數(shù)據(jù),其具有取決于感興趣的特定物理現(xiàn)象的數(shù)十個(gè)維度。圖16展示了一個(gè)碰撞事件所展示出的這些檢測(cè)器信號(hào)和更高級(jí)重建對(duì)象。
2013年諾貝爾物理學(xué)獎(jiǎng)?lì)C給了希格斯玻色子理論,是因?yàn)槠湓贚HC中直接檢測(cè)出這種粒子。希格斯玻色子完成了粒子物理的標(biāo)準(zhǔn)模型,而超越標(biāo)準(zhǔn)模型的新物理學(xué)的確切性質(zhì)并不為人所知。因此觸發(fā)器、重建和物理學(xué)分析算法的準(zhǔn)確性和速度會(huì)直接影響到實(shí)驗(yàn)發(fā)現(xiàn)新現(xiàn)象的能力,且比以往任何時(shí)候的影響都更多。已經(jīng)清楚的是,當(dāng)前用于過(guò)濾數(shù)據(jù)的方法和算法將難以從計(jì)算量方面等比例擴(kuò)展到LHC的下一階段,并且它們有錯(cuò)失更多新奇的新物理學(xué)信號(hào)的風(fēng)險(xiǎn)。因此探索創(chuàng)新的有效的方法來(lái)進(jìn)行數(shù)據(jù)過(guò)濾是至關(guān)重要的。使用深度學(xué)習(xí)以初始檢測(cè)器信號(hào)或原始數(shù)據(jù)的尺寸和速率來(lái)進(jìn)行物理學(xué)分析的方法有可能會(huì)產(chǎn)生改變我們對(duì)基本物理學(xué)理解的新發(fā)現(xiàn)。
圖15 LHC的ATLAS檢測(cè)器。 圖片由CERN友情提供,經(jīng)許可使用
圖16 ATLAS檢測(cè)器中的粒子碰撞,顯示了量熱計(jì)中的沉積物和重建的噴設(shè)流。 來(lái)源:ATLAS實(shí)驗(yàn),CERN版權(quán)所有,經(jīng)許可使用
圖17 作為卷積神經(jīng)網(wǎng)絡(luò)的輸入的模擬圖像,其來(lái)自于模擬LHC檢測(cè)器的“量熱計(jì)”部分的信號(hào)。模擬器是由仿真包Pythia和Delphes生成的。圖片由Wahid Bhimji友情提供
深度學(xué)習(xí)提供了學(xué)習(xí)新型選擇過(guò)濾器的可能性,用以提取比現(xiàn)有方法更較精確的稀有的新物理信號(hào),更靈活的可選擇的新物理信號(hào),并可以在大維度的輸入數(shù)據(jù)(對(duì)應(yīng)于檢測(cè)器的通道)上運(yùn)行提取計(jì)算。我們正在探索對(duì)新物理學(xué)的模擬數(shù)據(jù)訓(xùn)練分類器,以及僅使用背景(已知標(biāo)準(zhǔn)模型)樣本來(lái)訓(xùn)練的異常檢測(cè)算法。從粒子物理檢測(cè)器中輸出的信號(hào)可以被認(rèn)為是圖像(如圖17),因此我們可以使用卷積架構(gòu)。我們用于分類的神經(jīng)網(wǎng)絡(luò)的示例架構(gòu)如下圖所示。
圖18 LHC用于數(shù)據(jù)分類的示例架構(gòu)。圖片由Thorsten Kurth友情提供
我們的方法是新穎的。它首先使用來(lái)自檢測(cè)器的數(shù)據(jù),然后使用高分辨率圖像(目前為227×227像素)將其重建為高級(jí)物理對(duì)象。這使我們能夠?qū)W習(xí)更多的敏感模式,其可能不會(huì)被現(xiàn)有的物理算法所發(fā)現(xiàn)。使用大型模型和數(shù)據(jù)集需要擴(kuò)展到跨越多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行,這對(duì)于科學(xué)領(lǐng)域的深度學(xué)習(xí)也是新穎的。
我們目前實(shí)現(xiàn)的分類性能超過(guò)了通常用于選擇這種物理對(duì)象的高級(jí)重建特征的簡(jiǎn)單選擇方法,從而證明了這些類型的架構(gòu)的適用性。我們還將這些架構(gòu)擴(kuò)展到大的計(jì)算資源,并開(kāi)始探索不需要模擬新的物理學(xué)研究興趣的異常檢測(cè)。
存在的挑戰(zhàn)
在回顧了一些深度學(xué)習(xí)的實(shí)際應(yīng)用之后,我們總結(jié)出了以下挑戰(zhàn)(這些挑戰(zhàn)可能是科學(xué)應(yīng)用領(lǐng)域所特有的):
性能和規(guī)模:深度學(xué)習(xí)方法在計(jì)算方面上是昂貴的。我們目前的實(shí)驗(yàn)?zāi)軌蛱幚?到100GB大小的數(shù)據(jù)集,在多核架構(gòu)上要花費(fèi)一天到一周的時(shí)間進(jìn)行收斂。這對(duì)于超參數(shù)調(diào)優(yōu)來(lái)說(shuō)是不允許的。提高多核架構(gòu)的單節(jié)點(diǎn)性能并在O(1000)節(jié)點(diǎn)上使用數(shù)據(jù)和模型并行運(yùn)算來(lái)擴(kuò)展網(wǎng)絡(luò)是非常必要的。
復(fù)雜的數(shù)據(jù):科學(xué)數(shù)據(jù)有許多不同的格式和大小。 2維圖像可以有3-1000個(gè)通道,3維結(jié)構(gòu)化和非結(jié)構(gòu)化的網(wǎng)格是很常見(jiàn)的,稀疏和密集的數(shù)據(jù)集在某些領(lǐng)域是很普遍的,并且經(jīng)常會(huì)遇到編碼了重要關(guān)系的圖形結(jié)構(gòu)。深度學(xué)習(xí)方法/軟件能夠?qū)@些數(shù)據(jù)集進(jìn)行操作是很重要的。
缺乏標(biāo)注過(guò)的數(shù)據(jù):科學(xué)家們無(wú)法輕松的訪問(wèn)大量的高質(zhì)量的標(biāo)注過(guò)的圖像。即使有些領(lǐng)域自己組織和進(jìn)行打標(biāo)簽的活動(dòng),我們也不可能擁有高質(zhì)量的像ImageNet風(fēng)格的包含數(shù)百萬(wàn)圖像的數(shù)據(jù)庫(kù)。許多科學(xué)領(lǐng)域?qū)⑹冀K會(huì)在無(wú)監(jiān)督(也就是沒(méi)有標(biāo)注數(shù)據(jù))或者半監(jiān)督(也就是某些類僅有少量的標(biāo)注過(guò)的數(shù)據(jù))的架構(gòu)下進(jìn)行。因此深度學(xué)習(xí)研究在有限的訓(xùn)練數(shù)據(jù)的情況下能夠繼續(xù)表現(xiàn)出令人信服的結(jié)果是非常重要的。
超參數(shù)調(diào)優(yōu):各學(xué)科領(lǐng)域的科學(xué)家對(duì)調(diào)整網(wǎng)絡(luò)配置(卷積層數(shù)量和深度)、非線性/匯集函數(shù)的類型、學(xué)習(xí)速率、優(yōu)化方案和訓(xùn)練體系等他們領(lǐng)域的具體問(wèn)題的直覺(jué)是有限的。為了將深度學(xué)習(xí)更廣泛地應(yīng)用于科學(xué)領(lǐng)域,打包自動(dòng)調(diào)整這些超參數(shù)的功能是很重要的。
可解釋性:與可能可以接受一個(gè)黑盒子但近乎完美的預(yù)測(cè)器的商業(yè)應(yīng)用來(lái)說(shuō),科學(xué)家需要了解并能向本學(xué)科的其他成員解釋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的功能。他們需要了解學(xué)習(xí)了哪些特征、這些特征是否有物理意義或見(jiàn)解,以及學(xué)習(xí)到的特征的非線性函數(shù)是否跟物理過(guò)程類似。在一個(gè)理想的情況下,函數(shù)和特征的選擇會(huì)受到我們對(duì)科學(xué)學(xué)科理解的約束。目前這個(gè)重要環(huán)節(jié)是缺失的,我們希望下一代深度學(xué)習(xí)研究人員能夠嘗試彌合可解釋性的空缺。
總結(jié)
在勞倫斯伯克利國(guó)家實(shí)驗(yàn)室,我們已經(jīng)展現(xiàn)了許多來(lái)自不同科學(xué)學(xué)科成功應(yīng)用深度學(xué)習(xí)的案例,以及存在的挑戰(zhàn)。公平地總結(jié),深度學(xué)習(xí)的實(shí)踐經(jīng)驗(yàn)是非常令人鼓舞的。我們相信深度學(xué)習(xí)被很多科學(xué)學(xué)科探究并采納只是一個(gè)時(shí)間的問(wèn)題。我們應(yīng)該注意到一些科學(xué)領(lǐng)域?qū)ι疃葘W(xué)習(xí)網(wǎng)絡(luò)的理論基礎(chǔ)和性能提出的更嚴(yán)格的要求。我們鼓勵(lì)深度學(xué)習(xí)研究人員來(lái)參與研究科學(xué)界豐富的和有趣的問(wèn)題。
這篇博文是由勞倫斯伯克利國(guó)家實(shí)驗(yàn)室、加州大學(xué)伯克利分校、UCSF和蒙特利爾大學(xué)共同合作的結(jié)果。
This article originally appeared in English: "A look at deep learning for science".
Prabhat
Prabhat領(lǐng)導(dǎo)了勞倫斯伯克利國(guó)家實(shí)驗(yàn)室和能源部運(yùn)營(yíng)的國(guó)家能源研究科學(xué)計(jì)算中心(NERSC)的數(shù)據(jù)和分析服務(wù)團(tuán)隊(duì)。他的研究興趣包括數(shù)據(jù)分析(統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí))、數(shù)據(jù)管理(并行輸入/輸出、 數(shù)據(jù)格式、數(shù)據(jù)模型)、科學(xué)可視化和高性能計(jì)算。Prabhat在2001年從布朗大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,1999年從印度理工學(xué)院-德里獲得了計(jì)算機(jī)科學(xué)與工程學(xué)士學(xué)位。他目前在美國(guó)加州大學(xué)伯克利分校的地球行星科學(xué)系攻讀博士學(xué)位。
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/4556.html
摘要:我們隊(duì)年的預(yù)測(cè)基本正確,當(dāng)中有些預(yù)測(cè)趨勢(shì)也可以用于新的一年,下面繼續(xù)看到對(duì)年數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的預(yù)測(cè)。 showImg(https://segmentfault.com/img/bVbnqYV?w=1024&h=512); 作者:William VorhiesCDA數(shù)據(jù)分析研究院原創(chuàng)作品, 轉(zhuǎn)載需授權(quán)? 2018年剛剛結(jié)束,在2019年到來(lái)之際,讓我們一起展望在今年數(shù)據(jù)科學(xué)...
摘要:京東更是已經(jīng)實(shí)現(xiàn)深度學(xué)習(xí)的初步運(yùn)用。目前深度學(xué)習(xí)推廣的條件已經(jīng)成熟。李成華表示,隨著深度學(xué)習(xí)的發(fā)展和成熟,的機(jī)器學(xué)習(xí)算法將會(huì)被取代。京東研究深度學(xué)習(xí)的初衷客服對(duì)電商發(fā)展的重要性毋庸置疑。隨后深度學(xué)習(xí)技術(shù)的風(fēng)靡,加深了京東完善的想法。 說(shuō)深度學(xué)習(xí)(Deep Learning)算法是當(dāng)前人工智能皇冠上的明珠并不過(guò)分。通過(guò)深層神經(jīng)網(wǎng)絡(luò)(DNN)模型的運(yùn)用,深度學(xué)習(xí)已成為目前最接近人腦的智能學(xué)習(xí)方法...
摘要:今年月日收購(gòu)了基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)創(chuàng)業(yè)公司。這項(xiàng)基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)技術(shù)已經(jīng)開(kāi)發(fā)完成,正在測(cè)試。深度學(xué)習(xí)的誤區(qū)及產(chǎn)品化浪潮百度首席科學(xué)家表示目前圍繞存在著某種程度的夸大,它不單出現(xiàn)于媒體的字里行間,也存在于一些研究者之中。 在過(guò)去的三十年,深度學(xué)習(xí)運(yùn)動(dòng)一度被認(rèn)為是學(xué)術(shù)界的一個(gè)異類,但是現(xiàn)在, Geoff Hinton(如圖1)和他的深度學(xué)習(xí)同事,包括紐約大學(xué)Yann LeCun和蒙特...
閱讀 3244·2021-11-11 11:00
閱讀 2565·2019-08-29 11:23
閱讀 1441·2019-08-29 10:58
閱讀 2323·2019-08-29 10:58
閱讀 2952·2019-08-23 18:26
閱讀 2507·2019-08-23 18:18
閱讀 2038·2019-08-23 16:53
閱讀 3411·2019-08-23 13:13