Facebook的人工智能實(shí)驗(yàn)室在Github發(fā)布開源的fastText工具

everfly 發(fā)布于2019-04-25 18:04 / 3139人閱讀

摘要：為了能夠?qū)ξ谋拘畔⑦M(jìn)行既快速又準(zhǔn)確的分類，人工智能研究實(shí)驗(yàn)室開發(fā)出了。宣布這項(xiàng)新的開源技術(shù)可以在分鐘內(nèi)用標(biāo)準(zhǔn)的多核訓(xùn)練超過億個(gè)詞語。還能在不超過分鐘的時(shí)間內(nèi)對(duì)萬個(gè)句子進(jìn)行超過萬種分類。從文章發(fā)表之日起，的源代碼可以在上自由獲取。

Facebook上每天有數(shù)十億條信息被共享。為了跟上信息增長的速度，F(xiàn)acebook一直在使用多種不同的文本信息歸類工具。傳統(tǒng)的分類方法，如深度神經(jīng)網(wǎng)絡(luò)，雖然能達(dá)到較高的較精確度，但對(duì)大量訓(xùn)練的需求是一個(gè)嚴(yán)重的問題。

為了能夠?qū)ξ谋拘畔⑦M(jìn)行既快速又準(zhǔn)確的分類，F(xiàn)acebook人工智能研究（FAIR）實(shí)驗(yàn)室開發(fā)出了fastText。今天Facebook公開了fastText的源代碼，以供開發(fā)者隨時(shí)隨地使用它的代碼庫。

FastText不但支持文本分類，還可以通過詞匯包（bag of words）和分解詞語信息（subword information）等方法學(xué)習(xí)詞語向量表示（word vector representation）。基于Skip-gram模型，詞語以向量呈現(xiàn)的字母n-gram模型（假設(shè)第n個(gè)字符出現(xiàn)只與前n-1個(gè)字符有關(guān)的概率模型，譯注）包的形式呈現(xiàn)。

“為了在分類繁多的數(shù)據(jù)處理中提高效率，fastText利用了層級(jí)分類器，用樹狀的形式組織不同的分類，而不是扁平的結(jié)構(gòu)（如用二叉樹結(jié)構(gòu)代替列表）。”Facebook作者 Armand Joulin, Edouard Grave, Piotr Bojanowski和Tomas Mikolov在一篇帖子上說。?

對(duì)那些較低程度的人工智能來說，詞匯包的方法是快速的，因?yàn)檫@種方法從根本上忽略了詞語順序，而專注于計(jì)算詞語出現(xiàn)的概率。“詞語”被呈現(xiàn)在多維空間中，利用線性代數(shù)的方法計(jì)算一組或一類詞語之間的相關(guān)性。要記住，我們?cè)陔娔X上輸入詞語時(shí)，都是從頭開始的。對(duì)掌握語言的人類來說，語法是有指導(dǎo)作用的——我們知道詞語的結(jié)構(gòu)作用，知道以什么詞開始、以什么詞結(jié)尾。電腦雖然能處理最復(fù)雜的計(jì)算任務(wù)，但在區(qū)分“I love TechCrunch”和“Crunch Love iTech.”兩句話時(shí)會(huì)遇到困難。類似詞匯包這樣的方法，從根本上通過增加數(shù)學(xué)運(yùn)算把質(zhì)量分析轉(zhuǎn)化為數(shù)量分析。

這些技術(shù)能讓fastText運(yùn)行的比傳統(tǒng)深度學(xué)習(xí)方法更快速。Facebook做了一個(gè)實(shí)用的對(duì)比圖表，準(zhǔn)確地展現(xiàn)了兩種方法的對(duì)比結(jié)果。

FastText的使用不限于英語，還能用于德語、西班牙語、法語和捷克語等語言的處理。

這個(gè)月早些時(shí)候，F(xiàn)acebook在新聞推送服務(wù)中加入了防釣魚算法。雖然這個(gè)算法非常復(fù)雜，可以進(jìn)行行為和語言鑒別兩方面的任務(wù)，但公開的fastText可以讓開發(fā)者自己創(chuàng)建與之類似的工具。

Facebook宣布這項(xiàng)新的開源技術(shù)可以“在10分鐘內(nèi)用標(biāo)準(zhǔn)的多核CPU訓(xùn)練超過10億個(gè)詞語。FastText還能在不超過5分鐘的時(shí)間內(nèi)對(duì)50萬個(gè)句子進(jìn)行超過30萬種分類。”這并沒有自夸。

從文章發(fā)表之日起，F(xiàn)acebook的fastText源代碼可以在Github上自由獲取。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754