摘要:為了能夠?qū)ξ谋拘畔⑦M(jìn)行既快速又準(zhǔn)確的分類,人工智能研究實(shí)驗(yàn)室開發(fā)出了。宣布這項(xiàng)新的開源技術(shù)可以在分鐘內(nèi)用標(biāo)準(zhǔn)的多核訓(xùn)練超過億個(gè)詞語。還能在不超過分鐘的時(shí)間內(nèi)對(duì)萬個(gè)句子進(jìn)行超過萬種分類。從文章發(fā)表之日起,的源代碼可以在上自由獲取。
Facebook上每天有數(shù)十億條信息被共享。為了跟上信息增長的速度,F(xiàn)acebook一直在使用多種不同的文本信息歸類工具。傳統(tǒng)的分類方法,如深度神經(jīng)網(wǎng)絡(luò),雖然能達(dá)到較高的較精確度,但對(duì)大量訓(xùn)練的需求是一個(gè)嚴(yán)重的問題。
為了能夠?qū)ξ谋拘畔⑦M(jìn)行既快速又準(zhǔn)確的分類,F(xiàn)acebook人工智能研究(FAIR)實(shí)驗(yàn)室開發(fā)出了fastText。今天Facebook公開了fastText的源代碼,以供開發(fā)者隨時(shí)隨地使用它的代碼庫。
FastText不但支持文本分類,還可以通過詞匯包(bag of words)和分解詞語信息(subword information)等方法學(xué)習(xí)詞語向量表示(word vector representation)。基于Skip-gram模型,詞語以向量呈現(xiàn)的字母n-gram模型(假設(shè)第n個(gè)字符出現(xiàn)只與前n-1個(gè)字符有關(guān)的概率模型,譯注)包的形式呈現(xiàn)。
“為了在分類繁多的數(shù)據(jù)處理中提高效率,fastText利用了層級(jí)分類器,用樹狀的形式組織不同的分類,而不是扁平的結(jié)構(gòu)(如用二叉樹結(jié)構(gòu)代替列表)。”Facebook作者 Armand Joulin, Edouard Grave, Piotr Bojanowski和Tomas Mikolov在一篇帖子上說。?
對(duì)那些較低程度的人工智能來說,詞匯包的方法是快速的,因?yàn)檫@種方法從根本上忽略了詞語順序,而專注于計(jì)算詞語出現(xiàn)的概率。“詞語”被呈現(xiàn)在多維空間中,利用線性代數(shù)的方法計(jì)算一組或一類詞語之間的相關(guān)性。要記住,我們?cè)陔娔X上輸入詞語時(shí),都是從頭開始的。對(duì)掌握語言的人類來說,語法是有指導(dǎo)作用的——我們知道詞語的結(jié)構(gòu)作用,知道以什么詞開始、以什么詞結(jié)尾。電腦雖然能處理最復(fù)雜的計(jì)算任務(wù),但在區(qū)分“I love TechCrunch”和“Crunch Love iTech.”兩句話時(shí)會(huì)遇到困難。類似詞匯包這樣的方法,從根本上通過增加數(shù)學(xué)運(yùn)算把質(zhì)量分析轉(zhuǎn)化為數(shù)量分析。
這些技術(shù)能讓fastText運(yùn)行的比傳統(tǒng)深度學(xué)習(xí)方法更快速。Facebook做了一個(gè)實(shí)用的對(duì)比圖表,準(zhǔn)確地展現(xiàn)了兩種方法的對(duì)比結(jié)果。
FastText的使用不限于英語,還能用于德語、西班牙語、法語和捷克語等語言的處理。
這個(gè)月早些時(shí)候,F(xiàn)acebook在新聞推送服務(wù)中加入了防釣魚算法。雖然這個(gè)算法非常復(fù)雜,可以進(jìn)行行為和語言鑒別兩方面的任務(wù),但公開的fastText可以讓開發(fā)者自己創(chuàng)建與之類似的工具。
Facebook宣布這項(xiàng)新的開源技術(shù)可以“在10分鐘內(nèi)用標(biāo)準(zhǔn)的多核CPU訓(xùn)練超過10億個(gè)詞語。FastText還能在不超過5分鐘的時(shí)間內(nèi)對(duì)50萬個(gè)句子進(jìn)行超過30萬種分類。”這并沒有自夸。
從文章發(fā)表之日起,F(xiàn)acebook的fastText源代碼可以在Github上自由獲取。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://specialneedsforspecialkids.com/yun/4383.html
摘要:部署旨在幫助開發(fā)人員和研究人員訓(xùn)練大規(guī)模機(jī)器學(xué)習(xí)模型,并在移動(dòng)應(yīng)用中提供驅(qū)動(dòng)的用戶體驗(yàn)。現(xiàn)在,開發(fā)人員可以獲取許多相同的工具,能夠在大規(guī)模分布式場(chǎng)景訓(xùn)練模型,并為移動(dòng)設(shè)備創(chuàng)建機(jī)器學(xué)習(xí)應(yīng)用。 AI 模型的訓(xùn)練和部署通常與大量數(shù)據(jù)中心或超級(jí)計(jì)算機(jī)相關(guān)聯(lián),原因很簡(jiǎn)單。從大規(guī)模的圖像、視頻、文本和語音等各種信息中持續(xù)處理、創(chuàng)建和改進(jìn)模型的能力不是小型計(jì)算擅長的。在移動(dòng)設(shè)備上部署這些模型,使其快速輕量...
摘要:下圖總結(jié)了絕大多數(shù)上的開源深度學(xué)習(xí)框架項(xiàng)目,根據(jù)項(xiàng)目在的數(shù)量來評(píng)級(jí),數(shù)據(jù)采集于年月初。然而,近期宣布將轉(zhuǎn)向作為其推薦深度學(xué)習(xí)框架因?yàn)樗С忠苿?dòng)設(shè)備開發(fā)。該框架可以出色完成圖像識(shí)別,欺詐檢測(cè)和自然語言處理任務(wù)。 很多神經(jīng)網(wǎng)絡(luò)框架已開源多年,支持機(jī)器學(xué)習(xí)和人工智能的專有解決方案也有很多。多年以來,開發(fā)人員在Github上發(fā)布了一系列的可以支持圖像、手寫字、視頻、語音識(shí)別、自然語言處理、物體檢測(cè)的...
摘要:昨日,研究人員開源工具包,并表示這個(gè)工具包可快速建立有效且可重復(fù)使用的學(xué)習(xí)系統(tǒng),從而促進(jìn)深度學(xué)習(xí)協(xié)同發(fā)展。支持機(jī)器學(xué)習(xí)與人工智能已經(jīng)出現(xiàn)很多年,它們的大多研究進(jìn)展已經(jīng)被公用研究數(shù)據(jù)集和更強(qiáng)大的計(jì)算機(jī)所支持尤其是。 昨日,F(xiàn)acebook 研究人員開源 Torchnet 工具包,并表示這個(gè)工具包可快速建立有效且可重復(fù)使用的學(xué)習(xí)系統(tǒng),從而促進(jìn)深度學(xué)習(xí)協(xié)同發(fā)展。在發(fā)布的這篇 Blog 中,F(xiàn)ace...
摘要:誕生已經(jīng)有十年之久,但是真正起勢(shì)得益于去年開源了大量的深度學(xué)習(xí)模塊和擴(kuò)展。來自一個(gè)日本的深度學(xué)習(xí)創(chuàng)業(yè)公司,今年月發(fā)布的一個(gè)框架。顧名思義,是的深度學(xué)習(xí)框架,也是較早的商用級(jí)別的深度學(xué)習(xí)開源庫。 本周早些時(shí)候Google開源了TensorFlow(GitHub),此舉在深度學(xué)習(xí)領(lǐng)域影響巨大,因?yàn)镚oogle在人工智能領(lǐng)域的研發(fā)成績斐然,有著雄厚的人才儲(chǔ)備,而且Google自己的Gmail和搜索...
摘要:截止到今天,已公開發(fā)行一周年。一年以來,社區(qū)中的用戶不斷做出貢獻(xiàn)和優(yōu)化,在此深表感謝。所以與衡量它的指標(biāo)包括在機(jī)器學(xué)習(xí)研究論文中的使用。來自香港科技大學(xué)的在上推出了面向普通觀眾的在線課程。 Yann LeCun Twitter截止到今天,PyTorch 已公開發(fā)行一周年。一年以來,我們致力于打造一個(gè)靈活的深度學(xué)習(xí)研究平臺(tái)。一年以來,PyTorch 社區(qū)中的用戶不斷做出貢獻(xiàn)和優(yōu)化,在此深表感謝...
閱讀 1551·2021-09-22 15:52
閱讀 3458·2021-09-22 14:59
閱讀 2842·2021-09-02 15:12
閱讀 971·2021-08-20 09:35
閱讀 1577·2019-08-30 14:09
閱讀 2709·2019-08-30 13:56
閱讀 1645·2019-08-26 18:27
閱讀 3363·2019-08-26 13:37