摘要:達摩院的科學家們最近在用識別謠言的研究上,有了一些小突破。有始有終,皆大歡喜達摩院所研發的謠言粉碎機,在剛剛結束的全球語義測試中,創造了假新聞識別準確率的新紀錄,達到了前所未有的。謠言粉碎機技術的背后,是一次史無前例的信任重建。
生命不可能從謊言中開出燦爛的鮮花。
前幾天,母上大人給我發了條消息,再三叮囑幫忙擴散,隨手解救癌癥患者。
“速轉!科學家發現:一味中藥48小時可殺死60%癌細胞!”
回復框里,我打了一段長長的反駁文字。在按下發送前沉思良久,為了保住每日的晚飯,我又默默刪除了。
母上大人的朋友圈,啥都不說了
從那句熟悉的“狼來了”開始,謠言開始在我們生活無孔不入,一些不壞好意的人,把謊言變成一張漂亮的包裝紙,裹挾著詐騙、虛榮、不懷好意,肆意橫行:
當全民瘋搶板藍根食鹽白醋,終日人心惶惶;
當“養生秘聞”“200%理財回報”充斥在朋友圈,無數養老錢血本無歸;
當“寒門狀元之死”透支人們對世界的信任;
......
人們被迫練就了一身硬邦邦的鎧甲,一邊斜眉冷視周圍的世界,一邊草木皆兵地生存。寧可信其有,不可信其無。
然而,總有人想改變這一切。達摩院的科學家們最近在用AI識別謠言的研究上,有了一些小突破。
“謠言粉碎機”,也許離我們并不遙遠?
(1)在了解到這個信息后,我第一時間采訪到了達摩院NLP團隊的核心成員之一——李泉志,他本科畢業于清華大學,后在美國獲得自然語言理解方向的博士學位,目前在達摩院的西雅圖辦公室工作。
李泉志,達摩院智能實驗室科學家
在加入達摩院前,他曾是世界級通訊社——路透社重要的“情報官”:通過機器篩選成千上萬的網絡信息,為數千位一線記者提供可靠線索。
借著這個難得的機會,我“假公濟私”,請泉志使用算法鑒定我媽發來的新聞真假,還原“打假”現場。
在泉志的詳細說明下,一個令人驚嘆的“打假”模型逐漸露出。事實上,這個運算邏輯遠比我之前想得要復雜,甚至顯得有點“老謀深算”。
泉志告訴我,判斷一個新聞真假,要分三個步驟。
首先,在盤根錯節的信息里,機器會找到最初的信源,分析其用戶畫像(專業領域,個人或機構,機構類型,影響力,過去發表的內容類型,是否可信,地域,注冊時間,活躍規律等),進而判斷此發布者的信譽度。
如果這條新聞帶有鏈接,我們可以再看看鏈接的域名,是否來自可信網站,比如新華社、政府醫藥管理局。
接下來,我們拿起聽診器,細細揣摩正文的“心跳聲”:
“一味中藥48小時可殺死60%癌細胞!”打開正文,我們看看究竟這味中藥的成分是哪些?具體對哪些癌細胞起作用?機器會把這些關鍵的論證提煉為知識點,與知識圖譜里的權威知識庫做匹配驗證。如果毫無聯系、自相矛盾,減分。
泉志表示,除了內容不實、上下文邏輯不連貫外,機器還能從行文風格里找到蛛絲馬跡。比如:
“多一次轉發就多一次活命機會”
“傳瘋了!晚上一定要關wifi,太嚇人了”
......
是的,機器連“標題黨”都不放過!假新聞經常會采用夸大性、空洞的說辭來危言聳聽。真新聞往往行文嚴謹、一絲不茍。
如果說前面兩步,還算是常規操作。第三步,就是關鍵:對傳播路徑的深入分析。
一條謠言在社交網絡里引爆,必然有無數的人密集關注。在留言、轉發等行為里,有人贊同,有反對,還有質疑,或者只是簡單的路過,都是一種態度。
機器統計不僅能統計所有用戶的態度,更不可思議的是,它會“看人下菜”,區別對待每條發言的分量。
比如,我弟轉發了母上發來的新聞,冒著零用錢縮水的危險表示:“假的!昨天食品監督局已經公開辟謠了”——這條反對意見質疑得較為有力,權重提升。
隨后,ID為“小旺仔”的用戶也在此條新聞下留言,只寫了四個字:消息不實。雖然寥寥數字,但是機器一看,不得了,小旺仔的認證信息是該省第一附屬醫院的醫學教授,權重也得提升。
機器會對所有反饋用戶進行畫像分析:是否是認證用戶、過去發表的內容類型、注冊時間、活躍規律、是否和事件發生地在同一個地方等,以此來計算用戶信譽度。最后根據不同態度的人群比例、各自的信譽度,以及處于傳播路徑中的位置等信息,計算出此新聞的可信度。
“如果有人轉發了小旺仔的留言,表示‘舉雙爪支持’,系統會不會認為這是對新聞的贊同?”我感覺自己抓到了系統漏洞,有點小激動。
泉志表示這個問題提得非常好,接著干脆地做了否定:“我們的整個傳播路徑是個神經網絡,環環相扣,不會斷章取義的。”
以上三步中計算出的信息會輸入到神經網絡模型中。基于這些信息,模型會綜合判斷出此新聞是否為謠言。
(2)這個模型的魅力之處在于,你不必為它編寫程序去學習人類的指令:它能完全自主學習訓練,就像人腦一樣“思考”。隨著知識庫的日益豐富,它的判斷能力會越來越好。
“簡直是一位飛速成長的大編輯!”我感嘆道。
“這還不是全部”,泉志爽朗笑了,“我們還用了多任務學習,‘一心多用’,讓機器在同一時間完成多個復雜任務,判斷內容真假、觀察傳播路徑、挖掘用戶畫像這些都能同時進行?!?/p>
在有條不紊的運算機制里,機器就像一位冷峻的解剖師,切開浮夸的表象,梳理每一條新聞的經脈、肌理走向,抽絲剝繭,層層剝開,最終找到事實的內核。
泉志接著又透露了一個重要信息——這項技術不僅能控制假新聞源頭、防止謠言大規模擴散,它還有一個隱藏的“大招”。
傳謠容易,辟謠難。謠言的擴散速度猶如遇到林木的大火,一點即燃,但是當真相出來時,卻往往無人問津。
比如,網絡曾謠傳市面上的香蕉大多泡過藥水,許多人從此再沒買過香蕉。即使數年后風頭過去,還有人表示吃香蕉總覺得有藥水味。
這項技術的隱藏”大招“,是可以針對性地為民眾辟謠。根據傳播路徑索引,曾經支持“香蕉浸泡毒液”的人,都可以收到官方的辟謠信息:香蕉浸泡的白色液體不是甲醛,而是符合國家安全標準的保鮮劑,無毒無害;吃醬油不會變黑、開水重復燒也不會有事,交999元每月回報99的“好事”自然更是子虛烏有。
有始有終,皆大歡喜!
(3)達摩院所研發的“AI謠言粉碎機”,在剛剛結束的SemEval全球語義測試中,創造了假新聞識別準確率的新紀錄,達到了前所未有的81%。
SemEval 是自然語言處理領域的國際權威比賽,由國際計算語言學學會舉辦。假新聞識別是此次比賽的主要項目之一,吸引了哥倫比亞大學、華盛頓大學、艾倫·圖靈研究所等20多路頂級高手參與。
賽題是這樣的:
主辦方向所有參賽者提供社交媒體上470余條新聞、以及一萬多條相關的留言、轉發等數據。參賽者需要根據這些有限的信息,判斷這數百條新聞是真是假。
這些似是而非的新聞涉及政治、娛樂、商業、科技等多個領域,比如——
特朗普的差旅開支遠遠低于奧巴馬;
太陽報:英國女王支持英國脫歐;
震驚了!臺風過后,高速公路出現一條大鯊魚;
美國九成媒體被六家公司控制;
吉薩金字塔能利用隱秘的房間集中電磁能能量;
......
此次比賽桂冠由達摩院NLP首席科學家司羅所屬的團隊斬獲,真假新聞二分類上的準確率高達81%,刷新了本競賽系列上macro F 、RMSE兩項關鍵性指標的世界記錄。
在此之前,達摩院NLP團隊曾在機器閱讀理解頂級賽事SQuAD上,憑借82.440的精準率打破了歷史紀錄;在國際頂級機器翻譯大賽WMT上,連奪英文-中文翻譯、英文-俄語互譯、英文-土耳其語互譯5項第一。
讓機器讀懂人類語言,并判斷人類的表達意圖,從而進一步幫助人類實現對信息真假的判斷,達摩院的科學家們,從未放棄對技術難題的攻克。
(4)隔著一萬多千米的太平洋,與泉志說再見后,我突然想起了今年春晚的小品《“兒子”來了》:葛優飾演的保健品銷售員,用夸張的“床墊”欺騙一對老夫妻。
從“狼來了”到“兒子來了”,信任在不知不覺中成了世上最高的門檻。
我們知道天下不會掉餡餅,但當周圍人都在轉發高額理財新聞時仍會忍不住動搖;
我們本不會勤于研究飯菜的化學中和反應,但萬一同時吃了螃蟹和香菇中毒呢;
我們從不擔心銀行沒收存款,但在接到短信“銀行卡已被凍結需支付保證金”時虎軀一震……
人類的原始本能告訴我們要相信彼此,然而世界正變得日益龐大和復雜,道德、名聲的影響力已不如往昔,傳統的信任出現了縫隙。
“謠言粉碎機”技術的背后,是一次史無前例的信任重建。只有假新聞被扼殺在繁衍的溫床里,破碎將傾的信任才會被重新扶起頂天立地。
而信任,是愛的最好證明。
AI = 愛。
閱讀原文
本文來自云棲社區合作伙伴“阿里技術,如需轉載請聯系原作者。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19944.html
摘要:背景有時我們能在開發者工具的里觀察到應用會發出某些狀態為取消的請求。如下圖第五個請求。之前有一種似是而非的說法極短時間內發送兩個請求,則第一個會自動被掉。前一個請求的還處于的時候。就讀的代碼和觀察到的現象,在上發起或者的時候。 背景 有時我們能在Chrome開發者工具的Network tab里觀察到SAP UI5應用會發出某些狀態為取消的OData請求。如下圖第五個請求。 之前有一種似...
摘要:背景有時我們能在開發者工具的里觀察到應用會發出某些狀態為取消的請求。如下圖第五個請求。之前有一種似是而非的說法極短時間內發送兩個請求,則第一個會自動被掉。前一個請求的還處于的時候。就讀的代碼和觀察到的現象,在上發起或者的時候。 背景 有時我們能在Chrome開發者工具的Network tab里觀察到SAP UI5應用會發出某些狀態為取消的OData請求。如下圖第五個請求。 之前有一種似...
摘要:背景有時我們能在開發者工具的里觀察到應用會發出某些狀態為取消的請求。如下圖第五個請求。之前有一種似是而非的說法極短時間內發送兩個請求,則第一個會自動被掉。前一個請求的還處于的時候。就讀的代碼和觀察到的現象,在上發起或者的時候。 背景 有時我們能在Chrome開發者工具的Network tab里觀察到SAP UI5應用會發出某些狀態為取消的OData請求。如下圖第五個請求。 之前有一種似...
摘要:背景有時我們能在開發者工具的里觀察到應用會發出某些狀態為取消的請求。如下圖第五個請求。之前有一種似是而非的說法極短時間內發送兩個請求,則第一個會自動被掉。前一個請求的還處于的時候。就讀的代碼和觀察到的現象,在上發起或者的時候。 背景 有時我們能在Chrome開發者工具的Network tab里觀察到SAP UI5應用會發出某些狀態為取消的OData請求。如下圖第五個請求。 之前有一種似...
閱讀 3026·2021-11-24 09:39
閱讀 2255·2021-10-08 10:05
閱讀 2749·2021-09-24 13:52
閱讀 1569·2021-09-22 15:07
閱讀 589·2019-08-30 15:55
閱讀 1808·2019-08-30 15:53
閱讀 687·2019-08-30 15:44
閱讀 3116·2019-08-30 11:20