摘要:安全部隊迅速采取報復行動,焚燒村莊并進行了持續數周的大規模屠殺。其中包括俄羅斯的選舉干預就業歧視,以及緬甸種族滅絕的幫兇。應用機器學習小組的工程師對此表示贊同。
“知物由學”是網易云易盾打造的一個品牌欄目,詞語出自漢·王充《論衡·實知》。人,能力有高下之分,學習才知道事物的道理,而后才有智慧,不去求問就不會知道。“知物由學”希望通過一篇篇技術干貨、趨勢解讀、人物思考和沉淀給你帶來收獲的同時,也希望打開你的眼界,成就不一樣的你。當然,如果你有不錯的認知或分享,也歡迎通過郵件投稿 :zhangyong02@corp.netease.com
導讀:Facebook在過去一年面臨了一系列令人眼花繚亂的指控和丑聞。Facebook CEO Mark Zuckerberg表示人工智能將幫助解決該公司平臺上存在的問題,那么依靠人工智能真的能“治好”Facebook上的內容問題嗎?
本文作者:Tom Simonitez;譯者:陸小鳳
2017年8月25日凌晨,緬甸羅興亞穆斯林少數民族一個衣衫襤褸的叛亂組織襲擊了該國西北部的軍事哨所,造成12人死亡。安全部隊迅速采取報復行動,焚燒村莊并進行了持續數周的大規模屠殺。隨著羅興亞有數千人死亡,緬甸軍方領導人開始在Facebook上發帖。
這位總司令在一篇帖子中承諾要解決“孟加拉問題”,而這是對緬甸羅興亞人的蔑稱。另一位將軍寫了贊揚的話“為恢復地區和平所作的杰出努力”,并指出“種族不能被土地吞沒,只能被另一個種族吞沒。”同時聯合國一份有關暴力事件的調查報告后來指出,總司令的帖子暗示了種族滅絕,并指出Facebook上的帖子在緬甸激起了對羅興亞人的仇恨。代表團的主席告訴記者,該網站在這次危機中發揮了“決定性作用”。今年4月在美國國會,參議員Jeff Flake問Facebook首席執行官Mark Zuckerberg,他的公司如何才能避免扮演這一角色。這位33歲態度冷淡的億萬富翁指出,他雇傭了更多會說緬甸語的人。然后他闡述了他最喜歡的話題——人工智能。他表示:“從長期來看,構建人工智能工具將是一種可擴展的方式,能夠識別并根除大部分此類有害內容。”在兩天的國會聽證會上,扎克伯格30多次提到人工智能。他對議員們說,人工智能將打擊虛假新聞,防止具有種族或性別歧視的廣告,并阻礙恐怖主義宣傳。過去一年里,Facebook面臨了一系列令人眼花繚亂的指控和丑聞。其中包括俄羅斯的選舉干預、就業歧視,以及緬甸種族滅絕的“幫兇”。周一,參議院的一份報告稱,俄羅斯在Facebook上的活動遠遠超過此前所知,并暗示該公司淡化了有關俄羅斯黑客利用其產品在2016年總統大選期間壓低投票率的誤導國會的說法。
Facebook的許多道歉表達了一個共同的主題:人工智能將幫助解決該公司平臺上存在的問題。該公司首席技術官Mike Schroepfer表示,這項技術是防止壞人利用該產品的唯一途徑。因為擁有23億的常規用戶,讓所有的東西都由人工來審核將是一件恐怖而且代價很大的事情。Schroepfer說:“在我看來,人工智能是實現這一想法的最佳工具——我實際上不知道還有什么別的選擇。”
依靠人工智能是一場賭博。事實證明,算法能夠幫助監管Facebook,但它們遠不是包治百病的靈丹妙藥,或許永遠也不是。該公司在檢測和屏蔽色情和裸體方面取得了巨大成功,但是訓練軟件對文本進行可靠的解碼比對圖像進行分類要困難得多。為了在其龐大的平臺上壓制騷擾、仇恨言論和危險的陰謀論,Facebook需要能夠理解100多種不同語言的細微差別的人工智能系統。任何不足之處都必須由Facebook約1.5萬名人工評審員來審核,但就該社交網絡的規模而言,尚不清楚他們的工作量將如何管理。正如緬甸發生的事件所顯示的那樣,對于那些正被Facebook塑造的世界的人來說, Menlo Park執法網絡中看似微小的事情,對于那些正沉浸在Facebook塑造的世界的人來說,可能會感覺到極大的危險。
肉體探測器
Facebook對內容審核自動化的努力是由一位廣告高管發起的,而不是網絡言論方面的專家。2014年,Tanton Gibbs被聘為工程總監,從事廣告技術方面的工作,此前他曾在微軟和谷歌工作。在聽到Facebook的審核挑戰后,他建議采用一種更多算法優先的方法。Facebook采用了微軟和達特茅斯學院開發的名為“PhotoDNA”的工具來屏蔽已知的兒童剝削圖片,但沒有在更廣泛的范圍內部署圖像分析軟件或人工智能。Tanton Gibbs說:“他們嚴格利用人類來審核諸如色情、仇恨言論或暴力圖片之類的舉報。我認為我們應該實現自動化。”于是Facebook任命Tanton Gibbs領導一個最初名為CareML的新團隊,總部設在西雅圖。
這個新團體很快證明了它的價值。Tanton Gibbs和他的工程師們采用了“深度學習”的技術,這是一種最近變得更加強大的用樣本數據來訓練算法的方法,谷歌在開發能夠識別貓的軟件時展示了這項技術的強大。Tanton Gibbs的小組則是安靜的做著識別色情和裸體人類的深度學習算法。最初,該軟件只是對Facebook用戶舉報的圖片進行審核。一年半之后,Tanton Gibbs得到了允許,允許他的系統在任何人舉報之前去審核新提交的內容。Facebook表示,96%的成人和裸照現在都是在任何人舉報之前就被自動檢測和刪除的。
96%的數字看似很成功,但仍然有很多裸體圖片和視頻通過了Facebook的算法。2018年第三季度,他們刪除了3080萬張裸體或性行為的圖片和視頻:這意味著算法沒有捕捉到130萬張這樣的圖像。事實上,據Facebook估計,截止今年9月的12個月里,瀏覽裸體或色情內容的比例幾乎翻了一番,達到每10000次瀏覽中約9次。Facebook在其最新的社區標準執行報告中表示:“Facebook上出現了更多的裸照,我們的系統未能及時捕捉到所有裸照去阻止瀏覽量的增長。”有很多信息被發現時可以看到的,但沒有被發現或舉報的信息量的大小是不可知的。
盡管如此,Tanton Gibbs在打擊色情方面的成功,已經成為Facebook高管們最喜歡談論的話題——人工智能在這方面很有潛力。這是一個有效的證據,證明了算法防御系統可以幫助Facebook用戶免受有害內容的侵害,公司也可以免受托管內容的影響。Facebook表示,在最近三個月從該平臺刪除的仇恨言論中,略多于一半首先被算法標記出來,是今年早些時候比例的兩倍多。大約15%因欺凌行為而被刪除的帖子在沒有人舉報之前就被標記并刪除了。不過,在另外的情況下算法不會直接刪除帖子,它會標記出,由人工審核。
Facebook面臨的挑戰是如何讓它的技術發揮足夠好的作用,讓大約15,000名內容審核人員可以在100多個國家/地區和服務使用的語言中輕松應對這一問題。
然而,Facebook人工智能內容審核技術在仇恨言論與欺凌上,無法達到像識別色情那樣有效。深度學習算法很擅長將圖像分類,如貓或汽車,色情或非色情。他們還使計算機在語言方面做得更好,使Alexa等虛擬助手成為可能,自動翻譯的準確性也有了顯著提高,但要像人類那樣理解相對簡單的文本還有很長的路要走。
解碼語言
為了弄清楚一篇寫著“我要打你”的帖子是威脅還是善意的玩笑,人工審核員可能會毫不費力地把它與附近籃球場的圖像、或早期信息的措辭和語氣聯系起來。德克薩斯A&M大學教授黃瑞紅表示:“目前一個模型如何能以這種方式利用上下文還不清楚。”今年秋天,在世界頂級語言處理研究會議上,她組織了一場學術研討會,主題是利用算法對抗網絡濫用。與2017年首次舉辦相比,出席人數和提交論文數量大約翻了一番,這并不是因為研究人員嗅到了勝利的氣息。“許多公司和學術界人士都意識到這是一項重要的任務和問題,但到目前為止,進展并不令人滿意,”黃瑞紅說。“簡而言之,目前的模型并不那么智能,這就是問題所在。”
Facebook應用機器學習小組的工程師Srinivas Narayanan對此表示贊同。他為他的團隊在掃描色情和仇恨言論的系統上所做的工作感到驕傲,但是人類水平的準確性和細微差別仍然是一個遙遠的目標。他表示:“我認為,我們仍遠不能解決這一點。”“我認為機器最終能做到,但我們不知道如何做到。”
Facebook擁有一個大型跨國人工智能實驗室,致力于長期的基礎研究,或許有一天能幫助解開這個謎。現在也有記者、立法者、公民社會團體,甚至聯合國,他們都期待能有所改善。Facebook的人工智能團隊需要開發一些策略,以便在下一次丑聞爆發前取得有意義的進展。
推動實用新人工智能的產品包括今年發布的Rosetta系統,該系統可以讀取嵌入圖像和視頻中的文本,并對其做仇恨言論檢測(有證據表明,一些網絡巨魔已經在測試欺騙它的方法)。另一個項目利用Instagram用戶的數十億個標簽來改進Facebook的圖像識別系統。該公司甚至利用Facebook上欺凌帖子的樣本來訓練一種人工智能網絡欺凌,它生成文本生成器來推動其審核算法變得更好。
這些項目面臨的一個重大挑戰是,當今的機器學習算法必須經過狹隘而具體的數據訓練。今年夏天,Facebook改變了一些內容審核員的工作方式,部分原因是為了產生更多仇恨言論有用訓練數據。工作人員沒有利用他們對Facebook規則的理解來直接決定是否刪除一個標記為仇恨言論的帖子,而是回答一系列較為狹隘的問題。比如那篇文章有誹謗嗎?它是否涉受保護的類別?這篇文章中是否有類別受到攻擊了?Aashin Gautam領導了一個開發內容審核流程的團隊,他說:“這種粒度標記讓我們得到了非常令人興奮的原始訓練數據來構建分類器。”Facebook正在探索將這種新模式永久化,首先是針對仇恨言論,然后可能是針對其他類別的被禁內容。
在其他地方,Facebook正試圖避免訓練數據問題。負責全球運營的副總裁Justin Osofsky表示,緬甸發生的悲慘事件給我們上了一課,那就是該公司需要更好地利用人工和軟件來理解不同市場的語言和文化。
對于Facebook來說,訓練多種語言文本解碼算法的傳統方法極其昂貴。要發現英語中的生日祝福或仇恨言論,你需要千個樣本,最好是數百萬個樣本。每次你想要擴展到一種新的語言,你都需要一組新的數據,這對Facebook這樣規模的公司來說是一個重大挑戰。
作為一種解決方案,Facebook正在調整為通用語言(如英語或西班牙語)構建的系統,以適用于較不常用的語言(如羅馬尼亞語或馬來語)。一種方法涉及使用自動翻譯。Facebook已經能夠通過將帖子轉換成英語來抑制包括匈牙利語和希臘語中的clickbait(標題黨),這樣就可以將它們送入受過內容培訓的clickbait探測器。它還可以通過翻譯英語為不太常用的語言提供新的培訓集。另一個項目涉及創建基于語言間深層相似性的多語言系統,這意味著一旦用英語訓練任務,他們也可以立即用意大利語做同樣的事情。Narayanan說:“這些多語言方法確實有助于我們加快將人工智能應用于跨語言完整性問題的能力。”
該項目還有助于說明Facebook面臨挑戰的規模。到目前為止,該公司的多語言變通方法還不能適用于公司擁有相對較小數據集(如緬甸語)的語言。豪薩語(Hausa)也面臨著同樣的挑戰。豪薩語是西非一種用于反穆斯林仇恨言論的語言,當地警方上月告訴BBC,這種語言已導致十幾起謀殺案。Facebook說,它正在擴大與尼日利亞事實核查組織和非政府組織的關系,并利用機器學習來標記仇恨言論和暴力圖片。
被邀請展望未來時,Facebook首席技術官Mike Schroepfer承認,防止此類事件的發生是不可能的。他說:“我經常問自己的一個問題是,其他同樣復雜的工作有100%的安全記錄嗎?”他說:“我想不出一個。飛機,汽車,太空旅行,執法。你知道有哪個城市的犯罪率是零嗎?”
盡管如此,他對Facebook的發展道路仍持足夠樂觀的態度,想象有一天,它的算法會非常有效,欺凌和仇恨言論幾乎消失了。
如果你是中小創業公司,在內容安全上覺得投入成本過高,無運營經驗,也擔心相關政策理解不到位,更擔心投入了那么多沒效果,那么你可以嘗試用下易盾的內容安全業務。
點擊一鍵接入專業的易盾內容安全解決方案。
文章來源: 網易云社區
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/25426.html
摘要:由于這種現象,人工智能通常聽起來像是一個神話般的未來預測而不是現實。有三種主要的人工智能能力類別類別弱人工智能有時被稱為弱,弱人工智能是專門研究一個領域的人工智能。人工智能可以在國際象棋中擊敗世界象棋冠軍,但這是它唯一能做到的。 showImg(http://upload-images.jianshu.io/upload_images/13825820-105b098e1bc42c85...
摘要:為了你最好的未來,請不斷的學習創始人兼首席執行官人工智能和機器學習的時代已經到來了,這些領域都有可能對印度的行業產生重大的影響。在印度努力重振生產力增長的同時,人工智能和機器學習有望填補這一空白。 showImg(http://upload-images.jianshu.io/upload_images/13825820-702c6873cd07cfc3.jpg?imageMogr2/...
閱讀 2590·2021-11-18 10:02
閱讀 2627·2021-11-15 11:38
閱讀 3696·2021-11-12 10:36
閱讀 694·2021-11-12 10:34
閱讀 2887·2021-10-21 09:38
閱讀 1478·2021-09-29 09:48
閱讀 1491·2021-09-29 09:34
閱讀 1088·2021-09-22 10:02