近期,HBO出品的臺劇《我們與惡的距離》熱播,在感慨劇情深度的同時,也引發(fā)了對于媒體行業(yè)生存現(xiàn)狀的反思。
《我們與惡的距離》劇照
一方面,人們希望媒體能夠堅持所謂“新聞理想”,另一方面,在信息爆炸訊息光速傳遞的今天,媒體人要堅守“客觀真實”的報道,實屬難得。
作為一位媒體從業(yè)者,文摘菌對于女主角新聞臺副總監(jiān)“宋喬安“印象深刻。
賈靜雯飾演宋喬安,演技炸裂
影片一開始,我們就目睹了一起搶熱點的假新聞事件。多家媒體同一時間播報了一條泰國發(fā)生爆炸的消息,令宋喬安和同事感到措手不及。這條消息沒有得到前方記者的證實,也缺乏官方認證,用媒體術語來說,就是不具有權威信源。但是,該爆炸性新聞自帶流量,若證實有中國游客身亡,更會讓它成為一條名副其實的爆款新聞。
競爭對手們爭相播報,宋喬安壓力頗大,盡管沒有拿到真的信源,依然硬著頭皮播了這條新聞,但最終,它被證實是一條假消息。
機器學習假新聞判別
宋喬安的尷尬處境也恰恰是當代媒體真實寫照。突發(fā)新熱點多,真假難以被證實。或許,我們可以在算法的幫助下,打破這一困境。
《我們與惡的距離》劇照
AI謠言粉碎機
今年愚人節(jié)當天,阿里宣布了一項新技術被稱為“AI謠言粉碎機”。這項技術的算法模型通過深度學習和神經(jīng)網(wǎng)絡,設計了包括發(fā)布信息、社交畫像、回復者立場、回復信息、傳播路徑在內(nèi)的判斷系統(tǒng),將謠言識別和社交用戶觀點識別打通,最快1秒內(nèi)判定結果。在特定場景中的準確率可達到81%。
阿里希望幫助社交平臺和新聞網(wǎng)站在假新聞尚未造成大面積傷害時就快速識別出來,遏制其傳播。在信息被證實為謠言后,AI還可通過虛假信息的傳播路徑,定向給閱讀過此信息的用戶進行辟謠。
SemEval語義測試大賽中,根據(jù)主辦方提供的過去兩年社交媒體Twitter和Reddit上的近500個真實言論和1萬多條相關反饋數(shù)據(jù),阿里巴巴的人工智能技術對假新聞識別的準確率創(chuàng)造了新的紀錄。達摩院語言技術實驗室首席科學家司羅表示,“AI謠言粉碎機”未來有望幫助社交媒體的審核機構承擔60%的工作量。
Breaking Data
英國有一家體育媒體GiveMeSport,是一個主要基Faceboook發(fā)布體育相關的新聞,最后被人工智能公司Breaking Data 收購,目前在新聞頻道的兩個終端應用了AI技術,可以分析和反應片段及重大新聞報道。
Breaking Data運用自然語言處理技術掃描Twitter,通過相關推文篩選預定關鍵詞,如運動隊、球員姓名、球隊名稱、俱樂部、聯(lián)賽或運動場。經(jīng)過篩選和驗證關鍵詞,將其分為“重大事件”,“相關新聞”或“大幕新聞”等類別;并在BreakingSports Slack頻道中作為警報發(fā)送給記者。GiveMeSport正在使用Breaking Data的技術將其他公開可用的數(shù)據(jù)源(如Facebook,Reddit和Wikipedia)整合在一起。
這個平臺通過識別可靠的信息來源來判斷推文是否可靠,例如,歐冠中當巴薩以3:0戰(zhàn)勝利物浦時,人工智能平臺可以跟蹤Twitter上的內(nèi)容何時首次出現(xiàn),并將該帳戶標記為可靠的權限。
用AI打假AI合成圖片
除了假新聞,AI合成的視頻和照片也越來越多,利用算法實現(xiàn)AI換臉技術已經(jīng)很成熟。針對此種情況,成立于2017年的舊金山初創(chuàng)企業(yè)人工智能基金會(AI Foundation),他們正在開發(fā)的Reality Defender將幫助人們識別由人工智能算法生成的內(nèi)容,以檢測潛在的虛假媒體。
與病毒防護類似,他們的工具掃描每一幅圖像、視頻和其他媒體,尋找已知的假象,允許你報告可疑的假新聞,并使用各種人工智能驅動的分析技術,以檢測變化或人為生成的跡象。
虛假、合成的照片和視頻在網(wǎng)絡的傳播,也會造成品牌和個人造成不可挽回的名譽損毀。但試圖監(jiān)管全球媒體數(shù)據(jù)將是一項艱巨的任務,使用AI技術任何人都可以炮制出數(shù)百萬張看起來逼真的假照片。鑒于虛假圖像和視頻的改善速度之快,或許驗證“什么是真實的”的商業(yè)模式可能更有效,也許媒體和個人很快應該擁有自己的數(shù)字指紋,可AI合成的底線又在哪?
假新聞訓練模型及數(shù)據(jù)集
在某種程度上假新聞的是一個微觀領域問題,它和謠言分類、事實判斷、標題黨檢測、垃圾內(nèi)容挖掘等都比較類似,在宏觀上說都屬于內(nèi)容質量的領域,所以很多方法其實是通用的框架。騰訊科技高級研究員孫子荀將假消息辨別模型分為兩類:
基于內(nèi)容的建模;
基于社交網(wǎng)絡的模型。
后者可以通過對虛假新聞的傳播游走軌跡跟蹤,以及通過圖模型和演化模型中針對特定假新聞的進一步調(diào)查;其次,識別虛假新聞的關鍵傳播者,對于減輕社交媒體的傳播范圍至關重要。
在2017年,Kai Shu等人的論文中將假新聞的研究主要分為三個方向:
數(shù)據(jù)方面的研究:目前還沒有標準的測評數(shù)據(jù)集,需要去建立的。可以通過傳播特性提前檢測假新聞。
模型特征方面的研究:通過使用用戶的畫像特征,內(nèi)容特征(NLP、CV)結合深度學習,還有傳播網(wǎng)絡特征,比如用戶和內(nèi)容之間的關系構造出來的網(wǎng)絡特征,網(wǎng)絡本身的embedding表現(xiàn)。
模型方面的研究:這方面的工作可分為特征之間的組合、預測目標的變化、對內(nèi)容源、內(nèi)容反饋和文章風格的限制,組合這些模型,也可通過空間變換,把特征變換到另外的latent語義空間嘗試解決。
鑒定假新聞是一件任重而道遠的事,對假新聞機器學習模型感興趣的同學也可以通過以下開放的數(shù)據(jù)集進行嘗試。
1. FakeNewsNet
BuzzFeed和PolitiFact兩個平臺的數(shù)據(jù)集,包括新聞內(nèi)容本身(作者,標題,正文,圖片視頻)和社交上下文內(nèi)容(用戶畫像,收聽,關注等)。
數(shù)據(jù)集獲取方式:
https://github.com/KaiDMML/FakeNewsNet
2.LIAR
該數(shù)據(jù)集也是來自PolitiFact,包括內(nèi)容本身和內(nèi)容的基礎屬性數(shù)據(jù),比如來源,正文等。
數(shù)據(jù)集獲取方式:
http://www.cs.ucsb.edu/~william/data/liar_dataset.zip
3. Twitter and Weibo DataSet
一個比較全的數(shù)據(jù)集包括帖子ID,發(fā)帖用戶ID,正文,回復等數(shù)據(jù)。
數(shù)據(jù)集獲取方式:
http://alt.qcri.org/~wgao/data/rumdect.zip
4. Twitter15 Twitter16
來自 Twitter 15、16 年的帖子,包括了帖子之間的樹狀收聽,關注關系和帖子正文等。
數(shù)據(jù)集獲取方式:
https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0
5. Buzzfeed Election Dataset & Political News Dataset
Buzzfeed’s 2016 收集的選舉假新聞,以及作者收集的 75個新聞故事。包括假新聞,真新聞和諷刺新聞。
數(shù)據(jù)集獲取方式:
https://github.com/rpitrust/fakenewsdata1
相關鏈接:
http://www.sohu.com/a/311856780_99928473?sec=wd
https://zhuanlan.zhihu.com/p/57124028
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4777瀏覽量
100970 -
算法
+關注
關注
23文章
4625瀏覽量
93123 -
機器學習
+關注
關注
66文章
8429瀏覽量
132852
原文標題:《我們與惡的距離》引發(fā)媒體反思:假新聞?chuàng)専狳c,機器學習能做些什么?
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論