近日,哥本哈根大學(xué)的研究人員的最新研究稱,剛剛開發(fā)出一款“反槍手代寫”的AI系統(tǒng)。這款系統(tǒng)意圖通過智能寫作分析技術(shù),來檢測論文作弊。可以根據(jù)你的寫作習(xí)慣,確定論文究竟是你自己寫的作業(yè)還是由他人代寫。根據(jù)對13萬份書面作業(yè)的分析,科學(xué)家們可以以近90%的準(zhǔn)確率檢測出學(xué)生究竟是自己寫的作業(yè),還是由代筆撰寫。基本上可以達到“代寫”作業(yè)一抓一個準(zhǔn)的結(jié)果了。
高中代寫成風(fēng),哥本哈根大學(xué)的神操作。這套針對學(xué)生論文作弊行為的研究,已經(jīng)在哥本哈根大學(xué)計算機科學(xué)系(DIKU)進行了幾年了,最初,這款研究是針對丹麥的高中生進行的。在丹麥,高中目前主要使用的作業(yè)查重平臺叫做Lectio,可以用來檢查學(xué)生的作業(yè)中是否有段落是直接復(fù)制先前提交的作業(yè)的。然而,隨著各類線上服務(wù)平臺的盛行,在丹麥高中生中,找人代寫作業(yè)變得越發(fā)容易。面對這種情況,學(xué)校一直缺乏有效的檢測手段。
學(xué)習(xí)軌跡項目或“SRP”(丹麥語的“Studie Retnings Projekt”)是丹麥高中畢業(yè)生的必修跨學(xué)科課程,也是一項非常重要的書面作業(yè)。在這個項目中的作弊現(xiàn)象尤其引人注目。由于SRP對于畢業(yè)十分重要,很多學(xué)生們在丹麥競拍網(wǎng)站Den Bla Avis上發(fā)布他們的寫作任務(wù)來找人代寫。和中國的老師和大多數(shù)查重系統(tǒng)一樣,Lectio只能查重,沒法判斷一份作業(yè)是否是找人代寫的。哥本哈根大學(xué)的一些院系一直和很多高中有著SRP項目的合作,深受代寫作弊行為之害,一直在探究解決之道。這所大學(xué)的計算機科學(xué)系DABAI項目組決定教教這些偷懶的高中生們“做人”。
DABAI(丹麥大數(shù)據(jù)分析驅(qū)動創(chuàng)新中心)是一個成立于2016年的丹麥國家研究中心。除了研究機器學(xué)習(xí)的高效算法,這個研究小組本來就對學(xué)生教育特別關(guān)注。之前,他們曾研究了“優(yōu)化學(xué)生的個性化學(xué)習(xí)”、“提高教師洞察力”等教育項目。
名叫“槍手”的反槍手神器
這個防作弊程序被叫做Ghostwriter(槍手),它本質(zhì)上屬于一種基于機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)的一款文本分析程序。
項目組成員Stephan Lorenzen博士稱,這款程序可以比較該學(xué)生最近提交和以前提交的文章來識別寫作風(fēng)格的差異。
“程序會關(guān)注單詞長度、句子結(jié)構(gòu)以及單詞的使用方式等諸多特征。例如,它會察覺‘for example’被寫成了‘ex’,還是‘e.g.,’。”
其數(shù)據(jù)集來自為丹麥高中提供Lectio平臺的MaCom公司,該公司覆蓋了丹麥90%以上的高中,他們?yōu)镚hostWriter項目的研究人員提供了13萬份不同高中學(xué)生書面作業(yè)。
這個研究組認為,這款產(chǎn)品非常具有實際效用,很多學(xué)校對于找出“論文究竟是誰寫的”這個問題有著越來越高的技術(shù)需求。
但Stephan Lorenzen博士也認為,“在此之前,還需要認真討論一下應(yīng)用這項技術(shù)所面臨的倫理問題。我們不能把這個程序得到的結(jié)論作為判別是否作弊的唯一標(biāo)準(zhǔn),更應(yīng)該把它看作一份輔助性的證據(jù)。”
Ghostwriter是怎么工作的?
Ghostwriter程序使用Siamese 神經(jīng)網(wǎng)絡(luò)來區(qū)分不同文本的寫作風(fēng)格:通過大量數(shù)據(jù)的訓(xùn)練,學(xué)習(xí)不同寫作風(fēng)格的外在表現(xiàn)(representation),然后進行比對。
這個項目分兩步來解決作者身份驗證問題。首先是解決了計算兩個文本之間寫作風(fēng)格相似性的問題,主要通過使用Siamese網(wǎng)絡(luò)學(xué)習(xí)相似度函數(shù)s:T×T→[0,1]。其次是再解決作者A的驗證問題,通過比對未知作者文本X和已知是作者A的文本T之間的相似性。
在網(wǎng)絡(luò)方面,他們考慮使用不同的輸入通道考慮幾種不同的體系結(jié)構(gòu)(例如,char,word,POS-tags),最終確定了一種表現(xiàn)最佳的網(wǎng)絡(luò)架構(gòu):
Best performing network
編碼部分包括一個字符嵌入(Embd),然后是兩個不用的卷積層,每個卷積層后面都有一個全局最大池化層(GMP)。
在比較部分,他們首先計算合并層中的編碼之間的絕對差值,然后,應(yīng)用4個密集層,每層有500個神經(jīng)元,最后使用具有兩個輸出的softmax層來進行歸一化。
他們將數(shù)據(jù)集分為三份,T-train用于訓(xùn)練,T-val用于訓(xùn)練提前停止和selecting Cs,T-test僅用于估測試模型。
經(jīng)過訓(xùn)練,模型的準(zhǔn)確率達到了87.5%。
最后實現(xiàn)的功能就是,當(dāng)學(xué)生提交作業(yè)時,該網(wǎng)絡(luò)會將其與以前的作業(yè)進行比較。對于每個作業(yè),神經(jīng)網(wǎng)絡(luò)都會計算出一個百分數(shù),用于表示新舊作業(yè)的相似性。然后,通過綜合考慮新舊作業(yè)相似性、交作業(yè)時間等多種因素計算出一個加權(quán)平均值。這個最終值就可以用來表示新作業(yè)和學(xué)生寫作風(fēng)格之間的相似性。
這一研究已經(jīng)被發(fā)表在一篇名為《識別高中代寫“槍手”》的論文中。
除了代寫作業(yè),Ghostwriter的技術(shù)也可以應(yīng)用于社會的其他地方。
例如,該程序可輔助警方的文檔審查員執(zhí)行各類文件的真?zhèn)畏治鋈蝿?wù),比如一份商業(yè)合同是否是偽造的;或者一個離奇的自殺案中,死者留下了一封遺書,這封遺書是不是死者本人寫的等等。
“與警方合作將是一件有趣的事情。警方現(xiàn)有的方法是聘用文件審查員來定性的比較文本之間的相似性和差異。而我們的方法則適用于大數(shù)據(jù)并自動找到其中潛藏的模式。我認為結(jié)合兩者將有利于警察開展工作。”Lorenzen說,他強調(diào)這里也同樣需要討論其面臨的倫理問題。
這項利用人工智能來檢測作業(yè)中作弊行為的技術(shù),具有廣泛的應(yīng)用前景。
目前,它還被用來分析Twitter文本,以確定文本內(nèi)容是由真實用戶撰寫的,還是由水軍或機器人編寫的。也就是說,淘寶店鋪雇傭水軍好評,很有可能也能被識別出來。
-
人工智能
+關(guān)注
關(guān)注
1791文章
47336瀏覽量
238696 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8421瀏覽量
132703
原文標(biāo)題:“翟天臨”克星?哥本哈根大學(xué)開發(fā)反“槍手”AI,識別作業(yè)代寫準(zhǔn)確率接近90%
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論