目前,機器學習已經深入各個科研領域,并產生了深遠的影響。無獨有偶,許多科學家利用機器學習產生的結果卻具有誤導性,甚至往往完全是錯誤的。因此,來自休斯頓萊斯大學的Genevera Allen博士發出警告:若不改進技術,機器學習系統使用量的激增將導致一場“科學危機”。
警告:機器學習導致了一場“科學危機”!
目前,許多科學家用機器學習技術來分析數據等,但其產生的結果有時是具有誤導性的,而且往往是完全錯誤性的。
來自休斯頓萊斯大學的Genevera Allen博士說,這種系統使用的增加導致了一場“科學危機”。
她警告科學家們:
如果科學家們不對機器學習技術進行改進,就等同于浪費時間和金錢。
采用機器學習技術來分析處理已有的數據集像是一股熱潮,從生物醫學到天文學,比比皆是。而且這些數據集往往“體量”龐大、價格昂貴。
“可復制性危機”
雖然Allen博士發出了這樣的警告,但是根據她們的說法,團隊所提出的答案可能不完全是正確的:
因為軟件識別的模式只存在于數據集中,而不存在于現實世界中。
Allen博士表示,有缺陷的機器學習正在制造一場“科學危機”
Allen博士說:
通常情況下,先使用機器學習技術并產生了一定結果的研究,往往不會發現它是錯誤的。
直到其他人在將這些技術應用于更大的數據集中,然后產生的結果與前人的結果完全不同,這時人們才會驚呼:“天哪!這兩項實驗結果完全不一致!”
目前,科學界普遍承認存在可復制性危機。我敢說,其中很大一部分原因確實來機器學習技術在科學研究中的使用。
科學上的“可復制性危機”指的是當另一組科學家嘗試同樣的實驗時,研究結果沒有被重復。這意味著最初的結果是錯誤的。一項分析表明,世界上85%的生物醫學研究都是徒勞的。
這是一場已經持續了20年的危機。
這場危機之所以會出現,是因為實驗的設計不夠完美,無法確保科學家們不會自欺欺人——只想得到自己想要的結果。
具有缺陷的模式
Allen博士表示,機器學習系統和大數據集的使用加速了這場危機。
這是因為機器學習算法專門用于在數據集中查找“有趣”的東西。因此當它們搜索大量數據時,將不可避免地找到一種模式。
真正的挑戰在于,我們真的可以相信這些“發現”嗎?
那些所謂的科學發現,能夠代表真正的科學嗎?它們是可重復的嗎?若是給定一個額外的數據集,運用同樣的方法,是否會得到相同的結果呢?不幸的是,事實往往并非如此。
機器學習也應用于生物醫學研究
Allen博士正與休斯頓貝勒醫學院的一組生物醫學研究人員合作,以提高他們研究結果的可靠性。
她正在開發下一代機器學習和統計技術,這些技術不僅可以篩選大量數據進行“發現”,還可以報告結果的不確定性及其可能的重復性。
她告訴與其共事的科學家:“收集這些數據集是非常昂貴的,論文的發表可能會需要更長的時間,但是你們的成果是能夠經得起時間的考驗的!”
“這將為科學家節省資金。更重要的是,可以保障科學不會按著這些錯誤的方向發展。”
-
算法
+關注
關注
23文章
4625瀏覽量
93143 -
機器學習
+關注
關注
66文章
8434瀏覽量
132868 -
數據集
+關注
關注
4文章
1209瀏覽量
24767
原文標題:機器學習正在導致“科學危機”
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論