“對我而言,回答了自己心中的問題或者做出一個新的發現,這種成就感要遠高于生活中的其他快樂?!崩铈阂顚Α堵槭±砉た萍荚u論》中國這樣說道。
而她的研究內容在很多人眼里或許稍顯枯燥:針對前沿的生物學問題開發新的統計學方法,尤其著重于對大規?;蚪M和轉錄組數據進行分析方法的開發。
由于高通量實驗技術的發展,生命科學從一個靠觀察實驗為主的學科逐漸變得更加需要定量化,而這些大規模數據的產生也需要算法才能夠進行分析,從而總結出數學規律并用規律來刻畫事物的本質。
加州大學洛杉磯分校(UCLA)統計系(已獲得終身教職)副教授和博士生導師,生物統計系、人類遺傳學系和計算醫學系博士生導師李婧翌認為,生命科學作為一個“宏科學”,盡管問題的本質與生命強相關,但研究手段需要各個學科一起合作,計算則是其中非常重要的一部分,大數據也需要有非常適合的挖掘工具,這對于從小對數學與科學有強烈興趣、并在本科與博士階段分別接受了生命科學與生物統計學系統教育的李婧翌有強大的吸引。
李婧翌的研究專注于統計學與生命科學的交叉問題,她首創性地使用嚴格的統計學來分析已發表的轉錄組學和蛋白組學數據,發現在過往研究中,由于研究人員對測量誤差的忽略,轉錄的重要性被嚴重低估,該分析挑戰了“翻譯比轉錄重要”的觀點卻支持了之前大量在 mRNA 轉錄水平的科學發現。因其重要性,李婧翌的研究結果被發表在 Science 雜志并收錄于本科教材 Molecular Cell Biology 中。
圖 | 左圖是論文 B.Schwanh?usseretal.,Nature473,337(2011) 中在不考慮實驗數據誤差的情況下對轉錄、翻譯、mRNA 降解和蛋白質降解這四個步驟對于蛋白質含量的貢獻的估計;右圖是在校正了實驗數據誤差之后的估計。(來源:李婧翌的論文 Li et al. (2015). Statistics requantitates the central dogma. Science347(6226):1066-1067.)
此外,李婧翌團隊還開發了大量生物信息學工具在組織和單細胞水平上對 mRNA 分子進行全系統測量,并正在開發一項能夠尋找到人群亞型中和疾病相關的基因變異的新的統計度量。
憑借上述優異的研究成果,李婧翌成功入選 《麻省理工科技評論》“35 歲以下科技創新 35 人”(Innovators Under 35)2020 年中國區榜單。
圖 |《麻省理工科技評論》“35 歲以下科技創新 35 人”2020 年中國區榜單入選者李婧翌
無心插柳,卻顛覆固有認知
早在 1958 年,中心轉錄法則便被提出,它指的是遺傳信息被編碼在 DNA 中,通過轉錄會變成 mRNA,再通過翻譯的過程變成蛋白質,這是所有有細胞結構的生物所遵循的法則。 在這個過程中,除了轉錄和翻譯生成了 mRNA 和蛋白質這兩個步驟,還存在 mRNA 和蛋白質的降解,這四個步驟共同決定了每一個基因所對應的蛋白質到底在我們細胞中存在多少量。不過,此前中心轉錄法則是一個定性表述,“沒有人知道每一步的速率是多少,也沒有人知道對最后蛋白質含量的影響有多少?!? 在李婧翌博士即將畢業之時,她與合作者 Mark Biggin 博士共同研究中心轉錄法則的定量工作。偶然的一次機會,李婧翌和合作者發現,2011 年發表在Nature上的一篇文章首次在小鼠的全基因組的基因中進行了 4 項步驟的測量,其得出的結論是每個基因的 mRNA 的含量對于蛋白質含量的預測效果比較差,也就是說一個基因內 mRNA 的高或低并不太能代表它的蛋白質含量的高或低。 “這在當時是個非常讓人震驚的結論。因為我們有很多實驗手段可以用來研究 mRNA,但是研究蛋白質相對困難很多,所以大量生物學的發現成果都圍繞 mRNA 的含量水平。如果這篇文章的結果為真,那么之前很多 mRNA 的結果可能都沒有什么意義了?!崩铈阂罱忉尩?。 當李婧翌與合作伙伴看到這篇文章時,他們觀察到這項工作是將高通量質譜轉化為蛋白質含量,但在轉化過程中,它的標準實際上只基于高表達蛋白,并假設同樣的轉換方式也適用于低表達蛋白,由此導致了研究里面很多低表達蛋白的表達指征是很不準的,也就意味著高通量蛋白質測量很有可能存在誤差。 為了解決這一疑惑,李婧翌將實驗誤差考慮進建模后發現,實際上 mRNA 和蛋白質含量的相關性比 Nature 的文章報道的要高很多,轉錄的重要性被嚴重低估。這項“無心插柳”的研究結果被發表在 Science 雜志并收錄于本科教材 Molecular Cell Biology 中。 李婧翌對《麻省理工科技評論》中國回憶道:“我覺得很有趣的一點是,我們將很基本的統計方法用到了正確的問題上,從而發現了非常意想不到的結果。這也說明了考慮數據測量的隨機性和數據噪音對科學結論十分重要?!边@一年,李婧翌還不到 30 歲??蒲信c教育同樣重要 作為一個青年科學家,李婧翌認為,保持對未知問題的好奇心,用研究拓寬人類的知識邊界,是支撐她科研工作的重要推動力。 作為一個科研人員,李婧翌認為目前的統計分析還遠遠談不上科學,“如果一個分析人員在寫研究報告時沒有記錄分析的每一步,而只是簡略地記錄一個結果,那最終結果就不太透明,并且可能也不能被重復,可信度就要大打折扣。” 此外,李婧翌提到,如果要將最新研究的統計學方法發表在比較好的學術雜志上,通常情況下做的越復雜越容易發表,這就導致統計學領域出現一個通?。汉芏嘟y計方法都比較像“黑箱”,它們過于復雜,也沒有給實際應用的人員講授清楚優缺點到底在哪里。
圖 | 對于同樣的一套多個病人樣本中的基因表達數據,病人是觀測值,而基因是特征。大部分的病人已知得病或未得病。如果研究問題是:基因A是否為一個有效的疾病標志物,那么假設檢驗是合適的統計方法。而如果研究問題是:1號病人是否得病,那么二元分類是合適的統計方法。(來源:李婧翌的論文Li et al. (2020). Statistical hypothesis testing versus machine-learning binary classification: distinctions and guidelines. Patterns 1(7):110115.)
作為一個有交叉學科背景的研究人員,李婧翌充分利用了這一點:能夠更好地讓生命科學領域的數據分析人員去理解現有的一些經典方法的優缺點和適用范圍,同時,李婧翌自己發展新方法也將以此為目標,創造出更透明、更穩定的統計學方法。舉例而言,李婧翌在最近發表的一篇文章中就嘗試對兩種常用但經常被混淆的統計方法:假設檢驗和二元分類,進行解釋并闡述這兩種方法各自適用的數據分析問題。譬如對致癌基因和抑癌基因的預測問題,李婧翌解釋了為什么基于現有的大數據,二元分類是一個更加適用的統計方法。 作為教師,李婧翌致力于將統計方法開發和實際應用的重要性更緊密的結合。 李婧翌認為,無論中美,目前統計學的基礎教育中都有很多過時的教學內容,因為很多計算都已經可以依靠計算機的程序包來進行自動化運算。統計學教育更重要的應該是去教授學生為什么需要統計學,數據背后的隨機性應該怎么去理解,以及數據分析到底想解決什么問題,“我覺得這些其實是統計教育需要改變的的東西,我希望我能夠發揮一些作用。”
責任編輯:lq
-
自動化
+關注
關注
29文章
5602瀏覽量
79470 -
統計
+關注
關注
1文章
19瀏覽量
13518 -
數據分析
+關注
關注
2文章
1455瀏覽量
34090
原文標題:提高數據分析的科學性與透明度,UCLA教授用統計學“反轉”中心法則
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論