在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

提高數據分析的科學性與透明度,用統計學“反轉”中心法則

hl5C_deeptechch ? 來源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2021-01-06 14:23 ? 次閱讀

“對我而言,回答了自己心中的問題或者做出一個新的發現,這種成就感要遠高于生活中的其他快樂?!崩铈阂顚Α堵槭±砉た萍荚u論》中國這樣說道。

而她的研究內容在很多人眼里或許稍顯枯燥:針對前沿的生物學問題開發新的統計學方法,尤其著重于對大規?;蚪M和轉錄組數據進行分析方法的開發。

由于高通量實驗技術的發展,生命科學從一個靠觀察實驗為主的學科逐漸變得更加需要定量化,而這些大規模數據的產生也需要算法才能夠進行分析,從而總結出數學規律并用規律來刻畫事物的本質。

加州大學洛杉磯分校(UCLA)統計系(已獲得終身教職)副教授和博士生導師,生物統計系、人類遺傳學系和計算醫學系博士生導師李婧翌認為,生命科學作為一個“宏科學”,盡管問題的本質與生命強相關,但研究手段需要各個學科一起合作,計算則是其中非常重要的一部分,大數據也需要有非常適合的挖掘工具,這對于從小對數學與科學有強烈興趣、并在本科與博士階段分別接受了生命科學與生物統計學系統教育的李婧翌有強大的吸引。

李婧翌的研究專注于統計學與生命科學的交叉問題,她首創性地使用嚴格的統計學來分析已發表的轉錄組學和蛋白組學數據,發現在過往研究中,由于研究人員對測量誤差的忽略,轉錄的重要性被嚴重低估,該分析挑戰了“翻譯比轉錄重要”的觀點卻支持了之前大量在 mRNA 轉錄水平的科學發現。因其重要性,李婧翌的研究結果被發表在 Science 雜志并收錄于本科教材 Molecular Cell Biology 中。

7a9455dc-4fcd-11eb-8b86-12bb97331649.png

圖 | 左圖是論文 B.Schwanh?usseretal.,Nature473,337(2011) 中在不考慮實驗數據誤差的情況下對轉錄、翻譯、mRNA 降解和蛋白質降解這四個步驟對于蛋白質含量的貢獻的估計;右圖是在校正了實驗數據誤差之后的估計。(來源:李婧翌的論文 Li et al. (2015). Statistics requantitates the central dogma. Science347(6226):1066-1067.)

此外,李婧翌團隊還開發了大量生物信息學工具在組織和單細胞水平上對 mRNA 分子進行全系統測量,并正在開發一項能夠尋找到人群亞型中和疾病相關的基因變異的新的統計度量。

憑借上述優異的研究成果,李婧翌成功入選 《麻省理工科技評論》“35 歲以下科技創新 35 人”(Innovators Under 35)2020 年中國區榜單。

圖 |《麻省理工科技評論》“35 歲以下科技創新 35 人”2020 年中國區榜單入選者李婧翌

無心插柳,卻顛覆固有認知

早在 1958 年,中心轉錄法則便被提出,它指的是遺傳信息被編碼在 DNA 中,通過轉錄會變成 mRNA,再通過翻譯的過程變成蛋白質,這是所有有細胞結構的生物所遵循的法則。 在這個過程中,除了轉錄和翻譯生成了 mRNA 和蛋白質這兩個步驟,還存在 mRNA 和蛋白質的降解,這四個步驟共同決定了每一個基因所對應的蛋白質到底在我們細胞中存在多少量。不過,此前中心轉錄法則是一個定性表述,“沒有人知道每一步的速率是多少,也沒有人知道對最后蛋白質含量的影響有多少?!? 在李婧翌博士即將畢業之時,她與合作者 Mark Biggin 博士共同研究中心轉錄法則的定量工作。偶然的一次機會,李婧翌和合作者發現,2011 年發表在Nature上的一篇文章首次在小鼠的全基因組的基因中進行了 4 項步驟的測量,其得出的結論是每個基因的 mRNA 的含量對于蛋白質含量的預測效果比較差,也就是說一個基因內 mRNA 的高或低并不太能代表它的蛋白質含量的高或低。 “這在當時是個非常讓人震驚的結論。因為我們有很多實驗手段可以用來研究 mRNA,但是研究蛋白質相對困難很多,所以大量生物學的發現成果都圍繞 mRNA 的含量水平。如果這篇文章的結果為真,那么之前很多 mRNA 的結果可能都沒有什么意義了?!崩铈阂罱忉尩?。 當李婧翌與合作伙伴看到這篇文章時,他們觀察到這項工作是將高通量質譜轉化為蛋白質含量,但在轉化過程中,它的標準實際上只基于高表達蛋白,并假設同樣的轉換方式也適用于低表達蛋白,由此導致了研究里面很多低表達蛋白的表達指征是很不準的,也就意味著高通量蛋白質測量很有可能存在誤差。 為了解決這一疑惑,李婧翌將實驗誤差考慮進建模后發現,實際上 mRNA 和蛋白質含量的相關性比 Nature 的文章報道的要高很多,轉錄的重要性被嚴重低估。這項“無心插柳”的研究結果被發表在 Science 雜志并收錄于本科教材 Molecular Cell Biology 中。 李婧翌對《麻省理工科技評論》中國回憶道:“我覺得很有趣的一點是,我們將很基本的統計方法用到了正確的問題上,從而發現了非常意想不到的結果。這也說明了考慮數據測量的隨機性和數據噪音對科學結論十分重要?!边@一年,李婧翌還不到 30 歲??蒲信c教育同樣重要 作為一個青年科學家,李婧翌認為,保持對未知問題的好奇心,用研究拓寬人類的知識邊界,是支撐她科研工作的重要推動力。 作為一個科研人員,李婧翌認為目前的統計分析還遠遠談不上科學,“如果一個分析人員在寫研究報告時沒有記錄分析的每一步,而只是簡略地記錄一個結果,那最終結果就不太透明,并且可能也不能被重復,可信度就要大打折扣。” 此外,李婧翌提到,如果要將最新研究的統計學方法發表在比較好的學術雜志上,通常情況下做的越復雜越容易發表,這就導致統計學領域出現一個通?。汉芏嘟y計方法都比較像“黑箱”,它們過于復雜,也沒有給實際應用的人員講授清楚優缺點到底在哪里。

7c078128-4fcd-11eb-8b86-12bb97331649.png

圖 | 對于同樣的一套多個病人樣本中的基因表達數據,病人是觀測值,而基因是特征。大部分的病人已知得病或未得病。如果研究問題是:基因A是否為一個有效的疾病標志物,那么假設檢驗是合適的統計方法。而如果研究問題是:1號病人是否得病,那么二元分類是合適的統計方法。(來源:李婧翌的論文Li et al. (2020). Statistical hypothesis testing versus machine-learning binary classification: distinctions and guidelines. Patterns 1(7):110115.)

作為一個有交叉學科背景的研究人員,李婧翌充分利用了這一點:能夠更好地讓生命科學領域的數據分析人員去理解現有的一些經典方法的優缺點和適用范圍,同時,李婧翌自己發展新方法也將以此為目標,創造出更透明、更穩定的統計學方法。舉例而言,李婧翌在最近發表的一篇文章中就嘗試對兩種常用但經常被混淆的統計方法:假設檢驗和二元分類,進行解釋并闡述這兩種方法各自適用的數據分析問題。譬如對致癌基因和抑癌基因的預測問題,李婧翌解釋了為什么基于現有的大數據,二元分類是一個更加適用的統計方法。 作為教師,李婧翌致力于將統計方法開發和實際應用的重要性更緊密的結合。 李婧翌認為,無論中美,目前統計學的基礎教育中都有很多過時的教學內容,因為很多計算都已經可以依靠計算機的程序包來進行自動化運算。統計學教育更重要的應該是去教授學生為什么需要統計學,數據背后的隨機性應該怎么去理解,以及數據分析到底想解決什么問題,“我覺得這些其實是統計教育需要改變的的東西,我希望我能夠發揮一些作用。”

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自動化
    +關注

    關注

    29

    文章

    5602

    瀏覽量

    79470
  • 統計
    +關注

    關注

    1

    文章

    19

    瀏覽量

    13518
  • 數據分析
    +關注

    關注

    2

    文章

    1455

    瀏覽量

    34090

原文標題:提高數據分析的科學性與透明度,UCLA教授用統計學“反轉”中心法則

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Mathematica 在數據分析中的應用

    數據分析是現代科學研究和商業決策中不可或缺的一部分。隨著數據量的爆炸增長,對數據分析工具的需求也在不斷增加。Mathematica,作為一
    的頭像 發表于 12-26 15:41 ?147次閱讀

    首個科學計算基座大模型BBT-Neutron開源,助力突破大科學裝置數據分析瓶頸

    大語言模型能否解決傳統大語言模型在大規模數值數據分析中的局限性問題,助力科學界大科學裝置設計、高能物理領域科學計算? 高能物理是探索宇宙基本組成與規律的前沿
    的頭像 發表于 12-26 15:29 ?169次閱讀
    首個<b class='flag-5'>科學</b>計算基座大模型BBT-Neutron開源,助力突破大<b class='flag-5'>科學</b>裝置<b class='flag-5'>數據分析</b>瓶頸

    數據可視化與數據分析的關系

    的含義。 數據分析的定義與作用 數據分析是一種使用統計和邏輯方法來分析數據集的過程,目的是發現模式、趨勢和關聯
    的頭像 發表于 12-06 17:09 ?385次閱讀

    葡萄酒俱樂部計劃部署RFID技術以提高供應鏈的透明度

    提高葡萄酒供應鏈的透明度和效率。 該解決方案是基于區塊鏈和RFID技術來跟蹤每瓶酒在運輸、儲存、購買和消費過程中的信息。該系統記錄了每瓶葡萄酒的數字標識、生活故事以及周圍的條件,一直到消費者手中。 通過將 超高頻RFID標簽 嵌入到瓶子
    的頭像 發表于 11-23 16:18 ?175次閱讀

    LLM在數據分析中的作用

    隨著大數據時代的到來,數據分析已經成為企業和組織決策的關鍵工具。數據科學家和分析師需要從海量數據
    的頭像 發表于 11-19 15:35 ?360次閱讀

    raid 在大數據分析中的應用

    RAID(Redundant Array of Independent Disks,獨立磁盤冗余陣列)在大數據分析中的應用主要體現在提高存儲系統的性能、可靠和容量上。以下是RAID在大數據分
    的頭像 發表于 11-12 09:44 ?272次閱讀

    數據分析在數字化中的作用

    與重要 數據分析是指使用統計和邏輯方法對數據進行處理和解釋的過程。它涉及到數據的收集、清洗、轉換、建模和解釋,目的是發現
    的頭像 發表于 10-27 17:35 ?647次閱讀

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    的同時,確保其公正透明度和可持續,是當前和未來科學研究必須面對的重要課題。此外,培養具備AI技能的科研人才,也是推動這一領域發展的關鍵。 4. 激發創新思維 閱讀這一章,我被深深
    發表于 10-14 09:12

    動態代理IP的匿名透明度,為主要考慮關鍵!

    動態代理IP的匿名透明度是用戶選擇代理服務時需要考慮的關鍵因素。根據用戶的需求和場景,可以選擇不同匿名級別和透明度的代理服務來平衡隱私保護和網絡訪問的需求。
    的頭像 發表于 09-20 07:36 ?311次閱讀
    動態代理IP的匿名<b class='flag-5'>性</b>和<b class='flag-5'>透明度</b>,為主要考慮關鍵!

    加州立法推動AI透明度,生成式人工智能迎來數據披露新紀元

    數據使用與透明度問題也逐漸成為公眾關注的焦點。8月28日,美國加州立法機構的一項重大舉措——人工智能訓練數據透明度法案的通過,標志著該州在推動AI行業健康發展、保障公眾權益方面邁出了
    的頭像 發表于 08-28 16:20 ?592次閱讀

    LED透鏡的顏色與透明度基本概念

    如果 LED燈 有透鏡顏色,則無論透鏡透明度如何,LED 在開和關時都會顯示該顏色。如果透鏡顏色為白色或無色,則 LED 有可能發出白色,另一種顏色或各種顏色的光,然后在關狀態下返回白色或無色。
    的頭像 發表于 07-25 09:34 ?456次閱讀

    數據分析除了spss還有什么

    Sciences)是一款非常流行的統計分析軟件,但除了SPSS之外,還有許多其他數據分析工具和方法。 引言 數據分析是一個跨學科的領域,涉及到統計學、計算機
    的頭像 發表于 07-05 15:01 ?680次閱讀

    數據分析有哪些分析方法

    數據分析是一種重要的技能,它可以幫助我們從大量的數據中提取有價值的信息,從而做出更明智的決策。在這篇文章中,我們將介紹數據分析的各種方法,包括描述
    的頭像 發表于 07-05 14:51 ?669次閱讀

    Alpha半透明圖形疊加算法Matlab+Verilog的設計實現

    Alpha通道是一個8位的灰度通道,該通道256級灰度來記錄圖像中的透明度信息,定義透明、不透明和半透明區域,其中黑表示全
    的頭像 發表于 05-01 10:28 ?736次閱讀
    Alpha半<b class='flag-5'>透明</b>圖形疊加算法Matlab+Verilog的設計實現

    Mozilla:科技公司廣告透明度工具需進一步完善

    結果表明,X 平臺透明度表現欠佳,僅能通過加載速度較慢的 CSV 文件獲取相關數據,且缺乏用戶友好型網絡界面;同時,該平臺在目標參數和接收方數據方面亦存在顯著不足,亟待改進。
    的頭像 發表于 04-17 10:41 ?600次閱讀
    主站蜘蛛池模板: 美女性色| 亚洲一区二区三| 欧美日韩高清一区| 国产精品久久久久久久久齐齐| 国产综合免费视频| 六月丁香综合网| 午夜看片影院在线观看| 午夜视频在线观看www中文| 丁香婷婷在线| 222.www免费观看| 国产在线97色永久免费视频| 国产一级特黄毛片| 欧美高清视频一区| 噜噜噜噜私人影院| 丁香婷婷亚洲六月综合色| 午夜看片在线| 国产精品波多野结衣| 在线一区二区观看| 一区二区三区国模大胆| 特级片在线观看| 男人的天堂色偷偷之色偷偷| 国产精品99r8免费视频2022| 午夜影网| 97人摸人人澡人人人超一碰| 国产精品午夜高清在线观看| 窝窝视频成人影院午夜在线 | 欧美xxxxx精品| 国产伦子一区二区三区四区 | 三级日韩| 国产成人永久免费视频| 天天插天天色| 天天干天天色综合网| 国产美女视频爽爽爽| 特黄aaaaa日本大片免费看| 亚洲欧美在线精品一区二区| 欧美伊人网| www.日本三级| 亚洲第一成网站| 国产精品成人一区二区| 久久精品国产99久久72| 色激情综合网|