浙大AI“女媧”破譯基因組“暗物質”,創世界首例AI治療性位點!

來源: 更新:

人類基因組計劃完成20多年來,超過九成的非編碼序列仍是未破譯的“天書”,是基因組的“暗物質”。近日,浙江大學醫學院郭國驥、韓曉平教授團隊在《細胞》發佈最新成果,其自主研發的AI生物大模型“女媧CE”(NvwaCE),爲破譯非編碼序列提供了全新的工具。

據悉,女媧CE大模型能從一級DNA序列出發,精準預測脊椎動物基因突變對細胞的表型影響,精度達單細胞級,準確率超90%。此外,它還成功預測並經實驗驗證了罕見病鐮刀型貧血症的基因治療位點,成爲世界首例AI設計的人類疾病治療性位點。

“通過深度學習,那些人類暫時無法理解的複雜語法,正在被AI學習、解析。”郭國驥就課題最新進展,接受了文匯報記者專訪。

單細胞圖譜,讓AI大模型有了“精品教材”

人類幾乎所有具體的生理機能都依靠蛋白質來完成。在人類基因組中,編碼序列(對蛋白質進行編碼,直接表達爲蛋白質)僅佔1-2%,剩下的98%都是非編碼序列(不會直接表達爲蛋白質,包含調控序列)。

這98%的非編碼序列,在很長一段時間內無法被理解。近年來,隨着AI發展和生物學研究的深入,科學家們發現,這些序列對基因的表達調控,有可能被解讀。

“生命科學研究長期以‘還原論’爲主,也就是科學家會將某個表型還原到某個基因,研究它的調控和功能。但進入調控序列,這種方法就行不通了。”郭國驥解釋,非編碼序列有一套複雜精密的“語法系統”,決定了哪個基因在何時、何地、以何種強度表達。每一個調控序列的鹼基,都可能在不同時間、不同類型細胞中扮演不同角色。因此,用傳統敲除驗證的方法,就像盲人摸象。

2020年,郭國驥團隊完成了小鼠和人類細胞圖譜的一系列工作,他們開始思考從生物的一級DNA序列尋找細胞圖譜的編碼模式。當時,傳統學界並不理解。“憑什麼一級DNA序列就會決定終極表型?”但郭國驥認爲,生物的表觀、表型等複雜現象之“因”,深植於DNA序列本身。從一級DNA序列出發,研究生物表型,遠比直接研究生物表型特徵之間的聯繫更能找到本質規律。

傳統表型檢測外貌、身高、指紋之類的宏觀表型。郭國驥則將之精細到單細胞級別的分子表型。“單個細胞裏面的分子是什麼?我們測的是這種‘沒有偏見’的分子表型。”

爲此,團隊在傳統的ATAC測序技術上自主研發出超高靈敏度、超高通量的單細胞級測序技術UUATAC-seq,使測序靈敏度在理論上提升了4倍,通量提升了10到100倍,可以在單日內高效繪製一個物種所有類型細胞核中的染色質可及性圖譜。以此爲基礎,團隊科學家繪製出涵蓋哺乳類、鳥類、兩棲類、爬行類、水生類五大類脊椎動物的單細胞圖譜數據集。

通過研究範式創新獲得高質量的數據,是這個團隊的核心科研優勢所在。據介紹,國外許多頂尖的基因組AI模型,比如近日Deepmind團隊預發表的AlphaGenome,都是基於ENCODE項目進行數據訓練。由於該數據集年代久遠、最長已超過20年,其涵蓋的基本是“羣體細胞”“器官細胞”或者在體外培養的“細胞系”數據,存在分辨率低、不同類型細胞混雜的問題。用這樣的數據集訓練AI,好比用一本內容模糊、混雜的教材教學生。

相較而言,女媧CE的訓練集堪稱“精品”,所有數據在同一技術標準下產生,精度達到單細胞級別,數據噪音更少,有高度的可比性與純淨性。

“可以說,我們爲AI提供了迄今爲止最適合學習基因調控語法的訓練集。”郭國驥說。

更高精度帶來驚人發現:“生命語法”比DNA序列本身更保守

與依賴大量數據、超長掃描窗口(讀長)的生物深度學習算法不同,女媧CE採用多任務框架、超短掃描窗口,直接學習從一級DNA序列到生物體所有類型細胞表型的映射關係。“AI學到了一些我們人類暫時無法理解的複雜規則。”郭國驥說,通過這種規則,就能讓基因組的“暗物質”開口說話,進而預測基因突變帶來的後果。

藉助女媧CE,以500鹼基對(簡稱bp)的“短窗口”進行分段掃描,團隊發現,在億萬年的演化長河中,脊椎動物的基因“調控語法”比其核苷酸序列本身更爲保守。

“這意味着,在進化過程中,即使物種的某段調控序列和過去已完全不同,但它們最終行使的功能依然類似。”郭國驥說,這一發現對達爾文進化論中的“隨機突變”提出了重要補充:脊椎動物的基因組突變並非完全隨機,適者生存並非僅僅依靠環境篩選,還有一套深刻的內在調控語法約束着進化過程。“任何跳出這套語法的突變,可能胚胎都無法形成。它在接受自然選擇前,就被生命底層的邏輯淘汰了。”

這一發現本身,也成爲了女媧CE算法的重要組成部分,讓它擁有超高泛化能力。女媧CE能夠從基因組序列出發,預測未經訓練物種的細胞染色質可及性藍圖,並一次性預測了包括人、猴、牛、豬、馬、羊、熊貓七個物種的單細胞調控原件藍圖。

女媧CE的正式發表,也意味着中國科學家團隊在AI基因組大模型研發的賽道上已先人一步。團隊表示,相關數據和模型本身,將會全部開源。

世界首例AI預測基因位點成功,開拓基因治療新路徑

要知道,很多遺傳性疾病、罕見病,都是因爲細胞的表型異常。以往,當科學家們試圖通過基因編輯手段治療這些疾病,只能通過“神農嘗百草”的方式,不斷嘗試,嘗試幾百、上千次都不算多的。但是,有了AI,就可以根據異常表型特徵,讓AI預測哪些基因位點最有可能讓表型恢復正常。

針對鐮狀細胞病,女媧CE就預測出了治療關鍵位點:胎兒血紅蛋白基因HBG1-68:A>G。這是一個全新的、從未被記錄過的位點。進一步實驗顯示,該位點在基因編輯後能夠實現胎兒血紅蛋白表達量的顯著提升,這也是科學家首次在人類細胞中驗證了基因組AI預測的功能性位點。

除了“女媧”,還有“華佗”“神農”……郭國驥坦言,他偏愛用中國傳統神話爲自己的算法命名,這既是對傳統文化的致敬,也寄託了一種希望。“AI或許最終會超越人類,向着‘神性’發展,就像神話中的女媧摶土造人,幫我們理解乃至創造生命,解決人類的難題。”

(均受訪者供圖)

郭國驥團隊的下一步計劃,是構建虛擬細胞,將調控元件模型與網絡模型、蛋白質結構模型等模塊整合,創造出“數字小鼠”乃至“數字人類”。有了這樣的“數字生命”,科學家就可以高效進行虛擬實驗,測試基因突變的影響或篩選疾病藥物和治療位點,從而大幅縮短研發週期、降低成本,並極大減少實驗動物的使用,讓未來的臨牀試驗更安全、更精準。

業餘時間,郭國驥還是一位歌者。他創作的歌曲《生命》中,有這樣一句歌詞:“宇宙浩瀚無窮盡,卻不及她的珍貴……該如何解開基因的密鎖,該如何理清神經的網絡,千山萬水尋尋覓覓,春去秋來上下求索。”那張調色盤般的封面圖,正來自2020年他在《自然》發表的世界第一份全面的人類細胞圖譜。

爲生命求索,中國科學家從未停下前進的腳步。

相關推薦
請使用下列任何一種瀏覽器瀏覽以達至最佳的用戶體驗:Google Chrome、Mozilla Firefox、Microsoft Edge 或 Safari。為避免使用網頁時發生問題,請確保你的網頁瀏覽器已更新至最新版本。
Scroll to Top