close

11月30日,賽事盤點大會(今年改為線上舉辦)開幕,公佈瞭上述結果。

一個蛋白質的功能由它的3D結構決定。來源:DeepMind

一個蛋白質的功能由它的3D結構決定。來源:DeepMind

“這非常瞭不起。”馬裡蘭大學計算生物學傢John Moult說。Moult在1994年聯合創辦瞭CASP,為的是提高準確預測蛋白質結構的計算方法。“從某種程度上說,問題解決瞭。”

能根據氨基酸序列準確預測蛋白質結構,將為生命科學和醫藥領域帶來巨大好處。這將極大地增進我們對細胞基本構成的理解,讓藥物發現加速升級。

AlphaFold在上一屆的CASP上摘得頭魁——2018年,總部位於倫敦的DeepMind首次參賽。而在今年,DeepMind的深度學習網絡更是一騎絕塵,用科學傢的話說,其表現之驚人,或預示著生物學的一場革命。

“它改變瞭整個局面。”CASP的評委、馬克斯·普朗克發育生物學研究所的演化生物學傢Andrei Lupas說。AlphaFold幫他發現瞭困擾他實驗室數十年的一種蛋白質的結構,他認為AlphaFold將改變他的工作方式,以及他要解決的問題。“它將改變醫學,改變研究,改變生物工程,改變所有。”Lupas說。

有些時候,AlphaFold預測的結構與利用X射線晶體學和近幾年的冷凍電鏡(cryo-EM)等“金標準”實驗方法所確定的結構幾乎別無二致。科學傢說,目前看來,AlphaFold還不能取代這些費力又昂貴的技術,但它將帶來全新的研究生命的方式。

結構問題

蛋白質是生命的基石,決定著細胞裡發生的一切。蛋白質如何工作以及它做些什麼都是由它的3D結構決定的——“結構即功能”是分子生物學的一條公理。蛋白質似乎無需幫助就能成形,隻需要遵循物理定律。

幾十年來,實驗室實驗一直是獲得良好的蛋白質結構的主要手段。蛋白質的首個完整結構是在上世紀50年代確定的,當時使用的技術拿X射線束照射結晶的蛋白質,衍射光轉化為蛋白質的原子坐標。X射線晶體學貢獻瞭大部分的蛋白質結構,但在過去十年裡,冷凍電鏡成為瞭許多結構生物學實驗室的首選工具。

科學傢一直想知道蛋白質的組分——一連串不同的氨基酸——是如何扭曲和折疊成其最終形狀的。20世紀80、90年代用計算機預測蛋白質結構的早期嘗試並不成功,研究人員說。已發表論文中的誇大其詞在其他科學傢用別的蛋白質嘗試時很容易不攻自破。

為瞭讓這方面的研究更加嚴謹一些,Moult創立瞭CASP。參賽團隊需要預測的蛋白質的結構已經用實驗方法進行瞭解析,但尚未公佈。Moult認為這個實驗(他沒有稱其為比賽)擠掉瞭水分,凈化瞭整個領域。“你真的在判斷哪些看起來有希望、哪些有用、哪些需要拋棄。”他說。

來源:DeepMind

來源:DeepMind

DeepMind在2018年CASP13上的表現驚艷瞭領域內的不少科學傢,這個領域本來一直是一小群學術團體的堡壘。不過,當時它的方法大體上與其他利用AI的團隊差不多,伊利諾伊大學芝加哥分校的計算生物學傢Jinbo Xu說。

AlphaFold的首次迭代將深度學習應用到結構和遺傳數據上,用來預測一個蛋白質的氨基酸對之間的距離。第二步不需要AI,AlphaFold會用這一信息給出這個蛋白質應有結構的“共識”模型,DeepMind項目負責人John Jumper說。

團隊嘗試從這個方法展開,但最終碰壁瞭。於是他們換瞭個方向,Jumper說,他們設計瞭一種AI網絡,其中包含決定蛋白質折疊的額外的物理和幾何約束條件。他們還給它佈置瞭一個更難的任務:沒有讓它預測氨基酸之間的關系,而是預測一段目標蛋白序列的最終結構。“這讓整個系統復雜瞭不止一點。”Jumper說。

準確度驚人

每屆CASP會持續好幾個月。比賽中會定期給出目標蛋白質或蛋白質結構域——總共100個左右,讓團隊有幾周的時間來提交他們預測的結構。隨後,一支由獨立科學傢組成的團隊利用各類指標對預測結果進行評估,這些指標主要判斷團隊預測的蛋白質與實驗解析的結構有多相似。評審專傢並不知道預測是誰做的。

AlphaFold的預測用被稱為“427組”,多個預測達到瞭驚人的準確性,讓它們脫穎而出,Lupas說。“我猜到瞭是AlphaFold,大部分人都猜到瞭。”他說。

AlphaFold的預測水平有高有低,但將近三分之二的預測結果都與實驗結果在質量上不相上下。有些情況下,Moult說,我們甚至不知道AlphaFold的預測和實驗結果之間的差異究竟是預測上的錯誤還是實驗中的偽跡。

AlphaFold的預測結果與利用核磁共振光譜技術解析的實驗結構匹配度較差,但這可能和原始數據轉為模型的方式有關,Moult說。AlphaFold在模擬蛋白復合物/群組的單體結構方面也顯困難,因為它們與其他蛋白質的相互作用會扭曲其形狀。

整體來說,今年參賽團隊的預測結果較上一屆更加準確,但主要進步還是來自AlphaFold,Moult說。預測準確度以100分為滿分,在難度中等的目標蛋白質中,其他團隊的最好成績一般是75分,而AlphaFold能拿到90分左右,Moult說。

約半數團隊在摘要裡概括他們的方法時都提到瞭“深度學習”,Moult說,說明瞭AI對該領域的影響力不容小覷。參加CASP14的大部分團隊都有學術背景,但也有微軟和騰訊這樣的團隊。

紐約哥倫比亞大學的計算生物學傢Mohammed AlQuraishi也參加瞭CASP,他迫切想要瞭解AlphaFold在比賽中的表現細節,他準備在12月1日DeepMind團隊演示他們的方法時,好好研究一下這個系統的工作方式。他說,雖然可能性不大,但也有可能是因為這次的目標蛋白質比平時簡單,才讓他們取得瞭如此好的成績。強烈的直覺告訴AlQuraishi,AlphaFold將是顛覆性的。

“我想可以這麼說,蛋白質結構預測領域將迎來一場顛覆。我懷疑許多人都會離開,因為該領域的核心問題已經解決瞭。”他說,“這是最高級別的突破,它絕對是我一生中看到的最重要的科學成果之一。”

加快預測蛋白質結構

AlphaFold的預測幫助確定瞭Lupas實驗室多年來一直想要破解的一種細菌蛋白的結構。Lupas的團隊此前收集瞭原始的X射線衍射數據,但將這些羅夏(Rorschach)墨跡一樣的圖案變成一種結構,需要一些關於蛋白質形狀的信息。用於獲得這些信息的技巧,以及其他預測工具都失敗瞭。“427組的模型在半小時裡就給出瞭我們的結構,而這個結構曾讓我們花瞭十年時間,試遍瞭所有方法。”Lupas說。

DeepMind的聯合創始人兼首席執行官Demis Hassabis說,公司計劃讓AlphaFold能為其他科學傢所用。(DeepMind之前發表瞭關於第一版AlphaFold 的豐富細節,足以讓其他科學傢重復這個方法。)AlphaFold給出一個預測結構可能要幾天,其中包括對蛋白質不同區域可信度的預測。“我們才開始瞭解生物學傢想要什麼。”Hassabis說,他認為藥物發現和蛋白設計是潛在的應用方向。

2020年初,DeepMind公佈瞭多個尚無實驗確定的新冠病毒蛋白的結構預測結果。DeepMind對Orf3a蛋白的預測和後來用冷凍電鏡確定的結構非常相似,加州大學伯克利分校的分子神經生物學傢Stephen Brohawn說。Brohawn的團隊在6月公佈瞭這個結構。“他們之前的結果真的讓人印象深刻。”他補充道。

現實影響力

AlphaFold不太可能會讓實驗室關門——比如用實驗方法解析蛋白質結構的Brohawn實驗室。但它或許意味著,想要得到一個好的結構,可能隻要相對低質量、易收集的實驗數據就夠瞭。它的一些應用註定要大放異彩,比如對蛋白質的演化分析,因為現有的海量基因組數據如今有望可靠地轉化為結構瞭。“這將賦能新一代的分子生物學傢,讓他們提出更前沿的問題。”Lupas說,“今後需要的思考越來越多,需要的移液越來越少瞭。”

“我本來以為我這輩子都看不到這個問題被解決的一天。”曾擔任CASP評審專傢、歐洲分子生物學實驗室-歐洲生物信息研究所的結構生物學傢Janet Thornton說。她希望這種方法能幫助揭示人類基因組中成千上萬個尚未解析的蛋白質的功能,搞清楚人與人之間為什麼會有不同的致病基因變異。

AlphaFold的表現也是DeepMind的一個轉折點。這傢公司因讓AI成為瞭圍棋等遊戲的高手而聞名,但公司的長遠目標是開發能實現寬泛的、更接近人類智能的程序。化解宏大的科學難題,比如預測蛋白質結構,是它們的AI技術所能實現的最重要的應用之一,Hassabis說。“我真的認為這是我們做過的最厲害的事,我是指在現實影響力方面。”

原文以‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures為標題發表在 2020年11月30日的《自然》新聞上

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 Ken641228 的頭像
    Ken641228

    Ken641228的部落格

    Ken641228 發表在 痞客邦 留言(0) 人氣()