close

要知道,當年AlphaFold2橫空出世,那是真·沸騰瞭學術圈。

不僅GoogleCEO皮猜、馬斯克、李飛飛等大V紛紛點贊,連馬普所的演化生物研究所所長Andrei Lupas都直言:它會改變一切。

結構生物學傢Petr Leiman感嘆,我用價值一千萬美元的電鏡努力地解瞭好幾年,Alphafold2竟然一下就算出來瞭。

更是有生物學網友表示絕望,感覺專業“前途渺茫”:

而今天這一波Nature、Science神仙打架,再次點燃話題度。

讓學界狂熱的Alphafold2

先說被頂刊爭相報道的Alphafold2,它作為一個AI模型,為何引起各界狂熱?

因為它一出來,就解決瞭生物學界最棘手的問題之一。這個問題於1972年被克裡斯蒂安·安芬森提出,它的驗證曾經困擾科學傢50年:

給定一個氨基酸序列,理論上就能預測出蛋白質的3D結構。

蛋白質由氨基酸序列組成,但真正決定蛋白質作用的,是它的3D結構,也就是氨基酸序列的折疊方式。

為瞭驗證這個理論,科學傢們嘗試瞭各種手段,但在CASP14(蛋白質結構預測比賽)中,準確性也隻達到40分左右(滿分100)。

直到去年12月,Alphafold2出現,將這一準確性直接拔高到瞭92.4/100,和蛋白質真實結構之間隻差一個原子的寬度,真正解決瞭蛋白質折疊的問題。

Alphafold2於當年入選Science年度十大突破,被稱作結構生物學“革命性”的突破、蛋白質研究領域的裡程碑。

它的出現,能更好地預判蛋白質與分子結合的概率,從而極大地加速新藥研發的效率。

今天,Alphafold2的開源,又進一步在AI和生物學界激起瞭一大波浪。

GoogleCEO皮猜很高興:

亦有生物學博士表示:未來已來!

來自UC伯克利AI實驗室的博士Roshan Rao在看過後表示,這份代碼看起來不僅容易使用,而且文檔也非常完善。

現在,是時候借著這份開源算法,弄清Alphafold2的魔術是怎麼變的瞭。

AlphaFold2詳細信息公開

研究人員強調,這是一個完全不同於AlphaFold的新模型。

2018年的AlphaFold使用的神經網絡是類似ResNet的殘差卷積網絡,到瞭AlphaFold2則借鑒瞭AI研究中最近新興起的Transformer架構。

Transformer使用註意力機制興起於NLP領域,用於處理一連串的文本序列。

而氨基酸序列正是和文本類似的數據結構,AlphaFold2利用多序列比對,把蛋白質的結構和生物信息整合到瞭深度學習算法中。

AlphaFold2用初始氨基酸序列與同源序列進行比對,直接預測蛋白質所有重原子的三維坐標。

從模型圖中可以看到,輸入初始氨基酸序列後,蛋白質的基因信息和結構信息會在數據庫中進行比對。

多序列比對的目標是使參與比對的序列中有盡可能多的序列具有相同的堿基,這樣可以推斷出它們在結構和功能上的相似關系。

比對後的兩組信息會組成一個48block的Evoformer塊,然後得到較為相似的比對序列。

比對序列進一步組合8 blocks的結構模型,從而直接構建出蛋白質的3D結構。

最後兩步過程還會進行3次循環,可以使預測更加準確。

△如何用三維坐標確定結構

還有更快、成本更低的算法?

AlphaFold2首次公佈的時候並沒有透露太多技術細節。

在華盛頓大學,同樣致力於蛋白質領域的David Baker一度陷入失落:如果有人已經解決瞭你正在研究的問題,但沒有透露他們是如何解決的,你該如何繼續研究?

不過他馬上重整旗鼓,帶領團隊嘗試能不能復現AlphaFold2的成功。

幾個月後,Baker團隊的成果不僅在準確度上和AlphaFold2不相上下,還在計算速度和算力需求上實現瞭超越。

就在AlphaFold2開源論文登上Nature的同一天,Baker團隊的RoseTTAFold也登上Science。

RoseTTAFold隻需要一塊RTX2080顯卡,就能在10分鐘左右計算出400個氨基酸殘基以內的蛋白質結構。

這樣的速度,意味著什麼?

那就是研究蛋白質的科學傢不用再排隊申請超算資源瞭,小型團隊和個人研究者隻需要一臺普通的個人電腦就能輕松展開研究。

RoseTTAFold的秘訣在於采用瞭3軌註意力機制,分別關註蛋白質的一級結構、二級結構和三級結構。

再通過在三者之間加上多處連接,使整個神經網絡能夠同時學習3個維度層次的信息。

考慮到現在市場上顯卡不太好買,Baker團隊還貼心的搭建瞭公共服務器,任何人都可以提交蛋白質序列並預測結構。

自服務器建立以來,已經處理瞭來自全世界研究者提交的幾千個蛋白質序列。

這還沒完,團隊發現如果同時輸入多個氨基酸序列,RoseTTAFold還可以預測出蛋白質復合體的結構模型。

對於多個蛋白質組成的復合體,RoseTTAFold的實驗結果是在24GB顯存的英偉達Titan RTX上計算30分鐘左右。

現在整個網絡是用單個氨基酸序列訓練的,團隊下一步計劃用多序列重新訓練,在蛋白質復合體結構預測上還可能有提升空間。

正如Baker所說:我們的成果可以幫助整個科學界,為生物學研究加速。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 Ken641228 的頭像
    Ken641228

    Ken641228的部落格

    Ken641228 發表在 痞客邦 留言(0) 人氣()