智東西
編譯 | 韋世瑋 徐珊
編輯 | 漠影
除瞭人類蛋白質組(人類基因組表達的所有蛋白質約2萬種)之外,他們還將提供其他20種具有生物學意義的生物蛋白質組的開放訪問,總計超過35萬種蛋白質結構,包括從果蠅到小鼠等動物,以及從大腸桿菌到酵母等細菌。
發佈第一批數據後,DeepMind計劃繼續增加蛋白質庫,幾乎覆蓋所有科學已知的已測序蛋白質,共超過1億種結構,該庫將由EMBL維護。在EMBL總幹事Edith Heard看來:“這些數據集將改變我們對生命運作方式的理解。”
“我認為這是DeepMind整個10年多生命周期的頂峰。”DeepMind聯合創始人兼CEO Demis Hassabis談道,從成立之初,DeepMind就打算將AI方面取得的突破在圍棋、雅達利等遊戲上進行測試,並將其應用於現實世界的問題,以加速科學突破並造福人類。
Demis Hassabis稱,這些數據對科學和商業研究人員來說都將永久免費開放。“任何人都可以將它用於任何事情,他們隻需要歸功於參與引用的人。”他說。
▲長期以來,人源中介體復合物(Mediator Complex)一直是結構生物學傢最具挑戰性的多蛋白系統之一。(圖源:Nature)
一、AlphaFold預測蛋白質結構,緩解多領域生物研究瓶頸
21世紀是生物的世紀,更是計算機的世紀。
早在去年12月,DeepMind就推出瞭AlphaFold 2系統,可通過AI軟件對蛋白質結構進行準確預測,該解決方案被認為能解決困擾科學傢們50年的蛋白質折疊(protein folding)問題。
直到上周,DeepMind還發表瞭相關科學論文和源代碼,以解釋如何創建這個高度創新的系統,允許其他人通過AlphaFold來完成相關研究工作。
AlphaFold系統的誕生,證明瞭AI可以在幾分鐘內準確預測蛋白質的3D結構,精確到原子精度。而AlphaFold蛋白質結構數據庫的開放,也將促進世界各地的科學傢們加速對人類蛋白質的研究。
那麼,何為蛋白質折疊問題?
簡單來說,許多生物過程都是圍繞蛋白質來進行的,而蛋白質是由氨基酸序列組成的大型復雜分子,其真正的作用取決於自身獨特的3D結構,也就是蛋白質中氨基酸序列的折疊方式。
瞭解蛋白質結構能增進人類對生命組成部分的理解,從而推動科學傢們在各個領域的研究。
例如,英國樸茨茅斯大學(CEI)正在利用AlphaFold來設計一種新型酶,以快速分解污染嚴重的一次性塑料等廢物;美國科羅拉多大學博爾德分校通過AlphaFold預測,來研究抗生素耐藥性的前景;美國加利福尼亞大學舊金山分校則使用AlphaFold來研究新型冠狀病毒的工作原理……
▲AlphaFold預測的蛋白質結構的兩個例子(藍色)與實驗結果(綠色)的比較(圖源:DeepMind)
這些都是科學傢們利用科技帶來的大量生物數據信息,一步步轉換為未來人類的進步。
但科學傢們指出,這些信息轉換到現實世界並產生結果的過程,仍需要大量時間。“我認為這不會在一年內改變患者的治療方式,但它肯定會對科學界產生巨大影響。”科羅拉多大學生物化學系教授Marcelo C. Sousa說。
需要註意的是,AlphaFold軟件生成的是蛋白質結構的預測,而不是實驗確定的模型,這意味著在某些情況下,科學傢還需要進一步的工作來驗證結構。
DeepMind對此表示,他們花瞭許多時間在AlphaFold軟件中構建準確度指標,讓它能對每個預測的可信度進行排名。
不過,蛋白質結構的預測仍對科學研究帶來瞭巨大幫助。以往科學傢們確定蛋白質結構的實驗過程既耗時又昂貴,還要依賴大量反復試驗,而蛋白質結構預測即便置信度低,也可以為科學傢指明正確的研究方向,為他們節省多年的工作。
英國格拉斯哥大學(University of Glasgow)結構生物學教授Helen Walden認為,DeepMind的數據將“顯著緩解研究瓶頸”,但“進行生物化學和生物學評估的費力、耗費資源的工作”將繼續存在,例如藥物功能研究。
Sousa也提到,他曾在工作中使用過AlphaFold的數據,“科學傢們能快速地感受到它帶來的影響。”他說,在他們與DeepMind的合作中,他們有一個包含蛋白質樣本的數據集,但10年來都還沒開發出一個合適的模型,直到DeepMind同意為他們提供一個結構,在15分鐘內就解決瞭這個問題。
二、蛋白質折疊難題背後,AlphaFold分析速度已提升16倍
AlphaFold隻需15分鐘就能解決的問題,為何困擾瞭這些科學傢10年?蛋白質折疊問題究竟難在哪?
如我們前面所說,蛋白質由氨基酸鏈構成,人體中共含有20種不同的氨基酸,任何一個蛋白質都可以由數百個氨基酸組成,且每個氨基酸都有不同的折疊和扭曲結構。
這些都意味著,哪怕是一個常見的蛋白質分子,它的最終結構都有許多種可能構型。一個估計是,典型的蛋白質可以以10^300種方式折疊。不用數瞭,就是“1”後面跟著300個“0”的可能性。
不過由於蛋白質的樣本太小,科學傢們難以用顯微鏡檢查,不得不使用成本昂貴且復雜的方法來間接確定蛋白質結構,比如核磁共振和X射線晶體學(X-ray crystallography)。
但實際上,簡單地通過氨基酸序列來確定蛋白質結構的構想,在理論上一直是難以實現的。因此,分析蛋白質結構也成為瞭人們攻克生物學領域的一大難關。
直到近年來,人們發現可以利用AI的方法來分析蛋白質結構。借助這些技術,AI系統可以通過在已知蛋白質結構的數據集上進行訓練,並最終利用這些信息來預測蛋白質結構。
多年來,很多團隊都參與到這項AI研究中,其中DeepMind基於深厚的AI人才庫和大量計算資源基礎,一直走在該領域的前沿。
去年,DeepMind在一項名為CASP的國際蛋白質折疊比賽中脫穎而出,其AlphaFold軟件對蛋白質結構的預測結果非常準確。對此,CASP聯合創始人之一的計算生物學傢John Moult說:“在某種意義上,蛋白質折疊的難題已經有瞭解決方案。”
▲DeepMind的AlphaFold軟件顯著提高瞭計算蛋白質折疊的準確性(圖源:DeepMind)
自去年CASP競賽以來,AlphaFold系統也實現瞭升級,現在它分析蛋白質結構的速度已提高瞭16倍。“我們可以在幾分鐘內折疊一個普通蛋白質,多數情況下隻要幾秒鐘。”Hassabis談道。
英國雷丁大學教授Liam McGuffin曾開發出一些蛋白質折疊軟件,他肯定瞭AlphaFold的技術,但也指出,AlphaFold的成功主要歸功於科學傢們數十年的先前研究和公開數據。
“DeepMind擁有大量研究資源來保持數據庫的更新,他們比任何一個學術團體都更有能力做到這一點。”McGuffin認為,盡管科學傢們最終也會走到這一步,但速度會更慢,因為他們沒有足夠的資源。
三、持續推進AI發展,年底數據庫結構將增至1.3億個
盡管DeepMind每年都處於大量虧損的狀態,但這次開放蛋白質結構數據庫是免費的。
實際上,DeepMind歸屬於Google母公司Alphabet,該公司一直在商業醫療保健領域投入大量資源。還有許多報道稱,DeepMind與Alphabet在研究自主性和商業可行性等問題上存在分歧。
不過Hassabis談道,公司一直在計劃免費提供這些信息,這樣做是對DeepMind創始精神的體現。“我們在被收購時與Alphabet達成的協議是,DeepMind主要的研究目的是推進AGI(通用人工智能)和AI技術的發展,然後利用它們來攻克科學領域的難題。”他說。
他認為,Alphabet有許多部門都專註於盈利,但DeepMind對研究的關註能夠“為科學界帶來各種各樣的好處,包括聲望和信譽,從而通過多種方法實現價值。”
Hassabis還強調,雖然DeepMind的主要研究目標是一些基礎領域,但其技術已廣泛應用於Google的其他業務中。“幾乎你使用的任何Google產品,其中一部分技術都有我們的參與。”他透露。
與此同時,Hassabis預測AlphaFold將成為未來的標志,因為它展示瞭AI在處理人類生物學等復雜問題上的巨大潛力。
“我認為我們正處於一個非常激動人心的時刻。”Hassabis提到:“在接下來的十年中,我們和AI領域的其他人都希望能取得突破性進展,真正加速解決我們在地球上面臨的真正重大問題。”
對於接下來的計劃,EMBL-EBI的結構生物信息學Sameer Velankar談道,到今年年底,本周提交的大約36.5萬個蛋白質結構預測將增加至1.3億個,幾乎是所有已知蛋白質的一半。
此外,隨著DeepMind的繼續投資,以及未來對AlphaFold的改進,系統和數據庫也將定期更新。
結語:站在巨人肩膀上看未來,以AI實現多領域多點開花
對DeepMind而言,從AlphaFold系統的更新迭代到蛋白質結構數據庫的開放,研究團隊在五年裡不僅必須要創造性地克服許多技術難題,還要面臨許多復雜算法的創新挑戰,這些都是推動人工智能和生物學領域發展的必經之路。
不能忽視的是,DeepMind乃至未來研究團隊的創新,都是建立在先前幾代科學傢的研究發現上。從蛋白質成像和晶體學的早起先驅,到數以千計的預測專傢和結構生物學傢,他們一路披荊斬棘,花瞭多年時間對蛋白質展開深入研究。
我們也期待,站在巨人的肩膀上的他們,未來能開辟更多創新的科學研究途徑,推動更多領域的發展和進步。
來源:DeepMind、TheVerge、Nature