國內科學傢團隊發佈超大規模AI預訓練模型－Ken641228的部落格

“悟道1.0”由智源研究院學術副院長、清華大學唐傑教授領銜，帶領來自北京大學、清華大學、中國人民大學、中國科學院等單位的100餘位AI科學傢團隊聯合攻關，同時與快手、搜狗、360、阿裡、新華社等龍頭企業共同研發工業級示范性應用。

智源研究院院長黃鐵軍教授介紹，近幾年這輪人工智能浪潮的基本特點是“數據+算力+算法=模型”，模型濃縮瞭訓練數據的內部規律，是實現人工智能應用的載體。近年來人工智能的發展，已經從“大煉模型”逐步邁向瞭“煉大模型”的階段，通過設計先進的算法，整合盡可能多的數據，匯聚大量算力，集約化地訓練大模型，供大量企業使用，是必然趨勢。

智源研究院2020年10月啟動“悟道”項目，研發規模大（主要體現為參數量）、智商高、具備類人認知能力、統一對多模態數據的理解和建模、滿足各種應用需要的預訓練模型，特別是註重中文語料的采集和訓練。

四大模型：中文、多模態、認知、蛋白質預測

“悟道”模型技術委員會主任、智源研究院學術副院長唐傑教授介紹，“悟道1.0”先期啟動瞭4個大模型的研發。

以中文為核心的預訓練語言模型“悟道·文源”目前模型參數量達26億，具有識記、理解、檢索、數值計算、多語言等多種能力，並覆蓋開放域回答、語法改錯、情感分析等20種主流中文自然語言處理任務，技術能力已與GPT-3齊平。

其目標是構建完成全球規模最大的中文預訓練語言模型，在文本分類、情感分析、自然語言推斷、閱讀理解等多個任務上超越人類平均水平，探索具有通用能力的自然語言理解技術，並進行腦啟發的語言模型研究。

超大規模多模態預訓練模型“悟道·文瀾”，目前模型參數量達10億，基於從公開來源收集到的5000萬個圖文對上進行訓練，是首個公開的中文通用圖文多模態預訓練模型。

其目標是突破基於圖、文和視頻相結合的多模態數據的預訓練理論難題，並最終生成產業級中文圖文預訓練模型和應用，並在多個評測應用上超過國際最高性能。

該模型已對外開放API，並有兩款小應用，可以為用戶上傳的照片配文，或搭配最合拍的音樂。

面向認知的超大規模新型預訓練模型“悟道·文匯”，目前參數規模達113億，在AI作詩、AI作圖、AI制作視頻、圖文生成、圖文檢索、復雜推理等多項任務中的表現已經接近突破圖靈測試，可以應用在電商行業自動撰寫商品文案等場景。

其目標是研發出千億至萬億級參數量的、更通用、且性能超越國際水平的預訓練模型，搭建預訓練模型體系，從認知角度研究通用人工智能，發展模型基於邏輯、意識和推理的認知能力。

超大規模蛋白質序列預測預訓練模型“悟道·文溯”，已在蛋白質方面完成基於100GB UniParc數據庫訓練的BERT模型，在基因方面完成基於5-10萬規模的人外周血免疫細胞（細胞類型25-30種）和1萬耐藥菌的數據訓練，同時搭建訓練軟件框架並驗證其可擴展性。

其目標是以基因領域認知圖譜為指導，研發出十億參數規模、可以處理超長蛋白質序列的超大規模預訓練模型，在基本性能、可解釋性和魯棒性等多個方面達到世界領先水平。

WuDaoCorpora：全球最大中文語料數據庫

在科研方面，“悟道1.0”取得瞭多項國際領先的AI技術突破，與現有同類算法及模型相比提升瞭訓練速度，提高瞭識別準確度和效率。不過更值得一提的是該項目建設並開放瞭全球最大中文語料數據庫WuDaoCorpora。

WuDaoCorpora數據規模達2TB，超出之前全球最大的中文語料庫CLUECorpus2020十倍以上，同時著重去除瞭數據中包含的隱私信息，防止瞭隱私泄露。

WuDaoCorpora的數據來源豐富，包括新聞咨詢、評論、百科、論壇、博客、學術論文等，使得該數據集能夠適用於不同種類的自然語言處理任務，訓練出的模型泛化性更強。

此外，WuDaoCorpora數據標簽的完備性較高，語料中包含醫療、法律、金融等領域標簽，可以依據需求抽取某個特定領域的數據，用於訓練該領域的模型，也可以用於對大模型進行微調，構建某一特定領域的應用。

該數據集不僅為“悟道”項目提供瞭數據支撐，還可被用於中文自然語言處理領域的多種任務模型訓練，包括文本生成模型、詞嵌入模型、問答對話模型等，對於國際自然語言處理領域的發展將有著積極的促進作用。

相關文章:

清華自然語言處理科學傢孫茂松：讓算法懂得人類“常識”

深度學習如何處理人類語言？探究谷歌多語言模型背後的奧秘

訓練10億張圖片，Facebook新AI模型可能給計算機視覺帶來革命

Ken641228

Ken641228的部落格

Ken641228 發表在痞客邦留言(0) 人氣()

Ken641228的部落格

歡迎光臨Ken641228在痞客邦的小天地的哦

國內科學傢團隊發佈超大規模AI預訓練模型

歷史上的今天

留言列表

站方公告

活動快報

【寵物...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY