close

image.png

“悟道1.0”由智源研究院學術副院長、清華大學唐傑教授領銜,帶領來自北京大學、清華大學、中國人民大學、中國科學院等單位的100餘位AI科學傢團隊聯合攻關,同時與快手、搜狗、360、阿裡、新華社等龍頭企業共同研發工業級示范性應用。

image.png

智源研究院院長黃鐵軍教授介紹,近幾年這輪人工智能浪潮的基本特點是“數據+算力+算法=模型”,模型濃縮瞭訓練數據的內部規律,是實現人工智能應用的載體。近年來人工智能的發展,已經從“大煉模型”逐步邁向瞭“煉大模型”的階段,通過設計先進的算法,整合盡可能多的數據,匯聚大量算力,集約化地訓練大模型,供大量企業使用,是必然趨勢。

智源研究院2020年10月啟動“悟道”項目,研發規模大(主要體現為參數量)、智商高、具備類人認知能力、統一對多模態數據的理解和建模、滿足各種應用需要的預訓練模型,特別是註重中文語料的采集和訓練。

四大模型:中文、多模態、認知、蛋白質預測

“悟道”模型技術委員會主任、智源研究院學術副院長唐傑教授介紹,“悟道1.0”先期啟動瞭4個大模型的研發。

以中文為核心的預訓練語言模型“悟道·文源”目前模型參數量達26億,具有識記、理解、檢索、數值計算、多語言等多種能力,並覆蓋開放域回答、語法改錯、情感分析等20種主流中文自然語言處理任務,技術能力已與GPT-3齊平。

其目標是構建完成全球規模最大的中文預訓練語言模型,在文本分類、情感分析、自然語言推斷、閱讀理解等多個任務上超越人類平均水平,探索具有通用能力的自然語言理解技術,並進行腦啟發的語言模型研究。

超大規模多模態預訓練模型“悟道·文瀾”,目前模型參數量達10億,基於從公開來源收集到的5000萬個圖文對上進行訓練,是首個公開的中文通用圖文多模態預訓練模型。

其目標是突破基於圖、文和視頻相結合的多模態數據的預訓練理論難題,並最終生成產業級中文圖文預訓練模型和應用,並在多個評測應用上超過國際最高性能。

該模型已對外開放API,並有兩款小應用,可以為用戶上傳的照片配文,或搭配最合拍的音樂。

image.png

面向認知的超大規模新型預訓練模型“悟道·文匯”,目前參數規模達113億,在AI作詩、AI作圖、AI制作視頻、圖文生成、圖文檢索、復雜推理等多項任務中的表現已經接近突破圖靈測試,可以應用在電商行業自動撰寫商品文案等場景。

image.png

image.png

其目標是研發出千億至萬億級參數量的、更通用、且性能超越國際水平的預訓練模型,搭建預訓練模型體系,從認知角度研究通用人工智能,發展模型基於邏輯、意識和推理的認知能力。

超大規模蛋白質序列預測預訓練模型“悟道·文溯”,已在蛋白質方面完成基於100GB UniParc數據庫訓練的BERT模型,在基因方面完成基於5-10萬規模的人外周血免疫細胞(細胞類型25-30種)和1萬耐藥菌的數據訓練,同時搭建訓練軟件框架並驗證其可擴展性。

其目標是以基因領域認知圖譜為指導,研發出十億參數規模、可以處理超長蛋白質序列的超大規模預訓練模型,在基本性能、可解釋性和魯棒性等多個方面達到世界領先水平。

WuDaoCorpora:全球最大中文語料數據庫

在科研方面,“悟道1.0”取得瞭多項國際領先的AI技術突破,與現有同類算法及模型相比提升瞭訓練速度,提高瞭識別準確度和效率。不過更值得一提的是該項目建設並開放瞭全球最大中文語料數據庫WuDaoCorpora。

WuDaoCorpora數據規模達2TB,超出之前全球最大的中文語料庫CLUECorpus2020十倍以上,同時著重去除瞭數據中包含的隱私信息,防止瞭隱私泄露。

WuDaoCorpora的數據來源豐富,包括新聞咨詢、評論、百科、論壇、博客、學術論文等,使得該數據集能夠適用於不同種類的自然語言處理任務,訓練出的模型泛化性更強。

此外,WuDaoCorpora數據標簽的完備性較高,語料中包含醫療、法律、金融等領域標簽,可以依據需求抽取某個特定領域的數據,用於訓練該領域的模型,也可以用於對大模型進行微調,構建某一特定領域的應用。

該數據集不僅為“悟道”項目提供瞭數據支撐,還可被用於中文自然語言處理領域的多種任務模型訓練,包括文本生成模型、詞嵌入模型、問答對話模型等,對於國際自然語言處理領域的發展將有著積極的促進作用。

相關文章:

清華自然語言處理科學傢孫茂松:讓算法懂得人類“常識”

深度學習如何處理人類語言?探究谷歌多語言模型背後的奧秘

訓練10億張圖片,Facebook新AI模型可能給計算機視覺帶來革命

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 Ken641228 的頭像
    Ken641228

    Ken641228的部落格

    Ken641228 發表在 痞客邦 留言(0) 人氣()