close

Microsoft-Vision-Language-System.webp

當VinVL與OSCAR和vivo等VL融合模塊結合後,微軟新的VL系統能夠在競爭最激烈的VL排行榜上取得第一,包括視覺問題回答(VQA)、微軟COCO圖像字幕和新穎對象字幕(nocaps)。微軟研究團隊還強調,在nocaps排行榜上,這種新的VL系統在CIDEr(92.5對85.3)方面的表現明顯超過瞭人類的同形式表現。

微軟解釋道:

VinVL在改善VL理解的圖像編碼方面表現出瞭巨大的潛力。我們新開發的圖像編碼模型可以使廣泛的VL任務受益,正如本文中的例子所說明的那樣。盡管我們獲得瞭很有希望的結果,比如在圖像字幕基準上超越瞭人類的表現,但我們的模型絕不是達到VL理解的人類水平的智能。未來有趣的工作方向包括 (1)利用海量圖像分類/標記數據,進一步擴大對象屬性檢測預訓練的規模;(2)將跨模態VL表征學習的方法擴展到構建感知基礎的語言模型,可以像人類一樣將視覺概念建立在自然語言中,反之亦然。

微軟VinVL正在被整合到Azure認知服務中,Azure認知服務為微軟的各種服務提供支撐,如Seeing AI、Office和LinkedIn中的圖像字幕等。微軟研究團隊還將向公眾發佈VinVL模型和源代碼。

瞭解更多:

https://www.microsoft.com/en-us/research/blog/vinvl-advancing-the-state-of-the-art-for-vision-language-models/

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 Ken641228 的頭像
    Ken641228

    Ken641228的部落格

    Ken641228 發表在 痞客邦 留言(0) 人氣()