Casual Conversations包含3000名參與者的4100多段視頻,其中一些來自Deepfake Detection Challenge,旨在通過加入 "明顯 "膚色的標簽來對抗這種偏見。Facebook表示,這些色調是用Fitzpatrick量表估算出來的,Fitzpatrick量表是美國皮膚科醫生Thomas B. Fitzpatrick在1975年開發的一種膚色分類模式。菲茨帕特裡克量表是一種對皮膚類型對紫外線的反應進行概括的方法,從I型(總是灼傷而從不曬黑的蒼白皮膚)到VI型(從不灼傷的深色素皮膚)。
Facebook表示,它為Casual Conversations招募瞭訓練有素的註釋員,以確定每個參與者的皮膚類型。註釋員還為視頻標註瞭環境光照條件,這有助於衡量模特在低光照條件下如何對待不同膚色的人。Facebook的一位發言人通過電子郵件告訴VentureBeat,聘請瞭一傢美國供應商從 "各種背景、種族和性別 "中挑選該項目的註釋者。參與者來自亞特蘭大、休斯敦、邁阿密、新奧爾良和裡士滿,並且都獲得瞭報酬。
作為一個領域,工業界和學術專傢在理解人工智能的公平性和偏見方面仍然處於早期階段,人工智能研究界可以將Casual Conversations作為實現亞群體測量和公平性研究正常化的重要基石之一,Facebook表示,通過Casual Conversations,希望能夠推動這一重要的新興領域的進一步研究。為瞭支持Facebook的觀點,有一系列證據表明,計算機視覺模型尤其容易受到有害的、普遍的偏見的影響。科羅拉多大學博爾德分校的研究人員去年秋天的一篇論文證明,亞馬遜、Clarifai、微軟和其他公司的人工智能對同性男性和女性的準確率保持在95%以上,但有38%的時間會將跨性別男性誤認成女性。Gender Shades項目和美國國傢標準與技術研究所(NIST)對主要廠商系統的獨立基準測試表明,面部識別技術表現出種族和性別偏見,並表明目前的面部識別程序可能會出現瘋狂的不準確,在96%以上的時間裡誤將人分類。
除瞭面部識別之外,Zoom的虛擬背景和Twitter的自動照片裁剪工具等功能,歷來都對皮膚較黑的人不利。早在2015年,一位軟件工程師就指出,谷歌照片中的圖像識別算法給他的黑人朋友貼上瞭 "大猩猩 "的標簽。而非營利組織AlgorithmWatch顯示,谷歌的雲視覺API一度自動將深色皮膚的人持有的溫度計標註為 "槍",而將淺色皮膚的人持有的溫度計標註為 "電子設備"。專傢們將這些錯誤中的許多錯誤歸咎於用於訓練模型的數據集的缺陷。
但Casual Conversations遠不是一個完美的基準。Facebook表示,它並沒有收集參與者的原籍信息。而且在詢問他們的性別時,該公司隻提供瞭 "男性"、"女性 "和 "其他 "的選擇--沒有包括像那些認定為非二元的性別。該發言人還澄清說,從今天起,Casual Conversations隻對Facebook團隊開放,不會要求員工將其用於評估目的。關於Facebook公平方法的曝光並沒有在人工智能社區內產生多少信任。紐約大學在2020年7月發表的一項研究估計,Facebook的機器學習系統每天會犯大約30萬個內容修改錯誤,而且有問題的帖子繼續從Facebook的過濾器中溜走。
Facebook方面表示,雖然該公司認為Casual Conversations是 "好的、大膽的 "第一步,但在未來一年左右的時間裡,該公司將繼續推動開發能夠捕捉更多樣化的技術,並且希望探索擴大這一數據集的途徑,使其更具包容性,其代表性包括更多的地理位置、活動以及更廣泛的性別認同和年齡等等。
留言列表