作者:孫健微軟亞洲研究院。
近日,微軟發(fā)布了一個有趣的應(yīng)用程序——“微軟我們”,只需要隨意上傳兩張人的照片,就能知道他們長得有多像,比如測試你是不是長得像某個明星,或者夫妻/男朋友是否平等。類似于前陣子風(fēng)靡全球的How-Old.net,他們都巧妙地將人臉識別與社交網(wǎng)絡(luò)中的人際交流結(jié)合起來。雖然不能百分百準(zhǔn)確,但高科技幽默的人際溝通和交流效果,可以說是人臉識別技術(shù)和社交網(wǎng)絡(luò)發(fā)展到一定階段的自然應(yīng)用創(chuàng)新。
開發(fā)人員可以使用基于云計算平臺Azure的牛津項目API來實現(xiàn)許多有趣的想法。作為一個提供人臉識別技術(shù)的中國研究團隊,我們不僅要根據(jù)用戶反饋快速迭代、細化API,還要從研究原點不斷優(yōu)化人臉識別算法。
大量”閱讀“照片學(xué)習(xí)辨識,深度學(xué)習(xí)成主流識別方式
微軟亞洲研究院在人臉識別領(lǐng)域耕耘了近20年。從最早的子空間方法,到后來的局部描述子方法,再到現(xiàn)在的深度學(xué)習(xí)方法,我們經(jīng)歷了人臉識別技術(shù)的所有主流研究方法。
上世紀(jì)八九十年代,人臉識別的誤差比較大,應(yīng)用領(lǐng)域非常有限,所以通常用在查驗身份照片等特定領(lǐng)域。當(dāng)時的技術(shù)相當(dāng)簡單,圖像通常經(jīng)過簡單的預(yù)處理后線性映射到高維向量空間。由于缺乏線性模型能力,當(dāng)時的識別準(zhǔn)確率比今天差10倍左右。
從2000年到2010年,局部描述子方法成為研究的主流。它從人臉的局部區(qū)域(如眉、眼、鼻、口等)提取局部描述符。),然后將它們線性或非線性地映射到高維向量空間。與前一階段的子空間方法相比,該方法的識別精度大大提高。然而,由于功能和模型總是手動設(shè)計的,因此仍然存在一些限制。
自2012年以來,深度學(xué)習(xí)方法在學(xué)術(shù)界得到了廣泛應(yīng)用。深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的人臉識別算法大大提高了識別精度。簡而言之,就是讓網(wǎng)絡(luò)結(jié)構(gòu)中預(yù)設(shè)了人臉識別先驗知識的神經(jīng)網(wǎng)絡(luò)“讀取”大量多人在各種環(huán)境(如光照、透視、表情)下拍攝的不同人臉照片,自動學(xué)習(xí)提取人臉各部位、各尺度的低、中、高級特征。經(jīng)過大量的研究,它可以根據(jù)提供的監(jiān)管信息將不同的人分開。
隨著計算機技術(shù)的發(fā)展,廉價的PC GPU可以提供數(shù)千個并行計算單元,這使得深度學(xué)習(xí)在許多計算機研究領(lǐng)域異軍突起,并取得了相當(dāng)多的新研究方法。
人臉識別的基礎(chǔ)環(huán)節(jié)
How-Old.net和“微軟我們”主要識別靜態(tài)人臉照片,只使用了一小部分人臉識別技術(shù)。一個完整的人臉識別系統(tǒng)可以自動檢測和跟蹤包含人臉的圖片或視頻流中的人臉,從而達到識別的目的,通常稱為人像識別和人臉識別。一般來說,人臉識別系統(tǒng)大致可以分為以下四個部分:
首先,檢測面部的位置。首先,我們應(yīng)該確定臉在哪里,它的大小,位置等。目前常用的是級聯(lián)分類器,可以利用人工設(shè)計的特征模型或深度學(xué)習(xí)模式,一次篩選一個層次。為了加快速度,我們可以在前期使用人工設(shè)計的特征模型快速篩選出不是人臉的部分,后期使用深度學(xué)習(xí)來精細判斷每個留下的部分是否是人臉。
其次,定位臉部和各個部位。給臉后,鼻子、眼睛、嘴巴等。都是確定的,這通常采用回歸預(yù)測的方法?;貧w有很多種,如隨機森林法和深度學(xué)習(xí)法。以深度學(xué)習(xí)為例,訓(xùn)練時告訴回歸者眼睛在哪里,鼻尖在哪里,預(yù)測值和真值的距離越小越好?;诖?,不斷調(diào)整回歸的參數(shù),用上千張人臉照片反復(fù)訓(xùn)練,直到回歸能夠準(zhǔn)確輸出人臉各個器官的準(zhǔn)確位置信息。
第三,人臉特征匹配與識別。在這個過程中,將待識別的人臉特征與獲得的人臉特征模板進行比較,根據(jù)細節(jié)層次判斷人臉的身份信息。使用深度學(xué)習(xí)方法可以大大簡化這個過程,因為所有的特征匹配都是通過神經(jīng)網(wǎng)絡(luò)自動實現(xiàn)的,這也是目前最有效的識別方法。
最后是人臉屬性識別。用戶感興趣的面部屬性可能包括很多,比如年齡(在How-Old.net中使用)、性別、表情、種族、發(fā)型、是否戴眼鏡、胡子的類型。這種屬性可以通過深度學(xué)習(xí)直接分類或回歸。
高識別率與用戶體驗
雖然經(jīng)常聽說在特定的評測數(shù)據(jù)庫中,人臉識別算法的準(zhǔn)確率已經(jīng)超過了人類的識別率,但是在實際應(yīng)用場景中,并沒有通用的基準(zhǔn)來衡量人臉識別算法的準(zhǔn)確率。對于不同的應(yīng)用,識別率和用戶體驗由訓(xùn)練數(shù)據(jù)和算法決定。
錯誤接受率是人臉識別中的一個重要指標(biāo)。一般錯誤接受率越低越好。不能放錯人進去,嚴(yán)格保證安全,但也可能意味著真實用戶多次嘗試刷臉都進不去,大大降低了最終的用戶體驗。因此,在實際應(yīng)用中,安全和用戶體驗之間的謹(jǐn)慎平衡是必須考慮的重要因素。因此,當(dāng)我們看到人臉識別應(yīng)用的巨大進步時,我們?nèi)匀恍枰陀^嚴(yán)謹(jǐn)?shù)貙Υ四樧R別算法,時刻提醒自己其局限性仍然存在,需要不斷尋求更多更有效的方法對其進行改進。
科學(xué)研究的每一個進步都會催生出各種各樣的創(chuàng)新應(yīng)用。深度學(xué)習(xí)、社交網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)的興起相互交叉,人臉識別研究多年的積累,開啟了人臉識別應(yīng)用的創(chuàng)新浪潮,這些應(yīng)用要么有趣,要么實用,肯定會越來越多。也許在不久的將來,計算機將能夠通過人類的表情和肢體語言來體驗人類的喜怒哀樂。