人臉識別：應(yīng)用開啟創(chuàng)新潮，算法進展才起步

科技

 0  445

生成海報

woxin 2021-11-17 09:09

閱讀需：0

作者：孫健微軟亞洲研究院。

近日，微軟發(fā)布了一個有趣的應(yīng)用程序——“微軟我們”，只需要隨意上傳兩張人的照片，就能知道他們長得有多像，比如測試你是不是長得像某個明星，或者夫妻/男朋友是否平等。類似于前陣子風(fēng)靡全球的How-Old.net，他們都巧妙地將人臉識別與社交網(wǎng)絡(luò)中的人際交流結(jié)合起來。雖然不能百分百準(zhǔn)確，但高科技幽默的人際溝通和交流效果，可以說是人臉識別技術(shù)和社交網(wǎng)絡(luò)發(fā)展到一定階段的自然應(yīng)用創(chuàng)新。

開發(fā)人員可以使用基于云計算平臺Azure的牛津項目API來實現(xiàn)許多有趣的想法。作為一個提供人臉識別技術(shù)的中國研究團隊，我們不僅要根據(jù)用戶反饋快速迭代、細化API，還要從研究原點不斷優(yōu)化人臉識別算法。

大量”閱讀“照片學(xué)習(xí)辨識，深度學(xué)習(xí)成主流識別方式

微軟亞洲研究院在人臉識別領(lǐng)域耕耘了近20年。從最早的子空間方法，到后來的局部描述子方法，再到現(xiàn)在的深度學(xué)習(xí)方法，我們經(jīng)歷了人臉識別技術(shù)的所有主流研究方法。

上世紀(jì)八九十年代，人臉識別的誤差比較大，應(yīng)用領(lǐng)域非常有限，所以通常用在查驗身份照片等特定領(lǐng)域。當(dāng)時的技術(shù)相當(dāng)簡單，圖像通常經(jīng)過簡單的預(yù)處理后線性映射到高維向量空間。由于缺乏線性模型能力，當(dāng)時的識別準(zhǔn)確率比今天差10倍左右。

從2000年到2010年，局部描述子方法成為研究的主流。它從人臉的局部區(qū)域(如眉、眼、鼻、口等)提取局部描述符。)，然后將它們線性或非線性地映射到高維向量空間。與前一階段的子空間方法相比，該方法的識別精度大大提高。然而，由于功能和模型總是手動設(shè)計的，因此仍然存在一些限制。

自2012年以來，深度學(xué)習(xí)方法在學(xué)術(shù)界得到了廣泛應(yīng)用。深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的人臉識別算法大大提高了識別精度。簡而言之，就是讓網(wǎng)絡(luò)結(jié)構(gòu)中預(yù)設(shè)了人臉識別先驗知識的神經(jīng)網(wǎng)絡(luò)“讀取”大量多人在各種環(huán)境(如光照、透視、表情)下拍攝的不同人臉照片，自動學(xué)習(xí)提取人臉各部位、各尺度的低、中、高級特征。經(jīng)過大量的研究，它可以根據(jù)提供的監(jiān)管信息將不同的人分開。

隨著計算機技術(shù)的發(fā)展，廉價的PC GPU可以提供數(shù)千個并行計算單元，這使得深度學(xué)習(xí)在許多計算機研究領(lǐng)域異軍突起，并取得了相當(dāng)多的新研究方法。

人臉識別的基礎(chǔ)環(huán)節(jié)

How-Old.net和“微軟我們”主要識別靜態(tài)人臉照片，只使用了一小部分人臉識別技術(shù)。一個完整的人臉識別系統(tǒng)可以自動檢測和跟蹤包含人臉的圖片或視頻流中的人臉，從而達到識別的目的，通常稱為人像識別和人臉識別。一般來說，人臉識別系統(tǒng)大致可以分為以下四個部分：

首先，檢測面部的位置。首先，我們應(yīng)該確定臉在哪里，它的大小，位置等。目前常用的是級聯(lián)分類器，可以利用人工設(shè)計的特征模型或深度學(xué)習(xí)模式，一次篩選一個層次。為了加快速度，我們可以在前期使用人工設(shè)計的特征模型快速篩選出不是人臉的部分，后期使用深度學(xué)習(xí)來精細判斷每個留下的部分是否是人臉。

其次，定位臉部和各個部位。給臉后，鼻子、眼睛、嘴巴等。都是確定的，這通常采用回歸預(yù)測的方法?；貧w有很多種，如隨機森林法和深度學(xué)習(xí)法。以深度學(xué)習(xí)為例，訓(xùn)練時告訴回歸者眼睛在哪里，鼻尖在哪里，預(yù)測值和真值的距離越小越好?；诖?，不斷調(diào)整回歸的參數(shù)，用上千張人臉照片反復(fù)訓(xùn)練，直到回歸能夠準(zhǔn)確輸出人臉各個器官的準(zhǔn)確位置信息。

第三，人臉特征匹配與識別。在這個過程中，將待識別的人臉特征與獲得的人臉特征模板進行比較，根據(jù)細節(jié)層次判斷人臉的身份信息。使用深度學(xué)習(xí)方法可以大大簡化這個過程，因為所有的特征匹配都是通過神經(jīng)網(wǎng)絡(luò)自動實現(xiàn)的，這也是目前最有效的識別方法。

最后是人臉屬性識別。用戶感興趣的面部屬性可能包括很多，比如年齡(在How-Old.net中使用)、性別、表情、種族、發(fā)型、是否戴眼鏡、胡子的類型。這種屬性可以通過深度學(xué)習(xí)直接分類或回歸。

高識別率與用戶體驗

雖然經(jīng)常聽說在特定的評測數(shù)據(jù)庫中，人臉識別算法的準(zhǔn)確率已經(jīng)超過了人類的識別率，但是在實際應(yīng)用場景中，并沒有通用的基準(zhǔn)來衡量人臉識別算法的準(zhǔn)確率。對于不同的應(yīng)用，識別率和用戶體驗由訓(xùn)練數(shù)據(jù)和算法決定。

錯誤接受率是人臉識別中的一個重要指標(biāo)。一般錯誤接受率越低越好。不能放錯人進去，嚴(yán)格保證安全，但也可能意味著真實用戶多次嘗試刷臉都進不去，大大降低了最終的用戶體驗。因此，在實際應(yīng)用中，安全和用戶體驗之間的謹(jǐn)慎平衡是必須考慮的重要因素。因此，當(dāng)我們看到人臉識別應(yīng)用的巨大進步時，我們?nèi)匀恍枰陀^嚴(yán)謹(jǐn)?shù)貙Υ四樧R別算法，時刻提醒自己其局限性仍然存在，需要不斷尋求更多更有效的方法對其進行改進。

科學(xué)研究的每一個進步都會催生出各種各樣的創(chuàng)新應(yīng)用。深度學(xué)習(xí)、社交網(wǎng)絡(luò)和移動互聯(lián)網(wǎng)的興起相互交叉，人臉識別研究多年的積累，開啟了人臉識別應(yīng)用的創(chuàng)新浪潮，這些應(yīng)用要么有趣，要么實用，肯定會越來越多。也許在不久的將來，計算機將能夠通過人類的表情和肢體語言來體驗人類的喜怒哀樂。

相關(guān)標(biāo)簽:

評論

消滅零回復(fù)

人臉識別：應(yīng)用開啟創(chuàng)新潮，算法進展才起步

站長推薦