這是一個(gè)看臉的世界,尤其在這個(gè)刷臉就能夠影響銀行卡余額的時(shí)代,如何準(zhǔn)確地看臉已經(jīng)成為關(guān)系到民生大計(jì)的重大問題。二十年來專注于人臉的中科院計(jì)算所研究員、中科視拓董事長兼CTO山世光博士,將帶著大家從技術(shù)和應(yīng)用兩個(gè)層面,回顧人臉檢測與識(shí)別領(lǐng)域一年來的進(jìn)展。
過去一年與以往幾年相比,在方法和技術(shù)層面的一個(gè)核心趨勢是:人臉識(shí)別相關(guān)技術(shù)已經(jīng)全面深度化。相比其他視覺或機(jī)器學(xué)習(xí)任務(wù),人臉識(shí)別的特殊性遠(yuǎn)沒有我們之前認(rèn)為的大,所以我認(rèn)為過去一年特異于人臉識(shí)別的新方法和新技術(shù)并不是特別多。但是,在應(yīng)用方面,人臉識(shí)別正可謂“花月正春風(fēng)”,甚至可以說它引領(lǐng)了計(jì)算機(jī)視覺的落地應(yīng)用,不過后面會(huì)提到要謹(jǐn)防倒春寒。
我們知道,一套全自動(dòng)的人臉識(shí)別系統(tǒng)大概包括三個(gè)不同的步驟:
1.人臉檢測,即從畫面中框出圖像中出現(xiàn)的人臉;
2.特征點(diǎn)定位,即標(biāo)記出人臉上的眼睛、鼻子、嘴等關(guān)鍵點(diǎn);
3.狹義的人臉識(shí)別,即完成輸入人臉與系統(tǒng)已見過、記憶過的人臉的比對(duì)。
在這里,我先總體上概括一下這三個(gè)步驟上的年度進(jìn)展:
1. 人臉檢測
在人臉檢測方面,目前主流的方法是通用目標(biāo)檢測中的R-CNN等這類方法,Cascade CNN則是比較特異于人臉檢測的方法,它將傳統(tǒng)的滑動(dòng)窗口方法與深度學(xué)習(xí)相結(jié)合,也取得了不亞于R-CNN系列方法的性能。人臉檢測曾被認(rèn)為是一個(gè)已經(jīng)解決的問題,事實(shí)上并不是,在人臉分辨率極低、姿態(tài)很大、背光、偏光、極低照度等惡劣光照條件下,還是會(huì)有很多漏檢。有鑒于此,去年出現(xiàn)了一個(gè)新的人臉檢測Benchmark,應(yīng)該會(huì)對(duì)人臉檢測領(lǐng)域產(chǎn)生重要促進(jìn)作用。
2. 特征點(diǎn)定位
對(duì)于第二個(gè)步驟,即特征點(diǎn)定位,我們感覺去年的一個(gè)趨勢是從過去流行的基于深度特征學(xué)習(xí)的Cascaded Shape Regression策略,到引入RNN這樣的循環(huán)神經(jīng)網(wǎng)絡(luò)策略,并試圖解決大姿態(tài)條件下的特征點(diǎn)定位問題。
3. 狹義人臉識(shí)別
對(duì)于第三個(gè)步驟,即狹義的人臉識(shí)別或人臉比對(duì),個(gè)人認(rèn)為技術(shù)上并沒有太多新的進(jìn)步,主流的方法仍然是采用各種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN),特別是ResNet,來學(xué)習(xí)更有判別力的特征。實(shí)戰(zhàn)中性能的提升主要還是來自越來越多的人臉數(shù)據(jù),不同場景下的人臉識(shí)別技術(shù)均取得了很大的進(jìn)步,并在快速進(jìn)入市場。當(dāng)然,這個(gè)領(lǐng)域需要新的benchmark來度量技術(shù)的本質(zhì)進(jìn)步情況。
原有數(shù)據(jù)集
從人臉檢測的角度來看,在過去的幾年里,學(xué)術(shù)界大多數(shù)還是在用FDDB做測試用的benchmark。目前,在這個(gè)共有2845幅圖像、5171個(gè)人臉的數(shù)據(jù)集上,在共輸出100個(gè)誤檢的情況下,用Fast R-CNN可以輕松取得90%以上的檢測率或稱召回率。工業(yè)界有些報(bào)道號(hào)稱已經(jīng)做到了95%,所以它基本上趨于飽和了。當(dāng)然,值得特別注意的是,這個(gè)檢測率在不少時(shí)候是有歧義的,有些團(tuán)隊(duì)報(bào)告的是10折平均的結(jié)果,有些報(bào)告的是一次性全部檢測的結(jié)果,這兩個(gè)結(jié)果是不可比的:10折平均的結(jié)果可能會(huì)偏高1-3個(gè)百分點(diǎn)。
Wider Face數(shù)據(jù)集
2016年人臉檢測領(lǐng)域的一個(gè)重要變化是出現(xiàn)了一個(gè)新的Benchmark:香港中文大學(xué)貢獻(xiàn)了一個(gè)規(guī)模更大、數(shù)據(jù)變化更豐富的新數(shù)據(jù)集——Wider Face。其中包括1.6萬測試圖像,共19.4萬個(gè)標(biāo)注人臉。更重要的是,如上圖所示,數(shù)據(jù)集中的人臉有大小、姿態(tài)、光照、遮擋以及表情等各方面非常復(fù)雜的變化。特別的,其中50%的人臉高度小于50個(gè)像素,甚至大量高度小于20個(gè)像素的Tiny face。
Wider Face將測試圖像分為“難”、“中”、“易”三種不同的難度等級(jí)。
從目前State of the art方法的檢測曲線不難看出,在最“難”的測試子集上,目前只能做到80%的檢測率和80%的精度,對(duì)檢測任務(wù)而言,這是相當(dāng)?shù)偷慕Y(jié)果了。可見,在該數(shù)據(jù)集上,現(xiàn)有方法的性能在“難”等級(jí)下還有非常長的路可以走。
小人臉檢測:Tiny Face
針對(duì)小人臉檢測問題,去年出現(xiàn)了TinyFace方法,該方法希望能夠找到更小的人臉。在過去,典型人臉檢測系統(tǒng)能夠檢測到的最小人臉是20*20像素,而在很多現(xiàn)實(shí)應(yīng)用中,最小的人臉可能是16*16,甚至是10*10這樣的級(jí)別,TinyFace方法試圖探究如何找到這些非常小的人臉。其實(shí),該方法并沒有太多技術(shù)創(chuàng)新,它本質(zhì)上采用了圖像金字塔把小臉變大,再進(jìn)行人臉檢測,同時(shí)引入了大容量的網(wǎng)絡(luò)如ResNet101,以及多尺度融合等技術(shù),充分利用更多的上下文信息,并在Wider Face的Hard子集上取得了82.3%的精度,大大超過了之前的其他方法。但值得注意的是,高精度的代價(jià)是檢測速度非常慢!
從面部特征點(diǎn)定位的角度看,過去一年的主要技術(shù)路線仍然是把特征定位問題轉(zhuǎn)化為瀑布式的形狀回歸問題進(jìn)行求解。和過去幾年一樣,其中仍然是采用深度學(xué)習(xí)的特征,并用遞歸方式求解回歸問題。
2016年,該領(lǐng)域的一個(gè)有趣進(jìn)展是引入了循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,對(duì)Cascaded Shape Regression中stage-by-stage refine的策略進(jìn)行建模,特別是通過把上一級(jí)的隱層輸出作為下一層的輸入等手段,在300W這樣的數(shù)據(jù)集上面取得了比較大的進(jìn)步。
大姿態(tài)人臉特征點(diǎn)定位
2016年另一個(gè)值得關(guān)注的面部特征點(diǎn)定位方法是密西根州立大學(xué)的Xiaoming Liu團(tuán)隊(duì)的工作。他們發(fā)表在CVPR2016上的工作特別針對(duì)大姿態(tài)人臉的特征點(diǎn)定位問題,采用深度改進(jìn)后的3DMM方法對(duì)人臉進(jìn)行三維建模,然后將建模后人臉的三維信息與二維圖像相結(jié)合,再做形狀回歸。在大姿態(tài)人臉上,取得了顯著優(yōu)于已有方法的定位精度。
狹義的人臉識(shí)別方面的進(jìn)展
1. 什么是狹義人臉識(shí)別
所謂的狹義人臉識(shí)別指的是:首先采用前述的人臉檢測和特征定位對(duì)所有人臉進(jìn)行對(duì)齊,然后裁剪出眉眼鼻嘴形成的核心人臉區(qū)域,之后從中提取人臉特征進(jìn)行存儲(chǔ)或與已知人臉的特征進(jìn)行相似度計(jì)算的過程。
2. 核心技術(shù)
里面的核心是“如何提取具有區(qū)分能力的特征”,2012年以來,采用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)已經(jīng)成為人臉識(shí)別領(lǐng)域的標(biāo)準(zhǔn)技術(shù)。過去一年來,這方面主要的進(jìn)步還是來自更大規(guī)模實(shí)戰(zhàn)數(shù)據(jù)以及殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet的應(yīng)用。
3. 數(shù)據(jù)增廣
此外,對(duì)于一些難以獲取大量數(shù)據(jù)的場景,研究人員也在想法設(shè)法采用半自動(dòng)或自動(dòng)的方法“增廣”數(shù)據(jù)集,包括基于三維人臉模型合成人臉或者采用GAN這類方法生成數(shù)據(jù),這里的3D人臉模型既可能是采用專用設(shè)備采集的,也可能是采用3D MM等方法自動(dòng)重建的。值得注意的是,盡管GAN很火熱,也能合成出一些視覺效果不錯(cuò)的人臉圖像,但其合成的增廣人臉數(shù)據(jù)是否能夠用來增廣特定人的數(shù)據(jù)并提高特征學(xué)習(xí)的效果,目前尚不得而知。此外,面向移動(dòng)終端和嵌入式應(yīng)用等實(shí)際應(yīng)用需求,也有大量工作是進(jìn)行模型壓縮和計(jì)算加速的。
表情識(shí)別
接下來簡單說說表情識(shí)別。感覺表情識(shí)別一直不溫不火,進(jìn)步并不明顯,這其中的核心障礙我認(rèn)為還是來自數(shù)據(jù)收集的困難。從早期的Posed Expression,到后來的自發(fā)表情(spontaneous expression)數(shù)據(jù),大量真實(shí)自然表情數(shù)據(jù)的收集都非常不容易。
不過,盡管表情數(shù)據(jù)集的規(guī)模相比人臉識(shí)別的數(shù)據(jù)規(guī)模小得多,深度學(xué)習(xí)還是快速滲透進(jìn)來,并已經(jīng)在7類基本表情識(shí)別和幾十個(gè)面部動(dòng)作單元(AU)的檢測方面均取得了不小的進(jìn)步。如何利用較小規(guī)模的標(biāo)注表情數(shù)據(jù)集進(jìn)行更加魯棒的表情識(shí)別是非常值得關(guān)注的!
EmotioNet數(shù)據(jù)集
2016年出現(xiàn)了一個(gè)包含百萬圖像的數(shù)據(jù)集——EmotioNet 。在該數(shù)據(jù)集上,可以采用深度學(xué)習(xí)這類方法做更多表情強(qiáng)度的估計(jì)和動(dòng)作單元強(qiáng)度的估計(jì)。不過,需要特別注意的是,盡管這個(gè)表情數(shù)據(jù)集規(guī)模非常大,但它并不是完全由手工標(biāo)注,而是通過半自動(dòng)的方式標(biāo)注的,所以可能存在很多噪聲。如何利用好這樣的數(shù)據(jù)也是值得關(guān)注的。
Data is king!Math is Queen?”
最后介紹一下工業(yè)界一年來的技術(shù)和應(yīng)用進(jìn)展情況。我想工業(yè)界已經(jīng)越來越深刻的體會(huì)到了“Data is king!”這個(gè)著名論斷在深度學(xué)習(xí)時(shí)代的正確性。甚至于有人開始懷疑:“Math is Queen”是否還正確。從學(xué)術(shù)界的觀點(diǎn)來說,Math的重要性是顯然的,也是未來技術(shù)突破的基石,但工業(yè)界確實(shí)目前更多的在享受著大數(shù)據(jù)帶來的紅利。
過去一兩年,與人臉識(shí)別核心技術(shù)創(chuàng)新的乏善可陳相比,人臉識(shí)別的應(yīng)用進(jìn)展切實(shí)進(jìn)入了“高鐵”時(shí)代!我們知道,人臉識(shí)別有很多應(yīng)用場景,不同場景的成熟度差異很大。
1. 第一種場景,1:1 的人證合一驗(yàn)證系統(tǒng)。
典型的應(yīng)用是:刷身份證讀取卡內(nèi)照片,將其與現(xiàn)場采集的用戶人臉去做比對(duì),看是否身份證的合法持有人。這個(gè)任務(wù)在三四年前大多數(shù)人臉識(shí)別專家還認(rèn)為幾乎是不可能完成的任務(wù),但就在最近一兩年,通過上萬甚至幾十萬人此類應(yīng)用數(shù)據(jù)的訓(xùn)練,在被識(shí)別人配合的情況下,最好的系統(tǒng)已經(jīng)可以在0.01%的誤識(shí)率時(shí)達(dá)到95%以上的正確驗(yàn)證率。也就是說,一萬個(gè)人來冒充某個(gè)人A,只有一個(gè)可以冒充成功,而A本人在95%的情況下可以被正確識(shí)別出來。如果允許誤識(shí)率更高一些,比如到0.1%,識(shí)別率甚至可以進(jìn)一步提高到99%以上(對(duì)配合用戶)。這種場景還是1:1驗(yàn)證中最有挑戰(zhàn)性的:因?yàn)樯矸葑C卡內(nèi)照片只有102*126像素,而且被壓縮成了1K字節(jié)存儲(chǔ)在身份證內(nèi),而且其中人臉已經(jīng)有多年的老化。
2. 第二種場景,1:N靜態(tài)照片比對(duì)系統(tǒng)。
典型應(yīng)用場景是公安人員對(duì)不明身份嫌疑人照片進(jìn)行公安大庫照片比對(duì),以確定其身份。這種應(yīng)用甚至在幾年前就已經(jīng)基本成熟,當(dāng)N為千萬甚至數(shù)億量級(jí)條件下,首選識(shí)別率可以做到90%或更高,需要注意的是,區(qū)別于后面要提到的1:N+1場景,這類1:N場景不需要設(shè)置拒識(shí)率。這方面,我們的人臉識(shí)別技術(shù)在幾年前就已經(jīng)被合作伙伴上海銀晨科技產(chǎn)業(yè)化,應(yīng)用于護(hù)照人臉和多個(gè)省公安廳的大庫比對(duì)中,并取得了相當(dāng)多的實(shí)戰(zhàn)成功案例。就在最近,學(xué)術(shù)界也出現(xiàn)了大規(guī)模人臉識(shí)別測試庫MegaFace,其中人臉數(shù)量達(dá)到了100萬規(guī)模,最好的系統(tǒng)目前首選識(shí)別率能夠做到83.29%(注:2017年4月結(jié)果),是我的一個(gè)博士李紹欣在騰訊優(yōu)圖完成的。MegaFace主要是生活照或新聞?wù)?,所以難度要更大一些。
3. 第三種場景是1:N+1動(dòng)態(tài)人臉識(shí)別場景。
區(qū)別于前面的1:N場景,這類場景是需要拒識(shí)非目標(biāo)人的,所以是N+1。這種場景實(shí)際上還可以細(xì)分為三類:目標(biāo)人配合場景(比如無卡考勤或門禁),目標(biāo)人不配合場景(比如黑名單卡口人臉布控),以及處于二者之間的、被識(shí)別人既不配合也不刻意回避的場景(比如VIP識(shí)別系統(tǒng))。不妨分別稱之為A場景,C場景和B場景。
4. 三類場景的技術(shù)成熟度差異
這三類場景的技術(shù)成熟度差別很大:在N等于10000人、誤識(shí)率不高于1%時(shí),A場景識(shí)別率可以做到98%以上,B場景可以做到70%~90%,C場景恐怕只能做到80%以下,某些條件下甚至可能低的不忍直視。需要特別強(qiáng)調(diào)的是,這里誤識(shí)率1%看起來有點(diǎn)高,但在N等于1萬人時(shí),大概相當(dāng)于1:1場景下的百萬分之一的誤識(shí)率,實(shí)際上已經(jīng)非常有挑戰(zhàn)了。
此外,年末歲初,百度的人臉識(shí)別系統(tǒng)在《最強(qiáng)大腦》上也著實(shí)火了一把,在老化人臉識(shí)別場景下超過了人類的《最強(qiáng)大腦》,這確實(shí)也代表了人臉識(shí)別發(fā)展水平的一個(gè)側(cè)面。據(jù)了解,百度人臉識(shí)別團(tuán)隊(duì)為此收集了大量類似畢業(yè)照?qǐng)鼍暗娜四樳M(jìn)行訓(xùn)練。在基于大數(shù)據(jù)的深度學(xué)習(xí)面前,也許這個(gè)問題并沒有想象的那么難。我們?cè)伊藥讉€(gè)類似的例子進(jìn)行測試,發(fā)現(xiàn)即使是直接用沒有刻意對(duì)這種場景訓(xùn)練的Seeta企業(yè)版人臉識(shí)別系統(tǒng),也可以把要找的人放在前幾位。
近年來人臉識(shí)別的進(jìn)步是有目共睹的,但人臉識(shí)別遠(yuǎn)不是一個(gè)已經(jīng)解決了的問題,它還存在如下一些問題:
1. 在開放環(huán)境下,如何確保識(shí)別的魯棒性的問題
例如,即使目前最好的系統(tǒng),恐怕也還做不到在家庭環(huán)境下,讓一個(gè)矮小的機(jī)器人隨時(shí)隨地準(zhǔn)確地識(shí)別出一個(gè)家庭的5-6個(gè)成員,這涉及到視角、光照、距離、遮擋等等諸多因素帶來的魯棒性問題。
2. 人臉防騙技術(shù)
這是一場魔高一尺、道高一丈的博弈“游戲”,風(fēng)險(xiǎn)確實(shí)是存在的,盡管可能并沒有央視報(bào)道的那么夸張。
3. 黑名單動(dòng)態(tài)布控系統(tǒng)
對(duì)于人臉識(shí)別最大的實(shí)戰(zhàn)應(yīng)用場景,即黑名單動(dòng)態(tài)布控系統(tǒng),也就是前面所說的3C場景,目前N等于1萬人,錯(cuò)誤接收率等于1%,條件較好的時(shí)候首選識(shí)別率可以做到80%左右。但實(shí)際需求是在開放監(jiān)控場景下,N等于100萬人,誤識(shí)率要求低于0.01%,甚至要對(duì)各種試圖逃避識(shí)別的目標(biāo)人達(dá)到首選識(shí)別率90%以上——這是極具挑戰(zhàn)的任務(wù),難度比現(xiàn)在能做到的要高4~5個(gè)數(shù)量級(jí)。是否能在兩三年內(nèi)做到我個(gè)人持謹(jǐn)慎的懷疑態(tài)度,這個(gè)過程中工業(yè)界需要保持冷靜,避免因過度承諾而失去用戶信任,帶來人臉識(shí)別應(yīng)用的“倒春寒”。
簡單總結(jié)一下:
1. 學(xué)術(shù)界的挑戰(zhàn)
從學(xué)術(shù)界來講,人臉識(shí)別研究已經(jīng)進(jìn)入了一個(gè)“無所適從”的歷史階段,我們希望不要把我們自己從碼農(nóng)變成數(shù)工,但事實(shí)上新方法能帶來的增益短期內(nèi)難以抗衡工業(yè)界用大數(shù)據(jù)帶來的性能增益,甚至導(dǎo)致了工業(yè)界技術(shù)上的“領(lǐng)先”,這一點(diǎn)大家去看LFW和FDDB之類競賽的結(jié)果就可以明顯地看出這個(gè)趨勢。
2. 學(xué)術(shù)界的機(jī)會(huì)
而因?yàn)樯虡I(yè)原因,學(xué)術(shù)界對(duì)工業(yè)界的實(shí)際進(jìn)展難以把控。當(dāng)然,學(xué)術(shù)界的機(jī)會(huì)恰恰在工業(yè)界不愿意關(guān)注的地方,比如在數(shù)據(jù)少甚至沒有標(biāo)注數(shù)據(jù)的情況下,如何可以仍然有效的學(xué)習(xí)模型?在有數(shù)據(jù)但數(shù)據(jù)臟亂差的情況下如何魯棒的訓(xùn)練模型?
總之,人臉識(shí)別作為計(jì)算機(jī)視覺領(lǐng)域最落地的技術(shù)之一,是CV技術(shù)應(yīng)用的排頭兵,確實(shí)已經(jīng)引爆了眾多用戶對(duì)計(jì)算機(jī)視覺應(yīng)用的濃厚興趣,這或許是更值得我們欣喜的。
謝謝大家!
(審核編輯: 智匯張瑜)
分享