1 引言
在我们生存的这个地球上,居住着近65亿人。每个人的面孔都由额头、眉毛、眼睛、鼻子、嘴巴、双颊等少数几个区域组合而成,它们之间的大体位置关系也是固定的,并且每张脸的大小不过七八寸见方。然而,它们居然就形成了那么复杂的模式,即使是面容极其相似的双胞胎,其家人通常也能够非常容易地根据他们面孔上的细微差异将他们区分开来。这使得我们不得不承认这个世界上找不出两张完全相同的人脸!那么,区分如此众多的不同人脸的“特征”到底是什么?能否设计出具有与人类一样的人脸识别能力的自动机器?这种自动机器的人脸识别能力是否能够超越人类自身?对这些问题的分析和解答无疑具有重要的理论和应用价值,这正是众多从事自动人脸识别研究的研究人员所面临的挑战。
然而,对这些问题的回答并不像看起来那么容易。即使在大量来自模式识别、计算机视觉、神经计算、生理学等领域的研究人员对自动人脸识别艰苦工作40余年之后,这些最基本的科学问题仍然困惑着研究人员。而退一步讲,即使对我们自己,尽管我们每天都在根据面孔区分着亲人、同学、朋友、同事等,大多数人却很难准确地描述出自己到底是如何区分他们的,甚至描述不出自己熟悉的人有什么具体的特征。即使专门从事相关的生理学、心理学、神经科学研究的一些专家,也很难描述清楚人类人脸识别的生理学过程。这意味着基于仿生学的人脸识别研究路线在实践上是难以操作的。当然,飞机的翅膀并不需要像鸟儿的翅膀一样煽动,自动人脸识别的计算模型也未必需要模拟“人脑”。我们也许可以通过另外的途径,例如建立人脸识别的计算模型,这种计算模型可能是基于仿生神经网络的,也可能是纯粹基于统计的,或者是这二者之外的第三只眼睛,并通过构建实用的自动人脸识别系统来验证这些计算模型,从而找出对上述基本科学问题的解答。
本文首先给出了人脸识别的一个一般计算模型,然后简单回顾自动人脸识别的研究历史,接下来阐述人脸识别的研究现状并介绍几种主流的技术方法,简单介绍计算所人脸识别研究组的研究进展,最后对上述哲学层面的问题作了一些简单的探讨。
2 计算模型初探
通常我们所说的人脸识别是基于光学人脸图像的身份识别与验证的简称。光学人脸图像(以下简称人脸图像)是外界光源(包括太阳、室内人造光源和其他物体表面反射)的光线照射在人脸上,经人脸表面反射后传播到摄像机传感器的光线强度的度量。不难理解,这一成像过程实际上涉及到三大类关键要素:
1. 人脸内部属性:包括人脸表面的反射属性(如反射系数等,通常简称为纹理--Texture)、人脸3D形状(表面法向量方向)、人脸表情、胡须等属性的变化;
2. 外部成像条件:包括光源(位置和强度等)、其他物体(比如眼镜、帽子)或者人体其他部件(比如头发)对人脸的遮挡等;
3. 摄像机成像参数:包括摄像机位置(视点)、摄像机的焦距、光圈、快门速度等内外部参数
因此,光学人脸图像的成像过程可以简单地形式化为:
(1)
其中,函数f表示成像函数,F,L和C分别表示人脸内部属性、外部成像条件和摄像机成像参数这三类要素,I为生成的人脸图像。如果我们进一步假设:人脸皮肤的反射属性满足朗博(Lambertian)模型,人脸为凸表面结构,光源为无穷远处的单色点光源,上述成像公式可以进一步改写为:
, (2)
其中, 表示人脸表面的一点P的三维坐标; 表示P点的表面反射率; 表示P点的表面法向量方向; 表示光源的方向和强度; 表示摄像机的成像函数;而 则为摄像机最终输出的对应P点的图像像素的强度。不难理解,在上述成像过程中,人脸表面3D结构及其反射属性才是人脸相对稳定的本质属性,是人脸识别算法应该赖以区分不同人脸的主要特征。而人脸表情变化、有无胡须等尽管也属于人脸内部属性,但因为具有可变性而不能作为人脸的区分特征。光源等外部成像条件以及摄像机参数等外部因素就更不能作为人脸识别依赖的属性。
综上所述,理想情况下,要根据人脸图像区分出不同的人脸,根本上似乎需要从人脸图像表观中分离开人脸稳定不变的本质属性(3D形状与表面反射率)与外界条件和摄像参数。然后,从3D形状与表面反射率属性中提取不同人脸的差异信息,馈入到后端的判别分类器中进行识别。设输入图像为I,这一过程可以形式化为以下三个步骤:
1. 属性分离。分离人脸本质属性要素与光源条件s*、摄像参数c*等外部参数要素:
; (3)
2. 特征提取。从人脸属性要素中提取能够体现特定人脸身份的特征:
, (4)
其中,T表示特征提取过程。
3. 分类判别。将提取的特征与数据库中存储的已知人脸特征进行对比,选择相似度最大的人脸作为输入人脸的身份信息:
(5)
其中,Sim(.)表示计算特征之间的相似度, 表示已知人脸集合。
然而,这一过程并不那么简单直接:从单一未知光源条件的图像中恢复3D形状信息和表面反射率是经典的视觉难题,本质上是一个病态的问题。尽管近年来研究人员通过利用各种约束条件和先验知识可以在一定程度上实现该功能,或者要求多幅不同光照条件下的图像以便得到更精确的估计结果,但直到现在仍没有取得本质的突破。除了少数采用特殊设备获取人脸3D结构的系统外,多数系统不得不退而求其次,采用的人脸建模方法仍然停留在图像表观层面上,并没有使用对3D形状和纹理进行显式分离的步骤,而是直接从图像表观中提取判别特征并进行分类来完成识别,此时公式(2-4)相应地改写为:
。 (6)
例如,在基于面部结构几何特征的人脸识别方法中,T通常是一个计算面部主要器官(眉毛、眼睛、鼻子、嘴巴和下巴)的大小、形状、位置和角度关系等几何度量参数的过程,最终形成的特征F*是一个反映这些几何度量的特征向量。对于模板匹配方法而言,T是对人脸图像进行几何归一化和亮度校正的过程,得到的F*则是一个反映图像各像素点亮度的二维数据矩阵。再比如对“特征脸”方法而言,T是一个将高维空间中的人脸图像降维到一个低维子空间中的变换(主成分分析),形成的特征F*是降维后的主成分特征分量。
需要指出的是,近年来布兰兹(Blanz)和维特(Vetter)等人提出的3D变形模型方法是上述理论计算模型的重要尝试,已经引起了研究人员的高度重视。尽管还存在很多困难,比如速度和恢复精度问题,但相信此方面的工作近期会有更大的突破。
3 研究简史
人脸识别的研究历史比较悠久。高尔顿(Galton)早在1888年和1910年就分别在《Nature》杂志发表了两篇关于利用人脸进行身份识别的文章,对人类自身的人脸识别能力进行了分析。但当时还不可能涉及到人脸的自动识别问题。最早的AFR[1]的研究论文见于1965年陈(Chan)和布莱索(Bledsoe)在Panoramic Research Inc.发表的技术报告,至今已有四十年的历史。近年来,人脸识别研究得到了诸多研究人员的青睐,涌现出了诸多技术方法。尤其是1990年以来,人脸识别更得到了长足的发展。几乎所有知名的理工科大学和主要IT产业公司都有研究组在从事相关研究。
表1 人脸识别发展历史简表
阶段
1964~1990
1991~1997
1998-现在
主要
特征
作为一般识别问题研究,基于特征的方法是主流
重点是较理想条件下、用户配合、中小规模数据库上的识别问题;基于表观的子空间分析和统计方法是主流;
重点是非理想条件、用户不配合、大规模数据库的识别问题;3D和非线性是趋势;
代表性的人脸识别技术与方法
及其关键性事件和作品
已知的最早的AFR研究论文
特征脸(Eigenface)
光照锥技术
基于特征的方法与基于模板的方法对比
SVM[2]用于人脸识别中
首个半自动人脸识别系统
美国DARPA[3]启动FERET[4]测试项目
3D可变形模型
第一篇AFR方面的博士论文
局部特征分析(LFA[5])人脸识别方法发展成为Visionics公司FaceIt商业系统
基于AdaBoost[6]的人脸检测技术
基于剪影分析的人脸识别
基于双子空间的贝叶斯概率学习
流形学习ISOMAP[7], LLE[8]
人脸识别研究综述
朗博反射与线性空间分析
人脸的低维表示
Fisherface[9]
基于商图像的识别方法
弹性图匹配技术
人脸检测综述
ASM/AAM[10]
FRVT[11]2000, 2002测试
技术特点
基于特征的方法
基于模板的方法
---
基于神经网络的识别方法
---
---
基于表观的2D人脸子空间分析与统计学习方法
线性模型方法
非线性流形分析技术
基于2D图像模型的人脸识别
基于3D模型的人脸识别
人脸识别是一个被广泛研究着的热门问题,大量的研究论文层出不穷,在一定程度上有泛滥成“灾”之嫌。为了更好地对人脸识别研究的历史和现状进行介绍,本文将AFR的研究历史按照研究内容、技术方法等方面的特点大体划分为三个时间阶段,如表1所示。该表格概括了人脸识别研究的发展简史及其每个历史阶段代表性的研究工作及其技术特点。下面对三个阶段的研究进展情况作简单介绍:
第一阶段(1964年~1990年)
这一阶段人脸识别通常只是作为一个一般性的模式识别问题来研究,所采用的主要技术方案是基于人脸几何结构特征(Geometric feature based)的方法。这集中体现在人们对于剪影(Profile)的研究上,人们对面部剪影曲线的结构特征提取与分析方面进行了大量研究。人工神经网络也一度曾经被研究人员用于人脸识别问题中。较早从事AFR研究的研究人员除了布莱索(Bledsoe)外还有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。金出武雄于1973年在京都大学完成了第一篇AFR方面的博士论文,直到现在,作为卡内基-梅隆大学(CMU)机器人研究院的一名教授,仍然是人脸识别领域的活跃人物之一。他所在的研究组也是人脸识别领域的一支重要力量。总体而言,这一阶段是人脸识别研究的初级阶段,非常重要的成果不是很多,也基本没有获得实际应用。
第二阶段(1991年~1997年)
这一阶段尽管时间相对短暂,但却是人脸识别研究的高潮期,可谓硕果累累:不但诞生了若干代表性的人脸识别算法,美国军方还组织了著名的FERET人脸识别算法测试,并出现了若干商业化运作的人脸识别系统,比如最为著名的Visionics(现为Identix)的FaceIt系统。
美国麻省理工学院(MIT)媒体实验室的特克(Turk)和潘特兰德(Pentland)提出的“特征脸”方法无疑是这一时期内最负盛名的人脸识别方法。其后的很多人脸识别技术都或多或少与特征脸有关系,现在特征脸已经与归一化的协相关量(Normalized Correlation)方法一道成为人脸识别的性能测试基准算法。
这一时期的另一个重要工作是麻省理工学院人工智能实验室的布鲁内里(Brunelli)和波基奥(Poggio)于1992年左右做的一个对比实验,他们对比了基于结构特征的方法与基于模板匹配的方法的识别性能,并给出了一个比较确定的结论:模板匹配的方法优于基于特征的方法。这一导向性的结论与特征脸共同作用,基本中止了纯粹的基于结构特征的人脸识别方法研究,并在很大程度上促进了基于表观(Appearance-based)的线性子空间建模和基于统计模式识别技术的人脸识别方法的发展,使其逐渐成为主流的人脸识别技术。
贝尔胡米尔(Belhumeur)等提出的Fisherface人脸识别方法是这一时期的另一重要成果。该方法首先采用主成分分析(Principal Component Analysis,PCA,亦即特征脸)对图像表观特征进行降维。在此基础上,采用线性判别分析(Linear Discriminant Analysis, LDA)的方法变换降维后的主成分以期获得“尽量大的类间散度和尽量小的类内散度”。该方法目前仍然是主流的人脸识别方法之一,产生了很多不同的变种,比如零空间法、子空间判别模型、增强判别模型、直接的LDA判别方法以及近期的一些基于核学习的改进策略。
麻省理工学院的马哈丹(Moghaddam)则在特征脸的基础上,提出了基于双子空间进行贝叶斯概率估计的人脸识别方法。该方法通过“作差法”,将两幅人脸图像对的相似度计算问题转换为一个两类(类内差和类间差)分类问题,类内差和类间差数据都要首先通过主成分分析(PCA)技术进行降维,计算两个类别的类条件概率密度,最后通过贝叶斯决策(最大似然或者最大后验概率)的方法来进行人脸识别。
人脸识别中的另一种重要方法——弹性图匹配技术(Elastic Graph Matching,EGM) 也是在这一阶段提出的。其基本思想是用一个属性图来描述人脸:属性图的顶点代表面部关键特征点,其属性为相应特征点处的多分辨率、多方向局部特征——Gabor变换[12]特征,称为Jet;边的属性则为不同特征点之间的几何关系。对任意输入人脸图像,弹性图匹配通过一种优化搜索策略来定位预先定义的若干面部关键特征点,同时提取它们的Jet特征,得到输入图像的属性图。最后通过计算其与已知人脸属性图的相似度来完成识别过程。该方法的优点是既保留了面部的全局结构特征,也对人脸的关键局部特征进行了建模。近来还出现了一些对该方法的扩展。
局部特征分析技术是由洛克菲勒大学(Rockefeller University)的艾提克(Atick)等人提出的。LFA在本质上是一种基于统计的低维对象描述方法,与只能提取全局特征而且不能保留局部拓扑结构的PCA相比,LFA在全局PCA描述的基础上提取的特征是局部的,并能够同时保留全局拓扑信息,从而具有更佳的描述和判别能力。LFA技术已商业化为著名的FaceIt系统,因此后期没有发表新的学术进展。
由美国国防部反毒品技术发展计划办公室资助的FERET项目无疑是该阶段内的一个至关重要的事件。FERET项目的目标是要开发能够为安全、情报和执法部门使用的AFR技术。该项目包括三部分内容:资助若干项人脸识别研究、创建FERET人脸图像数据库、组织FERET人脸识别性能评测。该项目分别于1994年,1995年和1996年组织了3次人脸识别评测,几种最知名的人脸识别算法都参加了测试,极大地促进了这些算法的改进和实用化。该测试的另一个重要贡献是给出了人脸识别的进一步发展方向:光照、姿态等非理想采集条件下的人脸识别问题逐渐成为热点的研究方向。
柔性模型(Flexible Models)——包括主动形状模型(ASM)和主动表观模型(AAM)是这一时期内在人脸建模方面的一个重要贡献。ASM/AAM将人脸描述为2D形状和纹理两个分离的部分,分别用统计的方法进行建模(PCA),然后再进一步通过PCA将二者融合起来对人脸进行统计建模。柔性模型具有良好的人脸合成能力,可以采用基于合成的图像分析技术来对人脸图像进行特征提取与建模。柔性模型目前已被广泛用于人脸特征对准(Face Alignment)和识别中,并出现了很多的改进模型。
总体而言,这一阶段的人脸识别技术发展非常迅速,所提出的算法在较理想图像采集条件、对象配合、中小规模正面人脸数据库上达到了非常好的性能,也因此出现了若干知名的人脸识别商业公司。从技术方案上看, 2D人脸图像线性子空间判别分析、统计表观模型、统计模式识别方法是这一阶段内的主流技术。
第三阶段(1998年~现在)
FERET’96人脸识别算法评估表明:主流的人脸识别技术对光照、姿态等由于非理想采集条件或者对象不配合造成的变化鲁棒性比较差。因此,光照、姿态问题逐渐成为研究热点。与此同时,人脸识别的商业系统进一步发展。为此,美国军方在FERET测试的基础上分别于2000年和2002年组织了两次商业系统评测。
基奥盖蒂斯(Georghiades)等人提出的基于光照锥 (Illumination Cones) 模型的多姿态、多光照条件人脸识别方法是这一时期的重要成果之一,他们证明了一个重要结论:同一人脸在同一视角、不同光照条件下的所有图像在图像空间中形成一个凸锥——即光照锥。为了能够从少量未知光照条件的人脸图像中计算光照锥,他们还对传统的光度立体视觉方法进行了扩展,能够在朗博模型、凸表面和远点光源假设条件下,根据未知光照条件的7幅同一视点图像恢复物体的3D形状和表面点的表面反射系数(传统光度立体视觉能够根据给定的3幅已知光照条件的图像恢复物体表面的法向量方向),从而可以容易地合成该视角下任意光照条件的图像,完成光照锥的计算。识别则通过计算输入图像到每个光照锥的距离来完成。
以支持向量机为代表的统计学习理论也在这一时期内被应用到了人脸识别与确认中来。支持向量机是一个两类分类器,而人脸识别则是一个多类问题。通常有三种策略解决这个问题,即:类内差/类间差法、一对多法(one-to-rest)和一对一法(one-to-one)。
布兰兹(Blanz)和维特(Vetter)等提出的基于3D变形(3D Morphable Model)模型的多姿态、多光照条件人脸图像分析与识别方法是这一阶段内一项开创性的工作。该方法在本质上属于基于合成的分析技术,其主要贡献在于它在3D形状和纹理统计变形模型(类似于2D时候的AAM)的基础上,同时还采用图形学模拟的方法对图像采集过程的透视投影和光照模型参数进行建模,从而可以使得人脸形状和纹理等人脸内部属性与摄像机配置、光照情况等外部参数完全分开,更加有利于人脸图像的分析与识别。Blanz的实验表明,该方法在CMU-PIE(多姿态、光照和表情)人脸库和FERET多姿态人脸库上都达到了相当高的识别率,证明了该方法的有效性。
2001年的国际计算机视觉大会(ICCV)上,康柏研究院的研究员维奥拉(Viola)和琼斯(Jones)展示了他们的一个基于简单矩形特征和AdaBoost的实时人脸检测系统,在CIF格式上检测准正面人脸的速度达到了每秒15帧以上。该方法的主要贡献包括:1)用可以快速计算的简单矩形特征作为人脸图像特征;2)基于AdaBoost将大量弱分类器进行组合形成强分类器的学习方法;3)采用了级联(Cascade)技术提高检测速度。目前,基于这种人脸/非人脸学习的策略已经能够实现准实时的多姿态人脸检测与跟踪。这为后端的人脸识别提供了良好的基础。
沙苏哈(Shashua)等于2001年提出了一种基于商图像[13]的人脸图像识别与绘制技术。该技术是一种基于特定对象类图像集合学习的绘制技术,能够根据训练集合中的少量不同光照的图像,合成任意输入人脸图像在各种光照条件下的合成图像。基于此,沙苏哈等还给出了对各种光照条件不变的人脸签名(Signature)图像的定义,可以用于光照不变的人脸识别,实验表明了其有效性。
巴斯里(Basri)和雅各布(Jacobs)则利用球面谐波(Spherical Harmonics)表示光照、用卷积过程描述朗博反射的方法解析地证明了一个重要的结论:由任意远点光源获得的所有朗博反射函数的集合形成一个线性子空间。这意味着一个凸的朗博表面物体在各种光照条件下的图像集合可以用一个低维的线性子空间来近似。这不仅与先前的光照统计建模方法的经验实验结果相吻合,更进一步从理论上促进了线性子空间对象识别方法的发展。而且,这使得用凸优化方法来强制光照函数非负成为可能,为光照问题的解决提供了重要思路。
FERET项目之后,涌现了若干人脸识别商业系统。美国国防部有关部门进一步组织了针对人脸识别商业系统的评测FRVT,至今已经举办了两次:FRVT2000和FRVT2002。这两次测试一方面对知名的人脸识别系统进行了性能比较,例如FRVT2002测试就表明Cognitec, Identix和Eyematic三个商业产品遥遥领先于其他系统,而它们之间的差别不大。另一方面则全面总结了人脸识别技术发展的现状:较理想条件下(正面签证照),针对37437人121,589 幅图像的人脸识别(Identification)最高首选识别率为73%,人脸验证(Verification)的等错误率(EER[14])大约为6%。FRVT测试的另一个重要贡献是还进一步指出了目前的人脸识别算法亟待解决的若干问题。例如,FRVT2002测试就表明:目前的人脸识别商业系统的性能仍然对于室内外光照变化、姿态、时间跨度等变化条件非常敏感,大规模人脸库上的有效识别问题也很严重,这些问题都仍然需要进一步的努力。
总体而言,目前非理想成像条件下(尤其是光照和姿态)、对象不配合、大规模人脸数据库上的人脸识别问题逐渐成为研究的热点问题。而非线性建模方法、统计学习理论、基于Boosting[15]的学习技术、基于3D模型的人脸建模与识别方法等逐渐成为备受重视的技术发展趋势。
4 从FRVT2002看研究现状
FRVT2002人脸识别测试集中反映了目前人脸识别理论与应用研究的最高学术水平。该测试所使用的数据库的规模达到了37,437人,共121,589幅图像,大多数知名的人脸识别商业系统公司都参加了此次评测。此次测试分为高计算强度(HCInt)和中等计算强度(MCInt)两种。其中HCInt测试使用的数据库规模达到了37,437人的121,589幅图像,所有图像全部由美国国务院(DOS)下属的领事事务局(Bureau of Consular Affairs)签证服务处提供。每人至少三幅标准的签证照,图像质量很高,采集环境也非常一致。而MCInt测试使用的数据库则既包括室内也包括室外采集的图像,最长时间跨度为三年。基于这些数据,FRVT2002测试了身份认证、闭集识别、开集识别三类不同的人脸识别任务的性能,结果表明:
n 对目前最好的人脸识别系统,在37,437人签证照测试库上,闭集识别任务的最高首选识别率为73%,前10候选累计识别率82%,前50候选识别率87%。
n 目前最好的人脸识别系统对签证照质量的人脸图像,人脸验证错误接收率为0.01%时,最低错误拒绝率30%左右;错误接受率为0.1%时,最低错误拒绝率18%左右;错误接受率为1%时,最低错误拒绝率10%左右。
n 虚警率控制在1%时,最好的识别系统在25人规模的观察对象表(Watch list)上的正确检测识别率为77%,而在3000人的观察对象表上,正确率则下降为56%。因此,如果可能,要尽量减少观察对象表中人脸的数量。
n 非理想图像采集条件下,虚警率为1%时,在787人的数据库上,图像样本库中图像均为正面中性表情,室内白炽灯光源条件下采集,对室外同一天测试图像最高首选识别率54%,室外152-505天之间的测试图像最高首选识别率46%。
n 对姿态,在87人的人脸库上,图像样本库和测试图像光照条件一致,左右深度旋转45度时最高首选识别率42%,低头/抬头30度时最高首选识别率53%。
n 对大约3年后的照片,在错误接受率为1%时,最高首选识别率60%左右,而最低的错误拒绝率则为15%左右。而时间跨度增加一年,最好系统的识别性能大约下降5个百分点。
n 人脸数据库的规模每增加一倍,最好的商业识别系统的首选识别率大约会下降2到3个百分点。而不同属性的人群识别性能也有差别,例如男性比女性更易于识别(大约有6到9个百分点的差别);年轻人比老年人难识别。
5 计算所人脸识别研究组
计算所-哈工大人脸识别联合研究组从九十年代中期开始人脸识别的研究,并于2000年5月与成都银晨网讯(现上海银晨科技的前身)联合创立了国内首家专门从事面像识别核心技术研究与开发的实验室——ICT-ISVISION面像识别联合实验室。该联合实验室从2001年起一直维持着20人左右规模的研究队伍。目前核心研究队伍包括2名教授,2名助理研究员,1名讲师和来自中国科学院计算技术研究所、哈尔滨工业大学计算机科学与技术学院以及中国科学院研究生院的十多名博士、硕士研究生。经过不懈努力,联合实验室近年来取得了一定的成果,主要包括:
在预处理、人脸检测、人脸识别与确认等方面,提出了一系列新算法和改进算法。在光照可变、多姿态等条件下获得了优于其他系统的性能:1)性能明显优于FERET'97测试(美国DARPA组织的最近一次人脸识别比赛)的最好结果;2)与在FRVT2002(美国NIST组织的最近一次人脸识别比赛)中取得第一的FaceVACS系统(Cognitec公司)性能基本接近,在光照子库上性能明显超出对方;3)在中国首届生物特征识别评测竞赛BVC2004中,以绝对优势取得了第一名。
在基础数据建设方面,收集整理了万人以上超过百万幅图像的人脸图像数据库CAS-PEAL,公布了包含3万多幅人脸图像的大规模中国人脸图像数据库CAS-PEAL-R1,已被国内外50余单位使用,在国际上率先提供了大规模共享中国人脸图像数据库。
在应用系统和成果转化方面,开发了会议代表身份认证/识别系统、银行智能视频监控系统、嫌疑人面像比对系统、面像识别考勤/门禁系统、出入口黑名单监控系统等19种产品;申请各类专利26项(8项已获授权),软件著作权11项。产品已成功应用于人民大会堂、天安门广场等重要场所及海南、云南省建行等多处。成果转化的产品在公安、金融等领域推广,取得了较好的经济和社会效益。这些研究成果结束了国内企业长期依赖国外技术、只能做二次开发商的历史,从总体上提高了我国相关技术的国际竞争力,也为我国生物特征识别及其相关产业发展起到了积极的推动作用。
6 挑战
经过四十多年的发展,尤其是近十年来的研究,人脸识别技术已经取得了长足的进步。目前最好的人脸识别系统在注册和认证环境条件比较一致、对象比较配合的情况下已经能够达到令人满意的效果。对1000人左右的识别系统,其正确识别率可以在95%左右;验证系统的等错误率性能也在2%以下。然而,这并不意味着人脸识别技术已经非常成熟了。恰恰相反,因为更大量的人脸识别应用系统需要在更大大规模人脸库、摄像环境不可控、对象不配合的情况下使用,即使是目前最好的识别系统在这样的情况下识别性能下降也非常快,很多情况下识别系统正确识别率陡降至75%以下,验证系统等错误率攀升到10%以上——这样的性能显然是应用系统用户根本无法接受的!因此,现有的人脸识别系统尤其需要有针对性地解决在非理想摄像条件下(光照变化、背景变化、摄像设备差异)和对象不配合(视角变化、表情变化、佩带饰物乃至化妆)时必然遇到识别性能下降问题。这些变化因素在不同的应用系统中均会有不同程度的出现,因而会极大地影响实用识别系统的性能,导致识别系统性能的下降。概括而言,目前人脸识别领域面临的主要挑战包括:鲁棒性、准确的特征配准问题,对各种图像采集条件变化鲁棒的核心识别算法,识别算法的泛化能力和自适应学习问题,光照变化问题,尤其是室外光照变化,姿态不变的人脸识别算法,人脸信息采集设备带来的问题,低质量照片的检测识别问题,年龄变化导致的照片老化问题,墨镜、帽子、口罩等造成的遮挡问题,化妆、整容带来的问题。而且上述挑战并不是单独作用的,例如姿态和光照问题同时出现,会更进一步地增加问题的难度。
7 结束语
人脸识别是一项既有科学研究价值,又有广泛应用前景的研究课题。国际上大量研究人员几十年的研究取得了丰硕的研究成果,自动人脸识别技术已经在某些限定条件下得到了成功应用。这些成果更加深了我们对于自动人脸识别这个问题的理解,尤其是对其挑战性的认识。尽管在海量人脸数据比对速度甚至精度方面,现有的自动人脸识别系统可能已经超过了人类,但对于复杂变化条件下的一般人脸识别问题,自动人脸识别系统的鲁棒性和准确度还远不及人类。这种差距产生的本质原因现在还不得而知,毕竟我们对于人类自身的视觉系统的认识还十分肤浅。但从模式识别和计算机视觉等学科的角度判断,这既可能意味着我们尚未找到对面部信息进行合理采样的有效传感器(考虑单目摄像机与人类双眼系统的差别),更可能意味着我们采用了不合适的人脸建模方法(人脸的内部表示问题),还有可能意味着我们并没有认识到自动人脸识别技术所能够达到的极限精度。但无论如何,赋予计算设备与人类似的人脸识别能力是众多该领域研究人员的梦想。相信随着研究的继续深入,我们的认识应该能够更加准确地逼近这些问题的正确答案。
计算所人脸识别课题组经过多年努力,终于逐渐进入了国际人脸识别竞争的第一方阵。我们提出的新颖算法、完成的高效识别系统也逐渐得到了国内外同行的认可。但我们也必须清醒地看到,在人脸识别领域,其实很难说谁的算法就比别的算法真正地好了多少。而且众多的研究人员正在加入进来,逆水行舟,慢进则退。我们必须付出更多的艰辛才能真正在算法和系统两方面超越前人,取得更大的研究成果!
作者简介:
山世光 中国科学院计算技术研究所数字化技术研究室,助理研究员,博士