(邓刚,闫胜业,张洪明)
第一章 概述
1.1人脸检测技术的发展背景
目前,人脸检测技术受到来自学术界和工业界越来越多的关注,究其原因,至少有三个方面的促进因素:人机交互方式的演变、生物特征识别的发展、物体检测的研究。
首先,人脸检测技术的提出是人机交互研究发展的需要。从计算机日益普及的趋势看,自然化的人机接口是未来计算机发展的重要方向之一。人机交互方式,经过第一代的单一文本形式到第二代的图形用户界面的发展,正在从以技术为本,向以人为本的方向发展。人们提出了智能人机接口的概念,希望计算机具有或部分具有人的某些智能,人同计算机的交流变得象人与人之间的交流一样轻松自如。
用户是人机界面中的主体,计算机作为一种“智能体”参与了人类的通讯活动。在处理人-机关系时,根据“人为中心”的思想,应当充分考虑人的因素。因此,智能接口系统要解决的首要问题是计算机如何感知使用者的存在,这是人机交互的前提。脸部是人类携带信息最丰富的部位,是人类的重要特征。从认知角度讲,人们在视觉通道层次上感知和识别人的首要信息载体就是人脸。使计算机具有感知到人是否存在的视觉功能,这项技术就是人脸检测。
其次,在生物特征识别技术中,作为人脸自动识别系统的先决条件,人脸检测技术有着十分重要的作用。在现代社会中,传统的身份鉴定方式(例如口令、信用卡、身份卡等),存在携带不便、容易遗失、或者由于使用过多或不当而损坏、不可读和密码易被破解等诸多问题,已不能很好地满足各种安全需要并显得越来越不适应现代科技的发展和社会的进步。因此,人们希望有一种更加可靠的办法来进行身份鉴定;生物特征识别技术给这一切带来可能。生物特征识别技术(Biometrics)是通过利用个体特有的生理和行为特征来达到身份识别和(或)个体验证目的的一门科学。尽管人们可能会遗忘或丢失他们的卡片或忘记密码,但是却不可能遗忘或者丢失他们的生物特征如人脸、指纹、虹膜、掌纹等的特征或声音等。
在生物特征识别技术中,近年来以人脸为特征的识别技术发展十分迅速。相对而言,人脸识别是一种更直接、更方便、更友好、更容易被人们接受的非侵犯性识别方法。作为人脸自动识别系统的第一步,人脸检测技术有着十分重要的作用,它为后续的人脸分类提供了待识别人脸的具体信息。
最后,在理论上讲,人脸检测是一项极具意义的研究领域。人脸识别是一种特定内容的模式识别问题。人脸识别从广义上讲包括两个过程:A.人脸检测;B.人脸分类。第一个过程,人脸检测是
1
指在图像上检测有无人脸,若有应判别出人脸的位置和大小。这是一种根据人脸样本模式的共性特征进行模式识别的操作:它将图像内待检的任意一个子区域划分为两类模式:人脸和非人脸。第二个过程,人脸分类(亦即狭义上的人脸识别)是指对当前人脸模式进行比较判别,区分它们的脸型、眼型、口型、表情、性别、年龄、种族和身份等。这是一种根据人脸样本模式的个性特征进行模式识别的操作:它将特定人脸上的有关特征或特征点提取和检测出来并与已知类别的标准样本特征相匹配,从而描述和刻画人脸。
人脸的检测和识别其实只是目标检测和识别的一个典型的应用实例。目标检测和识别的其他应用包括:手写或印刷体文字的分割和识别、图文表混合信息的分类和识别、在躁声环境中检测和识别特定说话人的身份、在航海、航空红外照片中进行自动目标的识别。对人脸及其特征检测的研究有益于相似特征提取及目标检测和识别问题的研究。
人脸样本构成了一个具有自然相似结构、却又各不相同的开放的模式集合。它具有复杂特征的三维模式,是一种有弹性的局部可变形的非刚性目标,与刚性目标的检测和识别相比,非刚性目标的处理更加复杂和困难。在现实世界中,有许多类似的现象和问题,如手写文字的处理。对人脸三维非刚性目标的检测和识别的研究对于大量同类问题的解决有着相互启发和相互推动的现实意义。
1.2国内外研究动态
所谓人脸检测,一般指在图像中定位人脸,如果图像中含有人脸,则获取人脸的位置、大小、姿态等信息,进一步可以提取人脸的特征。人脸检测问题的探索开始于八十年代末、九十年代初,吸引了越来越多的研究者的兴趣,取得了一批有意义的研究成果。本项目的研究目标是要在复杂的背景下,尽量快速准确地判断出输入图像或者视频流中人脸的存在与否,如果有人脸,则给出该人脸相关信息。
人脸是复杂的模式,受到多种因素的影响。找到一种有效的方法提取人脸的共性特征来描述人脸模式,即人脸的建模,是人脸检测的关键。国内外相关文献中提出了许多方法,概括而言,目前的技术可分为基于器官的方法和基于模板的方法。
基于器官的方法将人脸视为显著器官的组合,首先提取一些重要的器官:眼、鼻、唇等,然后通过器官的位置和它们之间的几何关系来检测人脸。基于模板的方法将人脸看作一个整体的模式,即二维的像素矩阵,从统计的观点,通过大量的人脸图像样本构造人脸模式空间,根据相似度量来判断人脸是否存在。在这两个框架之下,发展了许多方法。此外,利用彩色信息进行人脸检测,也是一种有效的方法。
在确定了人脸模型后,一个人脸检测系统还需要具有特征提取和分类决策的功能。这两个问题都是围绕着人脸模型来进行的。一般而言,特征提取可以在图像的空域或者频域实现。分类决策的方法是统计模式识别所研究的重要内容。
早期的人脸检测集中于静止图像,起步于基于特征的模型或者简单的模板匹配技术,在空域上
2
提取特征,能够完成简单的人脸检测任务。中期的发展开始采用基于模板的方法,用统计学习的方法建立人脸模型,可以实现复杂背景下的人脸检测,并且运用运动信息来考察视频流或图像序列中的人脸检测。近期,研究者的方向各不相同,有人从频域中提取特征,有人继续研究更复杂的统计模型,有人将最新的分类决策理论应用于人脸检测领域。在研究过程中,人们认识到:将多种技术结合在一起,利用多种信息可以提高人脸检测方法的效率,这将是未来的发展趋势。同时最近的研究还集中在了实时人脸检测算法上。随着人脸识别技术的发展和市场对生物特征鉴定技术的认可,实时人脸检测技术已成为了一个迫切的要求。
表1-1是人脸检测方法的分类。
表1-1人脸检测方法研究发展简表
发展阶段 早期 中期
主要方法
模板匹配、基于特征的方法(空域) 示例学习、神经网络、统计模型、 彩色信息、形状分析
近期
彩色信息、频域中的特征提取、 新分类方法的应用,例如支持向量机、 多模态信息融合、Adaboost 学习方法。
下面将分别介绍国外和国内的研究概况。
1.2.1国外研究现状
许多国家展开了人脸检测的研究,主要是美国、欧洲国家、日本、新加坡、韩国等,著名的研究机构有美国MIT的Media lab、AI lab,CMU的Human-Computer Interface Institute,Microsoft Research,英国的Department of Engineering in University of Cambridge等。综合有关文献,目前的方法主要集中在以下几个方面。
1.2.1.1模板匹配
分为两种方法:固定模板和变形模板。固定模板的方法是首先设计得到一个或几个参考模板,然后计算测试样本与参考模板之间的某种度量,以是否大于阈值来判断测试样本是否人脸。这种方法比较简单,在早期的系统中采用得比较多。但由于人脸特征的变化很大,很难得到有效的模板来表示人脸的共性,这种方法目前已不多见,有的系统将其作为粗检测或预处理的手段。变形模板方法在原理上与固定模板相同,但其中包含一些非固定的元素。一种方法是手工构造参数化的曲线和曲面以表征人脸中的某些非固定特征,如眼睛、鼻子和嘴唇等。另一种方法是系统自动产生自适应
3
的曲线和曲面,以构成变形人脸模板。检测方法是:将模板与测试图像进行弹性匹配,并加入“惩罚”机制,利用某种能量函数表示匹配程度。
1.2.1.2基于器官特征的方法
这种方法首先提取人脸器官图像特征,然后根据人脸中各器官的几何关系来确认人脸的存在。文献[KI96]利用了大量的特征,包括几何、空间、灰度等各种度量,对人脸进行粗定位。人脸的几何关系由一个树型结构表示,并计算出概率属性,作为判断是否为人脸的条件。这是一种自底向上的方法,另外还有自顶向下的方法,即根据一个人脸模型(一般是正面人脸模型)先在一个比较大的范围内寻找人脸候选区,由粗到精地在一个最佳范围内定位人脸候选区,然后检测各种人脸器官特征。Carlos H.Morimoto和Myron Flickner在一个鲁棒性强的瞳孔定位技术的基础上,结合人脸结构信息,实现了多人脸的检测[MO00]。
1.2.1.3示例学习
示例学习的基本思想是从某一概念的已给正例和反例的集合中归纳产生出接受所有正例,同时排斥所有反例的该概念的一般规则。将人脸检测视为从模式样本中区分非人脸样本和人脸样本的模式识别问题,通过对人脸样本集和非人脸样本集进行学习以得到分类算法。为了获得较高的精度,学习过程需要大量的样本。另外,样本数据本身是高维矢量。因此,研究通用而有效的学习算法的关键是精确的可区分度和数据维数的降低。
很有意思的是,几乎所有的统计模式识别方法都应用到了人脸检测这个问题上。这里有两个
方面,一个是在特征提取方法上,使用了统计的方法,比如主成分分析。一个是在判别分类的算法上使用了统计的方法,如支持向量机,隐马尔科夫模型,贝叶斯决策等等。最近Viola[VI01]使用了一种同时提取特征并且训练分类器的方法。它使用的是AdaBoost算法。
主成分分析(PCA,Principal Component Analysis)是最小方差准则下最优的描述方法,它将输入数据的维数从图像空间的象素数减少为特征空间的维数。其中,特征脸方法得到了广泛应用[TU91],就是用一组特征向量的加权线性组合来代表人脸。主成分分析考虑的是样本模式的整体非几何的特征表示,而局部特征分析(LFA,Local Feature Analysis)则从局部的几何特征出发进行数据空间的降维。将它用于人脸检测,分析和实验证明LFA是一种有效的目标检测方法[PE]。支持向量机(SVM,Support Vector Machines)是一种二次规划(Quadratic Programming)方法,它在处理大批量的人脸正、反例时,只选取那些位于分界面附近的数据来完成学习过程[OS97]。
将多个表示人脸模式的线性空间进行组合,是示例学习的另一条途径。文献[YA00]采用了Kohonen自组织映射网络对人脸样本和非人脸样本聚类,对每一类样本进行Fisher线性判别,得到每一类的判别平面,从而构成图像子空间,并运用高斯模型描述每个子空间,估计出类条件概率密度函数;这样,对于测试图像,计算其属于各个子空间的概率,分类决策为概率最大的类是它所属的类,从而判断测试图像是否为人脸。这些方法一般用于正面人脸检测。
4
1.2.1.4神经网络
从本质上讲,神经网络也是一种基于样本的学习方法。将神经网络用于人脸检测,取得了很大的进展。
MIT的学者首先对人脸样本集和非人脸样本集聚类,以测试样本与人脸样本集和非人脸样本集的子类之间的距离作为识别特征向量,利用多层感知器(MLP)网络作为分类器[SU98]。CMU的研究人员直接以图像作为神经网络的输入,设计了一个具有独特结构的适用于人脸特征的神经网络分类器,并且通过前馈神经网络对检测结果优化[RO98]。他们工作的共同之处是都采用了自调整(bootstrap)的学习原理,对分类器一边训练,一边测试,并把在测试过程中的错误分类结果作为反例样本加入学习过程,从而减少了样本集的规模,并逐步的提高了神经网络的分类性能。
Raphael Feraud等利用多个神经网络:多层感知器(MLP)和约束产生式模型(CGM ,Constrained Generative Model),实现了一个可应用于Web中人脸图像检索的快速而准确的人脸检测方法[FE00]。Shang-Hung Lin等训练了三个基于概率决策的神经网络(PDBNN ,Probabilistic Decision Based Neural Network),用于人脸检测、眼睛定位和人脸识别,实现了一个完整的人脸识别系统[LI97]。
1.2.1.5基于隐马尔可夫模型的方法
马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法[RA93]。
对于人脸模式来说,我们可以把它分成前额、眼睛、鼻子、嘴巴和下巴这样一个序列。那么人脸模式就可以通过对这些区域的有序的识别来检测。这正好是隐马尔可夫模型容易做到的。Samaria[SA94]等人提出了使用HMM模型进行人脸检测的算法。他们使用人脸区域的结构信息来作为隐马尔可夫模型的状态迁移的条件。
1.2.1.6基于AdaBoost的方法
Boosting 是一种分类器融合算法。Adaboost学习算法原本是用来提高某种简单分类算法的性能的,例如,可以用来提高简单的感知器的性能。它通过对一些弱的分类器的组合来形成一个强的分类器。在Adaboost算法中,简单的分类算法被称为弱学习算法。Adaboost算法通过一个迭代的训练过程来得到一个强的分类器。在第一次训练出一个弱分类器后,训练样本的权重得到调整,从而使没有被第一次训练出的弱分类器正确分类的样本的权重增加。如此迭代下去,最终得到的分类器是对每次训练得到的弱分类器的一个线性组合。Viola和Jones[VI01]提出了一种基于AdaBoost和快速特征提取的正面实时人脸检测算法。他们的算法在个人计算机上达到了15帧/秒的速度。在MIT和CMU的测试集上有很好的表现。MSR 通过利用3个视角的这样的检测器,实现了一个多视角的人脸检测算法。
5
1.2.1.7基于彩色信息的方法
人脸的肤色在颜色空间中的分布相对比较集中,利用这个特点可以检测人脸。这种方法的最大优点是对姿态变化不敏感。用彩色信息检测人脸的关键是合理选择色度坐标。常用的方案是将彩色的R、G、B分量归一化。目前人们研究更多的是如何提取彩色的色度信息,即将RGB彩色空间转化为其它彩色空间,以突出色度信息。
H.Martin设计了肤色模型表征人脸颜色,利用一个感光模型对输入图像修正和补偿,并建立人脸颜色分类器,其输出作为神经网络的输入进行检测[MA94]。Tony等采用高斯混合模型(GMM, Gaussian Mixture Model )表示人脸肤色R、G、B各分量的统计分布,通过阈值比较判断象素是否为人脸象素[TO96]。YING DAI等利用彩色信息,并结合人脸的纹理特征,设计了SGLD共发矩阵方法进行检测[DA96]。Haiyuan Wu通过在XYZ彩色空间中,对人脸肤色和头发颜色的分布建立基于模糊逻辑理论的描述模型,通过计算隶属度来确定人脸肤色区域[WU99]。
1.2.1.8形状分析
从几何的观点和统计的角度来分析人脸的形状特征,主要是人脸的大小、对称性、形状参数等信息。不同于基于特征的方法,这种方法作为细检测的途径,通常和基于彩色信息的方法结合一起使用[KI98,SU98,TE98,SO98]。
1.2.1.9频域中的特征提取
频域分析是图像处理的一种有效工具。在人脸检测领域,通过将图像变换到频域上,可以根据频率特性,或者提取人脸的特征区域(点),或者获取整个人脸的频域描述特征量来作为分类决策器的输入。M.Zobel等人在JPEG图像的DCT系数中提取出额头、眼睛、鼻子、嘴唇、下巴等特征区域,通过人脸结构模型检测人脸[ZO00]。
Nastar等研究了人脸面容变化及其频谱变化的关系,他们发现人像的表情变化和少许遮掩值影响局部光强度流,如果用频率来表达,只会影响高频部分,称为高频现象[NA96]。因此,用小波变换的方法滤掉高频信息,采用低频图像的频谱来表达图像将会取得更好的效果。Constantine P.Papageorgiou、Michael Oren、Tomaso Poggio等使用人脸图像的Harr小波系数作为特征矢量,搜集了大量正反例样本,通过SVM机制实现人脸检测[PA98]。Christophe Garcia 和Georgios Tziritias对人脸图像小波变换系数做了统计分析,刻画人脸图像纹理的特征,然后通过基于概率分布的Bhattacharrya距离进行分类得到人脸和非人脸的判别规则[GA99]。
另外,T.Kondo和H.Yan在图像的Harr小波变换的保持低频分量的子带图像LL上直接进行人脸检测的研究,他们着重考虑了非均匀光照下的图像,采用梯度矢量来处理偏光的情况[KO99]。
6
1.2.1.10多模态信息融合
人脸检测要考虑的因素很多,研究者们从不同的角度出发根据不同的信息来设计检测方法。实际上,人的大脑对人脸的判别过程,借助了多种信息,比如肤色、人脸结构、纹理等;因此可以认为这是一个多模态信息融合的过程。研究者的实践也表明,各种方法在单通道上的可靠性是有限的,但是如果采用多种方法来证实人脸的存在,那么会得到更高的检测效率。
S.J.Mckenna等介绍了一个动态序列图像中的人脸识别系统,其中根据运动信息、肤色信息和面部结构模型实现了人脸检测算法[MC98]。S.H.Kim等人同样结合人脸的对称性和一致性、运动信息、肤色信息,对视频流中的人脸进行检测[KI00]。
1.2.2国内研究现状
国内开展人脸检测研究的主要单位有清华大学、哈尔滨工业大学、北京工业大学,中科院计算所,中科院自动化所,复旦大学,南京理工大学等,都取得了一定的成果。
哈尔滨工业大学的研究者实现了一个复杂背景下的多级结构的人脸检测与跟踪系统,其中采用了模板匹配、特征子脸、彩色信息等人脸检测技术[刘97, 范98,张00],能够检测平面内多姿态正面人脸,并可以跟踪任意姿态的运动的人脸。简述如下:这种检测方法是一个两级结构的算法,对于扫描窗口,首先和人脸模板进行匹配,如果匹配,那么将其投影到人脸子空间,由特征子脸技术判断是否为人脸。模板匹配的方法是:按照人脸特征,将人脸图像划分成14个不同区域,用每个区域的灰度统计值表示该区域,用整个样本的灰度平均值归一化,从而得到用特征向量表示的人脸模板。通过非监督学习的方法对训练样本聚类,得到参考模板族。将测试图像的模板与参考模板在某种距离测度下匹配,通过阈值判断匹配程度。特征子脸技术的基本思想是:从统计的观点,寻找人脸图像分布的基本元素,即人脸图像样本集协方差矩阵的特征向量,以此近似地表征人脸图像。这些特征向量称为特征脸(Eigenface)。实际上,特征脸反映了隐含在人脸样本集合内部的信息和人脸的结构关系。将眼睛、面颊、下颌的样本集协方差矩阵的特征向量称为特征眼、特征颌和特征唇,统称特征子脸。特征子脸在相应的图像空间中张成子空间,称为子脸空间。计算出测试图像窗口在子脸空间的投影距离,若窗口图像满足阈值比较条件,则判断其为人脸。
北京工业大学的研究人员提出了人脸重心模板这一新技术并运用这一技术建立了一个于复杂背景中检测人脸的系统。[汪99,MI99,苗99]。他们设计了人脸重心模板以实现人脸快速的定位。这种人脸模板具有多尺度的检测功能,能适应于检测处于复杂背景中任何位置的不同大小的人脸;人脸重心模板上的重心点对应于人脸模式上的各个器官(双眉、双眼、鼻和嘴),重心点之间动态的二维空间约束关系适应于检测具有不同构型的实际人脸。人脸重心模板的匹配是基于从Mosaic图像上提取的重心点之上的,而Mosaic图像是对人脸器官区域的一种很好的模糊或灰度平均处理,从起上可以很好的提取出各器官的位置,因而它教不易受特定人脸表情、纹理的影响;对于光照而言,由于光照并不改变人脸器官区域与其它区域的灰度高低不同的这一相对性质性质,所以它基本上不受光照影响。垂直人脸以纵轴向左右旋转一定角度(- 45°~ +45°),由于人脸器官成水平分布,不
7
影响Mosaic横边和重心点的提取, 所以水平旋转人脸的检测也不受影响。
清华大学的研究人员对人类肤色进行了较为系统的分析,并提出了基于颜色和特征的自适应人脸检测的方法[陶99,彭99]。他们还提出一种基于多模板匹配的单人脸检测方案[梁99],但是检测速度并不适应实时应用。
8
因篇幅问题不能全部显示,请点此查看更多更全内容
怀疑对方AI换脸可以让对方摁鼻子 真人摁下去鼻子会变形
女子野生动物园下车狼悄悄靠近 后车司机按喇叭提醒
睡前玩8分钟手机身体兴奋1小时 还可能让你“变丑”
惊蛰为啥吃梨?倒春寒来不来就看惊蛰
男子高速犯困开智能驾驶出事故 60万刚买的奔驰严重损毁
Copyright © 2019-2025 yule263.com 版权所有 湘ICP备2023023988号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务