Mp
pq
yqfx,ydxdy p,q0,1,2...
x
(1)相应的中心矩为:
μp
pq
yyy
xxq
fx,ydxd(2)重心坐标为:x
M10M
M,y01
,根据中心矩的定义,00M00
可以推出中心矩滋10和滋01均为0。矩的物理意义为:零阶矩表示图像的面积;一阶矩可以确定图像的灰度重心;二阶矩也称惯性矩,可以确定图像主轴、图像椭圆长短半轴等特性;三阶及三阶以上矩,主要描述了图像的细节,包括图像投影扭曲程度和图像投影峰度等。矩还具有平移变换、比例变换、旋转变换、反射变换和增强变换等特性。由于直接用原点矩或中心矩作为图像特征不能保证特征同时具有平移、缩放和旋转不变性,所以由二阶矩和三阶矩中心矩的线性组合构成七个不变矩,可以确保图像同时具有平移、缩放和旋转不变性。表达式如下: 1μ20μ022
(3) 2μ20μ024μ11
(4)2
3μ303μ123μ2
12μ03(5) 4μ30μ2
12μ12μ032
(6).50.微处理机2018年 5μ
30
3μ22
12μ30μ12μ30μ123μ21μ03
3μ22
21μ03μ21μ033μ30μ12μ21μ03
(7) 6μ20
μμ2μ2
0230μ12μ2103
4μ11μ30μ12μ21μ03(8) 3μ21
μ22
7
03μ30μ12μ30μ123μ21μ03
3μμ22
1230μ21μ303μ30μ12μ21μ03
(9)实验采集了七个Hu矩特征量作为手语图像的特征向量, 形成特征集合( 1, 2, 3, 。4, 5, 6, 7)。表1列出了手语a、手语b和手语c的边缘图像所对应的七个Hu矩特征值。表1不同手势Hu矩特征值手势Hu矩特征值a.0.7194190.0803850.0847560.1435500.0509890.001776b.0.4123630.0002840.2095890.5469600.2120780.0890800.6191740.0002220.002260c.0.2626200.0768460.1023420.2892230.0001810.002853由于在手语采集过程中会发生旋转、平移和缩放,影响手势的识别效果,采用Hu矩特征则可以很好地解决这些问题,其描述的图像特征具有很强的代表性,涵概了图像的很多整体特征,而且数据少,识别速度快。5手语识别在手语识别阶段,分别采用了支持向量机[13]、神经网络[14]和随机森林[15]三种分类方法进行研究,并对三种手语识别方法进行了实验与分析。5.1基于支持向量机的手语识别首先对支持向量机进行分类识别研究,介绍它的基本原理、核函数及相关参数的选取。实验中,将前面提取的手势边缘Hu矩特征数据以N伊7的矩阵作为支持向量机训练集的输入,N为训练样本数,再将M伊7特征数据作为测试集的输入,M为测试样本数,最终得到不同手势的识别率。支持向量机是一种新型的机器学习方法,其主要功能是解决在样本数量有限的情况下的模式识别问题。其基本思想是在样本空间或特征空间构造出最优超平面,使超平面与小同类样本集之间的距离最大,从而达到最大的泛化能力。图8为二维线性可分的情况,为分类线,f(x点且平行于1)和f(x其中f(x)2f)(分别为两类样本中过离分类线最近的x)的直线,f(x两类的分类间隔。1)和f(x2)之间的距离称为图8二分类示意图分开的最优分类线,SVM的基本思想是寻找一个可以将两类样本使分类间隔最大。设判别函数为f(x)Wxb
(10)其中f(x)为训练类别标签;W是权重函数;x为训练样本特征。当f(x)=0的时候,即为决策边界,f(x的样本称为支持向量。对判别函数进行归一化后两1)和f(x2)上类样本都满足f(x)逸1,分类间隔为2
||W||,满足f(x)=1的样本就是f(x支持向量机的优势主要体现在解决线性不可分1)和f(x2)上的支持向量。问题,它通过引入核函数,巧妙地解决了在高维空间中的内积运算,从而很好地解决了非线性分类问题。常见的核函数包括线性核函数:K(x,y)xy
多项式核函数:K(x,y)((xy)1)p
(11)径向基核函数:K(x,y)exp(|xy|2/2)(12)本实验选取了径向基核函数,也称高斯核函数,(13)它具有较宽的收敛性,而本研究中的手势识别具有低维、小样本特性,非常符合高斯核函数的要求。核函数的参数和惩罚因子C是影响支持向量机性能的关键因素。C越大,惩罚力度越大,对数据的逼近误差越小,容易发生过拟合现象;C越小则越容易发生欠拟合。滓2被用来控制回归逼近误差度,其值越大则支持向量数目越少,同时精度变差;相反,则支持向量数目变多,精度变高。3期基于Kinect的手势图像识别研究金宏硕等:.51.采用网格搜索方法来寻找最优参数C和1/滓2,即分别选取不同的参数组合,得出不同的错误率,选取其中错误率最小的作为最优参数组合,所以采用了台湾林智仁教授开发的libsvm支持向量机库中的数据进行参数选优,5.2基于神经网络的手语识别最终确定本文参数为2和0.5。神经网络是一种按误差逆传播算法训练的多层前馈性网络,由输入层、隐藏层和输出层构成,如图9所示。它包括数据的正向传播和误差的反向传播两个过程。正向传播时,输入样本数据从输入层传入,经过隐含层计算后,再由输出层输出实际输出值,并与期望值做比较。若输出的实际值与期望值不符,则进入误差的反向传播,此时误差信号从输出层逐层反传回输入层,在此过程中将误差分配给各层各个节点,通过修改层与层之间的权值与阈值来减小误差信号,并最终收敛,得到期望的输出。图9神经网络示意图神经网络的输入层输入为七个Hu矩特征量,所以取输入层节点数为7。由于需要识别出五类手势,所以输出层节点数取5。隐含层节点数可以通过如下经验公式得出:hmna
(14)式(14)中,h为隐含层节点数目,m为输入层节点数目,n为输出层节点数目,a为1耀10之间的调节常数。因为不同隐含层节点数对神经网络的收敛速度快慢有明显影响,当有较少的隐含层节点数时,可提高神经网络的收敛速度,而较多的节点数目会导致训练时间过长。所以根据既能快速训练网络又能准确得到结果的原则,经过多次试验,取定隐含层节点数目为10。由于需要区分的手势有五种,所以设置每种手势类别的期望值为:1001000000T10,T20,T31,T40,T50
00010(15)00001
式(15)中,T1耀栽5分别为每种手势的期望输出值。用这五个向量来表示实际输出值与该手势的期望值的相似度。激活函数选择杂型函数:f(x)1
层与隐含层之间的权值及阈值为w1ex
,输入ki,bi,隐含层与输出层之间的权值及阈值为wij,bj。根据梯度下降法得到输入层和隐含层之间的权值和阀值调整有:wkiwkiE(w,b)
1
wwki1kixk
ki
(16)bE(w,b)
ibi2
bbi2ki
i
(17)同样,对于隐含层和输出层之间的权值和阈值调整如下:ww,b)
ijwijE(1
wwij1ijxi
ij
(18)b,b)
jbjE(w2
bbj2ij
j
(19)式中E(w,b)为误差函数,E(w,b)
bij。j
首先将训练样本的Hu矩特征作为输入层的输入,通过与各层之间的权值及阈值计算,得到实际的输出,并与期望输出值进行比较得到误差函数,然后用梯度下降法将误差函数反向传播,修改阈值和权值,使系统达到收敛,网络达到稳定。为了使最终的输出值可以在网络定型时确定误差,可使最后输出的五个数值全部介于10到1的行即为手势类别。,即为概率值。对比这5个概率值,之间且它们的总和为概率最大值所在在构造一个神经网络时,为了使网络能够收敛,需要考虑一些参数的设定,包括:初始化权值与阈值,以及学习率。本文初始化权矩阵时,选取在-1耀1之间的不同的小伪随机数。学习率的过大或过小都会导致网络的不稳定,经过多次实验,最终选取学习率为0.02。.52.微处理机2018年5.3基于随机森林的手语识别随机森林算法是一个具有很好分类效果和具有很高实时性的机器学习方法,其基本思想是通过多棵决策树进行投票选择最终的分类结果。随机森林不但不容易陷入过拟合,而且具有很好的抗噪能力,这主要是得益于随机性的引入。随机森林的识别过程为:首先,采用bootstrap抽样方法从原始训练集中有放回地随机抽取s个新训练集,2/3每个新的训练集的大小约为原始训练集的这;m然后,个属性中根据信息增益率选出最优的属性作从七个特征中随机抽取m个(m臆M),在为根节点,对每个新的训练集建立决策树,组成具有s棵决策树的随机森林;最后,通过统计每棵决策树的预测结果,采用投票的结果来决定最终的分类类别。由于每次的采样都会有部分数据未被选中,称为袋外数据(Out-of-Bag),将这些数据用作内部误差估计,即袋外误差。通过袋外误差可以确定随机森林中构建决策树的数量范围。通过实验发现,分类情况的袋外误差趋于稳定时,随机森林不会出现过拟合现象,此时的随机森林中树的数目为逸200,如图10所示,所以取随机森林中决策树的棵数为200棵。随机森林中每棵决策树主要是根据信息增益最大的属性来划分样例集合。图10袋外误差率选取的手语Hu矩七个特征作为决策树的属性,表示为:云越(f集合。信息熵Entropy1,f2,(Sf3),表示为:f4,f5,f6,f7),S为训练数据Entropy(S)ci1Pilog2Pi
式(20)中,c表示识别的手势类别数量,P(20)i表示第i个类别在整个训练集中出现的概率。信息熵主要用于描述手势类型信息的不纯度。信息增益Gain(S,F)为样本按照某属性划分时造成熵减少的期望,表达式为:GainS,FEntropySSv
vVFS
EntropySv(21)式(21)中,V(F)是F的值域,Sv是S中在属性F上值等于v的样本集合。式中后半部分为:F对训练集S划分的期望信息。由于采用信息增益来确定属性的重要性,通常偏向于取值较多的特征,信息熵的值具有偏向性,导致信息增益不准确。为了减小影响,采用信息增益率GainRatio)对属性进行划分,其公式为:GainRatio(S,F)
Gain(S,F)SplitInfo(S,F)
(22)SplitInfo(S,F)cSiii1
SlogS2S
(23)式(23)中,Si为第i类手势训练集,SplitInfo(S,F)为训练集S的分裂信息。决策树[16]的建立是通过对样本集不断地进行划分,使其末端分支所包含的样本尽可能属于同一个类别,从而进行分类。其中属性划分点的最优选择是关键。由于手势数据集中每个手势的特征值较多,因此采用二分法选取分裂节点,即将特征属性值按从小到大排序,并去掉相同的属性值,取每两个相邻的属性值加和的一半作为划分点,再求取每个划分点的信息增益,最后信息增益最大的选取为最优划分点。以此建立每棵决策树,由多棵树组成随机森林后,采用投票的方式对每棵树的分类结果进行统计,最终选择得票最多的结构为测试样本的分类类别。6实验结果及分析实验采用MATLAB软件进行程序编写及测试,主要识别了五种手语手势,d分别为手语字母a、b、备和Kinectv,如图摄像机采集手势图像,共由11所示。应用微软XboxOne503Dc、名同学采体感设集完成,包括男生和女生且为正常人。采集数据时,通过实验发现,Kinect摄像头在120度范围内捕捉手势效果最好,因此全部数据都选在此范围内完成。其中每种手势每人采集5张,共1250张手语图像。采集的图片包括不同背景、不同光照和不同手部角度,其中不同的手势角度即摄像头平面与标准手势平面之间存在夹角,规定当手势平面与摄像头平面平行(夹角为0毅)时,为标准手势。在标准手势沿竖直中线逆时针分别旋转15毅、30毅、45毅、60毅和90毅时生(3期基于Kinect的手势图像识别研究金宏硕等:.53.成手势图像,图90毅时的手势图。11为其中选取夹角为0毅、30毅、60毅、图11五种手语及不同角度手势图图中,第一行为标准手语,其余为发生旋转之后的手势图像,可以明显看出当旋转至90度时手语已无法识别。采集数据后将手势图像进行尺寸归一化,每张手势图片大小都转化为100伊100像素。每种手势图片共采集250张手势图片,随机挑选150张图片作为训练集,另外100张作为测试集。每种手势标签完毕后,将训练数据和测试数据分别放入支持向量机、神经网络和随机森林算法中进行分类识别,识别率如表2所示。表2五种手语在不同分类方法下的识别率SVM手语98%a手语BP96%97%b手语99%c手语99%RF96%96%98%96%97%d手语v99%98%96%98%98%图12为不同手部角度识别结果对比折线图。可以看出识别率在随着手势偏转角度的增大而下降,当手势平面与摄像头呈垂直角度时则完全识别不出手语手势。识别率旋转角度图12不同角度的手语在SVM下的识别率对这五种手势的识别结果取平均值进一步研究的结果如表3所示。可见,在正常情况下,支持向量机的识别率最高,其次是随机森林,最后是神经网络。由于采集的手势样本数量限制,使神经网络在小样本集下识别率略低于支持向量机。对于随机森林来说最重要的参数便是特征的选取,而采用的是Hu矩特征,这对随机森林影响很大,但对于支持向量机来说就非常的适合。但在时间消耗方面,随机森林的用时最少,神经网络则最慢。这主要是因为随机森林算法对数据无需预处理,加之其算法特性使然;而神经网络算法计算量大,导致其运行速度最慢。表3平均识别率和平均用时SVM平均识别率平均用时BP96.8%98%0.935sRF97.4%1.353s0.635s通过Kinect方法进行采集手势图像可以避免复杂背景和光照的影响,但是在手指发生重叠时识别率依然很低,识别效果较差。通过实验发现,当手势平面与摄像头平面夹角超过60毅时识别率明显下降,所以Kinect识别手势的临界值为60毅。考虑到对称性,Kinect设备的最佳识别范围为120毅。7结束语在科技水平和社会需求不断提高的今天,人机交互领域中手势识别越来越受到人们关注。如何更好解决人机交互中存在的局限性和更好地服务于大众,是目前手势识别研究的重点。应用Kinect设备,利用深度信息提取手语,解决了复杂背景及光照等因素的影响,并找到了最佳的手势采集范围。对于服务机器人行业来说具有很好的人机交互性能。研究也发现,在小样本情况下支持向量识别率最高,随机森林实时性最好,但是同时保证准确性和实时性是很难实现的,所以接下来的研究将在保证准确性的前提下,提高实时性,为研究具有更高识别率和实时性的手势识别算法做进一步研究。参考文献:[1]ZHANGcognitionS,YUANC,ZHANGY.Handwrittencharacteraccelerometer[C]//usingorientationquantizationbasedonre-3DUbiquitousMOBIQUITOUSSystems:InternationalConferenceonMobileandDBLP,2008.2008,Computing,July21-25,Networking,2008,Dublin,andServices,Ireland.[2]continuousFANGGaolin,signGAOlanguageWen,recognitionZHAODebin.basedLarge-vocabularyonransition-.54.微处理机2018年movementCybernetics,models[J].IEEE邹节华.基于单目视觉的动态手势轨迹识别系统研究PartA:SystemsTransactionsandHumans,onSystems,2007,37(1):1-9.Man,and[3]西安:西安电子科技大学,2012.[D].ZOUgnitionJiehua.Researchondynamic[4]University,systembasedonmonoculargesturevision[D].trajectoryXi'an:Xidianreco-翁汉良工程与科学,战荫伟2012..基于视觉的多特征手势识别WENGHanliang,,2012,ZHAN34(2):123-127.[J].计算机Yinwei.Multi-featuregesture[5]RENScience,recognitionZ,2012,basedMENG34(2):123-127.onvision[J].ComputerEngineeringandrecognitionthe2011ACMwithJ,YUANJ,etal.RobusthandgestureWorkshops,2011.MultimediakinectsensorConference[J].MM'11and-ProceedingsCo-Locatedof[6]王松林究WANG[D].北京.基于:北京交通大学Kinect的手势识别与机器人控制技术研,2014.controlSonglin.technologyResearchbasedonongestureKinectrecognition[D].androbot[7]JiaotongBejing:BeijingGUthroughY,DOUniversity,H,OU2014.Y,etal.HumanSystemandaKinectCybernetiessensor(IHMSC),[C]//Intelligentgesture2012Humanrecognition4thInternational-Machine[8]ConferenceHeickal3DfullbodyH,on.ZHANGIEEE,motionT,2012,1:274-279.gestureHASANUZZAMANrecognition[C]//M.InternationalReal-time[9]宋宏亮12-14,Conference.2013,on基于KinectShenzhen.Roboticsand深度图像的静态手势识别的研究与IEEE,Biomimetics(ROBIO),December2013:798-803.SONG应用[D].沈阳:东北大学,2013.recognitionHongliang.basedResearchonKinectanddepthapplicationimageof[D].staticShenyang:gesture[10]Northeastern邓瑞,周玲玲University,,应忍冬2013..基于Kinect深度信息的手势提取与识别研究1265.[J].计算机应用研究,2013,30(4):1263-DENGongestureRui,extractionZHOULingling,andrecognitionYINGRendong.basedResearchdepthofComputers,onKinect[11]2013,武红娇30(4):1263-1265.information[J].ApplicationResearch工业大学.复杂背景下的静态手语识别技术研究,2017.[D].沈阳WUyangtechnologyHongjiao.underResearchcomplexonbackground[D].staticsignlanguagerecognition董立峰University.基于HuofTechnology,矩和支持向量机的静态手势识别及2017.Shenyang:Shen-[12]应用DONG[D].武汉理工大学,2012.Wuhan:basedonLifeng.WuhanHumomentsStaticgestureUniversityandofsupportrecognitionTechnology,vectorand2012.machinesapplication[D].[13]刘小建,张元.基于多特征提取和SVM分类的手势识onLIU别[J].multiXiaojian,计算机工程与设计-featureZHANGextractionYuan.,2017,andGesture38(4):953-958.SVMrecognitionclassificationbasedComputerEngineeringandDesign,2017,38(4):953-958.[J].[14]李歌燕山大学.基于BP神经网络的手势识别研究LIGe.Research,2013.[D].秦皇岛:[15]network[D].赵显.基于随机森林的手势检测与识别系统的研究Qinhuangdao:ongestureYanshanrecognitionUniversity,basedon2013.BPneural湘潭:湘潭大学,2012.[D].ZHAOUniversity,systemXian.basedResearch2012.onrandomongestureforestdetection[D].Xiangtan:andrecognitionXiangtan[16]林水强法[J].,吴亚东,陈永辉.基于几何特征的手势识别方LINShuiqiang,计算机工程与设计WUYadong,,2014,CHEN35(2):636-640.recognitionmethodbasedongeometricYonghui.featuresGestureComputerEngineeringandDesign,2014,35(2):636-640.[J].
因篇幅问题不能全部显示,请点此查看更多更全内容