电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

复杂背景范文

来源:火烈鸟作者:开心麻花2025-10-111

复杂背景范文(精选8篇)

复杂背景 第1篇

关键词:灰度值,先验知识,车牌定位,复杂背景

0 引言

车牌的自动识别是计算机技术、模式识别技术和数字图像处理技术在智能交通领域的重要应用,是实现智能交通管理化的重要手段。自动车牌识别系统可以快速准确地提取车牌,并获得车辆相关信息,可以提高工作人员的效率,从而实现车辆的智能化管理。

自动车牌识别系统主要对通过电子设备对所获取的车辆的图像进行相关处理,并准确地识别出车牌号码,从而对车辆进行相关的管理。在车牌识别系统中,首先应该准确地定位出车牌区域,车牌定位是整个环节的基础和关键。

1 复杂背景下车牌定位

车牌定位要求在含有车辆信息的图像中将车牌区域从图像中提取出来。定位算法中,首先要利用相关算法对含有车辆信息的图像进行处理,从而在整幅图像中能够突出显示车牌区域,并减弱或消除图像中的非车牌区域,进而快速、准确地完成车牌的定位。

自动车牌识别系统一般工作在室外,受自然环境的影响,采集到的车辆图像中会包含很多复杂的背景,而且受到外界天气变化的因素和周围环境的影响,给车牌区域目标搜索带来很大的困难,不同的光照下,车牌图像的颜色、对比度、亮度也会有很大的差别,而且获取的车牌图像中噪声干扰也很大,某些噪声区域与车牌区域非常相似,而且,采集到的车辆图像受各种因素的影响,往往质量较低,存在大量的噪声,而车牌区域在整幅图像中所占的比例相对较小,准确地定位车牌区域就必然需要在大量的背景信息中搜索出车牌区域,所以要在以上干扰中区分出车牌区域是十分困难的。车牌定位是车牌识别系统的前提和关键,车牌的准确定位与否,会直接影响后续的分割与识别。本文提出一种基于车牌的先验知识和灰度值跳变相结合的算法实现车牌的定位。我国车牌的先验知识主要包括:

(1)车牌区域是颜色特征与其它区域有鲜明对比的矩形区域。

(2)车牌区域大小相对固定,区域长度和宽度成固定比例。

(3)车牌一般呈长方形,且车牌的上下边线和左右边线互相平行,而且水平方向和垂直方向上相交。

(4)车牌区域上的字符相对集中,字符纹理和字频特征相对固定。

本文所提出的算法是根据我国车牌的以上特征,对车辆图像二值化后车牌区域的字符灰度值跳变规律研究,并结合车牌区域的先验知识来寻找车牌区域并完成定位。由于车辆图像的复杂性和车牌区域破损情况经常发生,对于车牌图像来说,车牌区域内字符灰度值变化固定在一个特定的阈值附近,是最稳定的特征。车牌区域的先验知识中,寻找车牌区域的边界线至关重要,因此,本文在算法中采用了Sobel算子[1],对车牌边缘进行增强处理。由于车辆图像的背景的复杂性,车辆图像中往往会存在着和车牌区域特征相似的部分,比如车辆上张贴的装饰物或广告等。所以定位算法中可以先寻找几个车牌候选区域,如果找到的候选区多于一个,就提取候选区的纹理特征、几何特征等再结合车牌区域的先验知识,利用相关算法进一步来判定候选区是否符合车牌区域的特征;如果只有一个候选区,就可以确定该候选区即为真实车牌区域,然后进行分割和输出;如果没有找到相似的候选区,算法中需要修改阈值并重新寻找候选区,如果查找的次数超过8次时,就可以结束查找,认为在检测的图像中没有车牌区域或者系统无法识别车牌。

1.1 改进的自适应二值化算法

进行车牌定位之前,首先要对获取的车辆图像进行预处理,以消除或降低图像中的噪声干扰。车辆图像预处理中,图像二值化是重要的一步,它决定了是否能准确地定位出车牌候选区域。由于车牌识别系统对实时速度要求较高,为了能够快速地定位出车牌区域,所以对图像二值化时要求算法要简洁,执行速度快。经典的Otsu算法[2]属于全局动态的二值化方法,它会依据图像中各个像素的灰度值进行统计并分类,并使用最小二乘法进行计算,计算过程中,比较类间方差与类内方差的比值,将比值中的最大值作为阈值,通过该阈值可以正确地将图像的目标区域和背景区分开。由于处理的图像多采集于自然条件下,图像的质量受光照和天气等因素影响较大,常常存在图像不清和字符边缘模糊的情况,所以单独使用Otsu算法二值化时可能会影响到车牌定位的准确性。因此,本文做了大量的实验并对比各种图像阈值化算法后,在对图像二值化时采用了一种自适应的动态二值化方法,算法中的阈值是先使用Otsu算法计算出一个全局的阈值,然后根据图像自身的特征并通过一种反复迭代过程,迭代出一个合适的阈值r。首先通过Otsu算法得到一个全局阈值并利用它对图像二值化,对二值化后的图像进行候选区检测,如果没有检测到符合条件的候选区,就改变当前这个全局的阈值,进行r+5,再利用改变后的阈值r重新对图像进行二值化,然后再对二值化后的图像进行候选区检测,重复上述过程反复迭代,直到检测到符合条件候选区个数大于或等于1的结果或者候选区个数始终小于1,即无法检测到该图像符合条件区域(阈值修改操作迭代8次以上)。算法中,对阈值的递加(或递减)5个单位,是为了提高算法收敛过程和执行速度,同时又不会影响符合条件的区域的检测。通过对大量的车辆图像进行实验,实验结果表明,这种自适应的二值化算法可以满足车牌定位模块的需求。图1为从实际环境中获取的车辆图像,图2为采用上述算法二值化后的图像。

1.2 基于先验知识的线性窗口检测算法

实际环境中获取的车牌图像背景比较复杂,二值化后的车辆图像中存在着可能与车牌区域特征相似的区域,因此需要进行进一步的验证以获取正确的车牌区域,通过车牌的先验知识可知真正的车牌区域内字符和背景的对比度强烈,字符投影的灰度值具有正负梯度交替变化的特征,可以利用图像梯度差检测可能的行,从而确定车牌的字符图像区域[3]。算法中,需要计算其相应的梯度矩阵。因为字符与背景的对比度强烈,字符区域对应的梯度值明显大于非字符的区域,如图3所示。

通过分析可知由图像中非字符区域进入到字符笔划处的梯度值G1,与从字符笔划进入非字符区域的梯度值G2绝对值大小接近相等并且符号相反。因此,算法中在文字笔划的附近选取某一区域,求得区域内的最大梯度值Gmax和最小梯度值Gmin,同时可以计算出该区域内的最大梯度差MGD(Maximum Gradient Difference)[4],如下:

MGD=Gmax-Gmin

对应于图3中的梯度曲线的最大梯度差曲线如图4所示。

因此,在进行候选区检测过程中,设定一个初始阈值,来检测图像中可能含有字符的行。图像中文字区域的MGD值应该大于阈值,符合条件的行将被记录下来。但由于车辆图像中噪声的干扰,也可能存在着非字符区域中的MGD也大于阈值的情况,导致非文字区域中的某些行也会被记录下来。因此,选用MGD大于阈值的次数的统计进一步确定字符区域。但是如果车牌图像的背景较为复杂,例如车辆图像处于不同光照或车牌区域出现破损或不洁的情况下,图像原来的背景纹理特性被破坏,从而可能出现与字符区域图像相似的最大梯度差的特点,所以这些区域也可能被认定为字符区域。

为了正确地检测出图像中的字符区域,在图像字符区域梯度差变化的规律基础上,本文结合我国车牌特征即先验知识来定位车牌区域。

1.2.1 车牌的先验知识

我国车牌具有很多相似的特征,车牌上的字符排列有特定的规律,所以字符的纹理特征比较明显,它是车牌图像重要的特征之一。这些纹理特征反映了图像本身的属性,因此利用纹理特征可以将图像中的不同目标区分出来。纹理作为图像的一种重要的外观特征,可以提供很多重要的信息。

(1)纹理基元:

纹理基元形状简单,并且分布较为规则,是一种或多种图像基元的组合。

(2)纹理基元的排列组合:

图像的外观取决于纹理基元的排列,正是由于基元排列的疏密、周期性、方向性等不同,所以不同事物外观才会不同。在图像上就是纹理的粗细、走向等特征的描述和解释。

二值化的车辆图像,车牌区域有边缘相对集中、排列相对规则的纹理特征,车牌区域所在的行相邻像素点之间的灰度值会从0到1和1到0的变化明显,而且这个跳变数介于两个临界值之间[5]。车牌区域内字符的特征有:

①车牌区域中字符排列规律呈现出垂直边缘比水平边缘密集,车辆图像中的其它部分的特征正好相反,一般水平边缘较明显,垂直边缘较少。同时因为我国车牌通常位于车身的下方,除车牌区域外下方不会有其它的边缘密集区域。

②车牌区域边界明显,边界内部则规则地排列着一系列文字及字符。但是由于图像采集角度和车牌自身悬挂角度不同,所采集到的车牌边框可能会出现倾斜、断裂等情况。

1.2.2 纹理特征的提取

纹理的特征提取指的是通过一定的图像处理技术抽取出纹理特征,从而获得纹理的定量或定性描述的过程。因此,纹理特征提取应包括两个方面的内容:检测出纹理基元和获得有关纹理基元排列分布式的信息。在不知道纹理基元或尚未检测出基元的情况下,只能从最小的基元像素开始建立纹理特征模型,这种方式称为纹理特征的模型分析。纹理特征分析也可以在已知基元的情况下进行,这种方式称为纹理特征的结构分析[6]。

纹理特征的分析方法,大致有统计方法、结构方法和频谱法。统计方法适用于分析像木纹、森林、山脉、草地那样的纹理细而且不规则的物体;结构方法主要适用于像布料的印刷图案或砖花样等一类纹理结缘排列较规则的图案;频谱法借助于傅里叶频谱的频率特性来描述周期性或者近乎周期性图像模式的方向性。

从对车牌区域内部纹理特征的分析来看,车牌字符间隔有一定的规则性,适合用结构方法来提取车牌区域的纹理特征,但由于车牌内部字符的间隔性和密集性的特点,又适合用统计的方法去统计其变化的次数,所以本文采用两者结合的纹理特征提取方法[7]。

1.2.3 线性窗口检测算法

线性窗口检测是在二值化后的含有车辆的图像中寻找含有车牌的长方形区域[8]。在检测过程中,结合了车牌的先验知识,利用我国车牌中字符分布特征、形状、梯度变化等知识,如字符的灰度值变化规律等信息。含有车辆信息的图像在二值化后纹理特征表现为边缘集中并且排列方式较为规则,结合上面的特征,对图像进行扫描,可检测到车牌区域或者是和车牌相似的一些区域。

在线性窗口检测算法中先由上至下统计图像中各行相邻像素之间的灰度变化情况,当变化值大于给定的阈值时,可以判断此行就是要车牌区域的上边界,然后向下继续搜索,当检测到变化值又小于设定的阈值时,就得到了车牌区域的下边界。

车牌区域的上下边界具体检测算法如下:

(1)算法中,首先定义一个窗口W,窗口的宽度通常根据车牌在车辆图像中所占的比例设定一个固定的值;算法中还定义一个矩阵M,用来记录矩形L在图像上的移动情况,矩阵M的行数为待处理图像中像素的行数,列数可以用图像的列数减去L的宽度所得的值表示,元素初值为0。

(2)利用窗口W在图像中进行移动,算法中统计窗口中像素的灰度值的变化值并赋值给n,窗口移动时先从左向右移动。

(3)如果n的值小于阈值,则让W继续向右移动。

(4)直到n的值大于阈值,则在矩阵M中对应行和对应列中标记当前W的左端点,将此位置的元素值置为1,并停止该行的移动,继续向下移动。

(5)W完成移动后,M就记录下了W在所有位置的全部情况,在M中如果存在15个连续的1, 并且每一个1对应的横坐标都在所设定的阈值内,那么这些行中最上面的一行就可以确定为车牌的上边界,同理,确定下边界。

采用上述算法定位车牌区域的上下边界图如5所示。

2 垂直切割算法

由于汽车车牌位于车身下方,车牌左右两端通常会出现车灯或其它装饰,所以车牌左右边界两边存在大量的噪声,所以左右边界的定位受噪声的影响较大,可能出现错误定位的情况,因此在检测车牌左右边界时采用垂直切割算法[9]确定左右边界。

算法的大致过程如下:

先利用下式上面检测的图像中定位得到候选区域的中间行。

m=(Hzone+1)/2

其中,m用来表示行号,Hzone为上面检测到的候选区域的高。

接下来需要计算这个中间行的水平梯度值,并利用下式计算并记录中间行发生跳变的列数。

G=|f(i,j)-f(i,j+1)|

其中,f(i,j)是点(i,j)的像素值,j=1,2,,Wzone,Wzone是这个候选带状区域的宽度。若G=1,则把列号j记录到数组An中去,即:Aundefined=j,这里n是数组的大小,k是j在这个数组当中的序号。

接着在数组An中利用下式计算每个相邻列的差,即计算相邻跳变列之间的距离。将计算结果记录到数组B中。

Bk=Aundefined-Aundefined

然后根据数组B中每个元素的值,对数组A中的相应值进行分类处理。具体做法是:对于数组B中的每一个值Bk,若小于车牌区域的高度,就把相应的Aundefined和Aundefined,A放到一个集合中。

For k=1:n+1

If(Bk

set Aundefined,Aundefined∈S

else

set t=t+1

其中,Hplate+是候选车牌区域的高度值。St表示一个集合,下标t即表示区分不同集合,也表示了集合中元素的个数,t的初值给定为1。

如果集合St中,t的值接近于给定的阈值,在这个集合中最小的列号是车牌的左边界,最大的列号则是右边界。由于这样的集合可能有多个,所以我们就可以得到多个候选区域。

最后利用车牌的先验知识,由于车牌的长宽比固定,先对得到的候选区域进行验证,去掉比例不符的候选区域。图6垂直切割算法效果。实验结果表明,在大多数的情况下,上述算法能够成功定位出真实的车牌区域。

3 实验结果及分析

课题采用VC++6.0对算法编程实现,处理的图像为数据库中100张车辆图像和在实际环境中采集到30张车辆图像,图像均为24位真彩色640*480的bmp文件。实际获取的图像背景中往往存在除车辆图像以外的复杂的背景,同时部分图像还存在着一定程度的倾斜、扭曲和破损。实验中本文对130幅图像进行检测,总共得到了234个候选区,为了正确地定位车牌区域,在进一步的候选区检测算法处理过程中,在标准的数据库中检测的车辆图像中有3幅图像的候选区中没有包含真实的车牌,算法的检测成功率为97%(97/100),实际环境中获取的图像中,有4幅图像中没有准确地定位出车牌区域。车牌定位算法的实验结果如表1所示。

本文对定位失败的情况进行分析,没有准确定位的原因:一是自然环境中获取的车辆图像中噪声干扰很大,背景中存在着于车牌区域相似的噪声,从而无法确认出车牌区域,同时个别车牌边界破损严重,造成从车牌区域提取的梯度信息不能满足算法的要求。

实验数据表明,利用上述的算法对车辆图像进行预处理并对车牌区域定位时,可以在从自然环境中采集到的车牌图像中准确地检测出车牌区域,算法具有一定的实用性和鲁棒性。

参考文献

[1]冯慧娜,白艳萍,胡红萍.一种基于颜色和灰度跳变的车牌定位方法[J].测试技术学报,2009,23(6):546-549.

[2]张丽芬,代君.智能监控交通系统中车牌识别技术研究[J].微计算机信息,2008,24(11):312-314.

[3]刘馨月.复杂背景下车牌分割技术的研究[D].吉林:东北师范大学计算机学院,2006.

[4]张云刚,张长水.利用Hough变换和先验知识的车牌字符分割算法[J].计算机学报,2004(1):15-19.

[5]赵启升,赵存华.基于VC++下的车牌识别系统关键技术研究[J].计算机科学,2006,33(12):207-209.

[6]张辉,张道勇.灰度等级处理中的动态阈值法研究[J].传感器世界,2008(7):24-27.

[7]求是科技.数字图像处理典型算法及实现[M].北京:人民邮电出版社,2006.

[8]陈智丽,赵巍.一种快速有效的动态车辆牌照定位算法[J].机械设计与制造,2008,11:11-13.

复杂背景下的运动目标检测算法 第2篇

关键词:智能视频监控;运动目标检测;帧间差分法;背景减除法;

文章编号:1674-3520(2015)-06-00-01

一、引言

智能视频监控系统在安全生产、人员监控方面发挥着日益重要的作用,以提取运动前景目标为目的的运动目标检测技术,是智能视频监控系统的重要研究内容之一,是运动目标跟踪、分类和识别等后续处理的前提,也是尚未根本解决的难点问题。本文对常见的运动目标检测算法进行分析研究,综合其优点设计一种适用于复杂背景的运动目标检测算法。

二、运动目标检测算法

运动目标检测通过去除背景成分,以便从视频图像中获取准确的运动目标,在此过程中要去除噪声(背景噪声和前景噪声)的影响,目前光流法、帧间差分法以及背景差分法成为主流的运动目标检测算法。

(一)光流法。光流法[1]通过光流场和运动场来描述。利用光流法进行运动目标检测主要是根据光流场的变化情况,通过光流矢量的变化来判断是否有运动目标。光流法计算流程如图1所示。

图1 光流法流程图

由上图可以看出,光流法计算流程为:首先,选取视频图像的相邻两帧,对其进行运动估计;然后,根据运动估计的结果进行场景分割,对分割后的结果进行滤波处理,并去除较小的区域;最后,比较当前区域与原区域是否有区别,若有区别则存在运动目标,并保存当前的区域;否则无运动物体。

(二)帧间差分法。帧间差分法[2]通过比较相邻两帧或多帧之间的差异来进行运动目标检测。其流程图如图2所示。

图2 帧间差分法流程图

帧间差分法算法简单,对光线以及背景扰动不敏感,由于帧间差分法中用来做差的两帧间时间间隔小,因此在背景发生变化时不会对结果造成太大影响;另外帧间差分法最大的特点在于运算速度快,适用于实时性要求高的环境。但该算法对噪声敏感,容易将背景像素作为运动目标检测出来,导致检测区域相较于运动区域要大,故得到的检测结果并不十分准确。为提高检测性能,在运动目标检测时一般采用多帧差法或其它改进算法。帧差法运算速度快,但是准确性差,一般在对准确度要求低的场景中应用较多。

(三)背景减除法。背景减除法[3][4]是通过去除图像中的背景来提取运动目标。该方法需要假设背景在某段时间内保持不变,以保证目标检测的准确性。背景减除法算法流程如图3所示。

图3 背景减除法流程图

三、改进目标检测算法及其结果

复杂环境下容易存在光线突变、突发运动等问题,上述算法不能满足其要求。本文综合上述几种算法提出了基于帧间差分法和背景减除法的改进算法。该算法首先利用帧差法检测视频图像中是否存在运动目标,并计算运动目标的面积,若面积大于设定阈值则认为有运动目标存在,对背景模型进行更新,同时提取运动目标;否则,用当前帧图像对背景模型初始化,同时对背景进行更新。利用帧差法和背景减除法相结合的算法可消除动态背景,从而只保留运动目标。

四、结论

对常见的运动目标检测算法进行了分析,并提出一种适用于复杂背景的改进算法,该算法综合了帧间差分法与背景差分法。通过多个场景下的试验结果,证明了该算法在运动目标检测方面的优势。

参考文献:

[1]Neri A., Colonnese S., Russo G et al. Automatic moving object and background separation[J]. Signal Processing, 1998, 66(2): 219-232.

[2]Haritaoglu Ismail, Harwood David, Davis Larry S. W4: Real-time surveillance of people and their activities [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 809-830.

[3]袁國武. 智能视频监控中的运动目标检测和跟踪算法研究[D]. 云南:云南大学, 2012.

[4]龙章勇. 浅析轨道交通智能视频监控的关键技术[J]. 硅谷, 2011(6): 10-29.

复杂背景下的手势识别方法 第3篇

关键词:Kinect,手势识别,Hu矩,BP神经网络

1 引言

手势具有直观性、自然性等特点, 是实现人机自然交互的重要手段之一[1]。传统基于数据手套的识别方法通过采集手部关节数据进行手势提取, 构成复杂且成本高昂。随着计算机视觉技术的发展, 基于视觉图像手势识别成为一种主流研究方向之一, 但该类方法算法复杂, 且易受光照、背景、摄像头特性等多因素影响, 识别率不高[2]。

近年来, 基于深度图像的手势识别正成为人机交互领域中的一个研究和应用热点。该类方法能够方便地实现前景与背景的有效分离, 在目标识别与追踪方面有独特的优势[3]。李思岑[4]等利用Kinect的深度摄像头, 通过中值滤波进行手势分割, 并用Canny算子提取手势轮廓, 再以之间位置完成之间检测, 从而实现数字手势1-5的识别。该方法能够很好的解决手指的移动容易识别错误的问题, 但随着手势数量的增加, 造成深度方向可分辨性降低, 影响最终的识别效果;罗元[5]等通过在Hu矩的基础上加入3个表达式, 使不变矩包含更多细节特征, 从而应用手势对轮椅进行控制, 该方法有效地避免了复杂背景对操作者手势指令的干扰, 使其能方便的控制轮椅, 但在识别阶段应用的模板匹配方法有时会出现相似模板的干扰, 对操作者造成危险;Li[6]通过对不同阈值期间的像素进行聚类分割手势区域, 并根据手指的名称、个数以及夹角建立三层分类器对手势进行分类, 结合Kinect对手部轮廓的采集。该算法具有较高的识别准确率, 但计算量大, 不适合对实时性要求较高的手势识别系统。

综上所述, 本文正是依据Kinect高效且廉价的硬件平台, 获取的深度信息不受光照、背景等因素的影响, 实现复杂背景下的手势识别。本文结构安排如下:第二节介绍手势识别方法, 第三节对实验结果进行汇总分析。

2 手势识别方法

本文提出的基于深度图像的手势识别系统流程图如图1所示。本文首先利用Kinect采集获取深度图像, 同时对采集到的深度数据进行形态学处理并保留手势的边缘, 然后对捕捉到的手部深度数据采用HSV肤色模型进行分割, 然后对分割出的手部进行跟踪, 最后选择具有目标不变性的Hu矩进行特征提取, 最后将提取的特征轮廓带入神经网络模型, 完成最终的手势识别, 该方法能够大大提高手势识别系统的稳定性和鲁棒性。

2.1 手势跟踪

本文基于深度图像信息对手势区域进行提取跟踪, 首先根据手心关节点的坐标位置建立一个手部信息的矩阵盒, 再将此矩阵盒内的一个手心关节位置开始向邻域逐个遍历像素, 检测像素是否属于手部区域, 如果符合, 即在二值图像中置1, 循环遍历所有需要遍历的邻域像素, 最后得到手掌区域的二值图像0Z。

2.2 图像处理

Kinect使用过程中, 通常所采集的深度图像存在着一些噪声和空洞, 这些噪声和空洞大多存在于目标的边缘。所以如果直接对获取的深度图像进行特征提取, 其提取特征的特征值变化可能较大, 进而影响识别算法的准确性。所以, 在对手势进行分割后, 需要对分割出的手部图像进行噪声的滤波与形态学处理, 以此为后续识别准确性的提高打下基础。

2.2.1 滤波处理

常见的高斯滤波等方法算法简单且方便, 但其在减少图像噪声的同时, 降噪后目标的边缘产生模糊效应, 从而影响后续的工作。本文采用双边滤波算法, 在保证了平滑效果的同时, 又能做到对边缘信息很好的保存。具体公式如下:

输出像素:

权重系数:

其中为定义域核, 表示空间距离上的加权, 为值域核, 表示灰度差值的加权。

2.2.2 图像形态学处理

图形形态学出处理包括开运算、闭运算、膨胀、腐蚀和形态学梯度等操作, 他们能够消除噪声、填充空洞。本文针对获取的深度图像含有很多空洞的情况, 决定采用膨胀和腐蚀搭配使用以有效地填补凹洞与消除凸包。

膨胀[7]是将图像或图形区域的一部分与核进行卷积, 计算出核覆盖区域像素的最大值赋给参考点所指定的像素, 使图像的高亮区域向外扩张, 公式定义为:

腐蚀[7]与膨胀正好相反, 其是将图像或图形区域的一部分与核进行卷积, 计算出核覆盖区域像素的最小值赋给参考点所指定的像素, 使图像的高亮区域向内收缩, 公式定义为:

2.3 手势分割

由手势识别流程图可以看出, 手势的分割是后续处理的基础和关键。本文在肤色检测的基础上利用深度信息实现手势区域的提取, 在分割的过程中, 首先利用场景深度信息划分出有效子空间, 然后在该空间内进行肤色分割。Kinect在获取深度图像的同时, 还获得了基于RGB颜色空间的彩色图像。虽然RGB、HSV和YCr Cb色彩模型均可用于肤色检测, 但在应对光照、场景环境以及肤色色度等干扰因素的变化时, HSV色彩空间进行肤色分割的性能要明显的由于另外两种色彩空间。在HSV颜色空间中, 其H分量能过很好地反应肤色。为了实现后续对手势轮廓的有效检测, 本研究通过把Kinect或得的RGB颜色空间的彩色图像变换到HSV颜色空间, 采用基于肤色模型的去噪方法获得准确的手势二值图像。

(1) 将二值图像0Z映射到RGB颜色空间中, 由RGB颜色空间转换到HSV颜色空间后的图像为1Z, 利用公式 (7) 获得1Z中H分量的值:

若H (27) 0, 则H (28) H (10) 360, 其中:max (28) max (R, G, B) , min (28) min (R, G, B) 。

(2) 将H分量设置阈值0T, 在1Z中进行阈值判断。若1Z中任一点 (x, y) 的H分量值在T0范围内, 则将对应的点得二值图像f (x, y) 的像素值赋值为1, 否则赋值为0, 通常0T取值0.03—0.123。

2.4 特征提取

手势识别的过程是一个实时的过程, 对用户的动作要求迅速响应, 这决定了复杂的特征提取方法对实时手势识别系统并不适用。在手势信息采集的过程中, 用户距离摄像头的位置、不同用户手形的区别、手势的位置、姿态均会有一些变化。本文选择的具有目标不变性的特征提取方式为Hu矩, 此方法具有良好的特征, 不仅能对不同的手势进行有效区分, 而且能适应环境的改变不同用户手形的差异和同种手势的姿态变化, 且特征具备旋转、平移、缩放的不变性。

Hu矩是由Hu等人在1962年首次提出的[8], 同时归一化中心矩的线性组合。这种方法能够获得图像某个特征得矩函数。计算公式如下:

在图像的不变矩计算当中, 不变矩的数值与识别结果正相关, 即特征值越大, 对识别结果的贡献越大, 为此, 我们常对特征值进行对数修正:

为修正后的输出特征值。

本文利用Hu矩对十种数字手势进行特征提取, 十种手势如图2所示:

2.5 BP神经网络的手势识别

手势识别使用的三层BP网络的结果如图3所示, 它包含一个输入层、一个隐含层和一个输出层。

实现BP神经网路的第一步就是要选定合适的网络, 并设立合理的参数。根据系统模型, 本文采用的行为表示特征为Hu矩, 表示一个手势需要7个维向量输入层节点数目为7, 将最小均方误差设为0.01。而输出层的神经元节点数对应输出向量的某一维, 每一个输出向量代表着一个样本识别结果, 本文共有10种手势需要识别, 所以选择输出层节点数为10。表1列出了十种待识别手势行为的输出向量。

隐含层神经元节点数目的选取对BP神经网络的性能至关重要。目前隐层节点数目的选择没有有效的准确的确认方法, 大多数都是依靠经验尝试的方法来估计隐含层节点数目[9], 但在估计的过程也可采用隐含层节点公式 (10) 进行参考。

其中h为隐含层节点数目, i为输入层节点数目, o表示输出层节点数目, a为一个1-10之间的常数。根据上述公式计算, 隐含层节点数目可取范围在5-14之间, 加上分析不同隐含层数目是网络训练效果, 最终选定隐含层神经元节点数目为9个。

输入手势样本, 每个样本含有7个Hu矩特征值为输入层输入值, 通过权值和阈值计算调整, 系统收敛, 使网络趋于稳定。因为BP神经网络是采用梯度修正法来对权值和阈值进行学习, 仅考虑预测误差的负梯度方向, 未添加先前积累的数值, 造成收敛速度缓慢。利用附加动量因子的方法来调节权值, 权值的变化量是由当前误差曲面的负梯度的变化量与前面一次迭代修正所采纳的权值变化量的比例求和得到, 其公式为:

式中w (k) 、w (k+1) 和w (k-1) 分别是k、k+1、k-1时刻的权值, a为动量因子, 一般取值范围为0.01~0.95。

在进行手势识别前, 首先需对所选的神经网络进行训练。从获得的图像中选取部分手部图像进行处理, 作为训练样本。训练前, 首先将权值初始化为0~1之间的随机数, 将每个样本对应的矩阵的元素值输入神经网络的各个输入单元, 并为其指定期望输出, 然后计算出每个输出单元的实际输出与期望输出的误差以及隐含层的误差, 期公式为:

式中Ek为期望输出, Ok为实际输出。

计算隐含层误差公式为:

其中Mj为隐含层输出。

用所有的训练样本对网络进行反复的训练, 多次迭代, 从而使权值在规定的误差范围内达到稳定为止。对获得权值进行保存, 之后便可用其进行手势识别。

BP神经网络最大的缺点就是样本训练的收敛速率慢。为提高网络的收敛速率, 同时防止网络的震荡发散, 系统则应该选择恰当的学习速率。选择过小, 收敛慢;选得过大, 则会造成网络震荡甚至是发散。本文采用可变学习速率的方法, 选用较大的值使网络快速收敛, 随着学习的深入, 不断地减小学习速率, 使网络趋于稳定。算法公式如下:

其中, ηmin为最小学习速率, ηmax为最大学习速率, t为当前迭代次数, tmax为最大迭代次数。

3 实验结果与分析

本文的实验环境采用Kinect第二代传感器作为硬件, 摄像头的分辨率为彩色1080P, 运行环境为Window10, Visual Studio 2013, 开发语言为C++, 在测试系统时, 每个手势采用五幅图像数据进行扩展, 由于Hu矩的旋转、缩放、平移不变形, 分别将原图像放大1.2倍, 缩小0.8倍, 旋转270度和90度得到200幅新的样本数据, 最终选择200幅图像进行训练, 50幅图像用于测试识别。

表2为最终的实验数据结果, 由此可得出基于Hu矩特征的描述方法对本文研究的十种手势具有良好的描述效果, 利用提取出的特征手势可以由BP神经网络进行争取的识别。

4 结语

本文利用肤色在HSV颜色空间中H分量具有较好的区分肤色的特性, 结合背景模型, 有效的解决了复杂背景下类肤色的干扰。在特征提取方面运用Hu矩对手势特征进行提取, 有效的对不同手势进行区分而能适应环境的改变、不同用户手形的差异和同种手势的姿态变化, 结合训练好的BP神经网络手势识别系统, 可以运用于智能控制中的实时系统。

参考文献

[1]Attila L, Tamas S.User-adaptive hand gesture recognition system with interactive training[J].Image and Vision Computing, 2005, 23 (12) :1102-1114.

[2]周航.基于计算机视觉的手势识别系统研究[D].北京:北京交通大学, 2007.

[3]毛雁明, 黄立亮.基于Kinect深度信息的手势分割与识别[J].系统仿真学报, 2015, 27 (4) , 830-835.

[4]李思岑, 王平, 张鹏等.基于Kinect深度图像信息的手势跟踪与识别[J].微型机与应用, 2015, 34 (6) , 53-55.

[5]罗元, 谢彧, 张毅.基于Kinect传感器的智能轮椅手势控制系统的设计与实现[J].机器人, 2012, 34 (1) :110-114.

[6]Li Yi.Hand gesture recognition using Kinect[C].Proceedings of 2012 IEEE 3rd International Conference on Software Engineering and Service Science, 2012:1996-199.

[7]Ionescu D, Suse V, Gadea C, et al.An infrared-based depth camera for gesture-baswd control of virtual environments[C].IEEE International Conference, 2013:13-18.

[8]M Hu.Visual pattern recognition by moment invariants[J].IEEE Transaction on Information Theory, 1962.8 (2) :179-187.

复杂背景条件下无人机场的中心检测 第4篇

复杂环境下的椭圆检测一直是研究者努力探索的一个重要问题,目前国内外的研究学者提出了许多椭圆检测方法。其中一种比较新颖的方法是直接用数值方法检测椭圆,如文献[1]直接用最小二乘法拟合椭圆曲线,有效的提高了检测精度,而文献[2-4]直接利用椭圆的集合性质和缩小采用范围减少无效采样,这样避免了标准Hough变换“一到多”映射的巨大计算量,以及大量无效采样和无效积累。在一定程度上减少了存储量,加快了检测速度。

本文提出了一种新的椭圆检测方法,它利用椭圆的几何性质进行椭圆检测,即在二值化图像上,通过对图像中的边界进行横、纵双向扫描来确定一组目标中心点初始集,然后在初始点集中筛选目标中心点,在筛选过程中,充分利用了像素点的邻域特征和闭合区域的形状面积等特征,实现了对目标点的有效筛选,最后精确识别椭圆。本文通过某无人机场图片检测验证了该算法的实用性和可靠性。

1 无人机场检测方案

空中拍摄无人机场显示形状为类圆环,其背景复杂,存在较多的干扰物,且实际拍摄的图片有很多噪声。为了使其便于识别、简化算法设计,首先对图片进行预处理,主要包括模糊处理和二值化操作,然后进行边界预扫描找到多个边缘像素跳变点,记录位于同一水平(竖直)扫描线上两个相邻跳变点的中点作为候选点,利用椭圆几何特性对候选点进行筛选,锁定椭圆的圆心,最后求取椭圆的各项参数,获取精确坐标,确定无人机机场的位置。

2 无人机场检测过程

2.1 图片预处理

由于实际拍摄的图片有很多噪声,为了使其便于识别、简化算法设计,首先需要对图片进行预处理,图像预处理过程,是将原始的空中俯拍照片素材转化成计算机能识别和处理的数字信息的过程,它包括模糊处理、二值化、膨胀、腐蚀操作。本文的模糊处理采用模糊半径R=3进行均值模糊处理,有效的消除了部分噪声点,且保留了要识别的椭圆的基本特性;针对图像背景较复杂的特点图片二值化,本文采用多阈值选择的分块二值化方法,即对每一块根据图像的局部特征分别采用不同的阈值[5]。通过分块二值化可以对有复杂背景的图像产生较好的分割效果。本文将整幅图像分成4*4的子块,每块设定直方图的谷值作为子块的阈值,得到较好的分割效果。考虑实际图像中椭圆内部可能存在噪声点干扰判断,利用腐蚀膨胀进行降噪,本实验取的次数为1。

2.2 边界预扫描

椭圆具有对称性,过椭圆中心的直线与椭圆边缘的两个交点到中心点的距离相等[6]。对真实图像进行边界预扫描时,应当考虑到物体的边界不是单像素宽度且均匀清晰。因此需要结合实际图来设计扫描方法,本文研究对象的原图经过预处理后得到的二值图像,如图一所示。

对二值图像进行水平和垂直扫描时,会遇到多个边缘像素跳变点。通过对图像的分析,位于图像中间位置的无人机降落场是一块黑色区域,存在多种边界点,因此必须对边界点进行分类。在二值化图像中,从每一个白到黑的边缘点开始记录坐标标记为“St ar t”,到下一个边缘点结束(黑到白)标记为“End”,记录首、尾两个点的坐标,求出两点在纵轴上的中点标记为红色,所有红点都有可能位于经过目标圆的中心点直线上。分类边缘点可以减少计算量,也能够及时的化简识别目标。

假设计算中间点之前,已经给边界点作了标记,分别标记为st ar t类和end类。则沿一条扫描线计算中间点的过程如图二所示。

对整幅图像的计算则是进行wi dt h*hei ght次的沿扫描线计算,wi dt h和hei ght分别表示图像的横向和纵向扫描线的条数。流程图中,f(i,j)为图上任意点的灰度值,mi d为中间点的坐标值。设置一个计数变量Cr oss Pt s,初值为零,每找到一个中点将该点标志成红色,并使计数变量加1。通过对图像双向扫描后,红色曲线会产生一些交点,将交点标记为蓝色,使蓝色点的计数变量变为2。由于椭圆的圆心到两顶点的距离相等,因此认为蓝色的点即是椭圆的圆心的候选点,如图四所示。

2.3 筛选目标中心点

对于真实图像,需要确定的目标圆只有一个,然而在图像中,事实上存在许多类圆干扰物体,由于上述方法的缺陷,所有的蓝色点都会被认为是椭圆圆心的候选点。如图四所示,当运用上述方法对类圆进行检测时,可能会遇到检测结果得到了伪中心点的情况,即检测到的结果有可能就是那些几何特征与目标物体相近的干扰物体,而不是目标物体;或者是得到了一组结果,目标物体被包含在这组结果当中,但是无法确定哪个为目标。不管是哪种情况发生,都表明,直接运用上述方法不能有效检测目标圆。

根据图四的像素点标记特征,对目标中心点的筛选采用以下步骤。

(1)根据投影长度筛选

投影长度是指扫描后,红色点在水平(垂直)方向上个数的集合。图五a是飞机平飞示意图,根据椭圆的四个顶点关于中心点对称这一性质,椭圆在水平和垂直方向上的投影都不会很短。统计蓝色点对应行列的投影长度,若有一边低于所设定的阈值,就排除此点。通过投影筛选,其它的伪中心点就滤掉了,圆心锁定在了8个候选点上。

(2)根据邻域特征筛选

中心线交点的蓝色像素点都是由红色像素点组成的中间线相交标记而成,因为椭圆的长短轴都有一定的长度,且在圆形区域内只存在一个中心点,因此在蓝色像素点周围8邻域内不会出现另一个蓝色像素的点,且应该在周围的某4个方向上的邻域位置会有红色像素点。表述如下公式:

经过上述规则筛选后,可排除部分干扰点,得到的实验结果如图五所示。

(3)根据轴长对称特征筛选

通过以上两个步骤的筛选,在平飞状态下,已基本能确定圆心的位置了,但在侧飞的情况下,还有些干扰点不能排除。通过和前图的对比可以看到,在图像右下角区域的大部分不规则黑色区域内的蓝色像素点被排除。而保留下的蓝色像素点都位于具有共同特点的闭合区域内,这些闭合区域都是以蓝色像素点为中心,近似对称。这样,从闭合区域的具体形状规则上作筛选判断,已不能得到有效效果。

由于基于中心的估计算法是基于水平和垂直方向实现的,因此在这两个方向上,闭合区域的边缘点到中心点的距离是一样的。利用这一特性,推广到椭圆的中心在任意斜率的直线上到相对应的边缘跳变点的距离都应该相等,可以在各个方向上进行实验。针对本幅图像,通过多次实验,选取了10°和80°两个角度进行探索,得到了侧飞情况下的中心点。

经过以上步骤筛选后,获得可能中心点如图六所示。

2.4 定位

通过以上步骤已能在平飞和侧飞两种姿态下识别椭圆圆心。以圆心为起始点,水平扫描到第一个边界跳变点,开始进行边界追踪,并同时记录每个边界点的坐标以及圆心到边界点的距离。距离最长的即为椭圆的长轴,最短的为椭圆的短轴。最终检测结果如图七所示:

3 结束语

本文提出一种检测椭圆中心的快速算法,该算法能快速的获取可能椭圆中心位置,同时有效的消除了无效的伪中心点,然后利用椭圆的几何特征结合改进的基于中心估计的椭圆检测,提高了椭圆检测速度同时又保证了算法的精确性和鲁棒性。同时,给出了某椭圆形无人机场检测过程和方法,验证了算法的有效性和实用性。

参考文献

[1]樊功瑜.误差理论与测量平差[M].上海:同济大学出版社,1998.

[2]Fitzgibbon,A.W,Pilu M,Fisher,R.B Direct least square fitting of ellipses[J].IEEE Transactions on Pattern Analy-sis and Machine Intelligence21,05(1999):476-480.

[3]陈基伟.工程测量中一类参数曲线的拟合[J].大地测量与地球动力学,2007,27(11):100-103.

[4]陈基伟.椭圆直接拟合算法研究[J].工程勘察,2007,6(10):49-51.

[5]王风朝,黄树彩,韩朝超.基于改进的二维Ostu法的图像分割法[J].航空计算技术,2008,38(4):40-43.

复杂背景下运动目标检测与实时跟踪 第5篇

关键词:背景剪除,互相关,快速傅里叶变换,Mean Shift,目标追踪

0 引言

视频序列中运动目标的追踪通常是从场景序列中剪除背景区域, 找出运动目标的前景, 尽可能抑制图像干扰, 得到感兴趣的运动目标。它可以提供运动目标的位置、速度和加速度等基本信息, 在智能交通、人机交互、安防及监控等领域均有广泛的应用[1]。运动目标的检测追踪有直接构造背景模型[2]、基于区域一致性的图像分割[3]、训练分类器目标识别[4,5]等方式。在复杂背景中, 很可能存在与运动目标相似的特征[6], 同时由于环境影响, 可能存在目标遮挡问题, 所以直接采用模版匹配、特征提取等方法对视频序列中运动目标进行实时追踪会出现一些问题。

考虑到视频序列图象帧间的连续性, 利用背景剪除法[7]对待检测帧中静态背景部分予以剪除, 在复杂环境视场中会出现很多自然干扰和对目标物体的遮挡。本文在融合互相关和Mean Shift算法的基础上, 利用快速傅里叶变换, 先得到模版图片与待检测图片相关极值点所在的位置, 利用极值点位置设置Mean Shift的初始搜索窗口, 用爬山算法找到与目标模版最匹配的位置。使用一个连续的大小为1080*1920的428帧图片作为测试集, 实验结果显示, 使用本文的方法可以稳定、有效地追踪到目标。

1 复杂背景目标追踪

在复杂自然场景中, 由于背景中存在大量的相似特征[8], 以及自然环境的干扰, 需要对运动目标的追踪进行处理。如图1所示, 追踪到图片大小为1 080*1 920的视频序列中船的位置时, 背景相似性干扰、光照变换、水面对船体遮挡十分严重, 静态部分背景变化不大, 因此可以通过背景剪除去掉复杂场景中的静态背景, 剔除部分与运动目标相似的特征, 得到追踪的基准图像。

2 基于互相关信息的Mean Shift追踪算法

2.1 互相关系数计算

互相关在理论上不受两幅图像间对比度、亮度线性差异的影响, 特征稳定[9]。因此, 基于互相关系数的算法在反映模版匹配和目标跟踪相似程度中的应用十分广泛[10], 两幅图像I (x, y) , M (x, y) 互相关的定义为:

式 (1) 中M (k, l) 是大小为m*n的模版图像在 (k, l) 位置点处的灰度值;I (k, l) 是大小为m*n的基准图象子块位于基准模版 (x, y) 位置点时的灰度值;p (x, y) 是模版图像的中心位于基准模版 (x, y) 位置点时模版图像和基准图象的相关系数。

由相关和卷积的关系可知, 将式 (1) 中模版图像M (k, l) 旋转180°, 即可求两幅图像I (k, l) 、M (-k, -l) 的卷积。根据卷积的特性, 待追踪的基准帧图片越大, 匹配时要求的精度就越高, 相关或卷积的计算量就越大[11]。为降低运算的复杂程度, 可以通过快速傅里叶变换求得:

其中, I (u, v) 为图像I (k, l) 的傅里叶变换;M* (u, v) 为模版图像M (k, l) 旋转180°后的傅里叶变换, 即为模版图像M (k, l) 傅里叶变换的共轭。由此可知, 待匹配图像子区域与模版图像的相关性可用快速傅里叶变换来计算。如图2为皮划艇运行到不同区域傅里叶变换后图片。

可利用Mean Shift寻找待追踪的基准图像与模版匹配所得的极大值max_Val及其所在位置实现追踪。

2.2 基于Mean Shift算法的目标追踪

Mean Shift算法为在一组数据的密度分布中寻找局部极值的稳定方法[12], 通过基准图象中得到的极大值位置, 利用先验知识设置初始窗口, 计算初始搜索窗口内基准图象与模版图像的相关性, 找到当前搜索窗口内相关系数的极大值及其对应位置。如果当前搜索窗口的相关系数极大值大于阈值, 搜索窗口内找到目标图像, 则利用相关系数极大值的位置更新窗口, 更新后的窗口即为此基准帧图片的目标追踪窗口, 将更新后的搜索窗口位置作为下一个基准帧图像的初始输入窗口;如果当前搜索窗口的相关系数极大值小于阈值, 说明被追踪的目标不在该基准帧, 应该分视频序列开始视频帧序列和结束视频帧序列;如果为开始视频帧, 应更新基准帧, 继续寻找目标图像;如果为结束视频帧, 则应该停止搜索。

基于快速傅里叶变换的Mean Shift算法如下:

输入:基准图像, 模版图像。

输出:运动目标位置。

Step 1:将基准图像转换为灰度值图像, 对基准灰度值图像用快速傅里叶变换得到基准图像和模版图像的互相关性, 找出相关性极大值和极大值对应的位置;

Step 2:查看极大值是否大于阈值, 如果小于阈值则认为该基准帧图片不包含运动目标, 更新基准图像并返回Step 1继续下一帧基准帧搜索;如果极大值位置大于阈值, 则认为找到第一帧包含目标图像的基准帧, 转Step 3;

Step 3:根据上一帧的极大值位置设置下一帧的初始搜索窗口;

Step 4:用快速傅里叶变换得到搜索窗口内图像与仅包含运动目标的模版图像的相关性图像;

Step 5:利用Mean Shift得到相关性图像的重心, 并记录此时重心处相关系数及其位置。此时重心处相关系数即为当前搜索窗口的相关系数极大值, 且重心位置即为当前基准帧图像与前一副基准帧图像的相对位移;

Step 6:根据当前搜索窗口的位置及中心位置确定当前基准帧图像的追踪窗口。

Step 7:将当前基准帧的追踪窗口作为下一基准帧图像的初始搜索窗口, 转Step 4, 直到目标图像离开视频序列, 算法结束。

2.3 实验结果

实验环境为Pentium (R) Dual-Core 4500+2.3GHz处理器、2G内存、Win8操作系统, 使用VS2010+Opencv2.3.1开发平台实现复杂背景下运动目标的追踪, 实验用到的视频序列是在自然条件下所采集, 图像分辨率为1 080*1 920。

图3 (a) 为运动目标刚进入摄像头范围时的追踪结果;图3 (b) 为光照条件发生变化, 且部分运动目标被水面遮挡的情况下的追踪情况;图3 (c) 为运动目标即将离开摄像头, 且进入水面波动剧烈的区域时目标的追踪情况。

图4为视频序列中目标追踪所花时间, 横坐标为帧序列数, 纵坐标为运行一帧图片找到运动目标花费的时间 (ms) 。其中下半部分为本文所使用的算法时间, 上半部分为背景剪除后用Mean Shift找到运动目标花费的时间。可以看出, 本文所提出的算法极大地节省了目标追踪所用时间, 其中耗时较多的点为目标被水面遮挡, 同时进入水面波动剧烈的部分。

3 结语

在背景剪除的基础上, 通过基于快速傅里叶变换的MeanShift目标追踪算法, 利用快速傅里叶变换得到基准图片与模版的相关性分布, 通过Mean Shift找到相关性分布的极大值位置点, 可准确追踪视频序列中目标的位置。所提出的算法在连续的428帧复杂背景图片上进行了测试, 在图片光照条件发生变化和运动目标进入水面剧烈波动甚至水面遮挡住时均能稳定有效地追踪到运动目标。

参考文献

[1]LU XIANG YIN, HUANG CHAO-CHAO, LING YONG-SHUN.Analysis of infrared image tracking algorithms performance and application[J].Infrared Technology, 2004, 26 (4) :11-16.

[2]STAUFFER C, GRIMSON W.Adaptive background mixture models for real-time tracking[C].1999.

[3]PUNDLIK S, BIRCHFILED S.Motion segmentation at any speed[C].2006.

[4]OKUMA K, TALEGHANI A, FREITAS Dl.A boosted particle filter:multitarget detection and tracking[C].2004:28-39.

[5]PAPAGEORGIOU C, OREN M, POGGIO T.A general framework for object detection[C].1998.

[6]刘进.不变量特征构造及在目标识别中的应用[D].武汉:华中科技大学, 2005.

[7]M PICCARDI.Background subtraction techniques:a review in IEEE International Conference on Systems, Man and Cybernetics, pp.3099-3104, 2004.

[8]BROWN L.A Survey of image registration techniques[J].ACM Computing Surveys, 1992:325-376.

[9]W K PRATT.Correlation techniques of image registration[C].IEEE Transactions on Aerospace and Electronic Systems, 1974.

[10]高广珠, 李忠武, 余理富, 等.归一化互相关系数在图像序列目标检测中的应用[J].计算机工程与科学, 2005 (3) .

[11]LI ZHUO, QIU HUI JUAN.Fast image matching based on correlation coefficient[J].Transactions of Beijing Institute of Technology, 2007, 27 (11) :998-1000.

复杂背景下输电导线图像特征的提取 第6篇

文中对复杂自然背景下输电导线图像特征的提取进行了研究。首先对导线图像进行预处理, 调整灰度范围增强对比度。接着选择Canny算子检测边缘, 然后运用数学形态学分析对边缘图像进行腐蚀和膨胀的运算, 扩大背景边缘与导线边缘的差异, 避免误检。最后, 采用自适应阈值区间的广义Hough变换提取电力线。

1 输电导线图像特征的分析

通过可见光照相机采集到的图像数据中的电力线有以下一些特征: (1) 由于弧度比较小, 图像中的导线可以近似看成一条直线; (2) 每一条输电导线都是细长型的, 常常穿过整幅图像, 像素宽度很小, 约一到两个像素点的宽度; (3) 导线上所有的像素点灰度都是相同或者相近的值。如图1所示。

由图中可以看出, 与背景相比, 输电导线具有明显的线性特征, 但是当天气变化, 拍摄角度导致背景变化时, 这种特征会变得不显著, 甚至人眼都不能分辨目标和背景。同时, 会受到背景中一些具有类似线性特征的物体的干扰, 例如道路与屋檐等。这些因素给提取电力线都带来了一定的困难。

2 图像的预处理

2.1 灰度校正

由于光线的影响, 电力线图像有可能会曝光不足或曝光过度, 为了改善图像的质量, 增加信噪比, 增强对比度, 必须对导线图像进行灰度校正。这里采用有限对比自适应直方图均衡化来校正灰度。首先, 把图像分为小块的区域, 在每一小块区域上进行直方图均衡化。接着使用双线性插值的方法来组合相邻的区域。此方法能够使输出图像的直方图与指定的直方图进行匹配, 消除人为产生的边缘。

2.2 图像去噪

由图2可以看出, 对比度加强后, 灰度值范围变宽, 原有的噪声像素点也变得更加的活跃, 这是不利于后续实验提取输电导线的。本文采用均值滤波对图像进行去噪, 均值滤波可以很好的滤除粒状噪声, 如图3所示, 避免图像细节边缘丢失, 有利于保护输电导线的边缘信息。

3 边缘检测

对于输电导线图像的背景, 通常包含有云, 道路, 农田, 河流, 小山丘, 森林, 建筑物等各种各样复杂多变的物体[3]。使得电力线的图像特征被削弱, 提取相当困难。为了从图像数据中提取导线的像素点, 必须选用合适的边缘检测算子对图像进行边缘检测, 从而区分出导线的边缘和背景边缘。

常用的边缘检测方法有一阶微分算子、二阶微分算子以及Canny算子。一阶微分算子包含梯度算子、Roberts算子、Prewitt算子和Sobel算子, 它们的区别在于采用不同的方法来计算一阶偏导数。二阶微分算子称为拉普拉斯算子, 定义为梯度的散度, 即二阶偏导数的和。本文选用图像处理领域广泛采用并且抗噪声性能良好的Canny算子进行边缘检测。Canny算子是最优的阶梯型边缘检测算子, 可以尽可能多地标示出原始图像中的实际边缘, 对可能存在的图像噪声不标识成边缘。算法具体步骤如下:

(1) 待检测的图像数据与二维高斯滤波器进行卷积运算;

(3) 梯度方向的确定:求出边缘方向后, 把边缘的梯度方向分成几种角度, 找到这个像素梯度方向的领接像素;

(4) 遍历图像:若是某个像素的灰度值与它梯度方向上的前后两个像素的灰度值相比不是最大的, 此像素点即不是边缘, 灰度值置0;

(5) 用累计直方图来计算两个阈值:大于高阈值的一定是边缘, 小于低阈值的一定不是边缘, 若在两个高低阈值之间, 就根据领接像素中有没有超过高阈值的边缘像素进行判断, 有就是边缘, 反之不是。

4 数学形态学处理

形态学分析包含膨胀和腐蚀两种基本的运算[4]。

腐蚀运算:

膨胀运算:

其中A是输入的待处理的二值边缘图像, B是结构元素。对于边缘检测得到的二值图像, 虽然能够区分出导线边缘和背景边缘, 但是那些都是一些离散的像素点, 往往非常的稀疏, 因此并不能得到连续的导线边缘。

对一幅图像先进行腐蚀再进行膨胀得到的图像会比原图像更简单, 这有利于从复杂背景中更准确的提取具有一定特征的输电导线, 如图4所示。首先, 对边缘图像进行腐蚀运算, 除去背景中的非导线边缘, 接着通过膨胀运算实现被腐蚀掉的断开导线的连接。

5 Hough变换的改进算法

Hough变换是图像处理领域经典的直线提取算法, 将图像空间中复杂的边缘特征信息映射为参数空间中的聚类检测问题。传统的Hough变换计算量大、耗费内存空间、参数空间的峰值点易被次峰值点包围, 造成漏检误检等问题。

为了适应实际应用的需求, 本文采用自适应阈值区间的广义Hough变换来提取输电导线[5]。该方法首先将图像边缘的像素点根据领接关系聚集为不同类别, 顺序存在数组中, 其次对数组中动态采样得到的像素点按照一定规则进行阈值区间的自适应估算, 并依据阈值区间对存储的像素点进行直线检测。该算法在减小计算量的同时, 提高检测的效率。

5.1 直线检测的原理

在图像域检测直线时, 直线上的某一点可能位于无数条不同的直线, 通过式

5.2 阈值区间的3个约束条件

5.3 直线提取步骤

(1) 聚类邻近的像素点, 分别将每一类的所有像素映射到参数空间中进行检测, 可以使目标更明确, 减小计算量;

(2) 根据直线检测阈值区间的3个约束条件设定参数阈值区间;

(3) 对图像域的像素点执行一次映射计算, 即可实现类型识别, 判断相应的数组存储的像素点是否为导线上的像素点。

6 实验结果与分析

为了验证算法的有效性, 选取了较为具有代表性的几类电力线图像一共50张, 作为实验的样本, 其中包含近距离拍摄和远距离拍摄, 背景包含有天空、树林、石山等, 以及有单根导线也有很密集的多根导线的图像。实验在MATLAB8.3平台上完成, 提取结果如图7所示, 可以看出在导线数量, 拍摄角度, 背景变换的情况下, 本文的方法都能成功的提取图像中的具有线性特征的电力线, 具有较好的鲁棒性和提取率。

7 结语

在前人的研究成果基础上, 本文提出了一种能够在背景复杂, 拍摄角度不同, 导线数量不同的样本图像中成功的提取输电导线的方法, 该算法能够在参数空间中更有针对性的计算, 取代了传统Hough变换的盲目性计算, 相对来说计算量更小, 提高了算法的实时性, 对于输电导线巡检图像的自动处理具有很大的实用价值。

参考文献

[1]仝卫国, 苑津莎, 李宝树.图像处理技术在直升机巡检输电线路中的应用综述[J].电网技术, 2010, 34 (12) :204-208.

[2]Ma Lili, Chen Yangquan.Aerial surveillance system for overhead power line inspection[R].Center for Self-organizing and Intelligent Systems (CSOIS) , USA, Utah, 2003.

[3]Tong Wei-Guo, Li Bao-Shu, Yuan Jin-Sha, Zhao Shu-Tao.Transmission line extraction and recognition from natural complex background[C].Proceedings of 2009 International Conference on Machine Learning and Cybernetics, Baoding, China.2009, 7:2474-2477.

[4]冈萨雷斯.数字图像处理[M].第2版.北京:电子工业出版社, 2003:463-473.

复杂采掘背景下煤炭开采技术探讨 第7篇

关键词:复杂采掘,煤炭资源,开采,技术

当前, 我国煤炭资源的开发利用已经取得较大技术上的进步, 但是在煤炭开采的过程中依然存在开采效率低下、安全性能差等问题, 影响整体开采质量, 因此, 在我国较为复杂的地质环境采掘背景下, 进行煤炭资源开采技术的优化才能适应我国对于煤炭资源的数量和质量需求, 提升整体复杂采掘下煤炭资源开采水平, 实现规范化煤炭资源开采。

1 国煤炭资源开发技术现状

据统计, 我国煤炭资源的开采总量仅占资源储备总量的14%, 想要满足我国经济社会对于资源开采要求, 要不断进行资源开采技术的更新, 尤其是在复杂的采掘背景下, 更需要对于开采技术进行优化更新。然而, 就我国煤炭资源开发现状而言, 仍存在着需要提升之处, 很多煤炭企业存在资源开采勘查程度有限, 也就是很多煤炭行业的从业者在实际进行煤炭开采前没有对于复杂地理地质情况进行分析, 引起资源浪费效率低下等一系列的问题;其次, 没能构建起合理的煤炭资源利用原则, 也是我国煤炭资源开发的现状之一, 煤炭资源开采的技术跟不上实际发展的要求, 导致复杂地质背景下施工难以推进, 甚至出现工期延缓、因技术难题停工等问题, 这一现状也需要得到重视。

2 复杂背景下煤炭资源开采技术分析

2.1 开采技术安全性分析

煤炭开采工作本身具有较大的风险性, 对于地形地质复杂地区的煤炭开采工作更是如此, 需要在煤炭企业发展中进行安全技术的宣传和发展, 这样才能够在规范从业者行为的同时保障从业者尤其是一线从业者的生命安全。在实际工作发展的过程中, 首先对于复杂的发掘背景进行勘察, 提前进行现场环境的分析和记录, 同时保障各个技术环境的支护能力都能够满足开采的基本需求, 从根本上避免发生重大的安全事故等等。除此以外, 还需要在探水较为严重的地区进行开采的过程中规定, 相关人员对山上的巷道进行勘查, 一旦发现巷道内部有浮尘、浮煤和杂物等等, 进行及时的技术处理, 防止发生整体煤炭资源浪费的现象。对其进行及时处理和总结, 进行支架基础的稳定性调整, 对于开采的技术进行规范。

2.2 钻头探水开采技术分析

在复杂采掘地区, 进行钻头探水开采技术的研究必不可少, 首先需要垂直向下进行岩层的推进, 进而在水平和垂直面上进行水平弯旋转, 进行煤层的穿越进而实现煤炭资源的抓取。这一技术对于煤炭资源开采的整体质量都有着不可忽视的影响, 相关工作计划和实践的过程中, 需要对于钻探施工工程有一个整体的认知, 严格提升钻探水施工的技术和相关原则规范。工作的层面上, 也应当进行小型煤窑破坏区域的资源评估开采, 提升煤炭资源的开采效率, 实现高质量、低投入的高性价比开采。还需要进行断层部分位置的防探水和瓦斯地区技术处理, 煤炭企业的相关从业者需要参与到实际的规划和测验当中, 全方位掌控煤炭资源的开采进度目标, 同时承担起技术攻关的责任。

2.3 防探水技术和瓦斯技术探讨

对于复杂发掘背景, 应当进行防探水和瓦斯技术的更新和探讨, 施工人员应当遵循防探水和瓦斯技术的相关原则, 起到应有的引领职能, 为我国的煤炭资源开采, 尤其是复杂发掘背景下的煤炭资源开采提供良好的保障。

3 炭资源开采技术的实践分析

3.1 督促技术的切实开展

对于复杂发掘的地理环境进行开发技术的改造和更新, 具体表现为优化资源的开发和提升生产效率, 在此基础上积极推进辅助设备的完善发展, 最终实现高水平的煤炭资源开采模式。除此以外, 在进行煤炭资源开采的实践中, 需要进行技术切实开展的督促, 最终形成良好的开采流程, 在进行开采的过程中, 需要切实提高煤炭企业技术装备水平, 保障其能够承载技术的更新和发展。

3.2 完善相关技术监督制度

在进行煤炭企业资源具体开展的发展的过程中, 还需要完善相关技术监督制度, 同时也需要遵循法律法规和原则, 按照施工的具体要求进行煤炭规则和基础性标准的制定, 对于涉及安全性能等原则进行强制性的要求, 保障煤炭企业相关工作人员在良好的制度环境下能规范自身操作行为, 实现煤炭资源开采调整状态和效率的提升;其次, 完善相关的技术监督制度, 保障复杂发掘背景下煤炭资源的开采和技术的具体实践。

4 小结

在我国较为复杂的采掘背景下, 需要进行煤炭资源开采技术的优化和创新, 才能够更好地适应我国对于煤炭资源的数量和质量需求, 在这一过程中更需要相关从业者进行深入的技术探讨, 着眼于技术的整体性调整的同时, 还应当着力于实践的创新, 进而实现安全、高效的复杂发掘背景下的煤炭资源开采, 使其更好地为我国经济社会可持续发展服务。

参考文献

[1]郑锐锋.供给侧改革背景下煤炭行业去产能路径研究[J].煤炭经济研究, 2016, 04:37-41.

[2]张广磊, 等.沟谷地形下煤炭开采对地表径流的影响[J].煤炭学报, 2016, 05:1219-1226.

[3]杜芳周.煤炭行业现状及环保型煤炭开采利用[J].山东工业技术, 2016, 01:55.

复杂图像背景下的一维条码定位研究 第8篇

条码技术是在计算机、光电技术和通信技术的基础上发展起来的一项综合性科学技术,是信息数据自动识别、输入的重要方式和手段。由于条码技术具有准确、快速、方便、经济的特点,因此很快渗透到自动化管理的各个领域,并逐步扩大到各行各业和人们的日常生活之中[1]。目前的条码识别技术大多数是基于光电扫描装置的,该种识别技术简单易行,也已成熟,投入商业使用。而随着视频技术的发展,基于视频的条码识别引起了人们的广泛关注,成为了人们的研究热点,在该技术的实现过程中,主要的困难是如何在复杂的图像背景中检测出条形码。

在这一方面,人们从条码图像的空域和频域两方面分别进行了研究,并取得了一定的成果[2,3,4]。文献[2]研究了基于小波多分辨率分析的条码检测算法,该算法在高频子图基于特征向量利用纹理相似性原理,采用区域增长法产生条码数据区域的候选子区域集合,然后在低频子图利用条码的边界特征对候选子区域进行验证,该方法对含有倾斜的条码图像并不适用。文献[3]中提出了基于DCT域算法对条码区域自动定位,该算法可以定位任意旋转角度的条码,然而当图像中其他区域的纹理比重远大于条码区域时,该算法将会失效。文献[4]研究在空域中利用条码区域的纹理特征,以及条码区域的形状并且结合形态学检测条码区域,该方法在后面用多次形态学膨胀时,容易将条码区域与其他区域连通到一块,易出现误检及漏检的现象。对此,本文提出了一种利用边缘像素梯度方向的方法提取边缘,结合条码区域边缘特征,并利用二值形态学检测条码区域。

1 基于边缘梯度方向的边缘提取

1.1 候选边缘点检测

常用的梯度锐化算子有正交梯度算子(Roberts, Prewitt,Sobel)、方向梯度算子(Kirsch)、二阶导数算子(Laplacian,LOG)[5]。基于计算量以及噪声抑制两个方面的考虑,本文采用具有平滑功能的Sobel梯度算子计算每个像素的梯度,其水平和垂直的模板分别如式(1)所示,并将梯度方向量化到上(下文所述的方向都是指量化后的边缘梯度方向)。

在理想情况下,条码区域垂直于边缘走向的灰度应该是非高即低的,如图1(a)所示,但是实际中由于光照、图像采集装置以及传输的影响,垂直于边缘走向的灰度值会出现缓变的现象,如图1(b)所示,所以在非理想情况下(一般视频采集到得图片都是非理想情况的),在边缘像素附近也会出现梯度值较大的像素,所以需将这些干扰像素点去除(即沿着该像素的梯度方向上进行非极大值抑制),得到候选边缘点图N

1.2 边缘提取

一般在空域中的边缘提取法都是按照梯度锐化、判断梯度幅值是否大于一定的阈值两个步骤来进行,该种方法易受光照的影响,特别是在光照不均匀的条件下影响更加明显,易丢失一些低强度的边缘。对此,本文提出一种利用边缘方向的方法来进行边缘连接。对于某个像素点m,如果是条码区域的边缘点,则该像素的8领域内有一个或两个像素与m具有相同的方向,利用该特征可去除大量的噪声点以及相邻像素具有不同方向的像素点。

为了减少计算量,可认为梯度幅值小于一定阈值的像素肯定不是边缘点。图2是梯度锐化后的直方图,从该图可以看到,绝大多数的像素都集中在低灰度区域中,只有少部分的像素具有较高的灰度值,而只有在灰度急剧变化的区域(边缘)才有高梯度幅值,利用边缘的梯度幅值特征可大大减少计算量。

根据上述原理,基于边缘方向的边缘提取法可描述如下:

(1) 扫描候选边缘图像N;

(2) 对于扫描到的候选边缘点m,判断该点的梯度幅值是否大于阈值,如果不是,转(7);

(3) 判断m的8邻域内是否有其他候选边缘点,并且该候选边缘点的梯度幅值大于阈值,若没有,转(7);

(4) 对m的8邻域内扫描到的第一个大于梯度阈值的候选边缘点ti(i=1,2,,8),判断ti的方向与m的方向是否相等,如果相等,转(6);

(5) 继续扫描点m的8邻域内其他未被标记的候选边缘点,并且判断其是否满足梯度幅值以及梯度方向要求,如果满足转(6),否则转(7);

(6) 将领域中心点m及满足条件的领域点ti都标记为边缘点;

(7) 继续扫描候选边缘图像N,寻找新的候选边缘点,若该点未被标记为边缘点,转(2),否则继续扫描其他点,直到没有新的未标记为边缘点的候选边缘点,算法结束。

其核心编程如图3所示。

图中N:候选边缘图像,m:未标记的候选边缘点(假设候选边缘点的标记为128),Ti:m的8领域像素,Grad(x):像素x的梯度幅值,o(x):像素x的梯度方向,Thred:前面计算出的梯度幅值阈值。

2 条码定位算法

一维条码由一系列的条空组合而成,相对于其他区域,条码区域含有丰富的单方向边缘,因此可先提取出条码图像的边缘,以及边缘像素的梯度方向,并利用条码区域的单边缘密度特征、以及二值形态学得到条码区域。

算法主要分为三个步骤,首先对图像进行预处理,主要完成图像的灰度化,对比度增强,然后提取出条码图像的边缘,最后利用条码区域的特征得到条码区域。图4为算法流程图。

具体算法如下:

(1) 对图像进行预处理,首先将得到的彩色图像进行灰度化,然后利用文献[6]提出的一种改进的基于直方图的图像对比度增强方法对图像进行对比度增强。

(2) 利用第一节中的边缘提取法得到边缘图像E1,以及边缘像素的方向。

(3) 将图像E1分割成xy个互不相交的子区域(应使子区域小于条码区域),计算每个子区域Ai(0<=Ai<=xy)的主方向,记为Aio,以及该主方向上的边缘个数,利用条码区域的单方向的边缘密度特征去除不满足条件的子区域,得到图像E2,并以满足条件的子区域的Aio,以及Aio上的子区域个数n画直方图,直方图的最高点所对应的方向即为条码区域的方向,记为o,将E2中边缘像素的方向不是o的像素点去除,得到图像E3,最后在E3中剩下的大部分都是条码区域的边缘像素与一些零散的其它边缘像素,再次利用边缘密度特征即可得到候选的子区域。

(4) 以前面分割的子区域为单位,利用区域生长法[5]得到连通区域,最大的连通区域即为条码区域,将其他连通区域去除,得到图像E4。

(5) 对图像E4利用二值形态学膨胀,得到连通的条码区域。

(6) 验证保留下来的区域是否是矩形,并且垂直于条码方向的扫描线上有满足条件的灰度跳变次数。

3 实验结果与分析

本文实验所用PC机的配置为:Pentium(R) 4 CPU 3.06GHZ,内存为512MB,实验平台为VC++6.0, 所用照片使用7878型号摄像头拍摄,分辨率为480640。

实验一 不均匀光照下基于梯度幅值的边缘连接与本文的边缘连接法比较,如图5所示。

图5(a)是在光照不均匀条件下图像,用基于梯度幅值的边缘提取法在这种条件下就会丢失边缘细节,如图5(b)所示,有些对比度较低的边缘就没有被检测出来,而本文的边缘提取法解决了这种问题,如图5(c)所示。

实验二 条码定位过程结果如图6所示。

图6(a)原图,图6(b)边缘提取图,图6(c)为利用条码区域单方向边缘密度特征以及区域合并后的结果图,图6(d)为经过二值形态学膨胀后确定条码区域最终结果图。

实验三 不同方向的条码定位如图7所示。

图7显示了3幅含有不同方向条码图像定位结果,由该图看出,本文算法能很好地定位出不同方向的条码区域。

现有的在空域中进行条码定位的算法都需利用条码区域边缘密度特征,但是这些算法在确定边缘像素时,都只是简单地利用边缘检测算子进行锐化,然后确定一个阈值提取出边缘,该种方法易受光照的影响,特别是在光照不均匀的条件下,影响更是严重。本文算法利用边缘像素方向来进行边缘提取,在一定程度上克服了如上问题,有较好的实用性。

参考文献

[1]陈丹晖,刘红.条码技术与应用[M].北京:化学工业出版社,2006.

[2]吕佩卓,赖晓铮,赖声礼.基于小波多分辨率分析的PDF417定位算法[J].自动化学报,2008,35(5):597-600.

[3]Tropfa,Chaid.Locating 1-D Barcodes In DCT-domain[C]//IEEE In-ternational Conference on Acoustics,Speech and Signal Processing.Toulouse,France,2006:14-19.

[4]刘发耀,殷建平,李宽,等.复杂背景下PDF417条码定位研究[J].计算机工程与科学,2010,32(6):55-57.

[5]高守传,姚领田.Visual C++实践与提高—数字图像处理与工程应用篇[M].北京:中国铁道出版社,2006.

复杂背景范文

复杂背景范文(精选8篇)复杂背景 第1篇关键词:灰度值,先验知识,车牌定位,复杂背景0 引言车牌的自动识别是计算机技术、模式识别技术和数...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部