电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

关键帧影像提取

来源:漫步者作者:开心麻花2025-11-191

关键帧影像提取(精选6篇)

关键帧影像提取 第1篇

根据无人机外业作业单位的飞行经验及相关标准规范对无人机获取数据的要求, 确定无人机遥感系统的数据质量。旁向重叠度的设置与传统无人机航空摄影测量设计方法一样, 而航向重叠度可在飞控系统中设置, 使相机能在预先设定的位置曝光, 无人机的视频流影像与非量测型相机获取数据的方式不同, 即通过直接获取视频影像, 设置采样间隔得到具有一定重叠度的关键帧影像。

2 关键参数求解

如图1所示:其中OW (XW, YW, ZW) 为摄影测量坐标系, o (x, y) 为摄像机坐标系, O (X, Y) 为图像物理坐标系, 它以毫米为单位, Of (Xf, Yf) 为图像像素坐标系, 以像素为单位。

从图1可看出, 物点从像平面坐标系变换到摄像机坐标系其坐标变换关系为:

它的齐次坐标形式可表成为:

将上式的图像物理坐标系进一步转化为图像像素坐标系, 其关系式为:

用齐次坐标方式表示为:

针对指定重叠度影像的提取, 需要解算出关键帧影像的采样间隔。与摄影测量图像处理的坐标系统相反, 在计算采样间隔T时, 则将坐标系转换到影像最原始的摄像机坐标系。由公式 (3) 可推导出一幅影像在摄像机坐标系中的宽度Sx和高度Sy表达式为:

旁向重叠度已经在航线设计软件中设定, 这里不予以考虑, 则在航向方向上相邻关键帧间的重叠度dr为:

所要提取的影像在航线方向重叠的区域d的表达式为:

根据S影像重叠度的计算公式:

将公式 (7) 代入式 (8) 中, 可得出关键帧的采样间隔T。当在所求解的采样间隔T () 条件下进行影像提取时, 所抓取的关键帧影像之间的重叠度即为预先设定的重叠度。

3 关键帧提取算法的实现

具体实现方法是:①在系统开始自动提取关键帧影像之前, 应先将视频流影像加载到系统中, 并确保视频流处于暂停状态;②启动Direct Show的IBasic Video接口抓取视频流有效数据范围内的第一帧影像;③根据具体情况, 按照预先计算出的抓图间隔, 自动定位到要抓取的下一帧影像的位置, 待影像成功保存后, 按照上述步骤再定位到要抓取的下一帧影像;④重复此方法, 直到系统按照预先设定的重叠度, 把整个文件源全部遍历一遍或抓取的关键帧数目达到设置的抓图总数为止。

4 结论

在视频流暂停状态下, 提取关键帧影像的方法有很多优点, 首先是采用直接到实时传回的视频流数据源中抓取关键帧的方法节省了较多时间, 提高了关键帧影像提取的效率, 再暂停状态下进行关键帧提取时耗费的时间只有定位抓图和保存的时间。本文通过重叠度计算出时间间隔, 再采用时间间隔定位所要提取的关键帧影像, 避免了时间延迟或提前状况的出现。

参考文献

[1]刘善磊, 赵银娣, 王光辉, 等.一种关键帧的自动提取方法[J].测绘科学, 2012, 37 (005) :110-112.

[2]国家测绘局.GH/Z 3005-2010.低空数字航空摄影规范[S].1.北京:测绘科学.

煤矿井下视频关键帧提取算法 第2篇

随着视频内容和表现形式日益复杂,如何对视频数据进行有效检索己成为目前研究的重点。关键帧提取技术是实现视频检索的基础。关键帧又称代表帧,通过关键帧的提取,可使视频信息的存储、组织和检索更加方便快捷,从而加速视频处理的速度[1]。关键帧提取要遵循“宁愿错,不能少”的原则,同时,在代表特征不具体的情况下,一般以去掉重复(或冗余)帧图像为原则[2]。

我国煤矿开采条件恶劣,矿井安全事故频发,针对煤矿井下的视频监控研究尤为重要。由于井下视频数据量巨大,所以需要实现对煤矿井下视频关键帧的提取。结合矿井图像内容灰度变化小、容易受到噪声影响的特点[3],本文首先利用相邻图像间的帧差初步提取出关键帧,再针对存在冗余帧的问题,利用Canny算法提取图像边缘并进行边缘匹配,将冗余的关键帧剔除。Canny算法是一种满足最优准则的边缘检测算法,具有检测准确、定位精度高等特点[4]。

1 典型的关键帧提取算法

目前国内外研究的关于关键帧提取的典型算法有基于镜头边界的方法、基于图像内容的方法、基于运动分析的方法、基于聚类的方法和基于压缩视频流的方法[5]。这些方法各有优缺点:基于镜头边界的方法是在视频分割后,将每个镜头的首帧、尾帧或者中间帧作为镜头的关键帧,该方法实现较为简单,无论镜头的内容如何,关键帧的数量相对确定(首帧、末帧或者两者皆选),其缺点在于稳定性较差,因为每个镜头的首帧或末帧不一定总是能够很好地反映镜头的主要内容[6],尤其是对那些运动较为剧烈的视频,首尾帧或者中间帧并不能代表视频的主要内容;基于图像内容的方法与第1种方法相比,不需要镜头分割,能够动态地选择关键帧,但是计算量增加,提取出的关键帧数目很大,并且有一部分关键帧不具备代表性,冗余度很大,此外,一帧图像包括颜色属性和结构属性,单一的特征并不能概括图像的主要信息,会造成关键帧的错选、漏选[7];基于运动分析的方法运算量较大,而且该方法中采用的局部极小值也不一定准确;基于聚类的方法提取出的关键帧能够表达视频的主要内容,但是它有可能会改变图像之间的时间顺序,最终导致关键帧图像杂乱无章,不能有效地保存动态信息,此外,阈值的选择也是个问题;基于压缩视频流的方法不需要对视频进行全部解压缩,运算量减少,计算复杂度降低,提高了关键帧提取速度,但是这种算法对视频中的闪光灯和噪声干扰很敏感,容易造成冗余和误检,使得提取的关键帧较多。

本文提出利用帧差提取关键帧的方法,并对存在的冗余问题提出了有效的解决方案。利用帧差提取关键帧的方法计算较简单,速度快,提取出的关键帧能较好地反映视频的主要内容。

2 基于帧差的关键帧提取算法

选择的关键帧应该能够在不增加冗余度的情况下尽可能表达视频的主要内容。本文采用帧差欧氏距离来计算帧间相似度,对于一个包含N帧、图像大小为m×n的视频序列而言,先将所有图像帧转换为灰度图像,然后计算相邻帧之间的帧差

式中:分别表示视频的第i帧和第i+1帧图像。

获得帧差后,用式(2)计算帧差欧氏距离D:

式中:为第i帧与第i+1帧之间的帧差;为第i+1帧与第i+2帧之间的帧差。

获得视频的帧差欧氏距离后,取其极值点,并将这些极值点对应的帧作为备选的关键帧;然后求出这些极值点中的最大值和最小值,并利用最大值与最小值计算出中间值,筛选出大于中间值的极值点,将这些极值点所对应的帧作为最终的关键帧。根据帧差欧氏距离提取的关键帧存在较大的冗余度,下面对该算法进行改进,去除冗余的关键帧。

3 改进的关键帧提取算法

用基于帧差的关键帧提取算法得到的关键帧能很好地表达视频的主要内容,但是有些帧在内容上并没有什么变化,这时就需要进行进一步的筛选,去掉冗余图像帧。可以通过提取图像帧的边缘,去除边缘相似的图像帧。

目前常用于视频帧图像边缘检测的算子有Sobel算子、Prewitt算子、Roberts算子和Canny算子等。Sobel算子对对角边缘的检测敏感度较高,Prewitt算子边缘检测较准确、全面,Roberts算子缘定位精度比较高,但用这几种算子常常会丢失一些边缘信息,尤其是对含有噪声的图像边缘检测效果更差[8],而Canny算子不受噪声干扰,并且由于采用了非极大值抑制和形态学连接操作处理,使得提取的边缘比较完整,连接性较高,所以效果比其他方法显著。

Canny边缘检测过程如图1所示,检测步骤:(1)进行高斯滤波,主要是实现图像去噪,如图1(b)所示。(2)用一阶偏导的有限差分来计算梯度的幅值和方向,相当于Sobel边缘检测,如图1(c)所示。(3)对梯度幅值进行非极大值抑制,此时得到的边缘已经很细了,如图1(d)所示。(4)用双阈值算法检测和连接边缘,主要是从非极大值抑制的结果中去除假边缘,保留真边缘,同时又能让保留的边缘尽量连贯真实,如图1(e)所示。

改进算法流程如图2所示。

图1 Canny边缘检测过程

图2 改进算法流程

用基于帧差欧氏距离的方法提取出关键帧后,将这些关键帧放入集合A中,再利用Canny边缘检测算法提取集合A中所有帧的边缘图像,并对相邻的边缘图像进行边缘匹配,将相似度较小的帧标记为关键帧。对于视频中大小为m×n的图像,用式(3)计算其边缘匹配率Q(fi,fi+1):

式中:,其中分别表示集合A中第i帧和第i+1帧图像经过边缘提取后的边缘像素总个数;s为相邻两帧的图像边缘像素相同的像素点总个数,,其中h(i,j)表示相邻帧在(i,j)这个像素位置上相等并且值为1的像素点。

得到集合A中所有帧的边缘匹配率后,根据边缘匹配率曲线,将匹配率小于50%的帧仍作为关键帧,匹配率大于50%的帧作为冗余帧将其剔除。Canny边缘匹配结果如图3所示,其中图3(a)中2幅图分别是经帧差欧氏距离提取出的关键帧,图3(b)是图3(a)中2幅图所对应的边缘。

图3 Canny边缘匹配结果

4 仿真结果与分析

以一个包含505帧、时长为21s的井下视频序列为例,在Matlab仿真环境下提取其关键帧。首先,计算其帧差欧氏距离,标记出帧差欧氏距离的极值点并进行筛选,帧差欧氏距离如图4所示,其中+标记处的极值点所对应的帧就是最终筛选出的关键帧。

图4 井下视频的帧差欧氏距离

该段视频经过上述算法后可提取的关键帧总数为69帧,这里提取前40帧关键帧进行观察,如图5所示。

图5 针对井下视频提取出的关键帧

由图5可以发现,由于煤矿井下视频图像对比度低、噪声大、分辨率低、视觉效果差,根据帧差欧氏距离提取的关键帧仍存在一定的冗余度。将帧差法提取的关键帧作为候选关键帧,采用Canny边缘检测算子提取井下视频候选关键帧的图像边缘,并计算它们的边缘匹配率,如图6所示。

图6 边缘匹配率

从图6可知,有一些关键帧的匹配率非常高。依次比较后一帧与前一帧的匹配率,将匹配率低于50%的帧仍作为关键帧,其余帧作为冗余帧剔除,实验结果见表1。从表1可以发现,经过改进算法提取的关键帧数目降为57帧,冗余度有所下降。

表1 实验结果

5 结语

在通过帧差欧氏距离提取关键帧的基础上,提出结合边缘匹配法来对原有的关键帧提取算法进行改进。先求取所有帧的帧差欧氏距离,并把其中极值点所对应的帧作为备选的关键帧;然后利用Canny算子提取这些帧的边缘轮廓,计算匹配率,从而剔除冗余帧,解决了关键帧存在冗余的问题。该算法虽然使冗余度有所下降,但后面引入的图像边缘提取及匹配率计算增大了计算量。实验结果表明,该算法能够在概括视频主要内容的前提下,有效降低冗余度。

参考文献

[1]张建明,李广翠,蒋兴杰.基于群体智能与K-均值相结合的关键帧提取[J].计算机应用研究,2011,28(1):360-362.

[2]朱映映,周洞汝.一种从压缩视频流中提取关键帧的方法[J].计算机工程与应用,2003,20(18):13-14.

[3]程德强,赵国,范一武,等.矿井移动载体摄像的电子稳像算法[J].中国矿业大学学报,2012,41(5):805-810.

[4]刘超,周激流,何坤.基于Canny算法的自适应边缘检测方法[J].计算机工程与设计,2010,31(18):4036-4039.

[5]ZHANG H J,WANG J Y A,ALTUNBASAK Y.Content-based video retrieval and compression:a unifed solution[C]∥IEEE International Conference on Image Processing,Santa Barbara,CA,1997:13-16.

[6]陶丹,陈后金.一种压缩域中基于镜头的关键帧提取改进算法[J].计算机应用研究,2009,26(9):3539-3541.

[7]CIOCCA G,SCHETTINI R.An innovative algorithm for key frame extraction in video summarization[J].Journal of Real-Time Image Proessing,2006,1(1):69-88.

关键帧影像提取 第3篇

近年来,智能化设备的不断涌现给人民的生活带来了翻天覆地的的变化,相对于二十年前看报纸、听广播、发电报的信息获取形式,视频技术越来越受到人民的亲睐,这是因为人类大约70% 的信息都来自视觉。事实上计算机完成图像和视频提取的技术与人眼获取信息的过程非常类似,只不过计算机处理的是离散信息[2]。如何从海量的多媒体数据资源中检索到用户所需要的视频信息是众多企业和科研机构关注的焦点。

从目前研究情况看,对于视频文件信息的检索查询主要有两种方式: 基于描述和基于内容。目前商业大量应用的是基于描述的检索方法,如百度、谷歌等,其优点是对视频的描述精确, 实现过程简单,检索算法的时间复杂度低。这种检索方式的缺点是: 对于视频的描述过于简单,不同标注人对视频的理解有差异; 视频信息量巨大,文字描述不能完全概括; 不能实现利用图像搜索视频及通过视频特征搜索视频等高级视频检索方式,在此背景下有关学者提出了基于内容的视频检索方式[3]。

关键帧提取技术作为基于内容视频检索的关键步骤,逐渐成为国内外学者研究的热点。当前聚类算法应用到关键帧提取的研究成果颇多,如文献[4]通过提取图像的颜色特征和运动特征,然后利用均值漂移聚类方法对融合了颜色和运动信息的特征空间进行聚类; 文献[5]采用图像分割、特征提取以及聚类方式,设计了一种自顶向下的建模机制; 文献[6]对视频的注释过程进行研究,并提出一种基于阈值边缘差异的聚类算法应用到关键帧提取技术。文献[7]将聚类仿射参数应用到运动对象提取中,并采用K均值聚类将这些参数进行分组在得到聚类中心后再把各个像素分配到最近的聚类中等。

上述文献采用的聚类方式都是利用单一的聚类中心进行聚类,这种聚类方式在描述凸状数据的聚类上已经取得了很多成果[8],但是无法描述非凸数据的聚类。而在实际的关键帧提取中,由于视频原像都或多或少存在干扰,处理后的数据不能保证是凸性,因而影响到关键帧提取的准确性和全面性。因此,本文提出一种基于多层核心凝聚思想的视频关键帧提取算法来解决视频数据的非凸问题。

1 IMULCA 算法

1. 1 MULCA 算法描述

文献[1]提出一种多层核心凝聚算法,该算法的聚类过程分为两个阶段: 凝聚粗化和凝聚细化阶段,粗化过程为形成金字塔形多层核心集的过程,细化过程是逐层凝聚将数据分类的过程。MULCA的算法描述如下:

定义1 ( 数据间的高斯相似性) 数据xi与xj的相似性定义为:

式中,σ = σ0d,d为数据集的直径。

定义2 ( 首要核心集) 对于任意数据集X,如果点x*满足下列条件,则x*为数据集X的首要核心点:

定义3 ( α 核心集) 若x1*为任意数据集X的首要核心点, x2*为数据集X除x1*外的数据集X{ x1*} 的首要核心点,以此类推,令xk*+1为数据集X{ x1*,…,xk*} 的数据集。则 α 的核心集可定义为:

定义4 ( 凝聚矩阵) 任意数据集X的 α核心集Xα的凝聚矩阵可表述为:

显然,PX ~ Xα体现的是数据集合X与其核心集Xα的相关程度。

定义5 ( 核心集Xα数据间的相似性) 若Xα为任意数据集X的 α 核心集,则Xα的加权相似性矩阵为:

式中,μ(σX)为数据集X的相似性矩阵,μ(σXα)为 α 核心集上的相似性矩阵。

类似的可以得到原数据集X的任意一层 α 核心集的相似性加权矩阵:

根据上述定义可得到MULCA算法的步骤如图1所示。

MULCA算法的具体步骤为:

1. 2 基于 K-medoids 算法的 IMULCA 算法

上述算法突破以往聚类算法,采用多层的核心集方式,在未过多增加时间复杂性的前提下,提高了聚类的精度,通过在人工数据集上的实验表明MULCA算法在聚类结果和参数的鲁棒性上要优于其他算法。但是通过分析算法步骤我们不难发现,以聚类个数K = 2为例,上述算法在粗化阶段最终得到的顶层核心集的两个数据点,其实是不断计算 α 核心集得到的两个点,这两个点是否一定不属于同一个集合,文献[1]并未给出相应说明。在对视频进行检索时,如果顶层的这两个点属于同一个集合,而人为将其分为两个类别,则会出现较多的漏检视频。对此我们借鉴MULCA算法多层 α 核心集思想,并对粗化阶段进行改进。K-medoids算法的一个特点是以真实数据作为聚类中心 ( 如图2所示) ,首先利用K-Medoids方法替换MULCA算法的顶层核心集,以保证顶层核心集的正确性和鲁棒性,然后利用MULCA算法的凝聚细化过程对数据集进行分类,由于首先利用K-Medoids方法确定了聚类中心所以在选择 α 核心集层级时可以适当的减少,从而可以降低凝聚算法的时间复杂性。

IMULCA聚类算法步骤:

步骤1输入数据集X及需要聚类的个数K ;

步骤2输入视频模板Y = { Y1,Y2,…,YK} ,利用视频模板Y及K-Medoids方法确定聚类中心Y( K);

步骤3参照MULCA算法计算并输出各层 α 核心集及相似性矩阵

步骤4利用Y( K)替换Xαm,并参照MULCA算法细化阶段对数据集进行分类。

2 基于 IMULCA 算法的关键帧提取技术

当前基于内容的视频检索方式共有三种: 一是通过底层特征进行研究,二是通过模板匹配方式进行研究,这两种检索方式已相当成熟并且走入应用,这里选用基于模板匹配方式进行顶层核心集选择[6]。为简化数据量对视频采用数据帧的处理方式,也就是将对视频的检索转化为对关键帧的检索。

2. 1 特征提取

本文采用文献[7]的运动特征提取方法,全局运动特征提取: 采用Lucas&Kanade光流算法,视频第k帧的全局运动特征为:

式中,gd( i,j) 表示像素点( i,j) 处的光流大小。则第k、k + 1帧之间的全局运动特征距离为:

局部运动特征提取: 由于颜色直方图算法简单,并且更加符合人视觉特性,本文采用该空间模型计算其局部特征,将色调空间H、饱和度S、亮度V按照人眼对颜色的感知进行划分,如果按照H8份、S3份、V 3份的比例划分,则可化为72维子空间,通过下式可合成一维向量:

通过这种方式可以得到该帧图像的HSV颜色直方图向量l[k,0] ~ l[k,71],即该帧图像的局部运动特征[9]。则第k帧和k + 1帧之间的局部运动距离可定义为:

2. 2 特征向量构造

在获得局部和全局运动特征后,可构造特征向量为:

式中,F = n - m表示间隔的关键帧数,m、n分别为上一关键帧和下一关键帧在视频序列中所处的位置; R1为两关键帧之间局部运动特征距离的均值; R2表示两关键帧之间局部运动的变化幅度; S1为两关键帧之间全局运动特征距离平均值; S2表示两关键帧全局运动波动情况。定义[9,10]:

2. 3 基于 IMULCA 算法的关键帧提取步骤

IMULCA算法步骤如下:

步骤1读取视频并离散成关键帧,利用1. 1节、1. 2节步骤对关键帧进行运动特征的提取、特征向量的构造及数据预处理, 进而得到归一化的视频关键帧特征向量集X,确定聚类个数K ;

步骤2读取要提取的视频关键帧模板,利用1. 1节、 1. 2节步骤对关键帧进行运动特征的提取、特征向量的构造及数据预处理,进而得到归一化的模板关键帧特征向量集Y ,并利用K-Medoids方法确定聚类中心Y( K);

步骤3参照MULCA算法计算并输出各层 α 核心集及相似性矩阵

步骤4利用Y( K)替换Xαm,并参照MULCA算法细化阶段对数据集进行分类;

步骤5根据所提取的关键数据集合,确定并输出所提取的关键帧。

3 仿真实验与结果分析

3. 1 聚类算法性能测试

为更加直观地显示出IMULCA凝聚算法的有效性,这里分别选取三种类别、四种类别的两组高斯分布数据集进行聚类仿真对比。实验条件,CPU: AMD640,内存: 6GRAM,操作系统: Win7。Matlab人造数据集生成程序如下:

对比算法选取MULCA算法和K-Means算法,每类数据集的规模为100,MULCA算法顶层核心集是由粗化过程产生的, 规模控制参数取 αMULCA= 0. 6,如果 αMULCA选取过小会影响顶层核心集的准确性,存在凝聚失败的可能[1]。而IMULCA算法的顶层核心集是事先指定的,因此我们在保证分类足够精确地前提下,选取较小的规模控制参数以降低算法的时间复杂性,这里取 αIMULCA= 0. 3 。对比结果如图3 - 图8所示。

由图3 - 图8可以直观的看出IMULCA凝聚算法的聚类效果要优于所对比的MULCA算法和K-Means算法,在分类精度上IMULCA凝聚算法好于MULCA算法好于K-Means算法,在计算时间上,K-Means算法少于IMULCA凝聚算法少于MULCA凝聚算法,特别是当顶层核心集过于靠近两组数据的边界时容易出现错误的分类结果。由表1计算时间可以看出由于KMeans算法简单所以运行时间也较短。而MULCA算法由于步骤较复杂,所以运行时间较长,IMULCA算法的顶层核心集由KMedoids算法确定,虽然增加了K-Medoids算法确定顶层核心集的步骤,但是由于顶层核心集事先确定,可以适当选取较少的层级进行聚类,因此算法的运行时间要少于MULCA算法。

单位: s

3. 2 关键帧提取测试

视频检索系统关键帧提取算法常用的分析数据是查准率和查全率,查全率是指查询返回的所有正确数据占所有正确数据的比例,查准率表示查询返回数据中正确的数据占返回数据的比例。这里采用TREC2007[11]视频库进行查准率和查全率的分析,如表2数据所示。

表2所示的是三种算法在视频库中对足球赛、草地、高山等视频的查准率和查全率。在图中可以直观的看出,基于IMULCA的视频检索算法在查准率和查全率上要明显优于所对比的两种算法,基于MULCA的视频检索算法性能要优于基于KMeans的算法。

下面利用一段人工合成的纪录片片段进行测试,该纪录片片段共包含4个镜头共116帧。这组镜头的特点是从视觉角度看前三个镜头的相似度比较高,第四个镜头与前三个镜头在视觉上明显不同,这样选取的目的主要有两个: 一是通过前三个镜头测试算法的最优鉴别性能; 二是通过第四个镜头测试三种算法的最差性能。

为方便对比,我们利用原始视频镜头的第一帧与三种算法分类后提取的第一帧进行比较,如图9所示。可以直观地看出, 在前三个镜头中,基于IMULCA算法提取的第一帧更加接近于原始视频的第一帧,而三种算法对第4个镜头提取的关键帧的第一帧均与原始镜头第一帧相符。



表3数据显示的是三种不同算法提取的不同视频镜头的关键帧数量与原始镜头数据帧的数量对比情况。可以看出基于IMULCA算法的4种镜头的关键帧分类数量最接近于原始镜头的数据帧数量。也可以看出,由于镜头4整体色彩与其他三个镜头相差较大因此三种算法对视频镜头4的分类效果都很好。

4结语

关键帧影像提取 第4篇

随着多媒体技术的发展,涌现出大量的视频数据,从而导致超大型视频信息库的产生,基于内容的视频检索系统成为一大研究热点。为了建立视频索引,提取视频摘要和进行视频检索,首先需要选取镜头的关键帧。只有对分割后镜头的关键帧进行准确定位,才能为最终的检索奠定良好的基础。所谓关键帧,是指在图像序列中具有代表性,能够反映一个镜头序列内容梗概的图像帧,通过选取关键帧可以大大减少视频索引的时间和复杂度。当前,典型的关键帧提取算法[1,2]有:基于镜头的方法,基于运动分析的方法,基于压缩域的方法,基于聚类的方法和基于帧图像信息的方法等。

在现阶段比较热门的基于帧图像信息提取关键帧的方法研究中,陆伟艳等提出了基于内容的视频检索的关键帧提取方法[3],黄兰英提出的一种基于互信息量的关键帧提取方法[4],实验论证了与聚类法相比,基于互信息量的方法大大提高了关键帧提取速度。盛骁杰等提出的基于动态规划的自适应关键帧提取算法[5],房岳楼等提出的视频关键帧选取方法和可视化表现方法[6],将关键帧提取问题建模为全局优化问题,运用数学的方法求解问题。但是这些方法都需要直接或间接地用参数来确定关键帧数目。

笔者提出一种基于互信息量的子镜头全局优化分割及关键帧提取方法,主要通过建立以子镜头内相邻帧的互信息量最大化(即相邻帧相关性最大化)和镜头的关键帧包含信息量最大化为目标的多目标规划数学模型,求解子镜头分割的全局最优解,并以此确定镜头的关键帧数量和位置。

1 互信息量理论

1.1 相关定义

X为某一随机事件可能出现的事件集合,即X={x1,x2,⋯,xn},p是事件X的概率分布,p={p1,p2,⋯,pn},p≥0并且=1,则随机变量X的熵为[4]

X,Y的联合熵为

式中:pxy(x,y)为X,Y的联合密度函数。

X,Y之间的互信息量为

如果X,Y是独立的随机变量,则互信息量有如下性质:

1)I(X,Y)≥0;

2)若H(X),H(Y)均为零,则I(X,Y)=0;

3)I(X,Y)=H(X)+H(Y)-H(X,Y)。

1.2 图像的熵和互信息量

图像可以看成一个二维的随机变量。图像的熵值H(ft)表示图像所包含的平均信息量的大小[4]。在视频中图像的互信息量可以表示为相邻帧之间的相关性的程度,即互信息量I(ft,ft+1)越小,相邻帧ft和ft+1越不相关。在实际应用中,可以选择图像的颜色、形状、纹理等各种信息来计算图像的熵和互信息量。以颜色为例,可以将颜色分为独立的色度(hue)、饱和度(saturation)和亮度(brightness)3个分量的HSV颜色空间,则可将图像颜色表示为C=16H+4S+V,其中权重根据实验经验确定[7]。

由此ft的图像熵为

相邻帧ft和ft+1互信息量为

2 多目标规划提取关键帧

2.1 多目标规划方法

为提取关键帧,按照镜头中帧的相似程度,可把一个镜头分为若干子镜头,每个子镜头中的帧在内容上可被认为是相似的,从而可从每个子镜头中提取包含信息量最大的一帧作为关键帧。这样既确定了关键帧的数目,而且在关键帧能充分表达子镜头内容的前提下,又减少了镜头信息丢失。

这里采用基于相邻帧ft和ft+1间的互信息量I(t,t+1)作为特征参数参与帧间变化的计算。首先要求子镜头内相邻帧之间的互信息量均值越大越好,即相邻帧相关性最大化

式中:m为子镜头个数,则1m

其次,镜头关键帧要包含信息量尽量大,显而易见,把所有帧都作为关键帧则信息丢失为0,信息量最大。所以在保证子镜头内相似度最大的情况下,选取信息熵最大的帧作为关键帧,可减少信息丢失。镜头关键帧信息熵最大化

式中:Xi={fi1,fi2,⋯,fis}为第i段子镜头的图像帧集合。

2.2 全局优化的关键帧提取

在提取关键帧的过程中,有两个最主要的问题:一是什么样的图像帧才应该被选为关键帧,即关键帧的选择与评价标准;二是采用何种方法来提取关键帧。

由上述理论,笔者建立以子镜头内相邻帧的互信息量最大化和镜头关键帧包含信息量最大化为目标的多目标规划数学模型

其中,当m=1时,G1=最小,G2=max{H(ft)}最大;当m=n-1时,G1=max{I(t,t+1)}最大,G2=最小。因此,总是会有这样一个m使得这个模型的两个目标都能达到一个满意解,即可以对镜头进行全局优化的子镜头分割,从而确定关键帧的数目,并由选取子镜头中信息熵最大的图像帧作为关键帧,来确定关键帧的位置。

在求解过程中,笔者假设两个目标G1,G2对提取关键帧的作用同样重要,所以可以对以上模型建立评价函数

式中:,用来平衡两个目标;在实际应用中,也可以根据实验数据和用户需求来设定λ值。

由此,可以采用启发式算法来求解此多目标规划的全局最优解:

1)初始m=1,即初始假设整个镜头就是一个子镜头,计算评价函数G。

2)找出最小的相邻帧互信息量I(t,t+1),并令其为0,m=m+1,即从ft和ft+1之间将一个子镜头分为两个新的子镜头。

3)重新计算新的G,并与之前的G进行比较。

4)如果G增大,则继续步骤2);如果G减小,则以概率p(取0.05)继续步骤2),否则结束,输出m和相应的关键帧。

3 实验结果与分析

笔者采用VS2005和OpenCV图像处理库开发了基于互信息量的关键帧全局优化提取算法的测试程序。关键帧提取方案的性能评估是一个十分主观的问题,目前尚无可用来衡量的客观标准。为验证提出的关键帧提取算法的性能,实验中选用了具有不同程度镜头变化的视频测试数据作为对比,并以颜色特征作为特征参数参与熵和互信息量的计算。

3.1 运动平缓的镜头提取关键帧

对于镜头运动不大的情况,选用了234帧的动画作品《我叫MT特别篇》的小片段测试,此测试视频包含了镜头的缓慢缩放。实验比较镜头的互信息量和图像颜色信息熵,得到图1与图2数据。

如图1和图2所示,因为镜头1运动变化不大,所用方法只进行了一次分割子镜头,已经使得镜头的关键帧提取达到全局最优,所以结果如图3所示,只提取了两帧作为此镜头的关键帧。

3.2 丰富运动的镜头提取关键帧

运动变化丰富的镜头在视频中也很常见,选用了218帧的动画作品《我叫MT》的片头作测试。实验得到此镜头的互信息量和图像信息熵数据如图4和5所示。

因为在镜头2中运动要比镜头1来的丰富,笔者方法中的两个目标在数据上的变化也自然地增大,所以子镜头的分割会增多。结果镜头被分成了4个子镜头,并提取了相应的4个关键帧,能很好地表现整段小视频内容,如图6所示。

实验结果表明,多目标规划方法可以快速有效地提取关键帧。根据镜头运动变化的不同,通过分析相邻帧之间互信息量的差异,将镜头分解为几个子镜头,同时也就确定了关键帧的数量。而最大熵的关键帧,也能很好地反映整个镜头的信息。

4 小结

笔者提出一种以子镜头内相邻帧的互信息量最大化(即相邻帧相关性最大化)和镜头关键帧包含信息量最大化为目标的多目标规划数学模型,选用启发式算法来求解子镜头分割的全局最优解,以此确定镜头的关键帧数量和位置。该算法简洁,计算方便,易于实现,大大提高了提取速度,获得的关键帧有效地保持了原视频的时间顺序和动态信息,有利于视频分析和检索,实验证明使用该方法提取的关键帧能较好地反映视频镜头的内容。

参考文献

[1]谭枫.镜头边界检测及关键帧提取[D].哈尔滨:哈尔滨工程大学,2006.

[2]李晓梦.基于视频模型的镜头分割及关键帧提取算法研究[D].长春:吉林大学,2007.

[3]陆伟艳,夏定元,刘毅.基于内容的视频检索的关键帧提取[J].微计算机信息,2007,23(11):298-300.

[4]HUANG Lanying.An approach of key frame extraction based on mutual information[C]//Proc.CNMT2009.[S.l.]:IEEE Press,2009:1-4.

[5]盛骁杰,杨小康.基于动态规划的自适应关键帧提取算法[J].电视技术,2009,33(4):16-18.

[6]房岳楼.视频关键帧选取方法和可视化表现研究[D].天津:天津大学,2008.

关键帧影像提取 第5篇

1 传统关键帧提取方法

传统的关键帧提取方法主要包括基于镜头边界的提取方法、基于运动分析的提取方法、基于压缩域的提取方法、基于聚类的提取方法、基于特征差异的提取方法等[5,6]。基于镜头边界的提取方法出于镜头内部内容应该相对一致这个假设, 提取每个镜头的起始帧、中间帧和结束帧作为关键帧, 提取的关键帧位置和数量固定, 并不能作为准确的内容描述;基于运动分析的提取方法一般通过光流计算, 在运动的局部最小值处选取关键帧, 这种方法计算量大, 复杂度高, 结果往往并不精确;基于压缩域的提取方法利用视频压缩编码信息, 根据MPEG压缩码流中的I帧、P帧、B帧和宏块的比较进行关键帧提取, 能够利用的特征较少, 虽然处理速度较快, 但是准确性受到压缩信息的影响;基于聚类的提取方法利用聚类技术, 将镜头内部内容相对接近的帧聚成一类, 并选择距离类内中心最近的帧作为各类的关键帧, 该方法受聚类算法性能的影响, 且由于视频具有时间性, 聚类时往往受到时间因素的限制, 并不能完全发挥聚类算法的效果;基于特征差异的提取方法以颜色、纹理、轮廓、形状等特征作为帧的描述, 当帧间差异超过一定范围时提取一个关键帧, 该方法受运动、噪声等因素的影响较大, 容易提取过多的关键帧。

近年来, 一些学者提出了若干新型的关键帧提取方法, 如基于熵的提取法、基于注意力模型的提取法、基于最大后验概率MAP的提取法、基于稀疏表达的提取法等, 具体可见文献[7-10]。

2 基于压缩传感和EMD的关键帧提取

2.1 基于压缩传感的子镜头分割

随着视频编解码技术的发展, 当前视频的主流分辨率已达到1 280×720以上, 也就是说, 一幅通常的帧图像, 就是一个1 280×720甚至更高维的信号, 如果帧速为25 f/s (帧/秒) , 则1 s内包含的高维信号有25个。显然, 直接使用这些高维信号进行计算, 所需要的计算开销极大, 使得算法完全不具有实时性的效果。本文引入压缩传感理论对这个问题加以解决。

2.1.1 压缩传感理论

压缩传感又称压缩感知, 是近年来出现的一种新型信号采集、编解码理论[11]。压缩传感可以用较低的频率实现对高维信号的采样, 使得信号采样和压缩的过程能够同时进行, 并且, 采样后的低维信号基本保存了原始高维信号的信息, 能够以很大的概率复原原始信号。

一般地, 信号采样的过程可以通过矩阵与信号相乘的形式完成, 如式 (1) 所示

式中:x是可K稀疏表示的n维原始信号;R是m×n的采样矩阵;y是对应于x的m维采样信号, nm。根据压缩传感理论[12,13,14,15,16], 如果采样矩阵R能够满足有限等距性质 (RIP) , 则采样y能够以很高的概率复原信号x, 换句话说, y基本保留了x的所有信息。有限等距性质如式 (2) 所示

式中:ui和uj是任意2个具有相同稀疏基的原始信号;vi和vj是与之对应的采样信号;ε是一个介于0和1之间的很小的正数。具有RIP性质的矩阵包括高斯随机矩阵、贝努利矩阵、哈达玛矩阵和傅里叶矩阵等。根据文献[15]的证明, 以下矩阵也符合RIP性质

式中:s的取值包括1, 3, n1/2, n/lgn这4种情况。显然, s越大, R中非零元出现的概率越小, 相应的数目就越少, 但是计算精度也会随之降低。出于实时性的考虑, 本文采用s=n/lgn的形式, 当n的数量级为10d时, R中非零元出现的概率约为d/n, 也即共有md个非零元素。需要指出的是, 由于R是一个非常稀疏的矩阵, 在实际计算时, 并不需要真正创建该矩阵, 只需存储相应的非零元位置和值即可。

2.1.2 基于压缩传感的帧低维特征计算

首先, 通过滤波器与图像卷积的形式构造帧高维特征, 这里采用双向同性的均值滤波器和高斯滤波器对帧进行滤波, 滤波的尺度从3开始, 尺度增加步长取为4, 尺度最大值控制在帧宽和高的30%范围内, 具体的滤波器描述如下

式中:w和h分别表示帧宽和高;Fi, i代表双向同性的均值滤波器;Gi, i代表双向同性的高斯滤波器, 是模版中心的坐标, σ是均方差。在某个镜头S内部, 通过Fi, i与Gi, i对各帧进行滤波后, 生成帧高维特征, 然后使用式 (1) 和式 (3) 对这些高维特征进行采样后, 得到镜头S内部的帧低维特征列向量组, 如式 (6) 所示

其中, si代表第i帧的低维特征。根据压缩传感理论, 每一个帧的低维特征都基本保留了该帧高维特征的所有信息。可以认为, 实际计算时采用帧的低维特征或高维特征具有基本等同的实际效果, 而采用低维特征能显著提高计算速度。

2.1.3 基于帧低维特征的子镜头分割

镜头内部受到摄像机缩放、角度变换、特效介入和物体运动等因素的影响, 呈现的内容往往并不相似, 因此, 有必要通过子镜头分割的过程将镜头按照内容进行划分。根据上节得到的帧低维特征列向量组, 设计子镜头分割策略如下:

1) 通过帧低维特征列向量组, 按照时间顺序计算帧间相似度, 并得到帧间相似度列向量组DS

式中:di表示第i帧和第i+1帧的低维特征相似度, 这里采用调节余弦相似度 (Adjusted Cosine Similarity) 作为度量指标, 定义如式 (8) 所示

与传统余弦相似度相比, 调节余弦相似度不仅同样考虑了夹角的相似性, 而且对向量中数值的差异情况也较为敏感, 因此更为准确。

2) 对于镜头S内部的第i帧, 以该帧为中心, 建立一个宽为2τ+1的窗口, 如果di是这个窗口内的局部最小值, 则认为第i帧和第i+1帧是一个子镜头的边界。

经过以上两步计算, 镜头S按照低维特征和时间顺序被划分成了k个子镜头集合, 如图1所示。

2.2 基于EMD距离的关键帧提取

2.2.1 EMD距离

EMD距离全称Earth Mover’s Distance, 是一种基于运输问题的分布差异度量准则[17,18], 通过求解线性规划最优解的方式计算2个分布之间的距离。令P和Q分别表示供货站与收货站的分布, 如式 (9) 和式 (10) 所示

式中:pi和qi分别是P与Q的第i个站点, wpi是P的第i个站点需要运出的货物量, wqi是Q的第i个站点能够接受的货物量, 如果用D= (dij) 表示P与Q站点之间的地面距离, 用F= (fij) 表示运输方案, 则将P中货物运到Q所做的功可描述为

该方程受到以下条件的约束

规范化的EMD距离可由式 (16) 和式 (17) 计算

式中:σi表示所有第i维数据的均方差。

2.2.2 帧间EMD距离计算与关键帧提取

在镜头S的第k个子镜头中, 首先按照式 (18) 计算子镜头中心

式中:C是第k个子镜头包含的帧数;sjk是第k个子镜头中第j个帧的特征分布。

子镜头代表了内容相对稳定的视频序列, 子镜头中心则反映了这个序列的均值情况。因此, 子镜头内部与中心相距最小的帧, 最能代表子镜头的主要内容。鉴于这个推理, 设计子镜头关键帧提取规则如下

式中:Lk代表第k个子镜头中关键帧的位置。对每个子镜头进行关键帧提取后, 即可获得整个镜头的关键帧集合L, 其中, L={L1, L2, …, Lu}。

3 实验结果与分析

实验环境为Intel Core2 Duo 2.8 GHz CPU、4 Gbyte内存、Win7 x64操作系统, 采用MATLAB 2013b编程, 经滤波器滤波生成的高维特征维数约为108, 采样矩阵R的行数定为300。测试数据包括纪录片、电影、电视剧等共十段手工标注的高清视频, 具体信息如表1所示。

算法性能评价标准采用基准精确率, 也即基于100%查全率条件下的最高精确率, 如式 (20) 所示

式中:Correct是指正确检测出的关键帧数量;All是指在保证查全率为100%的前提下检测出的最少关键帧数量。

表2和图2给出了算法的定量测试结果, 图3给出了算法的部分定性测试结果。为验证算法的有效性, 实验结果与文献[4]和文献[10]进行了比较。

4 小结

提出一种基于压缩传感和调节余弦相似度的子镜头分割方法, 并通过EMD距离在每个子镜头中提取距离中心最小的帧作为关键帧。与常用方法相比, 本算法提取的关键帧能够更加准确的描述视频内容。今后的主要工作将侧重于特征模型的构造, 进一步增加算法的鲁棒性和有效性。

摘要:关键帧提取是视频内容分析与检索技术的核心问题。提出了一种基于压缩传感和EMD距离的关键帧提取方法, 首先构造一个符合有限等距性质的稀疏矩阵, 将帧高维特征投影到低维空间, 然后通过计算帧低维特征之间的调节余弦相似度完成子镜头分割。在各子镜头中, 利用EMD距离计算帧与子镜头中心的差异, 并选择差异最小值所对应的帧作为该子镜头的关键帧。实验结果表明, 该方法提取的关键帧能够对视频内容进行准确的描述。

关键帧影像提取 第6篇

关键词:基于内容,动画视频,关键帧提取,互信息量,时间复杂度

现代数字多媒体与网络技术快速发展,互联网线上线下的数字视频资源呈现爆发式增长,面对海量的多媒体视频数据, 快速有效地对视频资源进行准确描述,方便用户高效地进行视频检索与浏览,是目前基本内容的视频检索技术的研究重点。

视频关键帧提取技术主要任务是提取一定数量的视频帧来概括视频主要内容,是基于内容视频检索的重要技术。关键帧提取技术要求主要有两方面要求:第一,提取的关键帧集合能反映视频主要内容;第二,关键帧提取主要是为检索提供数据,算法不应太复杂,计算时间复杂度要小。现有视频关键帧提取的算法主要考虑第一个原则,以“宁可错,不能少”的保守原则为主。

图片互信息量包含了图片间的颜色和空间特征信息,能较好地反映图片间差别,在基于内容的视频检索中作为视频的帧间特征能较好地反映视频内容的变化,但其计算复杂度高,文章根据动画视频特征提出了改进的互信息量关键帧提取算法。

1有关键帧提取技术

关键帧的提取有非压缩域和压缩域的不同方法,非压缩关键帧的提取方法根据与视频镜头的相关性又可分为两大类:基于镜头的关键帧提取方法和镜头无关的视频关键帧提取方法。

基于镜头的关键帧提取方法先对视频进行镜头分割,再设计相关算法根据镜头内容提取不同数量的视频帧作为关键帧。例如镜头边界法。这种方法一般是提取镜头固定位置的帧作为关键帧,如选取镜头的第一帧、中间帧和最后一帧作为关键帧。这种算法的优点在于算法简单易行,缺点在于每个镜头选取的关键帧数固定,对于短小且相似性很高的镜头造成冗余,而对于时间长而且变化大的镜头,又没有足够的关键帧来概括镜头内容。同时这种算法还高度依赖镜头分割算法,镜头分割结果的好坏直接影响着关键帧提取结果。

镜头无关的提取方法主要是基于视频帧间特征距离进行提取,主要取决于帧的特征距离的选取。确定选取某种描述视频帧差距的特征,对于帧序列,先选取第一帧作为关键帧,再对后面的帧fi与当前关键帧根据算法计算本身定义的相似性T,然后若T大于既定阈值则选取作为当前关键帧,否则继续向后检测。这个算法的优点是不受镜头边界检测的影响,在帧间相似性定义比较好的情况下可以获得很好的效果。

基于聚类的方法,主要是对每一帧计算它到已存在的几个聚类中心的距离,若距离小于之前设定的阈值则归类到距离最小的聚类中,否则新建一个聚类。这种算法优点是较好地消除了镜头间有相关性,缺点在于图像的时序性和动态性没有了, 且计算量大。

2信息量特征

美国数学家Shannon在1948发表了著名的论文“通信的数学理论”,建立起比较完整而系统的现代信息理论,使信息论成为现代信息科学中的一个重要研究领域。Viola和Collignon在1995年分别独立提出了利用互信息量作为图像的相似性测试, 随后图像的互信息量相似性测试在应用上也取得了巨大的成功。对于图像A和B,它们的互信息量的定义为:

其中H(A)和H(B)是两个图像的熵,H(A,B)是它们的联合熵:

其中PA,PB,PAB分别为A, B的概率分布和联合概率分布。 从式(1)的互信息量定义可知:I(A, B)值越大说明A,B越相似;I(A, B)的值越小说明A,B越不相关。

3阶段关键帧提取

基于内容的视频检测技术中,视频包含大量的视频帧,以一个90分钟电影为例,假设每秒包含25帧,则视频总共由135000帧组成,所以处理时间长是一个比较突出的问题。文章提出一种先利用非均匀分块法将视频帧进行非均匀分块,将目标与背景进行分离,再利用视频背景与内容相结合的两阶段关键帧提取方法动画视频关键帧。

3.1图像非均匀分块

传统视频关键帧提取,可以考虑对视频人物对象提取后根据视频人物内容进行关键帧提取。动画视频在制作上与传统的视频有很大的不同,导致动画视频有着自身明显的特点。例如,在动画视频中,目标物体的运动速率比一般的视频要快,而且为了突出效果,视频一般比较注重动作、表情的夸张表现。 这些夸张的手法使得目标提取算法效果较差,可行性不高。

传统的视频多数是录制编辑而成的,而动画视频往往是先设计出动画人物的动作,在研究过程中发现相当数量的动画视频镜头的背景是相对固定的很多包含复杂动作的镜头其背景相对来说保持很高的相似性,甚至是一个固定的静态图像背景。实验对目前主流的迪士尼动画、日本动画、国产动画三类动画视频进行镜头类型统计。

从统计表可以看到,选取的动画视频中有超过半数的镜头是以静态图片为背景,这是动画视频的一个重要特征。根据动画视频这一特点文章提出相对简单可行的动画人物与背景分离方法,即将视频帧进行非均匀图像分块,从而图像帧分成目标对象区域与背景区域。图像的分块方法如下图所示:

从图2可以看到,文章给出的图像分块法可以有效将视频帧人物对象和背景进行分离,且方法简单易实现。

3.2第一阶段关键帧提取

针对动画视频大量存在静态背景的特点,提出先对视频帧进行图像分块,然后通过计算背景区域的特征距离,对同一场景内大量高度相似的视频帧进行筛选。

第一阶段的关键帧提取主要是提取备选关键帧,算法计算复杂度是主要考量因素。上面提到的图像非均匀分块方法将背景分成三个不同的区域,背景区域2和背景区域4容易受台标、视频字幕或者其他因素的影响,实验选取背景区域3为代表进行特征距离计算。

特征距离的选取,第一阶段候选关键帧提取选取像素差作为特征距离,简单易实现。实验研究发现R、G、B三个分量像素差高度相似,在实验中计算帧间像素差时以R分量进行计算。下面是R分量的像素特征距离与处理后的帧间互信息量特征距离的对比示意图。

从图3可以看到,背景特征距离中大多数镜头分界明显, 为了避免丢失关键信息,阈值设置应相对严格。通过设置严格阈值进行第一阶段的备选关键帧提取可以过滤大量高度相似的视频帧,降低视频帧数量。

第一阶段备选关键帧提取算法描述:

Step1:对视频的帧序列,首先选取第一帧fi作为当前关键帧,将其加入到关键帧集合;

Step2:提取下一检测的视频帧fi,计算与当前关键帧R分量像素差,若特征距离大于阈值T,认为当前的关键帧不能概括当前视频帧fi,将其视为一关键帧,加入到关键帧集合,并将fi作为新的当前关键帧,若相似性小于阈值T,则认为当前关键帧可以概括fi的内容,不作处理;

Step3:若未处理完所有的视频帧,则转Step2继续;否则输出关键帧集合,得到所有的备选关键帧集合。

第一阶段算法步骤完成,得到视频候选关键帧序列。

3.3基于互信息量特征的关键帧二次提取

第一阶段对原始视频帧进行筛选得到候选关键帧序列后, 需要在候选关键帧集合进行第二阶段关键帧提取,得到最后的关键帧。根据概率关系式,图像互信息量的计算可演化成:

互信息量作为图像相似度,能较好地反映图像的相关度, 同时对光照变化不敏感。

参考3.2中的算法步骤,候选关键帧集合的第一帧作为关键帧,并作为当前关键帧,选取集合下一帧,根据公式(5)计算与当前关键帧的互信息量,如果小于设定的阈值,说明帧间差异大,就将其加入最终关键帧集合,并更新当前关键帧;否则继续提取集合中其他关键帧进行检测,直到候选关键帧中的帧处理完毕,得到最终的关键帧集合。

4实验结果分析

文章提出的算法主要目的是提高互信息为帧间特征的视频关键帧提取算法时间效率。实验选取5个不同类型动画视频实验对象,其中国内动画视频1个,日本动画视频1个,美国迪士尼动画视频3个,视频片断平均帧数超过2000帧。其中算法1是互信息量关键帧提取算法,算法2为文章提出的改进算法,关键帧提取结果如下:

实验数据表明,文章提出的算法对上述视频关键帧提取结果与单一使用互信息量为特征距离的提取结果镜头覆盖率稍差,但程序的时间复杂度大大降低,消耗的时间仅为算法1的18.61%。同时实验结果表明,提出的算法关键帧提取冗除较少,下图是其中《蜡笔小新》视频片断中的一个镜头提取关键帧结果对比:

5结束语

文章针对互信息量计算量大的问题和动画视频大量存在镜头固定的特点,提出了一种先对视频帧进行简单可行的图像非均匀分块方法将目标与背景分离,选取计算复杂度低而且严格的特征描述对视频帧进行备选关键帧提取,最后利用互信息量进行关键帧二次提取。实验结果表明算法在基本保证与传统互信息量的提取相同的镜头覆盖率下,大大降低了时间复杂度。算法不足之处是对于并非静态背景视频较差,时间复杂度大大提高,是今后需要改进的。

参考文献

[1]曾华,王耀民,何文广.动画视频镜头检测方法[J].电脑知识与技术,2012(17).

[2]曾华,杨汉辉.一种两阶段的关键帧提取方法[J].计算机与现代化,2011(6).

[3]Mai K,Miller J,Zabih R.A robust method for detecting cutsand dissolves in video sequences.[J].Proceedings of ACM Mul-timedia.1995

[4]徐丹.基于内容的视频检索系统研究[D].武汉理工大学,2006.

[5]冈萨雷斯.数字图像处理[M].北京:电子工业出版社,2005.

[6]孔娟,田丽.基于互信息量的视频关键帧提取算法[J].安阳工学院学报,2010年04期

[7]徐建华.图像处理与分析[M].北京:科学出版社,1992.

关键帧影像提取

关键帧影像提取(精选6篇)关键帧影像提取 第1篇根据无人机外业作业单位的飞行经验及相关标准规范对无人机获取数据的要求, 确定无人机遥...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部