多分类器范文-盘古文库

多分类器范文（精选7篇）

多分类器第1篇

关键词：遥感图像,多分类器,监督分类

遥感图像的计算机分类算法通常有两类处理方案, 即监督分类和非监督分类[1]。遥感图像监督分类技术因其识别精度高, 应用领域十分广阔。与传统分类方法进行比较, 多分类器组合方法可以在一定程度上弥补单个分类器的不足, 提高分类性能。

1 遥感图像监督分类

监督分类又称训练场地法, 是以建立统计识别函数为理论基础, 依据典型样本训练方法进行分类的技术。监督分类是在有先验知识的条件下进行的, 先选择训练样区, 根据已知像元数据求出参数, 确定各类判别函数的形式, 然后利用判别函数对未知像元进行分类。

监督分类是对遥感图像进行定量分析的常用手段, 虽然单独的分类处理属于信息提取层, 但是遥感图像监督分类必须以图像校正为基础, 监督学习的结果可以进行分类后处理, 实现知识获取的自动化。遥感图像监督分类的整个处理过程涉及到数字图像处理的三个层次, 包括分类预处理、分类判别和分类后处理三个阶段[2]。

分类预处理是遥感图像监督分类过程中必不可少的阶段, 而且预处理结果的好坏、性能的优劣直接关系到监督分类的精度和处理速度。理想的遥感图像应该正确地反映地物的辐射能量分布和几何特征。分类预处理阶段的工作是对原始的遥感图像进行辐射校正与几何校正, 减少或消除图像失真对分类精度的不利影响。

分类判别阶段是遥感图像监督分类过程的核心部分, 包括属性选择和提取、学习算法设计、监督学习、像元分类四个步骤。在属性选取时, 不同光谱波段的像元灰度信息是遥感图像监督分类的主要依据;利用设计的学习算法对训练样本集中进行学习, 即可获得一个监督分类器:最后利用该监督分类器对未知类别的像元进行分类和识别。

分类后处理阶段主要是为了让专家或用户理解像元输入属性与输出类别之间的关系, 从而将监督分类器的分类行为表示成易于理解的形式。根据这些知识表示, 人们可以获取训练样本隐含的内在规律, 并可进一步指导分类判别阶段的属性选择。

2 遥感图像多分类器联合的监督分类

监督分类中的各分类器本身由于分类机制不同和遥感图像数据的不确定性, 各分类器都有其特定的优势和局限性。最小距离法与最大似然法结合的遥感图像监督分类法, 将分类器的优势结合, 以提高遥感图像计算机分类精度。

2.1 最小距离监督分类法

最小距离判决法建立在有关距离函数的判决规则上, 是图像分类中简单且有效的手段。传统的最小距离分类器的基本思想是根据训练集按照算术平均生成一个代表该类的中心向量, 对于每一个待分类像元, 计算其与中心向量之间的距离, 最后根据它们的最小距离来判定待分类像元所属类别。

2.2 最大似然监督分类法

最大似然分类法是平均误差最小的方法, 在常规的遥感数据分类中得到较为广泛的应用。它是图像处理中最常用的一种监督分类方法, 它利用了遥感数据的统计特征, 假定各类的分布函数为正态分布, 在多变量空间中形成椭圆或椭球分布, 按正态分布规律用最大似然判别规则进行判决, 得到较高准确率的分类结果。最大似然分类法的数学基础是基于贝叶斯公式的最小误分概率而来的。在有足够多的训练样本、一定的类别先验概率分布的知识, 且样本接近正态分布的条件下, 最大似然分类被认为是分类精度最高的分类方法。但是当训练样本数量较少时, 均值和协方差参数估计的偏差会影响分类精度, 样本数据有时并不服从正态分布, 这种条件下采用最大似然分类就不合适。

2.3 多分类器联合监督分类法

多分类器组合方法有多种, 常见的有3种分类标准, 分别是根据单个分类器的输出结果进行分类、根据训练样本的选取进行分类以及根据分类器组合的形式进行分类。

在多分类器的联合分类中, 要得到好的分类性能, 要从分类器组合规则进行考虑。分类器给定一个的组合规则, 利用这个组合规则, 使得分类器在该规则作用下能够得到最优的分类性能。多分类器之间组合的方式主要有串联和并联两种。采用串联时, 分类器之间会有影响, 即前一级的分类器的分类结果将影响下一级的分类。对于并联来说, 同一级的分类器之间则是相对独立的、相互竞争的, 通过规则推理确定最后的分类结果[3]。

多分类器组合的分类过程不仅是各子分类器组合的过程, 更是各种多分类器组合算法组合的过程[4]。将各个分类器对各个地物的分类精度组成一个类别精度矩阵, 在进行目标分类提取时, 通过该矩阵选取出分类器的分类作为判别最终输出分类结果的标准。这时可以在两种分类器中按一定规则选择区分度更高的分类器进行分类。联合判决规则如下:记最小距离为D1, 次最小距离为D2;最大概率为P1, 次最大概率为P2,

若TÁ>TÁ, 则采用最大似然分类, 否则进行最小距离分类。

利用多分类器联合监督分类有如下结果:根据分类方法的性能差异和特点, 寻找合适的组合规则和决策方法来获得最优的分类结果;当参与联合分类的各分类器对待判别的像元进行归类都正确时, 联合分类的结果也一定是正确的;有效的分类方法的集合, 能在给定的组合规则下获得最优的分类性能。

3 结论

基于多分类器的遥感图像监督分类方法, 采用最大似然法分类和最小距离法联合的分类器分类技术, 综合各个子分类器的优点, 通过这种多分类器组合方法提高了单一传统分类器的分类精度。这种方法是一种提高分类精度行之有效的方法, 也是遥感信息提取的一种有效途径。

参考文献

[1]梅安新, 彭望碌, 秦其明.遥感概论[M].北京:高等教育出版社, 2008.

[2]蒋艳凰.遥感图像高精度并行监督分类技术研究[D].北京:国防科学技术大学, 2004.

[3]饶雄, 高振宇.多分类器联合监督分类方法研究[J].四川测绘, 2006.

多分类器第2篇

比较常用的多目标分类方法有快速分类算法、人工神经网络法[1]、支持向量机法[2]、贝叶斯分类算法[3]和决策树法[4]等。决策树是用于分类和预测的主要技术之一,它着眼从一组无次序无规则的实例中推测出以决策树表示的分类规则。构造决策树的目的是找出属性和类别之间的关系,用它来预测目标未来的类别。它不需要训练样本,只需要在每一次分类过程中识别一种属性[5],学习能力强,适合用于处理大规模的学习问题,是数据挖掘最常用的方法之一[6]。利用决策树方法从大量数据中提取潜藏在其中的有用信息和规则被广泛应用和研究。

本文利用决策树C4.5 经典算法、Bagging集成方法构建组合决策树,建立地面多运动目标的分区决策树分析模型,对地面目标进行分类和预测。并且根据国际空中机器人大赛(IARC)的比赛规则搭建仿真平台验证该分类方法的可靠性。

1相关概念及其算法

1.1 C4.5算法

决策树代表对象属性与对象值之间的一种映射关系,常用于构造分类模型。目前决策树算法中比较流行的算法有ID3、C4.5、CART和CHAID等[7]。决策树是数据挖掘的重要方法,基于信息熵的ID3算法是决策树技术的经典算法,信息增益越大的属性分裂的可能性越大[8]。但是它只能处理离散型的属性,而C4.5算法既能处理离散型属性,也能处理连续性属性[9]。

ID3 算法是一种基于信息熵的决策树分类算[6]。其核心在于构建策树的过程中,节点属性的选择标准为信息熵,即选用具有最大信息增益的属性。这种做法能够在通过每一个非叶节点时获得最多的有关数据的类别信息。构造决策树的方法是:计算出数据集中全部属性的信息增益,按照从大到小的顺序排序。按照信息增益排列的顺序将他们对应的属性作为决策树的节点。每一个节点属性都是最大增益的属性,通过决策树就可以对数据进行分类。文献[10]对ID3算法设计的相关理论知识进行了详细的定义。这里只给出信息熵、属性每个取值的信息增益加权平均值和属性的信息增益的计算公式。

1)信息熵。面对数据集M,其所属分类有X1,X2,X3…Xn,数据集M划分到各类中的概率分别为P1,P2,P3…Pn。确定数据集的分类需要的信息熵公式为:

2)假设将条件属性Xn的数据集T划分为T1,T2,T3…Tn,这时该数据集下分类所需的各子集的信息熵的加权平均值公式:

3)则该条件属性Xn对数据集M的信息增益公式:

Gain(X,M)= H(M)- H(X,T) C4.5 算法是ID3 算法的一种改进算法,用信息增益率来选择属性,在树建造过程中进行剪枝,既能处理离散型属性又能处理连续型属性,还能对缺省数据进行处理[9]。

信息增益率定义为:

Gain_ratio(X,M)= Gain(X,M)/Split_Info(X,M) 其中,Gain(X,M)与ID3中的信息增益相同,而分裂信息Split Info(X,M)代表了按照属性X分裂样本集M的广度和均匀性。其中:

确定分裂指标是生成决策树过程中的关键。C4.5 算法中分裂指标确定的基本思想是比较各训练样本数据中属性信息增益率的大小,取其中信息增益率最大的但又不低于所有属性平均值的属性作为树的一个分支节点。若存在连续的描述性属性,首先必须将该连续性属性分割为离散的区间集合,对其进行离散化处理。

1.2组合学习法

组合学习法将多个基分类器聚集在一起来构成组合分类器,用来提高分类准确率。理论研究和实验表明,样本数据集相同时,组合分类器的分类准确率和泛化能力往往高于单个分类器。根据分类器组合的形式,可分为四种[11]:第一种为串行方式,分类器组合方式为将一种分类器的输出作为另一种分类器的输入。第二种为并行方式,用一种算法将不同的分类器的输出结果进行整合,最后输出分类结果。这种方式第三种为嵌入方式,将一种分类器在分类过程中嵌入另一种分类器算法来提高分类精度,这种方法会显著提高原分类器的性能。第四种为混合方式,将上述3 中方式混合。为了算法上的快速性,本文采用并行的方式。

装袋(Bagging)是目前构建组合分类器使用最多的方法。Bagging对于有限样本组成的训练集S,通过Bootstrap过程生成测试样本Si,以Si为训练集分别构建分类器Ci,测试样本时分别用各基分类器对样本x进行预测,依据{C1,C2,C3...Cn}的综合投票结果,确定测试样本x的类别。由于放回抽样,每次抽样都是独立的,因此Bagging是一种并行训练的组合方法。

2基于Bagging的分区决策树组合分类器

论文[12]提出了一种动态分区方法。分区算法根据获得的环境信息,把复杂的不规则的不确定的区域分割成若干个子区,最终返回的数据是每个子区的序号、起点、终点和子区的个数。文中根据此算法对地面目标运动区域进行分区。

Bagging是集成学习实现的途径之一:基于样本采样策略。它利用组合学习法将多个基分类器集成到一个强分类器。由于Bagging采样使得各数据集相互独立,在此基础上形成多个保证基分类器的多样性,具备很强的泛化能力和稳定性。本文采用分区的思想分区构建组合决策树。用Bagging来构建训练子集,用C4.5算法构建基分类器,各基分类器间采用多数投票机制进行组合构建组合决策树。其模型如图1所示。

模型中H为原始数据集。H1、H2...Hn是将H分区处理后的子数据集,分别从子数据集H1、H2...Hn中进行有放回的随机抽取,利用决策树C4.5算法构建n组基分类器。各分类器之间相互独立,所以可以采用并行的思想进行训练。每个分类器都可以得到一个结果,n个分类器的结果构成了一个函数系列,将这个序列多数投票机制投票,得票数最高的类别为最终组合模型的分类结果。组合分类器的投票结果Dn由下式决定。

式中以两类分类为例,X和Y表示输出结果的类别号。由上式可知,判定X和Y投票总数大小,组合分类器将输出类别号较大的作为判定结果。当投票总数相等时会出现判定为平局(equ)的不良结果。为了避免这种情况的发生,常采用奇数个分类器进行组合。

3组合分类器在多目标分类中的应用

3.1信息提取与处理

本文的样本数据集从仿真平台中得到。根据国际空中机器人大赛(IARC)比赛规则并且基于VC++与Open GL搭建仿真平台,仿真平台中在多目标运动区域创建二维坐标系,将其划分为四个分区,如图2 与图3 所示。通过仿真平台可以实时保存地面多目标的信息,包括位置,速度大小,速度方向,目标所在的象限,目标到边界的时间,目标反向的时间,目标是否安全等等。同时还可以得到移动障碍物的位置、速度大小和方向以及空中机器人的位置、速度大小和方向。通过仿真平台得到大量地面运动目标的位姿信息,由于相同模型下,样本数量越多,预测的准确率越高[13],本文从每个分区分别保存10000 条数据作为原始数据集。然后利用粗糙集属性约简等方法[14,15]去掉不相关属性,并将连续性属性划分为0-2PI之间的区间值。

为了使用组合决策树来进行多目标分类和预测,本文对选取了对目标到达边界时间有影响的7 个属性:地面目标位置、地面目标速度大小、地面目标速度方向、地面目标反向时间、地面目标到达边界时间,空中机器人的位置、空中机器人的速度大小。将这7个属性作为分类属性,将目标是否安全价作为类属性。根据决策树C4.5 算法构建的决策树模型可以得到基分类器。本文参考了文献的实验结果:基分类器的个数越多,模型的准确率越高。在样本数量确定的情况下分别构建7 个基分类器。

3.2仿真实验

分别将得到的7个基分类器采用Bagging进行组合,并且采用多数投票机制对基分类器预测结果集成输出建立多目标分类模型。将得到的分类模型添加到全仿真平台进行验证,测试数据集直接由仿真平台产生。由于,仿真持续进行,所以产生的测试数据集将会非常大,保证了测试数据集过小对是实验结果的影响。仿真过程中,如果地面目标都是安全的,则由四旋翼控制距离右边界最近的地面运动目标。如果地面机器人有危险的,则判断哪一个最危险,此时由四旋翼控制最危险的机器人,直到它们解除危险。某一次的仿真过程如图4、图5、图6、图7、图8、图9所示。仿真图中,黄色代表空中机器人。

由图5、6、7、8、9 可知,在48s,、147s、337s、447s、569s内,能够该方法能够判断10 个地面目标是否安全,并且在全部安全的情况下空中机器人始终跟踪距离右边界最近的地面运动目标。T=569s时,地面目标全部运动到场外,且只有一个没有从指定边界出界。空中机器人始终能够根据地面目标的状态进行判断并且跟踪控制地面目标。

3.3 实验数据

分别利用传统的决策树C4.5 算法和基于分区决策树组合分类器算法进行2000 次仿真实验。当仿真时间到达600 秒或者10 个地面目标全部出界之后仿真实验终止,记录此时的用时和地面目标出界个数。传统的决策树C4.5 算法仿真的得到的部分实验结果如表1 所示。基于分区决策树组合分类器算法得到的部分实验结果如表2所示。

3.4实验结果分析

由表13和表14可以看出,采用传统决策树C4.5算法,空中机器人对地面目标的控制率最高为70%,平均值为63%左右。采用分区决策树组合分类器算法空中机器人对地面目标的控制率达到89%,部分实验中空中机器人都能在规定的时间以内将所有的地面目标从右边界赶出。实验结果表明,相对于传统决策树C4.5算法,分区决策树组合分类器算法能够对多目标快速分类,分类精度更高,提高了空中机器人对地面多运动目标的控制率。

4 结束语

使用C4.5 算法构建分区决策树不仅使用地面目标属性作为决策树节点,而且将空中机器人的位置和速度等属性作为决策树的节点,不仅将地面目标和空中机器人结合,而且提高了决策树的分类精度。构建的组合分类器具有很强的泛化能力,能够准确快速地实现地面运动目标的分类和预测。空中机器人在分类结果的基础上进行分析,能够快速跟踪并且控制地面运动目标。该方法避免了四旋翼在场地中盲目的飞行,缩短了搜索时间,提高了四旋翼的控制率。

摘要：针对地面有多个无规则运动的目标时,空中机器人很难判断跟踪哪一个的问题,提出一种基于分区决策树组合分类器的地面多目标分类方法。该方法对原始数据集分区处理,分别通过Bagging采样策略形成不同子数据集,利用C4.5经典算法构建基分类器,并用多数投票机制对基分类器预测结果集成输出,分区构建多目标分类模型。仿真表明相对于传统的C4.5算法,该方法能够快速实现地面多运动目标分类,提高空中机器人对地面运动目标的跟踪控制率。

多分类器第3篇

近年来,随着人工智能和模式识别的显著发展,人脸表情识别在情感分析,交互式视频,图像合成面部动画等方面得到了广泛应用[1,2]。

表情特征是人脸表情识别的基础,全局特征和局部特征是两种主要的描述方式。目前,主成分分析(PCA和离散余弦变换(DCT)是两个比较认可的全局特征描述方法[3,4]。PCA是基于全部训练样本计算协方差矩阵,降维后的空间仍带有冗余信息;还容易受到如光照,噪声等外部因素的影响。DCT是信号处理中常见的一种时域频域变换方式。文献[5]提出通过DCT变换消除图像光照的影响。纹理特征是不依赖于颜色或亮度,反映图像中局部区域内相邻像素灰度级分布属性的一种视觉特征。Ojala[6]等提出的LBP图像描述符,因其良好的鲁棒性、计算简单高效等优点,被广泛应用在人脸识别等众多领域[7,8]。

每一类特征的侧重点仍不失片面性。例如图像局部纹理特征一般只具有微观不规则但宏观存在某种统计规律性的特点[9]。为了克服单一特征表述的局限性,多特征融合成为解决该问题的有效途径。Wang[10]等人将局部二值特征(LBP)与HOG特征结合;李雅倩[11]等人提出全局与局部特征融合的人脸表情识别;赵焕利[12]等人采用小波变换与特征加权融合作为样本的表述特征。文献[10-12]的方法只是将多特征级联,却没有充分考虑不同特征对不同分类器的匹配差异性。Mozaffar[13]等人采用基于DCT、LBP和几何距离(GDF)的多分类器投票判别方法,采用基于GDF的结果作为最终的识别结果。但没有做到多特征的自适应考虑。宦若虹[14]等人提出多特征决策的SAR目标识别方法,虽然充分考虑了每种结果的可能性,可是采用贝叶斯规则投票还是可能出现三个后验概率相同的问题。朱旭锋[15]等人提出了较为通用的多不变量和多分类器融合的识别系统。针对样本的随机性,根据样本的聚类结果调整权值。虽然有效地提高了识别率,但是聚类结果的计算时间过长。

综合以上问题,本文首先基于PCA,提出了OS-PCA思想。OS-PCA的核心是对训练样本的多步最优选择;然后,基于最优样本求取协方差矩阵、计算特征值;与PCA相比,OS-PCA可以更有效地降低特征维数。其次,基于杨欢[16]等人提出的多种基础分类器的三层混合系统算法,提出一种多特征-多分类器最佳匹配的自适应人脸表情识别模型。模型的第一层采用林煜明[17]等人提出的基于准确度和多样性的分类器决策思想,为三类人脸特征选择最优的分类器组合;第二层对第一层的粗分类结果进行投票表决;第三层对投票后仍不能被正确识别的表情图像进行自适应决策,输出识别结果。最后,在JAFFE和CK数据集上进行交叉实验。实验结果表明:OS-PCA思想和多特征多分类器最佳匹配的自适应人脸表情识别模型具有良好的识别效果。并与文献[11]、文献[15]和文献[16]提出的识别方法在准确度和时间复杂度上的对比实验,进一步证明了本文模型的优越性。

1 OS-PCA特征的提取

设一幅尺寸为h ×w的人脸图像,按列行首尾连接构成一个N(N=h ×w)维向量。PCA的核心思想是将空间X投影到空间Y ,投影公式:

式中:W是投影矩阵,Y的维数为M(M<<N)。样本的协方差矩阵:

式中:xi(i=1,,M)代表N维的样本图像,u代表样本的平均值。计算协方差矩阵C的特征向量vi和特征值λi,特征值从大到小排列,选取特征值中前k个主要的特征值λi(i=1,,k)作为图像的主成分,被选取的特征值累积贡献率为θ ,贡献率采用如下进行计算:

PCA是对全部训练样本的协方差矩阵求特征值。但是,基于全部训练样本的协方差矩阵得到的特征值存在“聚集”现象,这种聚集会使投影矩阵的维数比实际最优投影矩阵的维数偏大。因此,基于全部训练样本的PCA降维方法,得到的投影空间仍有冗余信息;然而,样本数量过少又会造成投影空间信息的缺失。OS-PCA则是尽可能地兼顾充分利用所有训练样本和进一步去除投影空间的冗余。

设共有L类T个尺寸为h ×w的训练样本集A(ai,i=1,......,T),Mi(i=1,......,T)表示第i类表情训练样本个数,E=max(Mi);AR是维数为E的数组,数组元素记录被正确识别的个数;T维数组ER用来标记被识别错误的图像;B是一个动态样本集,存储选定的训练样本,且B ⊂A。

OS-PCA的工作过程如下:

Step 1 从每类表情中,随机选择一个样本存入B;AR和ER初始为0。

Step 2 采用PCA-朴素贝叶斯模型,以B为训练集,A为测试集,得到被正确识别的个数,记为r,则AR[0]=r;ER标记识别错误的表情图像。

Step 3 设l′(l ′≤L)类中有被识别错误的表情图像,每一类随机选择一个被识别错误的图像存到B;ER元素还原为0。

Step 4 Forj=1,2,3,,E-1

Step 4.1 以更新后的B为训练集,A为测试集,经过试验得到AR[j ],ER标记识别错误样本。

Step 4.2 如果AR[j]>AR[j-1],继续选择被识别错误的图像存到B,ER元素还原为0;否则,跳出循环。

Step 5 基于样本集B计算协方差矩阵、特征值,得到投影矩阵。

Step 6 利用投影矩阵,对训练样本和测试样本进行投影,完成降维。

2 模型的思想

模型选择朴素贝叶斯、支持向量机和最近邻作为待选的分类器。从全局与局部两个方面,提取了人脸的OS-PCA,DCT和LBP三种人脸特征作为模型的输入。

由于无法预知哪个分类器对应哪类特征效果最优,为了避免盲目选择,模型的第一层通过对多个分类器进行交叉实验,基于识别结果的准确率和差异性,选出最佳的特征-分类器匹配组合。模型的第二层,对第一层的粗分类结果进行投票表决。当第二层的融合结果仍有分歧时,则第三层对有分歧的粗分类结果进行自适应决策,得到最终识别结果。模型的流程如图1 所示。

第一层:对每类输入特征,使用L (本文中L=3 )个基础分类器依次采用f (本文中f=3 )组交叉实验进行训练。每种人脸特征分别对应一个粗分类结果矩阵R:

每一列的平均值作为该基分类器的识别率。提取测试样本的K特征,每个特征分别送入L个基础分类器,最终得到K个粗分类结果矩阵。

由于没有任何一种分类器对所有的特征都是适用的,选择最佳的分类器匹配组合是第一层的核心任务。分类器的准确性和分类器之间的差异性是影响决策的两个重要因素。设可选的分类器集合D=(Ci|i=1,2,....,L),选择的成员分类器集合S满足:maxϕ (S) , ϕ( S) 的计算式:

式中: S满足S ⊂D,A(Ci)表示分类器Ci的准确率,1-K(Ci-Cj)表示两个分类器结果的差异性,K(Ci-Cj)则是两个分类器的Fleiss-Kappa值。

第二层:对第一层得到的K个粗分类结果进行投票表决。如果三个粗分类结果相同,则输出识别结果;反之,粗分类结果被送入模型的第三层。

第三层:对经投票表决仍有分歧的表情图像进行自适应决策。引入一个“类内比重”决策准则,设Aki为第i(i=1,2,,I)类表情的第k个特征中心,采用式(6)进行计算:

式中:Mi表示第i个类的训练样本个数,fk,i,m为第i个类中第m个样本的第k特征。设Ak表示测试样本的第k个特征,dk,i表示Ak与Aki的距离。Sk表示在第k类特征dk,i的总和,计算式:

类内比重计算式:

通过计算k类特征的“类内比重”,最小比重值对应的特征识别结果可信度最高,将该特征的识别结果作为最终的识别结果。

3 实验设计与结果分析

3.1 实验设计

为了验证本文工作的有效性,在Windows XP的系统上(单核2.0 GHz CPU,2 GB内存),用VC6.0 实现测试。首先对人脸表情图像进行预处理,预处理后的人脸图像的维数是96×96。每一幅图像分别提取OS-PCA、DCT和LBP特征。OS-PCA特征设定的累积贡献率为95%。图像经过DCT变换后,对其左上角14×14 的区域进行Zig-Zag拉直操作。对图像做3×3 的分块,每个分块区域做LBP处理,级联分块的LBP向量,得到维数为9×256 的特征向量。SVM核函数多项式的次数为4。通过多次实验将分类器组合决策公式的参数 λ 取值为0.2。

JAFFE库包含高兴、惊讶、悲伤、恐惧、中兴、生气和厌恶等七类人脸表情图像。每一类的人脸表情有十个样本,每个样本包含三幅图像。每组交叉实验选取每个人的两幅作为训练样本,一幅图像作为测试样本,即140 幅为训练图像,70 幅为测试图像。CK库相对于JAFFE库缺少中性表情的图像。每类表情的20 幅图像做训练,六类表情共120 幅;剩余的60 幅图像为测试图像。图2 分别为JAFFE和CK库中的部分表情图像。

3.2 实验结果及分析

为了评估OS-PCA在识别率和维数上的性能,本文将OS-PCA与PCA进行对比;并给出了不同DCT区域与识别结果的关系曲线。最后,将本模型与单分类器系统、多分类器投票系统、相关文献方法做对比分析。基于JAFFE、CK的OS-PCA与PCA的比较实验,实验结果如表1。

表1 的实验结果表明:OS-PCA通过对训练样本的选择,有效去除冗余信息,在保持识别率与PCA相同甚至略高于PCA的情况下,数据维数有了有效降低。

为了选择最优的DCT区域大小,本文做了大量的实验,实验结果曲线如图3 所示。

图3 中横坐标表示选择区域的维数,纵坐标为该区域对应的识别率。通过结果曲线可以看出,当维数为14 时,效果是最优的;当维数大于50,识别率逐渐趋于稳定,因为维数过大,会伴随一些噪声,从而影响识别率。

经过模型交叉实验确定的特征-分类器组合为:OS-PCA对应朴素贝叶斯、DCT对应SVM、LBP对应SVM,最近邻分类器由于表现欠佳没有被采用。多数投票表决方法和本文方法也在JAFFE和CK库上进行了实验验证,每种方法的识别率如表2 所示。

表2 所示的实验结果表明:本文方法比单特征系统的识别率有较大的提高。另一方面,与多分类器投票识别系统相比,可以有效地对粗分类结果因投票分歧不能被识别的表情图像进行再次有效的分类。CK库上的识别结果优于JAFFE库上的识别结果,主要是因为CK库的图像在时间上的连续性,图像相近程度高于JAFFE库。

文献[11]提出的识别方法,有效的克服了单一特征表征人脸的局限性,却没有考虑不同特征对不同分类器的匹配差异性。文献[15]提出的识别系统,有效地避免了单一分类器和多分类器固定权值投票带来的错误判别,缺点是决策时间过长。文献[16]提出了多分类器的三层混合系统算法,缺点是第三层的平均加权方法没有考虑特征对样本的自适应性。为了进一步证明本文模型的有效性,通过实现文献[11]、文献[15和文献[16]提出的识别方法,与本文方法做了识别率和时间复杂度的对比实验,结果如表3 和表4 所示。

表3 和表4 给出了本文方法与文献方法在识别率和时间复杂度上的比较。实验结果表明:相比较其他方法,本文模型有更高的识别率和较低的识别时间。虽然识别时间长于文献[11]和文献[16],但是识别率却有了有效的提高。

4 总结

多分类器第4篇

多标签学习是机器学习和数据挖掘技术中的一个研究热点。与单标签学习相比,多标签分类中的样本可以同时归属多个类别。多标签学习是一种更符合真实世界客观规律的方法,其广泛地应用于各种不同的领域,如图像视频的语义标注[1-3]、功能基因组[4,5]、音乐情感分类[6]以及营销指导[7]等。多标签学习主要有两个任务:多标签分类和标签排序[8],前者的任务就是要为每一个样本尽可能地标注出所有与其相关的标签,从而达到一个多标签自动分类的目的;后者则是对于待测样本按标签与其相关程度由高至低输出全部标签。

现有的多标签数据的学习方法主要分为两大类:问题转换法和算法适应法[9]。问题转换的方法就是通过改造数据将多标签学习问题转化为其他已知的单标签学习问题进行求解,该方法不受特定算法的限制,目前已成熟的单标签分类算法有支持向量机、k近邻方法、贝叶斯方法和提升方法等。算法适应方法是通过直接改造现存的单标签学习算法,使之能够适应多标签数据的处理,该类方法代表性的学习算法有ML-k NN(MultiLabel k-Nearest Neighbor)[10]、Rank SVM(Ranking Support Vector Machine)[11]、Ada Boost.MH(multiclass,multi-label version of AdaBoost based on Hamming loss)[12]和Boos Texter(A Boosting-based System for Text Categorization)[13]等。在本文中,使用ML-k NN分类算法得到多标签评价标准值。ML-k NN是k NN算法的扩展,其性能优于Boos Texter、Ada Boost.MH和Rank SVM。

多标签学习的评价指标不同于传统的单标签学习,单标签学习常用的评价标准有准确度、精度、召回率和F值[14]。对于多标签学习,常用的评价标准有Hamming loss、One-error、Coverage、Ranking loss和Average precision。其中,Hamming loss主要衡量预测所得标签和样本实际标签不一致的程度,结果越小越好;One-error描述样本预测隶属度最高的标签不在实际标签的概率,结果越小越好;Coverage描述了在标签排序函数中,从隶属度最高的标签开始,平均需要跨越多少个标签才能覆盖样本所拥有的全部标签,结果越小越好;Ranking loss衡量样本所属标签隶属度低于非其所属标签隶属度的概率,结果越小越好;Average precision描述了对样本预测标签的平均准确率,结果越大越好。

目前要得到多标签学习评价标准有两个常用方法。一个常用的方法是观察训练样本集中的评价标准值,训练样本集中的评价标准值与测试样本集中的评价标准值无明确关系,但是通过对训练样本集中的评价标准值的观察,估计测试样本集中的评价标准值有一定意义。对于Hamming loss、One-error、Coverage和Ranking loss,这些评价标准关于测试样本集的值往往高于或等于这些评价标准在训练样本集中的估计值,那么关于训练样本集的这些评价标准值过高,其在测试样本集中的评价标准估计值也不会低。对于Average precision评价标准,其关于测试样本集的估计值往往低于或等于其在训练样本集中的估计值,那么Average precision在训练样本集中的估计值太低,其在测试样本集中的估计值也不会高。另一个常用的方法是标记测试样本,与分类结果对比,得到测试样本的评价指标值,然后利用统计学的知识,将计算出来的评价指标值推广到一般情况。这种方法需要标记测试样本,标记样本有时候会比较昂贵,但其得到的评价指标估计值比较客观。可以看出,想得到关于测试样本集的确切评价指标值,往往需要对测试样本进行标记,那么是否可以不对测试样本进行额外的标记就估计出关于测试样本的评价指标值呢?

本文提出基于测试样本与训练样本差异来估计关于测试样本的评价指标的方法。样本差异可以从宏观和微观两个角度来考虑,样本分布差异是样本差异的宏观体现,样本实例间差异是样本差异的微观体现。这样可以通过收集到的测试样本与训练样本的对比估计出评价指标值,从而避免标记样本的昂贵成本,使得多标签分类器可以在给出分类结果的同时给出评价标准估计值,可以应用于迁移学习等领域。

1 基于样本分布差异的多标签评价标准预估

1.1 MMD统计量

通常情况下,分类器都假设样本分布在整个分类过程中不会发生变化。当训练样本集和测试样本集的分布有差异时,由训练样本集得到的分类器不再适用于测试样本集。如单标签贝叶斯分类器,当训练样本集和测试样本集的分布有差异时,先验概率发生变化,此时由训练样本集得到的贝叶斯分类器不适用于测试样本集。那么如何衡量两组样本的分布差异呢?

设有一组训练样本集记为A(x1,x2,…,xm),其服从分布p;一组测试样本记为B(y1,y2,…,yn),其服从分布q。如何判断p和q是否相同,过去主要采用参数统计的方法,首先需要确定它们的分布模型,之后通过参数假设的方法推断它们是否包含相同的参数。文献[15]提出了将分布嵌入再生核希尔伯特空间的方法。文献[16]提出了衡量两组样本差异的核方法,即最大均值差异MMD(Maximum Mean Discrepancy)的度量方法。其中:

式中,F为将测量空间映射到实数域的一类函数,k(·)为核函数。

式中,K为一常数,且|k(x,y)|≤K,x∈A,y∈B。

MMD的计算复杂度为O(m+n)2。由抽样统计知识,在α水平的假设检验下,MMDT[F,p,q]的接受域为,与样本无关。MMD估计可以计算出两组样本的分布差异,条件是A和B相互独立。MMD值越大,表示训练样本集和测试样本集的分布差异越大,随之关于测试样本集的Hamming loss值、One-error值、Coverage值和Ranking loss值越大,Average precision值越小;MMD越小,表示训练样本集和测试样本集的分布差异越小,随之关于测试样本集的Hamming loss值、One-error值、Coverage值和Ranking loss值越小,Average precision值越大。

1.2 MMD与评价标准的关系

为了确定MMD统计量与多标签评价标准Hamming loss、One-error、Coverage、Ranking loss和Average precision的关系,使用参数估计的方法估计评价标准。从评价标准和MMD统计量的实验数据可以看出,MMD与Hamming loss、One-error、Coverage、Ranking loss和Average precision有良好的线性关系。然而,针对不同的评价标准,相关性程度也不相同。可将使用MMD估计多标签评价标准值问题假设为:

其中H1、O1、C1、R1和A1分别为Hamming loss、One-error、Coverage、Ranking loss和Average precision的估计值。C11、C12、C13、C14和C15为参数列表;f11、f12、f13、f14和f15为线性函数。为了确定参数估计中的相关参数和使得评价标准与评价标准估计值的误差最小,使用最小二乘法。下面以评价指标Hamming loss为例进行求解,其他指标的求解过程与Hamming loss相似。设有z1组实验数据(mmdi,hlossi),i=1,…,z1,它们相互独立,其中mmdi和hlossi分别为第i次实验得到的MMD统计值和Hamming loss值。记:

则残差平方和为:

由向量微分理论可知,对Q1关于C11求导,得,由实际意义可知C11的最优解为C11=(X'×X)-1×X'×Y。

2 基于样本实例间差异的多标签评价标准预估

2.1 MMR统计量

MMD关注的是训练样本集和测试样本集的分布差异,是一个宏观的统计量。样本差异可以从宏观和微观两个角度进行考虑。样本实例间差异是样本差异的微观体现。为此,提出基于样本实例间差异的多标签评价标准估计。

k近邻算法k NN(k-nearest neighbor)是一种基于样本实例的单标签分类器。k近邻算法意味着每个样本都可以用与它最近的k个邻居来表示,其基本思想是:找到离该样本最近的k个邻居,如果这k个邻居大多数属于某一个类别,那么这个样本也应该属于这个类别。k近邻分类算法的数学模型如下:设一组训练样本集记为A(x1,x2,…,xm),一组测试样本集记为B(y1,y2,…,yn),为了求得B中每个样本yi的标签,对每个测试样本做如下处理:求得训练样本集A中与yi最接近的k个样本,然后由这k个样本投票得到yi的标签。对k近邻算法的一个明显改进是对k个近邻进行距离加权。离测试样本越近的训练样本,其权值越大。可以看出,在k近邻算法中,若近邻与测试样本的平均距离越小,则分类结果的可信度越高。使用k NN算法得到一个分类结果,该分类结果的可信度可以由k近邻组成的邻域大小做出估计。此处,选择k=1的特殊情况。如果对测试样本B中的每一个样本yi,与其在A中的最近邻样本xj的距离d(yi,xj)足够小,那么以xj的标签作为yi的标签有较高的可信度;反之,与其在A中的最近邻样本xj的距离d(yi,xj)比较大,那么以xj的标签作为yi的标签具有较低的可信度。

由此假设,B中样本与A中样本的最小距离影响k NN算法分类结果可信度。通过观察B中每个样本到A中样本的最小距离,可以得到B中样本的k NN分类结果可信度。由这个估计得到对多标签分类器评价标准的估计。本文提出了MMR(Mean Maximum Resemblance)统计量,MMR为B中样本到A中样本最小距离的均值。

MMR的计算方法如下:

在Step3中使用最大跨度作为标准化分母,使得MMR尽量不受训练样本集的影响。MMR越大,表示测试样本集与训练样本集实例间的差异越大,随之关于测试样本集的Hamming loss值、One-error值、Coverage值和Ranking loss值越大,Average precision值越小;MMR越小,表示测试样本集与训练样本集实例间的差异越小,随之关于测试样本集的Hamming loss值、One-error值、Coverage值和Ranking loss值越小,Average precision值越大。

MMR性质:MMR(A,B)=0,当且仅当对于测试样本集中的每一个实例,在训练样本集中都可以找到与之相同的实例,使得它们的距离为0,即MMR(A,B)=0。MMR(A,B)不是一个对称的统计量,即MMR(A,B)≠MMR(B,A)。一个特例是A真包含B时,有MMR(A,B)=0,MMR(B,A)≠0。MMR的计算时间复杂度为O(mn+m2)。

2.2 MMR与评价标准的关系

为了确定MMR和多标签评价标准的关系,使用参数估计的方法估计评价标准。从多标签评价标准和MMR统计量的实验数据可以看出,Hamming loss、One-error、Coverage、Ranking loss、Average precision和MMR统计量也有良好的线性关系。然而,对于不同的评价标准,相关性程度也不同。因此,跟利用MMD统计量估计评价标准类似,可将评价标准估计问题假设为:

其中H2、O2、C2、R2和A2分别为Hamming loss、One-error、Coverage、Ranking loss和Average precision的估计值;C 21、C 22、C 23、C 24和C 25为参数列表;f 21、f 22、f 23、f 24和f 25为线性函数。为了确定参数估计中的相关参数和使得评价标准与评价标准估计值的误差最小,亦使用最小二乘法。下面以Hamming loss为例进行求解,其他评价指标的求解过程与Hamming loss相似。设有z2组实验数据(mmrj,hlossj),j=1,2,…,z2,它们相互独立,其中mmrj和hlossj分别为第j次实验得到的MMR统计值和Hamming loss值。记:

则残差平方和为:

由向量微分理论可知,对Q2关于C21求导,得,由实际意义可知C21的最优解为C21=(X'×X)-1×X'×Y。

3 基于MMD和MMR的多标签评价标准预估

MMD关注的是训练样本集和测试样本集的分布差异,是一个宏观的统计量;MMR关注的是训练样本集中的实例和测试样本集中的实例之间的差异,是一个微观的统计量。它们可以相互补充,共同估算出关于测试样本集的评价标准值。

由利用MMD线性拟合评价标准和MMR线性拟合评价标准,可以得出Hamming loss、One-Error、Coverage、Ranking loss和Average precision分别与MMD和MMR的相关方程及参数。利用这些参数,可以得出这些评价标准与MMD和MMR的相关方程。由于MMD和MMR都与这些评价标准有良好的线性关系,故将使用MMD和MMR预估多标签评价标准问题假设为:

其中H3、O3、C3、R3和A3分别为Hamming loss、One-error、Coverage、Ranking loss和Average precision的估计值。c311、c312、c313、c321、c322、c323、c331、c332、c333、c341、c342、c343、c351、c352和c353为参数列表;f31、f32、f33、f34和f35为线性函数。下面以Hamming loss为例进行参数求解,其他评价标准的参数求解过程与Hamming loss相似。

线性方程f31的详细表达式如下:

4 实验及分析

4.1 实验说明

在实验中共使用两组数据集,分别描述如下:

UJIndoor Loc数据集是一个基于WLAN/Wi Fi指纹的多建筑多层室内定位数据集。该数据集有两组数据,分别叫做UJI_training和UJI_test。UJI_training含有19 937个训练样本,UJI_test含有1111个测试样本。

Turkiye学生评价数据集由Gazi University提供。该数据集有两组数据,分别叫做Tu_training和Tu_test。Tu_training收集于2013年,有5820个学生评价数据;Tu_test收集于2014年,有5820个学生评价数据。这两组数据有差异。

共进行16次试验,分别记为Task1,Task2,…,Task16。采用ML-k NN多标签分类器得出关于测试样本集的评价标准值。

4.2 样本差异与MMD、MMR的关系

Task1~Task6使用相同的训练样本集,得到相同的分类器。从UJI_training set中随机抽取1200个样本作为Task1至Task6的训练样本集。从UJI_test set中进行两次随机抽取200个样本分别作为Task1和Task2的测试样本集。从UJI_training set中(除Task1的训练样本集)进行两次随机抽取200个样本分别作为Task3和Task4的测试样本集。从Task1和Task3的测试样本集中各随机抽取100个样本,再将它们合并,作为Task5的测试样本集;从Task2和Task4的测试样本集中各随机抽取100个样本,再将它们合并,作为Task6的测试样本集。然后,得到MMD值和MMR值,使用ML-k NN得到Hamming loss、One-error、Coverage、Ranking loss和Average precision的值。实验结果如表1所示。从表1可以看出,UJI_training set和UJI_test set存在差异。不同地点采取的数据可能存在差异。

表1 Task1~Task6实验结果

Task7-Task12使用相同的训练样本集,得到相同的分类器。从Tu_training set中随机抽取1200个样本作为Task7至Task12的训练样本集,从Tu_test set中进行两次随机抽取200个样本分别作为Task7和Task8的测试样本集。从Tu_training set(除Task7的训练样本集)中进行两次随机抽取200个样本分别作为Task9和Task10的测试样本集。从Task7和Task9的测试样本集中分别随机抽取100个样本,再将它们合并,作为Task11的测试样本集。从Task8和Task10的测试样本集中分别随机抽取100个样本,再将它们合并,作为Task12的测试样本集。然后,得到它们的MMD值、MMR值和多标签评价标准值,实验结果如表2所示。从表2可以看出,Tu_training set和Tu_test set两组数据存在差异。Tu_training set采集于2013年,Tu_test set采集于2014年。

表2 Task7~Task12实验结果

从表1和表2可以看出,MMD能正确反映两组样本分布的差异,MMD值越小,表示训练样本集和测试样本集的分布差异越小,从而Hamming loss、One-error、Coverage、Ranking loss的值越小,Average precision的值越大。MMD值越大,表示训练样本集和测试样本集的分布差异越大,从而Hamming loss、One-error、Coverage、Ranking loss的值越大,Average precision的值越小。MMR能正确地反映两组样本实例间的差异,MMR越大,表示训练样本集实例和测试样本集实例之间的差异越大,从而Hamming loss、One-error、Coverage、Ranking loss的值越大,Average precision的值越小。MMR越小,表示训练样本集实例和测试样本集实例之间的差异越小,从而Hamming loss、One-error、Coverage、Ranking loss的值越小,Average precision的值越大。

4.3 评价标准估计

Task13采用UJIndoor Loc数据库。从UJI_training set中随机抽取801个样本作为Task13的训练样本集。为保证数据的平衡性,从UJI_training set(除Task13的训练样本集)中随机抽取1111个样本和UJI_test set作为一个新的测试样本集,记为Test samples1。从Test samples1中随机抽取90个样本作为Task13的测试样本集。重复20次,然后得到MMD值、MMR值和多标签评价标准值。利用4-折交叉验证得到评价标准的估计值。

Task14采用UJIndoor Loc数据库。从UJI_training set中随机抽取1200个样本作为Task14的训练样本集。为保证数据的平衡性,从UJI_training set(除Task14的训练样本集)中随机抽取1111个样本和UJI_test set作为一个新的测试样本集,记为Test samples2。从Test samples2中随机抽取250个样本作为Task14的测试样本集。重复20次,然后得到MMD值、MMR值和多标签评价标准值。利用4-折交叉验证得到评价标准的估计值。

评价标准估计的实验结果如表3所示,其中EM(D)为使用MMD估计评价标准的误差均值,EM(R)为使用MMR估计评价标准的误差均值,EM(D,R)为使用MMD和MMR估计评价标准的误差均值。

表3 Task13~Task14实验结果

从表3和表4可以看出,针对不同的评价标准,MMD的表现不同。其中,对于Hamming loss、One-error、Ranking loss和Average precision,MMD的表现良好。对于Coverage,MMD的表现要比其他评价标准差。针对不同的评价标准,MMR的表现也不同。对于Hamming loss、One-error、Ranking loss和Average precision,MMR的表现良好。对于Coverage,MMR的表现要比其他评价标准差。综合使用MMD和MMR估计评价标准的误差均值一般在单独使用MMD和MMR估计评价标准的误差均值之间。对比表3和表4可以看出,训练样本集和测试样本集中的样本数目越多,估计评价指标的误差均值越小。

Task15采用Turkiye Student Evaluation Data Set。从Tu_training set中随机抽取801个样本作为Task15的训练样本集。将Tu_training set(除Task15的训练样本集)和Tu_test set作为一个新的测试样本集,记为Test samples3。从Test samples3中随机抽取90个样本作为Task15的测试样本集。重复20次,然后得到MMD值、MMR值和多标签评价标准值。利用4-折交叉验证得到评价标准的估计值。

Task16采用Turkiye Student Evaluation Data Set。从Tu_training set中随机抽取1200个样本作为Task16的训练样本集。将Tu_training set(除Task16的训练样本集)和Tu_test set作为一个新的测试样本集,记为Test samples4。从Test samples4中随机抽取250个样本作为Task16的测试样本集。重复20次,然后得到MMD值、MMR值和多标签评价标准值。利用4-折交叉验证得到评价标准的估计值。评价标准估计的实验结果如表4所示。

表4 Task15-Task16实验结果

表4得出的信息与表3得出的信息相同。针对不同的评价标准,MMD和MMR的表现不同。其中,对于Hamming loss、One-error、Ranking loss和Average precision,MMD和MMR的表现良好;对于Coverage,MMD和MMR的表现要比其他评价标准差。综合使用MMD和MMR估计评价标准的误差均值一般在单独使用MMD和MMR估计评价标准的误差均值之间。训练样本集和测试样本集中的样本数目越多,估计评价指标的误差均值越小。

通过上述实验结果可以看出,使用MMD线性估计评价标准和使用MMR线性估计评价标准的效果良好。综合使用MMD和MMR线性估计评价标准的效果良好。因此,使用这三种方法估计评价标准是有一定意义的。MMD度量训练样本集和测试样本集之间的分布差异,MMR度量训练样本集实例和测试样本集实例之间的差异,与分类器无关,因此适用于所有的分类器。但由于分类器的性能不同,评价标准估计误差会有一定的波动。

5 结语

贝叶斯算法实现文本分类器第5篇

上世纪九十年代以来, 计算机和信息技术发展迅速, 各类信息以级数倍的速度在Internet上广泛传播, 尤其是种类繁多的文本信息。因此如何在众多文本中掌握最有效的信息始终是信息处理的目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类, 从而帮助人们更好地把握文本信息。近年来, 文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合, 有效地提高了信息服务的质量。

贝叶斯分类器是基于贝叶斯学习方法的分类器, 其原理虽然较简单, 但是其在实际应用中很成功。贝叶斯模型中的朴素贝叶斯算法有一个很重要的假设, 即属性间的条件独立。

(二) 贝叶斯相关理论

1. 条件概率

条件概率定义为:设A, B是两个事件, 且P (A) >0称为在条件A下发生的条件事件B发生的条件概率。

乘法公式:设P (A) >0则有P (AB) =P (B|A) P (A) 。

2. 全概率公式和贝叶斯公式

设S为试验E的样本空间, 为E的一组事件, 若则称为样本空间的一个划分。

全概率公式定义为:设试验E的样本空间为A, A为E的事件, B1, B 2, ....Bn为A的一个划分, 且, 则。

贝叶斯公式定义为:设试验E的样本空间为A, A为E的事件, 为A的一个划分, 则。

其中i, j均为下标, 求和均是1到n。

(三) 贝叶斯分类器设计

贝叶斯文本分类模型是一种典型的基于统计方法的分类模型, 它利用先验信息和样本数据信息来确定事件的后验概率。

1. 贝叶斯分类描述

根据贝叶斯公式:

可知贝叶斯文本分类的任务是将表示成为向量的待分类文本归类到与其关联最为紧密的类别中去。其中为待分类文本Xq的特征向量, 为给定的类别体系。求解向量属于给定类别的概率值, 其中pj为属于Cj的概率, 则max所对应的类别为文本X所属的类别, 因此分类问题被描述为求解方程 (2) 式的最大值。

其中训练文本集中, 文本属于类别cj的概率;如果待分类文本属于类别cj, 则类别cj中包含向量的概率;给定的所有类别的联合概率。

显然, 对于给定的所有类别, 分母是一个常数, 所以求解 (2) 式的最大值转化为求解下式的最大值, 即

又根据贝叶斯假设, 文本特征向量属性x1, x2, ......xn独立同分布, 其联合概率分布等于各个属性特征概率分布的乘积, 即

所以 (3) 式变为:

即为所求解的用以分类的分类函数。

尽管推导出了分类函数, 但是分类函数中的概率值还是未知的, 因此, 为了计算分类函数的最大值, (5) 式中的先验概率值分别估算如下。

其中, 训练文本中属于cj类别的文本数量;N训练文本集总数量。

其中, 类别cj中包含属性xi的训练文本数量;N (C=cj) 类别中的训练文本数量;M训练文本集合中经过踢出无用词去除文本预处理之后关键字的数量。

2. 朴素贝叶斯分类器算法

朴素贝叶斯分类器算法假定各待分类文本特征向量相互独立。相互独立表明所有特征向量之间的表述没有关联, 有利于计算。以下为朴素贝叶斯分类器算法步骤。

(1) 待分类文本利用分词工具形成待分类文本特征向量, 利用常用词向量净化待分类文本特征向量, 使其消除冗余和常用词, 形成新的待分类文本特征向量。

(2) 通过对属性在C1类训练文本集中进行查找, 计算出属性在C1类训练文本集中出现的次数集属性分别除以C1类训练集总文本数和训练文本集中经过踢出无用词去除文本预处理之后关键字的数量之和, 得到在C1类训练文本中出现的概率集。把中的属性相乘得到在C1类训练文本集中出现的先验概率P (x|c1) 。

(3) C1类训练文本集中的文件数量除以整个训练文本集的总数得到先验概率得到在C1类训练文本集中的后验概率。

(4) 重复2、3步骤计算出所有类别的后验概率。

(5) 根据步骤4得出的结果比较出最大的后验概率P (cj|x) , Cj类就是所属类别。

3. 朴素贝叶斯分类器

根据朴素贝叶斯分类器算法使用Java为开发语言, Tomcat为服务器, 采用B/S模型进行实现。以下是得到待分类文本向量后验概率的主要实现代码。

(四) 测试数据和实验结果

作为测试, 本文选用Sogou实验室的文本分类数据, 并使用了mini版本。迷你版本有10个类别, 共计100篇文章, 总大小244KB。

使用的测试文本:

东方网10月8日消息:华盛顿时报6日报道称, 中国最近秘密进行了一次远程导弹飞行试验。据中国军事专家称, 9月25日的试验再次凸显北京远程和近程弹道导弹、巡航导弹及新式导弹防御拦截弹所能够造成的威胁越来越大。

报道称, 一名美国官员证实, 中国军方从北京西南方约320英里处的太原导弹中心向西部约1800英里处的库尔勒市试射了一枚导弹。中国官方未提供详细信息, 称试验数据属于机密。

亚洲和美国的中国观察者于9月23日意识到了此次试射活动, 当时中国政府发布了“飞行通告”, 警告飞机在9月25日前远离从太原到库尔勒的空域通道。

使用mini版本的测试结果:

结果显示, 军事类别的后验概率为2.532662E-2, 是所有类别中最大的, 所以测试文章属于军事类别。最后经过400篇不同文章测试, 分类器分类结果正确率达到83%以上, 实现文本分类作用。

(五) 结语

通过贝叶斯算法实现文本分类, 是一种简单而有效的方法。根据测试的结果, 已基本实现简单文本分类。但是, 通过对大容量的文章测试, 会得到大量的分词单元, 严重的影响系统的处理能力, 使系统效率严重低下。

参考文献

[1]Tom M Mitchell.机器学习[M].曾华军, 等译.北京:机械工业出版社, 2003.

[2]梅馨, 刑桂芬.文本挖掘技术综述[J].河北大学学报, 2003, 24 (5) .

[3]韩家炜, 等.数据挖掘概念与技术[M].北京:机械工业出版社, 2001.

[4]王灏, 黄厚宽, 田盛丰.文本分类实现技术[J].广西师范大学学报, 2003, 21 (s1) :173-179.

分类器系统的研究与应用第6篇

当我们面对问题时, 需要一个容易被人所理解的解决方案, 使未经过计算机科学训练的领域专家也能轻易的阅读和掌握。如果忽略顾客对解决方案的可读性要求, 可以随机采用任何方法构建, 然后再利用其它手段解释。但是, 我们更希望采用一种容易被理解和表示的方法构建解决方案。基于规则的方法将是最理想的选择, 因为规则是人们比较容易理解和掌握的事物。

如果一个解决方案能被领域专家描述和建模, 则可以通过一组规则描述该解决方案并建立系统解决问题, 这就构成了专家系统。如果无人能为我们提供解决方案, 则我们必须自己通过搜索来寻找解答。在这种情况下有几种可能, 如果问题不要求在线交互, 可以通过在某些时间点上获取的数据集描述, 应用文献[1]中提供的规则归纳法比如C4.5规则、CN2、FOIL或学习分类器系统等。但是, 如果系统要求与外部进行交互比如在线交易和机器人学习, 那么学习分类器系统虽然不是唯一却是最好的选择。机器学习解决了专家系统的学习机制问题, 从而使之可以不断丰富自己的知识库, 使专家系统的可用性获得极大提高。学习分类系统是机器学习的一种典型范例, 它联合帧间差、监督学习和遗传算法等多种技术来解决问题。通过维护由"条件-动作-预测"形式的规则种群构建的分类器, 能表示对目标问题的解决方案。

1、分类器系统的研究历史

1976年, John H.Holland在"Adaptation"中第一次描绘学习分类器系统的大概轮廓, 并把学习分类器定义为认知系统。两年后, Holland和Reitman在"Cognitive system based on Adaptive Algorithms"中对分类器作更详细的说明, 文中学习分类器系统作为一种建模工具, 可为未知的, 潜藏动态的真实系统, 创建一种相匹配的行为, 通过进化的规则, 创建与未知系统相符的、合理、可读的模型。Holland的这种思想从一开始就迎合了许多研究者的兴趣。

对于分类器系统的研究在八十年代盛行一时, 随着机器学习, 分类研究兴趣、增强学习发展和自主代理研究兴趣的增长, 分类器系统已经不仅仅是一种建模工具, 更是一种机器学习方法的选择。但是经过一段时间的高潮后, 由于认识到系统实现上的复杂性, 在八十年代后期该领域的研究开始衰败, 在九十年代中期, 研究几乎销声匿迹。1995年, Stewart W.Wilson提出了一个迄今为止, 最为成功的学习分类器系统XCS[3], 标志分类器系统研究的新的里程碑。在XCS设计中, Wilson对Holland模型原有结构作了大幅简化[5], 并通过改变学习机制去融入增强学习领域的最新进展。结果产生了一个关联性超出模型本身的具有强大通用性的Michigan分类器系统。Wilson经过多年的研究提出一些重要的研究成果, 例如第一个可以和其它机器学习方法媲美的简单高性能分类器系统BOOLE[4]。

近十年, 这个领域的研究得到了复苏, 除了相关文献数量急剧膨胀, 还有一系列的国际专题讨论会 (GECCO、ICGA) 、书籍、期刊的出现, 及研究团队和实验室数量的增加都表明了当前对分类器系统研究的重视。West of England大学的分类器系统小组是目前最大的研究小组, 提供了该主题的各阶段层次课程。伊利诺伊遗传算法实验室也已成为该领域重要科学研究结果和软件发布的主要来源。

2. 系统及研究方向

学习分类器系统定义了一类基于遗传的机器学习的方法, 但并未标识一种特定模型。文献[6]中提供了一系列自适应在线学习原则, 并引导了近年来一些模型的设计。这些模型既发展了Holland思想, 又保留了其原始设计中的基本要素:代表当前系统知识的分类器种群;对系统短期行为负责的性能组件;在分类器中分配新来奖励的增强 (信用赋值) 组件;对分类器应用遗传算法充实当前知识库的规则发现组件。分类器系统的结构如图1所示。四大主要组件的发展、系统结构延伸的方案和关于学习分类器系统工作理论的发展都影响着学习分类器系统的研究。

普遍认为分类器系统是一种在线的自适应系统或者离线的优化系统, 两种观点形成了这个领域研究框架。受Holland思想的启发, Michigan大学提出的分类系统模型通常称为Michigan分类器系统, Michigan方法中一条染色体表示一条规则, 种群中的各条规则互相竞争, 整个种群表示一个目标概念。而受Smith和De Jong思想的启发, Pittsburgh大学提出的分类器系统通常称为Pittsburgh分类器系统, Pittsburgh方法中, 每条染色体是由一组定长的规则组成, 代表一个侯选概念。Michigan分类器和Pittsburgh分类器在结构上有极大的区别, 没有模型能平滑这种区别。

2.1 知识表示组件

学习分类器系统的表示有较大的伸缩性, 不需要修改系统的主要结构, 只需要对分类器的每个组件作调整就可以适应特殊应用的需要。相应地, 该方面的研究集中在给定一个特定问题其对应最好表示方法的搜索, 比如最好的条件类型、行为类型、预测定义等。条件负责对环境规律的辨识以便获得有效的归纳。如果问题被定义在一个二值域上, 分类器条件能被简单表示成用字母{0, 1, #}组成的字符串上[10]。但二值编码对问题变量关系的表示有其局限性, 并且不可避免地在系统归纳能力上产生偏差, 有些概念很容易归纳, 而有些问题几乎不可能归纳。因此, 为提高复杂领域中的知识表示归纳能力, 更高效的表示方法已经被研究和测试。对于包含真实值输入的问题, 多种表示已经被研究, 比如基于中心区间的析取、简单区间、凸包、椭圆体、超椭圆体等。通用的表示如散乱条件, GP-LIKE条件, 一阶逻辑表示, 神经网络和模糊等也被提出。总的来说, 先进的知识表示方法能提高归纳和学习能力, 但也要求更大的种群, 因此产生更多的解决方案, 为限制所涉及分类器的总数膨胀, 压缩算法被研究去缩小进化种群的规模, 使其更容易管理。行为通常使用一套字符来编码, 关于备选的表示目前研究比较少。这方面最相关的研究是计算行为概念的引入, 它用函数替换一般的分类器行为参数。Ahluwalia和Bull首次探索了耦合二值条件和字符条件的可能, 其可以表示成可进化的表达式。最近, Tran等人受Wilson关于计算预测研究的启发, 提出了XCS的一种新的版本, 该版本中使用权值可进化的线性近似器计算分类器行为[11]。另外, Lanzi和Loiacono也提出一种权值以监督方式学习的类似方法[12]。

2.2 增强组件

增强组件也称信用赋值, 主要为对应分类器分配新来的奖励, 以便辨识分类器的价值并推动更有用的规则的发现。初始时, 这方面的研究主要集中在桶链 (bucket brigade) 算法, 该算法是分类器系统中唯一的信用赋值方法, 基于对系统的贡献, 对现有规则分配一个信用值。主要解决多条规则同时要求被激活时的竞争问题。当学习分类器系统和增强学习的关系更加清晰, 系统的信用赋值也可以通过其它的算法实现。一些增强学习文献中的算法被借用到信用赋值的实现上。在ZCS中Q-学习算法的启发下, Wilson在XCS中使用了桶链算法的改进版本, 同时又提出了一种Q-学习算法的改进版本。Tharakunnel和Goldberg使用平均奖励延伸了XCS。Butz等人从文献[13]借用梯度下降法提高XCS的多步骤问题的性能[28]。Drugowitsch[14]提出了一种有效的增强学习方法-资格迹法, 用以提高XCS中的聚合速度。其它的一些学者包括Wada和他的同事也纷纷提出多种信用赋值改进算法[15]。最近, Bernado和Garrell特别针对分类和数据挖掘问题设计的监督分类器系统UCS, 是对XCS的扩展, 其使用基于实用的分类准确性替换了分类器预测。

2.3 规则发现组件

规则发现组件利用分类器预测信息辨识问题空间的规律, 这种规律可能被用于把问题空间分解成一系列的子任务。这样的问题分解通过专属每个子任务的分类器的进化来获得。如前面提到的, 在Holland系统中, 遗传算法应用于整个种群, 分类器适应度和预测相一致, 选择通过概率选择或轮盘法实现, 这种组合很少能获得令人满意的性能, 研究人员寻求其它的方法提高模型。但效果不明显。在Holland文献[6]中, 强度被用于对分类器值的评估, 又被用于引导规则发现, 因此Holland模型的分析通常需要考虑增强组件和发现组件。

Wilson的XCS[3]是一个重要的转折。1995年, Wilson通过定义适应度作为分类器预测准确性, 将信用赋值从发现组件中分离出来。而不是像Holland模型一样把分类器适应度作为分类器预测。Wilson在XCS[3]中把基于准确性的适应度和小生境遗传算法结合, 算法集中对负责最近完成的行为的分类器进行进化操作。分类器的基于小生境的选择生成内部的泛化压力。这种基于小生境遗传算法和基于准确性适应度的结合导致最大准确性的一般分类器产生, 也使XCS成为迄今最成功的分类器。Wilson的基于准确性的模型已经成为其它多个模型比如UCS, YCS的思想来源。之后10年, XCS成功应用到大量问题上, 演示了基于准确性的适应度如何产生由准确最大地通用分类器组成的最优解决方案。

规则发现也依靠有效的选择。Butz等人发现一般的概率选择依靠适应度缩放和适应度分布, 可能无法提供足够强壮和稳定的适应度压力。在文献[18]中, 他们在XCS模型中用竞争选择取代概率选择, 结果显示新的选择方法使XCS对于参数设置, 噪声等更强壮, 同时在利用适应度的指导上更有效。发现组件的进一步研究包括Orriols等人对于非平衡问题[19], Butz等人对于层次的分解问题的研究[20]。Orriols等人分析XCS在非平衡输入分布情况下的性能时, 结果显示, 当非平衡率适度高时, XCS具有足够的健壮性, 但当非平衡率特别高时, 遗传算法的激活性必须被调整。相应地, 他们获取一个令人满意的模型能在非平衡情况下保证最优性能。Butz等人认为对于对问题属性子集要求有效处理的可分解问题, 一般的交叉操作可能没有效果。他们使用基于分布估计算法的重组替换一般的交叉操作, 结果显示具有基于模型的交叉操作的XCS能更有效解决复杂层次化函数。目前分布评估算法已经被使用于创建新的方法应用于Pittsburgh分类器。其中规则表示和进化是基于紧凑的遗传算法。

2.4 分类器预测:参数或函数

分类器预测通常使用参数编码, 而参数是根据算法的选择来更新的。最近, Wilson提出了XCSF模型和计算预测的概念标志Michigan分类器系统研究的一个新的里程碑[21]。在XCSF中, 分类器的预测不再是参数, 而是分类器输入和每个分类器维护的权值向量的线性组合。在以前的模型, 新的奖励被用于更新预测参数。而在XCSF中, 梯度下降法被使用去更新分类器权值。算法基于当前预测和目标预测值的差值、当前分类器输入和当前分类器权值向量。

XCSF最初应用于一个或多个变量的简单函数近似, 在文献[22]中, 表明XCSF可以实现对目标函数的准确近似。在最近的五年, 计算预测已经在不同的角度得到了广泛的研究。Lanzi等人分析了近似和归纳之间的平衡, 提出了一种交替预测更新的方法[23]。该方法将提高XCSF的归纳能力。他们也研究先进近似器的性能。比如多项式, 神经网络, 支持向量机和集成等。计算预测已经和多种类型的条件相联系。结果显示, 通过表示和近似充分结合, XCSF将获取更强竞争力或更优的强噪性能。计算预测的概念最近已经推广到分类器的其它参数比如行为、预测等, 值得注意的是计算预测也使理论模型的研究发展起来, 其试图把学习分类器系统建模成增强学习方法[16]。

3. 分类器系统的应用领域

3.1 学习分类器系统作为建模工具

学习分类器系统作为建模工具广泛应用于认知心理学或计算经济学。在认知心理学中, 学习分类器系统通常完成一个代理的主要认知模块, 被用于对认知的某个方面进行建模, 比如, 人类语言学习, 人类知觉分类学习, 情感理论, 迭代学习。在所有这些认知建模的应用中, 预期行为的研究更具广泛性、更成功。预期分类系统已经应用到耗子迷宫的潜伏学习, 并为其它试验中的动物提供好的学习模型, 在这些试验中, 受试验者必须学习内部模型以便尽可能完美地完成任务。在最近的十年, 预期分类器系统吸引了很多研究者的目光, 他们开发可拱选择的模式 (比如YACS, MACS) 或用预期延伸其它模型 (比如YCSL, X-NCS或XCS。这些模型都是受ACS[24]的启发, 对预期的认知方面关注较少。

在计算经济中, 学习分类器系统即可以在单个代理上建模也可以在各自分类器系统控制的多个交互的代理中建模。例如Brian Arthur和LeBaron等人对股票市场的模拟交易者建模。而Bull则对连续的双重竞拍市场交易者进行建模。更早些, Vriend对Michigan分类器和Pittsburgh分类器在相同的经济模型应用中做了对比。Marimon等建立了资金并购模型及其它一些经济方面模型。在最近几年, Schulenburg和他的同事已经广泛应用学习分类器系统对代理交易风险自由担保人的行为和股票市场环境中风险资产进行建模。在文献[25]中, 通过把不同的输入信息集输入到一群使用Holland模型实现的同质代理中不同的交易员类型被建模, 在文献[26]中进一步延伸通过应用多代理结构到投资组合优化中。

3.2 学习分类器系统在机器人学中的应用

九十年代, 自主机器人学称为学习分类器系统的试验台。Dorigo和Colombetti引导了广泛的研究, 从1990年到1998年, 他们把他们自己分类器系统ALECSYS的不同版本应用到大量的机器人学应用中。借用试验心理学中塑造的思想, 引入了机器人塑造的概念作为自主代理的增长式训练。为了在现实世界问题中应用这种思想, 他们定义了一种称为BAT:行为分析和训练的行为工程方法论。Colombetti出版的书籍"Robot Shaping:An Experiment in Behavior Engineering"中对其工作作了整体介绍。

自从Dorigo和Colombetti的研究后, 分类器在机器人学中的应用研究有所停滞。Stolzmann和Butz应用预期分类器系统去模拟具有移动机器人的隐含学习, 并学习机械手臂与照相机连接时的手眼协调。West England大学的分类器研究小组成员对多种机器人学问题应用多个学习分类器模型。许多自主机器人学的应用已经使用模糊分类器系统实现了。

3.3. 学习分类器系统在分类和数据挖掘中的应用

数据挖掘是学习分类器系统最重要的应用领域, 通过两个具有可与人类相竞争的Pittsburgh分类器系统成功地应用于数据挖掘的实例可以说明。学习分类器系统在分类和数据挖掘的应用可以追溯到Bonelli和Parodi的研究, 他们首先完成规则诱导器NEWBOOLE和神经网络在三个医药领域的比较, 比较结果显示NEWBOOLE比其它方法性能更好。在九十年代后期, 进一步的研究表明即使是更新的模型 (比如XCS) 也比传统的方法性能更好。另外, Michigan分类器和Pittsburgh分类器的混合模型被研究。比如GA-MINER和REGAL, 但在最初成果之后没有进一步的深入。在21世纪早期, 新的Pittsburgh模型出现, 该模型被认为是该领域的极品。很多优秀的Michigan分类器和Pittsburgh分类器系统与其它方法进行了比较。结果证实了早期的研究成果, 表明了学习分类器系统能比典型的机器学习方法性能更高。

值得一提的是学习分类器系统因为具有产生人类可理解结果的能力和较强的自适应性而非常适合医药领域的应用。特别是自适应能力是满足这种不断变化的问题的主要要求。Holmes和他的同事成功的把提出的NEWBOOLE新的版本-EPICS应用到流行病学监测数据的分析中, 这种应用对突发的变化的自适应是必须的。后来, Holmes通过把他的新模型-EPIXCS应用到相同类型的数据上来进一步把这个成果延伸到XCS。当数据的总量趋于巨大时, 研究人员开始开发学习分类器系统能够接受的并行机制, 以便把计算工作量分配到多个处理器上。

3.4 其它的应用

分类器系统的其它应用包括2D和3D的形状优化, 字母识别, 交通控制器, 金融预测, 电力分配网络在线重构, 入侵监测, 化学反应控制, 活体组织控制等, 对计算机硬件包括FPGA设计的应用和软硬协同设计的支持, 学习分类系统也应用在军事领域中。Smith和同事将其应用于新的战斗机机动策略发现和最近的目标识别。

4. 结束语

基于双层分类器入侵检测算法第7篇

关键词：入侵检测,集成学习,弱分类器,支持向量机

1引言

随着计算机技术和通信技术的迅猛发展, 计算机应用日趋广泛与深入, 同时也使计算机安全问题更加突出。如何对计算机系统和网络中的各种非法行为进行主动防御, 成为当今计算机安全待解决的重要问题。入侵检测作为一种主动防御技术, 通过收集和分析被保护系统信息, 从而发现入侵的技术。它的主要功能是对网络和计算机系统进行实时监控, 发现和识别系统中的入侵行为, 对入侵报警。可将入侵检测看作是区别系统状态是“正常”还是“异常”的二分类问题, 所以可将机器学习、模式识别等智能化技术应用到入侵检测中。

近年来, 智能入侵检测主要有基于神经网络的入侵检测和基于支持向量机入侵检测。神经网络的优化目标是基于经验的风险最小化, 这就不能保证网络的泛化能力, 网络的设计与设计者有很大的关系并且易陷入局部最优, 有些甚至无法得到最优解, 模型性能的优劣依赖于模型训练过程中样本数据, 所以说神经网络算法是一种不稳定的算法。为了提高神经网络的泛化能力和其稳定性, 1990 年, Hansen 和Salamon[1]开创性地提出了神经网络集成, 为上述问题的解决提供了一个简易可行的方法, 使用这种方法可以简单地通过训练多个神经网络并将其结果进行合成, 显著地提高学习系统的泛化能力。支持向量机是基于结构风险最小化 (SRM, structural risk minimization) 原则, 保证学习机器具有良好的泛化能力, 解决了算法复杂度与输入向量密切相关的问题, 它主要是针对小样本情况, 且最优解是基于有限的样本信息, 而不是样本数趋于无穷大时的最优解。SVM训练算法是把原问题转化为对偶的二次规划问题进行求解, 在大数据集的情况下, 对偶问题存在计算量大, 速度慢等问题, 文献[2]的 LSVM 方法通过删减训练样本集中的无效样本, 缩小数据集规模, 从而降低训练代价。

现有的基于智能算法入侵检测系统要么在较高的检测率的基础上存在着大量的误报警, 要么存在计算量太大, 速度慢的问题, 为此, 提出了基于双层分类器入侵检测算法。

2异构数据集上的距离

入侵检测数据是同时具有连续属性和离散属性异构数据, 本文采用D.Randall Wilson等人提出了一种高效的HVDM (heterogeneous value difference metric) 距离函数[3]度量数据之间的差异性。

归一化距离:

当异构数据集X上的两个数据第a属性为连续属性时,

$d_{d i f f} (x_{a}, y_{a}) = \frac{| x_{a} - y_{a} |}{4 σ_{a}}$

其中, σa为数据集上第a个属性的标准差。

当异构数据集X上的两个数据第a属性为离散属性时,

$d_{v d m} (x_{a}, y_{a}) = \sum_{k = 1}^{Κ} | \frac{Ν_{a, x, k}}{Ν_{a, x}} - \frac{Ν_{a, y, k}}{Ν_{a, y}} |$

其中:Na, x为数据集X上所有数据第a个属性取值为xa的数据的个数;Na, x, k为数据集X上所有数据第a个属性取值为xa且输出类别为k的数据的个数。

设x, y∈X, 则x, y之间的HVDM距离可用以下方式定义

$Η (x, y) = (\sum_{a = 1}^{m} d_{a}^{2} (x_{a}, y_{a}))^{1 / 2} d_{a} (x_{a}, y_{a}) = {\begin{matrix} 1, & x_{a} 或 y_{a} 未知 \\ d_{v d m} (x_{a}, y_{a}), & x_{a}, y_{a} 为字符属性 \\ d_{d i f f} (x_{a}, y_{a}), & x_{a}, y_{a} 为数字属性 \end{matrix}$

3 分类器

3.1一层分类器

一层分类器利用Adaboost算法训练出多个独立的神经网络, Boosting 方法可以产生一个神经网络序列, 各网络的训练集决定在其之前产生的网络的表现, 被已有网络错误判别的训练例将以较大的概率出现在新网络的训练集中。在合成归纳结论方面, 采用完全投票法 (某分类成为最终结果当且仅当所有的神经网络输出结果为该分类) 。

(1) Adaboost算法

给定训练集: (x1, y1) , , (xn, yn) , 其中yi∈{1, -1}, 表示xii=1, , n的正确的类别标签, 训练集上样本的初始分布: $D_{1} (i) = \frac{1}{n}$ 。

对t=1, , T

计算弱分类器ht:X→{-1, 1}, 该分类

器在分布Dt上误差为:

εt=PDt (ht (xi) ≠yi)

计算该弱分类器的权重:

$α_{t} = \frac{1}{2} \ln (\frac{1 - ε_{t}}{ε_{t}})$

更新训练样本的分布:

$D_{t + 1} (i) = \frac{D_{t} (i) \exp (- α_{t} y_{i} h_{t} (x_{i}))}{Ζ_{t}}$ ,

其中Zt为归一化常数。

最后的强分类器为:

$Η_{f i n a l} (x) = s i g n (\sum_{t = 1}^{Τ} α_{t} h_{t} (x))$

(2) 弱分类器的选择

系统中使用的弱分类器是快速自适应神经网络分类器FTART2[4], 该模型是对基于域理论的自适应谐振神经网络FTART的扩展, 它学习速度快、归纳能力强、效率高, 可以根据输入样本自适应地调整网络拓扑结构, 不需人为设置隐层神经元, 克服了前馈型网络需要人为设置隐层神经元的缺点。

3.2二层分类器

二层分类器采用支持向量机 (SVM) , 对于线性二分类问题, 给定符合某种未知概率分布F (x, y) 的训练数据集{xi, yi} (i=1, , l) , 其中xi∈Rn, yi∈{-1, 1}。设计一个最优的分类器f (x) :X→{-1, +1}能够用于对测试数据集上的概率分布F (x, y) 的估计。当X为线性可分实数空间上寻找一个广义最优分类面的问题:

${\begin{matrix} \min \frac{1}{2} w^{2} \\ y_{i} (x_{i}^{Τ} w + b) - 1 \geq 0 \end{matrix}$

式中, w是分类面的法线, b是截距。该问题可转化为一个对偶优化问题:

${\begin{matrix} m a x Q (a) = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} (x_{i}^{Τ} \cdot x_{j}) \\ \sum_{i = 1}^{n} y_{i} α_{i} = 0, α_{i} \geq 0, i = 1, \dots, n \end{matrix}$

式中, Q (a) 是拉格朗日函数, αi是拉格朗日乘子。解式 (2) 后得到最优分类器函数

$f (x) = sgn {\sum_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i}^{Τ} x) + b^{*}}$

当数据完全线性可分时, 只需构造如上所述的线性支持向量机。当数据非线性可分时, 支持向量机通过引入核函数把样本映射到一个高维线性空间, 然后在此空间构造线性分类超平面。因为入侵检测的训练数据是大量的异构数据, 本文选择基于异构距离的类径向基核函数HVDM-RBF[5], 它能够准确的度量异构数据集上的距离, 从而提高了分类效果。类径向基核函数HVDM-RBF的定义如下:

$Κ (x, x_{i}) = \exp (- \frac{Η (x, x_{i})^{2}}{σ^{2}})$

其中H (x, xi) 为HVDM距离函数。

4入侵检测系统框架

在离线学习部分中, 我们构造双层入侵检测分类器[6], 如图1所示。第一层是基于Boosting算法分类器, 弱分类器是神经网络, 每个弱分类器输入向量是41维, 集成中个体网络的输出为2 类, 即非入侵数据和可能的入侵数据, 结论合成方法采用“完全投票法”, 即仅当所有个体网络都判别为非入侵数据时集成才认为是非入侵数据, 否则就认为是可能的入侵数据。第二层是SVM分类器。利用第一层神经网络分类结果 (经过一层的分类器后大大减少样本的数量) , 充分利用SVM对小样本的分类能力, 进一步对其进行分类, 提高分类的精度, 减少其误报率。在线检测是利用测试数据对系统的泛化能力进行测试。

5实验

5.1实验数据描述

选用样本数据[7]是目前入侵检测领域比较权威的测试数据, KDD CUP1999数据来源于1998DARPA (美国国防部高级研究计划局) 入侵检测评估程序, 其中有大量的正常网络流量和各种攻击, 具有很强的代表性。入侵数据可分为四大类是:

拒绝服务攻击 (DOS) , 普通用户到超级用户的攻击 (U2R) , 远程到本地攻击 (R2L) , 扫描类攻击 (PROBE)

5.2数据划分

根据统计DOS类和Probing 类攻击发生时, 攻击流量与正常流量之比为1:1, 而R2L和U2R攻击发生时, 攻击流量与正常流量之比为1:9。根据这个比例选择实验数据, 获得的各实验数据集是真实环境的模拟。将所选取数据集分为两部分, 一个数据集命名为training, 用来训练分类器;另一个数据集为testing , 用来检验分类器的性能。

5.3实验结果分析

实验时, 我们分为四个单独的实验。

第一个实验, 我们首先训练五个单个神经网络分类器, 得到每个神经网络性能指标, 取其平均值为单独使用神经网络进行入侵检测时的性能指标。

第二个实验, 利用AdaBoost算法, 弱分类器是神经网络, 分别对AdaBoost算法的不同的迭代次数进行实验, 取其平均值为第二个实验性能指标。

第三个实验, 利用第二次实验的每一次的结果, 对于SVM算法中两个重要参数, 错分惩罚因子C和HVDM-RBF核函数的控制因子 $\frac{1}{σ^{2}}$ , 给出几种不同的组合, 测试在各种组合下分类性能, 最后求出这几种组合下的平均性能。

第四个实验, 利用testing数据集对前面三个分类器进行泛化能力的测试。

评价检测算法性能的指标:

检测率 (Detection Rate, DR) =被检测出的攻击样本数/异常样本总数;误报率 (False Positive Rate, FPR) =正常样本被误报为异常样本数/正常样本数。如果运用入侵检测算法得到的检测率很高, 同时误报率也很低则说明几乎所有的入侵攻击都可以被系统检测到, 并且很少出现误报的现象, 则证明该算法的性能是优良的。

表1显示单一神经网络对入侵数据的检测效果不好, 基本上不具有应用价值。双层入侵检测算法DR比基于Boosting入侵检测算法DR要高, 而FPR比基于Boosting入侵检测算法低, 说明双层入侵检测算法比基于Boosting入侵检测算法要有高的精度。实验四利用testing数据集对算法的泛化能力进行测试, 由表2可以看出二级集成算法的泛化能力要比单级网络集成的泛化能力要高。

6结束语

本文提出将双层分类器用于入侵检测中, 分别对神经网络、网络集成和双层结构的分类器进行训练和测试, 测试结果说明采用双层分类器的入侵检测方法, 改善了检测结果, 在检测到攻击时有效地降低了入侵的误报率, 对testing数据进行测试表明本文所提出的算法具有较高的检测性能和泛化能力。

参考文献

[1]Hansen L K, Salamon P.Neural Network Ensembles[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990, 12 (10) :993-1001

[2]李红莲, 王春花.针对大规模的支持向量机的学习策略[J].计算机学报, 2004, 27 (5) :716-718

[3]D Randall Wilson, Tony R Martinez.Improved heterogeneous distance functions[J].Journal of Artificial Intelligence Research, 1997, 6 (1) :1-34

[4]周志华, 陈兆乾, 陈世福.基于域理论的自适应谐振神经网络分类器[J].软件学报, 2000, 11 (5) :667-672

[5]肖云, 韩崇昭, 郑庆华等.一种基于多分类支持向量机的网络入侵检测方法[J].西安交通大学学报, 2005, 39 (6) :562-565

多分类器范文

多分类器第1篇

多分类器第2篇

多分类器第3篇

多分类器第4篇

贝叶斯算法实现文本分类器第5篇

分类器系统的研究与应用第6篇

基于双层分类器入侵检测算法第7篇

多分类器范文

猜你喜欢

栏目

最近更新

热门标签

多分类器范文

多分类器 第1篇

多分类器 第2篇

多分类器 第3篇

多分类器 第4篇

贝叶斯算法实现文本分类器 第5篇

分类器系统的研究与应用 第6篇

基于双层分类器入侵检测算法 第7篇

多分类器范文

猜你喜欢

栏目

最近更新

热门标签

多分类器第1篇

多分类器第2篇

多分类器第3篇

多分类器第4篇

贝叶斯算法实现文本分类器第5篇

分类器系统的研究与应用第6篇

基于双层分类器入侵检测算法第7篇