电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

本体匹配算法范文

来源:盘古文库作者:漫步者2025-09-151

本体匹配算法范文(精选5篇)

本体匹配算法 第1篇

Web应用已深刻影响到人类社会生活的各个方面。语义Web是当前Web的一种扩展,是很多智能应用实现的基础,并已在电子商务、数字图书馆、信息检索、知识工程和生物医学等领域中发挥重要作用。

本体形式化定义了领域内共同认可的知识,是语义Web体系的核心部分。但由于本体创建和使用的主观性、自治性和分布性,造成了本体异构的问题。本体异构已成为本体应用的一大瓶颈,本体匹配正是解决这一问题的最有效途径。它可以实现不同本体的应用程序间的互操作性。本体匹配对于本体映射与集成、本体的检索和重用、信息集成、语义Web服务的匹配以及基于本体的软件需求工程等是不可缺少的重要环节。

解决本体匹配问题对于语义Web、生物医学、Web Service、智能 Agent通讯、P2P、电子商务、情报科学、软件工程和地理信息系统等领域中的语义信息交互都具有重要的应用价值。

国内外许多著名的大学、实验室和研究机构都对本体匹配进行了研究,并且针对进行本体匹配的过程、本体匹配的方法以及本体匹配所采用的技术和工具的研究都取得了一定的成果,为我们今天的研究提供了极有价值的基础。

目前的本体匹配工具和方法大都是针对特定领域的本体或本体的某些特征效果比较明显,缺少综合利用本体中各种特征元素进行映射的方法。而且本体匹配方法主要侧重于本体概念本身,以及概念的实例信息来求取本体元素的语义相似性,并没有充分挖掘本体结构中概念的相邻元素及其语义联系。

因此,本文在分析现有基于结构特征的本体匹配方法的基础上,设计一种改进的基于结构特征的相似度计算方法,并给出本体匹配算法设计。最后,应用改进的本体匹配算法实现异构本体的匹配,并验证该匹配算法的可行性和有效性。

1 基于结构特征的本体匹配算法分析

基于结构特征的本体匹配通过分析实体在模式中的位置比较周围节点的信息来计算相似度,该方法在本体缺乏充分的文本信息时尤为适用。在结构匹配方法中主要用到了图结构、路径结构、分类结构的匹配模式,这些方法大部分融入了相似度传播的思想。

在概念相似度计算过程中,概念的结构特点同样是值得重点考虑的因素。基于结构特征的本体匹配算法的核心是相似度传播算法,而相似度传播算法中较为典型的是Similarity Flooding和GMO。它们的核心思想主要基于:如果两个概念的父类或者子类相似,那么这两个概念也可能相似,基于此特征把该两个概念的父类或子类的相似度通过相似度传播算法传播到两个待匹配概念中。它们之间主要区别在于Similarity Flooding相似度的传播只考虑已匹配的概念对邻居节点的传播,而GMO则是本体全局的相似度传播。

1.1 Similarity Flooding算法分析

SF是由斯坦福大学(Stanford University)的Sergey Melnik和德国莱比锡大学Erhard Rahm于2002年提出的一种匹配多种数据源的通用结构层次算法,算法思想是基于相邻概念节点之间的相似传递性,也就是说如果两个概念节点的邻近节点是相似的,那么它们趋向于相似,即两个元素之间的相似性繁殖到了它们各自的邻居。

1.2 GMO算法分析

GMO中使用RDF二部图模型来表示本体。其主要思想是:两个来自不同本体的实体的相似度来源于所有与它们连接的statement节点之间的相似度的累加,而statement节点之间的相似度又来源于与它们相连接的subject,predicate和object之间的相似度的累加。其存在的缺点:本体图结构相差太大,本体存在多对多匹配的情况,因此会产生匹配结果相似度很低但却有可能匹配的问题。尽管有向二部图清晰地表示了本体知识,但是它没有区分概念间的不同关系,而且没有考虑不同邻接概念对于相似度传播的影响不同。

2 基于结构特征的本体匹配算法改进设计

2.1 基于结构特征的本体匹配算法思路

本体包含概念、属性和实例,这三个元素是本体的实体元素,另外本体还包含连接实体的关系、公理等。映射基本上在实体元素之间进行的,而且通过简单的推理后都转化为概念—概念映射关系。因此在本文中,着重讨论的是概念—概念映射的相似度计算问题,并对其进行一些改进。

本体实质上就是一个树状层次结构,利用Protégé等工具,可以将本体以树结构显示。结合对几个基于结构的相似度算法的分析和比较,本文提出了基于概念在结构中深度和密度对相似度传播值的影响。

为了说明处于结构中不同深度和密度情况下相似度传播的差异性,我们将Vehicle本体表示成如图1所示的树状层次结构,以此来讨论,该本体默认关系为subclassof。在图中只有一个入口结点,为根结点,这个结点是最大概念。第2层结点是对入口结点第1层结点的划分,第3层结点又是在第2层结点的基础上进一步细化,以此类推。我们可以看到,每一层都是对上一层概念的细化。越到下层,概念越细化,含义就越具体,反之越上层概念则越抽象。

假设通过语言级匹配后,得出源本体中的Vehicle和Car概念和目标本体中的Vehicle和Car概念存在匹配关系,现进行结构级的相似度传播。我们先讨论Vehicle子类和Car子类的匹配情况,由于Car相对于Vehicle处于结构层次的下层,概念含义更加具体细化,因此Car的子类匹配可能性要比Vehicle大,固概念Vehicle对子类的相似度传播值要小于Car对其子类的相似度传播。我们再讨论同一层次的Plane子类和Motor Vehicle子类的匹配情况,由于Motor Vehicle概念的分类更加细化,结点密度相对大一些,因此Motor Vehicle子类匹配可能性要比Plane大,固概念Plane对子类的相似度传播值要小于Motor Vehicle对其子类的相似度传播。

根据以上分析可知,处于结构中不同位置的概念,它们的相似度传播是有差异的,相似度传播计算应该和概念在层次结构中的深度和密度有关。

2.2 基于概念结点深度和密度的相似度传播算法

针对以往相似度传播算法中存在的不足,本文提出了基于结构中概念结点深度和密度的相似度传播算法,并制定相似度传播公式,从概念所在结构中的深度和密度综合考虑对相似度传播值的影响。

(1)抽取本体中的概念,将概念结点近似构成一棵本体树(设Root为根结点概念,D(Root)=1),则任一非根概念结点x在本体树中的深度值D(x)为:

undefined

式中,D(x)为概念结点x的深度值,parents(x)为x的双亲结点。D(x)的值为[1,+∞]。

由于从根结点到一个概念结点可能存在多条不同的路径,因此有通过不同路径计算得到不同深度值的情况,在此,D(x)取深度值最大的一个,而此深度值对应的父结点即为parents(x)。

(2)结点x的深度系数:

undefined

当只有根结点时,深度系数为0.5,对于非根结点x的深度系数的值在大于0.5而无限接近于1之间,即为(0.5,1)之间,结点深度值越大,深度系数值也越大。

(3)结点x的密度系数:

undefined

式中x为概念结点,O为本体,以概念结点x所连接边的出度、入度之和与本体的出度、入度之和相比来计算结点x的密度,Dc(x)的值在大于0而小于等于1之间,当本体的出度、入度之和一定时,结点x的出度、入度之和越大,即结点密度越大时,则Dc(x)的值越大。

(4)综合概念结点的深度和密度系数,定义相似度传播因子W,W的值应在[0,1]之间

undefined

其中,Dd(x)为结点的深度系数 、Dc(x)为结点的密度系数。α、β的取值应该来自于领域经验值。但是,目前己有的研究成果中,尚没有足够的数据帮助我们求得基于本体的数据集成领域的这一经验值,在实际应用中,可以先取一组样本,变换α、β的取值求得多组实验结果,然后进行分析,从中选出合适的W值。

可见,W值随着结点深度和密度的增加而增加,以W值来影响相似度传播值的大小,则W值越大,相似度传播值越大。

(5)相似度传播公式:

undefined

其中t=l,2…n;k=l,2…n;stk+l表示概念对t第k+l次迭代的相似度值;stk为概念对t第k次迭代的相似度值;M(t)表示概念对t的邻居中已匹配概念对的集合;sik表示t的邻居概念对i在k次迭代时的相似度值。最后进行标准化,将概念对之间的相似度除以相似度最大值,保证其值在[0,1]之间。经多次迭代,直到达到收敛要求为止。

2.3 相似度传播算法设计

(1)基于结构中深度和密度的相似度算法描述如下:

输入:本体O1和O2

输出:本体匹配表

步骤1:为了正确地引导匹配,减少不必要的候选匹配对,提供相关的匹配信息,在匹配前做好以下预处理工作:使用Wordnet或字符串匹配方法算出节点间的初始化相似度值,并选取相似度值较高的相似对作为初始相似对,利用Protégé等工具将本体分解成概念树的形式;

步骤2:根据初始相似对中概念结点的深度和密度,计算概念结点对邻接概念结点的相似度传播因子。

步骤3:利用相似度传播公式,多次迭代计算待匹配概念结点的相似度值。

步骤4:利用稳定婚姻算法确定映射概念对。

(2)传播算法设计。

针对以上分析,本文给出相似度传播的改进算法主要过程。caculate_w ( ),是相似度传播因子计算函数,其实现方法在2.2节中介绍。similarityPropagate( ),是相似度传播函数,其实现内容采用了2.2节中公式3~5。相似度传播是一个迭代过程,迭代至达到收敛要求。

3 改进的基于结构特征的本体匹配算法实验验证

3.1 开发环境和平台

本文采用的开发语言是Java。使用的Jena开发包是使用Java语言开发的,使用Java更容易实现代码重用和移植。本文选择Eclipse作为开发环境,Eclipse是开放源码的Java集成开发环境(IDE),适用于各种客户机和Web应用。

3.2 实验设计

本文采用OAEI国际组织提供的测试用例集作为实验测试数据集,再通过利用信息领域的查全率、查准率或F-Measure的计算公式,计算得到相应的数值,实验结果与利用其它结构特征匹配方法生成的结果相比较,借此以分析该算法的优劣性。

OAEI 2007提供的benchmark数据集为本文的测试数据集。此数据集中,共包含51个本体,其中本体#101为参考本体,其它的本体均为该本体某种特征的变化或缺失后的变体。该测试集共可分为5类:基本测试 (#101-104)、标签和注释测试(#201-210)、结构测试(#221-247)、 综合测试(#248-266)和现实本体(#301-304) 。

本文采用信息检索领域的查全率(r)、查准率(p)和F-Measure作为评价映射算法的主要准则,并定义如下:

(1)本体映射查全率(recall):

r=发现的正确匹配对/所有存在的匹配对

(2)本体映射查准率(precision):

p=发现的正确匹配对/发现的所有匹配对

(3) F-Measure值由查准率和查全率计算得到,综合反映了映射算法的效果:

F-Measure=(p(r(2)/(p+r)

3.3 实验结果与分析

为了验证改进的相似度传播算法的匹配效果,本文将使用Benchmarks测试用例集对其进行测试,并分析不同测试用例的匹配效果。本实验单独运行基于图结构的匹配算法,将Wordnet匹配器或字符串匹配器的输出作为图结构匹配器的输入。为取得较好的匹配效果,在挑选初始相似对时规定相似度大于某一阈值的相似对被设为种子,实验表明种子的质量会影响匹配效果,经验证阈值设为0.8时效果较好。实验结果将与采用传统SF算法和Falcon系统的GMO模块的计算结果做比较,来分析改进的SF算法的优劣性。由于测试用例102中的两个本体的是两个完全不同领域的本体,因此得不到结果。

针对实验结果,本文进行如下分析:

(1) 首先由实验结果计算Benchmarks测试用例集中各类测试用例的平均匹配结果,其中测试集中101~104包括相同的、语言泛化和约束特定的语言本体对;201~210保留了本体结构,但自然语言的信息被大大消弱,如用随机字符串替换实体名字等;221~247给出了本体结构变化的情况,如层次被扩展或去除;248~266中语言和结构信息同时被消减;301~304是实际的本体。三种匹配方法在本体信息完整的情况下,均能取得较好的效果,而对于结构信息变化或是缺失的情况,总体匹配效果都不理想。

(2)从结果中可以看出,在本体自然语言描述不足的情况下,GMO能取得较好的结果,而对于结构差异较大的两组本体,GMO匹配结果稍差。SF相似度的计算是简单地利用繁殖系数进行迭代,因此元素的相似度只由与它同边的相似对决定,而初始相似对是由字符串等预处理方法确定,因此在前三组测试集中的效果要比GMO略好。改进的SF,前两组的测试集实验结果的查准率和查全率方面比SF要好,但在后三组中效果相对较差,可见算法对语言和结构信息均发生变化的本体匹配效果还不佳,还需要其他匹配方法的辅助以提高精度。

4 结语

本体匹配为不同个人或团体对同一客体创建的本体异质性,为数据与服务集成障碍解决了问题。本文设计改进SF的相似度计算方法,根据结点在结构中的深度和密度情况,通过计算传播因子的方式,改进SF中繁殖系数计算相似度的方法,并给出本体匹配算法设计。通过实验数据验证本文提出的匹配算法的可行性和有效性,从而有效提高本体匹配的精确度。在后续研究中,还将对算法作如下改进和完善:进一步改进和完善相似度算法,以更好地计算本体间相似度,从而提高发现映射关系的准确率。结合多种策略,研究更深入、丰富的相似度计算问题。

摘要:设计了一种改进的基于结构特征的相似度计算方法,给出相应的本体匹配算法设计,并验证提出的匹配算法的可行性和有效性。应用改进的本体匹配算法实现异构本体的匹配,从而有效提高本体匹配的精确度,提高信息搜索的准确率。

车辆定位的地图匹配算法研究 第2篇

车载导航定位系统是智能交通系统的重要组成部分,其中地图匹配又是提高车辆定位精度的重要技术.从数字地图本身的属性特征出发,利用数字地图的`地面高程模型对现有的地图匹配算法进行改进,并通过实验数据对改进后的算法加以验证,其结果表明改进后的算法能够获得较高的定位精度和更可靠的匹配性能.

作 者:李娟 高山 LI Juan GAO Shan 作者单位:李娟,LI Juan(西南交通大学交通运输学院,四川,成都,610031)

高山,GAO Shan(西南交通大学土木工程学院,四川,成都,610031)

本体匹配算法 第3篇

本文以本体匹配为研究对象, 针对基于语言学特征的本体匹配算法进行分析和研究, 分别比较了三种不同的本体匹配算法:编辑距离、I-sub算法和基于WordNet的相关算法, 然后根据这三种算法的特点提出了一种综合性改进算法, 给出了新算法的设计模型, 并构建了一个本体匹配工具, 最后通过实验分析该算法的有效性。

1 基于语言学特征的本体匹配算法分析

1.1 通过编辑距离计算相似度

通过编辑距离计算两个字符串之间的相似度是一种很常用的本体匹配方法。字符串编辑距离表示的是两个字符串通过插入字符、删除字符、改写字符而变为相同字符串所需要的操作数。

在本体匹配中, 我们首先抽取两个待匹配本体中每一个实体对的直接描述信息, 通过计算这些描述信息之间的编辑距离来获得实体与实体之间的相似度, 计算公式如下:

其中SS (s1, s2) 表示两个字符串s1和s2之间的相似度;ed (s1, s2) 表示字符串s1和s2之间的编辑距离;s1.len和s2.len分别表示字符串s1和s2的长度。

1.2 I-Sub算法分析

I-sub算法主要依据概念的词形并抽取概念的语言学描述将其看成字符串, 通过比较字符串间的共性和差异, 得到概念的相似度。两个概念的相似度与他们的共同性以及他们的差异性同时相关。因此, 相似度是由这两个特征决定的函数, 相似度定义如下:

其中Comm (s1, s2) 表示字符串s1和s2的共同性, Diff (s1, s2) 表示它们的差异性, winkler (s1, s2) 表示采用温克勒[1]介绍的方法来改善结果。

共同性函数的计算取决于子字符串的比较。两个字符串的最大公共子串是可以计算的。这个过程是消除公共最大子字符串并反复搜索消除直到没有公共子字符串。这些公共子字符串的长度总和是由进行比较的字符串长度决定的。共同性是这样计算的:

Diff (s1, s2) 由初始匹配步骤中未能匹配的字符串长度决定。此外, 差异性在整体相似性计算中不起决定因素。选择Hamacher[2]的参数模型, 得到以下公式:

其中, p∈[0, ∞) , uLens1和u Lens2分别代表原始字符串s1和s2中未匹配成功的子字符串的长度, P为调节参数。

1.3 基于WordNet相似度计算

WordNet是Princeton大学在G.Miller教授的指导下, 由心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典[3]。它的独特之处在于它是依据基于心理学和语言学的词义而不是依据词形来组织词汇信息。

WordNet使用同义词集合 (Synset) 代表概念 (Concept) , 语义关系在概念之间体现。WordNet中存在着多种语义关系, 而is-a关系是WordNet中最重要的一种关系, 该文所研究的语义相似度算法都是基于这一种关系的。

同语义相似度一样, 语义距离也是语言学中经常提到的一个概念, 在基于WordNet这种外部资源的本体匹配中, 语义距离也是最容易让人想到的一个概念。计算出两个概念的语义距离后, 还需要利用特定的算法把语义距离转化为语义相似度。常见的语义距离转化为语义相似度的公式如下:

其中sim (C1, C2) 是语义相似度, a是可调参数。

利用WordNet[4]进行相似度计算方面形成了多种算法, 这些算法主要分为基于路径和基于信息内容两个方面。与本文研究相关的算法分别是与[5]和

1)

Resnik提出的共享信息含量法指出, 两个概念的相似性决定于它们共享信息的程度, 两个概念共享信息含量越大, 这两个概念越相似[6]。

Resnik的度量模型用以下公式度量C1和C2的相似性:

lso (C1, C2) 是概念C1和C2的最近的公共祖先节点。

根据信息论的基本论点:某个概念C的信息含量IC (C) 可以用关于p (C) 的单调递减函数-log p (C) 来表示即:

p (C) 是指概念C在整棵语义树出现的概率, 也就是C出现的统计次数与所有概念出现的统计次数总和之比, 即:

N为概念C在整棵语义树中出现的次数, 且语义树上任何一个“子类”出现的次数应该累加到其父类的出现次数中。

2)

利用Resnik所提出的信息量的概念, 同时也联合了基于路径的方法。该算法定义条件概率P (c|par (c) ) 的信息内容为概念C和父节点par (C) 之间的语义距离:

Jiang和Conrath认为概念C的实例出现就相当于父节点par (C) 的出现, 因此联合概率p (C) ⋂p (par (C) ) 等同于p (C) , 所以:

对于WordNet中的两个概念C1和C2, 语义距离就是这两个概念的最短路径上所有边的语义距离的和, 概念C1到最近的公共祖先节点lso (C1, C2) 的语义距离为:

同理, 概念C2到最近的公共祖先节点lso (C1, C2) 的语义距离为:

最后, 两个概念间的语义距离表示为:

2 基于语言学特征的本体匹配改进算法设计

2.1 改进算法的思路

本文提出了一种在编辑距离的基础上结合词形与外部资源WordNet词典的相似度算法, 打破了外部知识的局限性, 提高了单纯依赖编辑距离和词形计算相似度的准确率。

算法的基本思路如下:

1) 设定一个阈值, 通过编辑距离相似度对匹配的字符对进行筛选;

2) 假如不小于设定阈值, 则用I-Sub算法进行相似度计算, 并与 (1) 中的相似度进行加权综合;

3) 假如小于设定阈值, 则采用基于WordNet的算法进行相似度计算。

2.2 改进算法的设计

1) 计算两个概念字符串间基于的编辑距离的相似度, 假定为sim1。

2) 计算两个概念字符串间基于I-Sub算法的相似度, 假定为sim2。

3) 比较Sim1与给定相似度阈值α。

4) 假如Sim1不小于α, 则相似度计算公式为:

其中β为加权综合的调节参数。

5) 假如Sim1小于α, 则相似度采用基于WordNet的相似度算法:

其中dist (C1, C2) 为两个概念节点的语义距离, a为调节参数。

6) 算法的调节参数a采用两个节点的公共祖先节点lso (C1, C2) 的深度作为调节参数, 即上述公式可以转换为:

dist (C1, C2) 为两个概念节点的语义距离, 采用求概念的语义距离:

其中IC (C) 表示节点的信息内容。

7) 基于WordNet的相似度计算公式可以转化成如下公式:

综上所述, 改进算法中相似度的计算公式为:

3 改进的基于语言学特征的本体匹配算法实验验证

3.1 开发环境和平台

本系统采用的开发语言是Java[7]。选择了基于Java语言的开发包Jena[8]作为解析OWL文档的工具。本系统选择Eclipse[9]作为开发环境, Eclipse是开放源码的Java集成开发环境 (IDE) , 适用于各种客户机和Web应用。

3.2 匹配系统的总体设计

本体匹配主要总结为五个步骤:本体实例的提取、选择本体匹配的实体对、相似度计算、人工干预、匹配输出。匹配系统的基本流程如图1所示。

根据图1所给出的本体匹配的基本流程, 该文提出一个较完整的本体匹配系统, 系统整体架构如图2所示。

3.3 实验结果分析与评估

3.3.1 测试数据的选择

本文选用OAEI提供的标准测试结果的第一组测试数据集benchmark作为实验的测试数据。此数据集共包含50个有效本体, 采用OWLDL语言描述, 存储为RDF/XML格式文件。其中第一个本体#101为参考本体, 它包括33个命名概念, 24个对象属性, 40个数据类型属性、56个命名实例。其它的本体规模与该本体规模相当, 并且大部分为#101参考本体中某种本体特征缺失或改变后的变换形式。整个数据集被分为如下三组:

1) 简单测试 (Simple tests)

即本体数据集中的1XX部分。这一组数据中包含参考本体自身#101, 和#103、#104这两个#101的OWL Lite版本;

2) 系统性测试 (systematic tests)

这部分的数据即benchmark中的2xx部分。这一组数据所包含的本体都是通过删除或改变参考本体的某些本体特征得到的一组供测试使用的变体, 如通过随机字符串、同义词、同名异义词、非英文单词对本体内的概念名称和属性进行替换, 这么做的目的是测试在缺失某些本体信息的情况下系统的健壮性;

3) 现实中的本体 (bibliographic references)

即数据3xx部分。数据包括四个与参考本体相似度较大的现实本体, 表现出了benclllnark数据集的实用性, 同时也从一定程度上检测本文的算法是否适合现实本体。

3.3.2 实验结果分析

本次测试将与2007年参加OAEI国际本体映射测试比赛的部分算法Edna算法, 和典型的基于路径的[10]在查准率和查全率方面进行了比较, 其对比值由表3-1给出。其中, Enda为OEAI国际组织提供的仅通过计算字符串的编辑距离得到映射关系的算法, 与本文的新算法有很大的可比性;另外, 表1给出了新算法同其它两个算法在整体测试中的均值比较。其中, 用lxx、2xx、3xx分别表示代号为l、2、3开始的本体集合。Prec.表示查准率, Rec.表示查全率, F-M.表示F.Measure值;

在给定的测试集#101-304中, 经过多次实验测试, 与编辑距离的相似度比较的阈值设为0.85时, 效果最佳, 此时新系统的平均的查准率为82%, 平均的查全率为79%。从表1中可以看出, 该文所提出的算法所取得的匹配效果要远远高于单纯以编辑距离为相似度计算的Edna算法, 也要比基于WordNet路径的算法要高, 由此得出本文提出的算法对本体匹配来说有一定的积极意义。

图3按照数据集中本体的不同特征来分组, 每组本体的不同特征对不同算法的影响是不一样的。

#101-104:这组数据集比较简单, 匹配普遍很好, 本体101本身就是参考本体。

#201-210:名称和注释信息变化或者缺失, 效果普遍较差。

#221-247:结构发生变化的本体, 匹配效果有影响, 但比第二组稍好。

#248-266:既有标签、注释信息的缺失, 又包括结构的变体, 由于这部分数据集所包含的可用本体信息较少, 效果最不理想。

#301-304:现实本体, 有一定效果, 但不是很理想。

经过分析, 不难发现, 基于编辑距离的相似度计算方法Edna对本体匹配对词形要求非常高, 可以看出这种算法的适应性很差;而是WordNet的算法基于路径的一种, 进行相似度计算所考虑的影响相似度的因素有所欠缺, 因此最后的结果也比新算法稍差。通过本次实验也可以得出, 任何一种匹配算法总是有它的缺陷性而难以在匹配中面面俱到, 因此在实际应用中的匹配系统通常由多种不同类型 (元素级或结构级) 的匹配算法进行综合才有可能取得较好的匹配效果。

4 结束语

本文以基于语言学特征的相似度算法为研究对象, 分析了算法的基本思想, 然后提出了基于多种语言学特征的综合相似度算法, 给出了相应的本体匹配的算法设计。通过数据集benchmarks进行验证, 分别与相关的两种算法相比较并分析结果, 验证此综合算法在本体匹配方面的可行性与有效性。该文的不足之处在于将本体匹配局限于语言学特征这一方面, 没有对本体结构等方面作深入研究, 导致匹配方法的单一性, 影响了匹配的精度和广度, 下一步的工作要拓展思路, 将本体匹配方法扩展到本体的其它特性, 提高本体匹配的效率。

参考文献

[1]Winkler W.The state record linkage and current research problems[J].Technical report, Statistics of Income Division, Internal Reve nue Service Publication, 1999, 8 (10) :33-51.

[2]Hamacher H, Leberling H., Zimmermann H J.Sensitivity analysis in fuzzy linear programming[J].Fuzzy Sets and Systems, 1978 (1) :269-281.

[3]梁健, 吴丹.种子概念方法及其在基于文本的本体学习中的应用[J].图书情报工作, 2006, 50 (9) :18-21.

[4]Rahm E, Do H H, Masmann S.Matching Large XML Schemas[J].ACM SIGMOD Record, 2004, 33 (4) :26-31.

[5]PhiliP Resnik.Using information content to evaluate semantic similarity[C].In Proceedings of the 14th Intemational Joint Conferenceon Artificial Intelligence, 1995.

[6]Resnik P.Semantic similarity in a taxonomy:An information-based measure and its application to problems of ambiguity in naturallanguage[J].Journal of Artificial Intelligence Research, 1999 (11) :95.130.

[7]Bruce Eckel.Java编程思想[M].机械工业出版社, 2005.

[8]Jena 2 ontology API.http://jena.sourceforge.net/ontology/index.html.

[9]NetBeans:http://zh-cn.netbeans.org/.

本体匹配算法 第4篇

随着web服务应用的推广使得互联网上服务的数量激增, 使得如何快速准确地从在大量实现相同功能的服务中获取用户满意度较高的目标服务已经成为了一个急需解决的问题。

目前web服务的发现方法主要分为两类[1], 一类是基于UDDI的服务发现机制;另一类是基于语义的web服务发现。但是这两类方法没有考虑概念之间的同词异义或异词同义关系, 也没有量化概念间的匹配程度, 所以不能得到精确的匹配结果。

综上, 本文在现有的研究基础上提出一种基于本体的语义web服务混合匹配模式。首先给出了web服务和服务请求的语义描述模型, 再应用基于逻辑推理的服务匹配方法对众多的web服务进行筛选, 缩小下一阶段的计算空间, 然后应用基于相似度计算的web服务匹配方法对候选服务集进行匹配。最后通过实验证明该方法显著提高服务发现效果。

2 语义web服务描述模型

目前, 多数基于语义的服务发现方法都采用本体作为语义基础[2]。

本体是一个源于哲学的概念, 定义了类以及类之间的关系, 并具有一定的推理能力。

定义1 (本体模型) 本体模型定义为一个3元组, 记作O=, 简称本体。其中, T是术语集, T中的术语又被称为原子术语, 包括原子类术语C (简称原子类) 与原子属性术语P (简称原子属性) , 记为T=, 本体的属性按值域不同有两种类型--类属性和数值属性, 类属性表示类间的关系, 而数值属性表示类的属性;H为术语T的继承关系集, 包括类继承和属性继承, 即sub Class Of和sub Property Of;X为本体规则集, 或称本体约束集, 可以采用一阶谓词逻辑或者描述逻辑形式化地进行描述。

定义2语义web服务模型 (SWS) :语义web服务模型使用一个3元组表示, 记为SWS:=

其中, CP为服务公共属性;Func为服务功能性描述;QOS是服务质量。

定义3请求服务模型 (WSR) 是对一个web服务请求的描述, 它的定义与语义web服务模型基本一致, 不同之处是用QOS度量代替QOS描述。

3 匹配策略

服务匹配就是计算服务请求模型与服务描述模型的语义匹配程度。针对OWL-S/UDDI[3]等级匹配算法匹配等级划分粒太大, 分类关系过于简单的不足, 引入了相交 (intersection) 。

由定义4可知, 5类匹配的匹配程度由高到低的排序是:exact>plugln>subsumes>intersect>fail。若匹配类型为exact, 则匹配度为1;匹配类型为fail, 则匹配度为0, 其他匹配类型, 则需要调用相似度函数计算匹配度, 对同一等级内部的不同情况加以区分。

定义5相似度函数 (Sim () ) :本文在综合考虑多方面因素后, 采用两个概念在本体中的几何距离来计算概念的语义相似度。

其中, l1与l2分别表示概念C1和C2在本体树中的层次, Dis (CÁ, CÂ) 表示概念C1和C2之间的距离, 是一个可调节的参数, 经实验验证, 一般选择=0.65。

基于本体的语义web服务混合匹配模式是将基于逻辑推理的服务匹配方式和基于相似度计算的服务匹配二者结合起来, 提供更加全面的服务匹配。

具体算法描述如下。

4 仿真实验分析

为了验证文中研究的基于本体的语义web服务混合匹配模式的有效性, 我们用查全率与查准率作为度量的指标, 来评价其性能。

文中实验环境为:Pentium (R) 4 cpu 2.80GHz CUP, 1GB内存, 操作系统是Win Xp+sp2。仿真实验采用protégé4.0.2作为本体建模工具, CLISP作为推理机。由于目前没有标准的测试用例, 所以本文选择开源的本体库OWLS-TC V2作为测试用例。选取了其中200、500、1000、2000和5000个涉及教育、医疗、交通、经济等领域的服务, 对本文提出的方法进行了仿真性能测试, 并与文献[4]和文献[5]中的方法进行比较, 图1给出了查全率实验结果, 图2给出查准率实验结果。

实验结果显示, 本文方法的查全率与其他两种方法相当, 查准率比文献[5]方法略高, 但明显高于文献[4]中方法。

结束语

web服务的大量涌现对发现优质服务提出了挑战。本文在分析基于逻辑推理和基于相似度的服务匹配机制优缺点的基础上, 提出一种基于本体的语义web服务混合匹配模式, 该方法综合运用基于推理和基于相似度计算的匹配方法, 以提高算法准确率和对于复杂环境的适应性, 且节省了用户大量的查询响应时间。

参考文献

[1]杨胜文, 史美林.一种支持QoS约束的Web服务发现模型[J].计算机学报, 2005, 28 (4) :589-55.

[2]Syeda-Mahmood T, Shah G, Akkiraju T, Ivan A.searching service repositories by combining semantic and ontological matching[C].Proceedings of t he International Conference on Web Service.Orlando, Florida, USA, 2005:13-20.

[3]Keller U, Lara R, Polleres A.WSMO Web service discovery.Working draft, WSML Working Group, 2004.

[4]Paolucci M, Kawamura T, Payne TR.Semantic Matching of Web Services Capabilities[C].Proceedings of the 1st International Semantic Web Service.Las Vegas, Nevada, USA:[s.n.], 2003.

本体匹配算法 第5篇

近年来,老年人独立生活的需要推动了智能辅助的发展,智能家居是老年人生活辅助的重要方向[1]。目前关于活动识别方法已有很多研究,如采用Markov models ( HMMs) 和Dynamic Bayesian networks ( DBNs)[2]为用户活动建模,但是这种模型是静态的,且由于概率分配具有主观性,识别的结果不太客观。文献[3]中提出的传感器数据流的分析来进行活动识别,能够实时地处理传感器数据,但是这种方法需要大量的数据集合。文献[4,5]中,L Chen等人提出的一种知识驱动的活动识别方法是近几年兴起的一种高效识别技术,基于本体的活动识别法可以对ADLs领域的属性进行建模和推理,从而准确地识别用户的ADLs。但是研究缺乏明确的ADLs本体模型,而且主要是针对正常活动,没有涉及对异常活动的处理。同时许多研究将可穿戴传感器和加速器也应用于追踪用户的异常活动中[6,7],然而大部分的工作都是针对用户的正常活动进行识别,对于异常活动的识别普遍存在数据稀缺的问题。另外,目前大量的推理模式只是孤立地研究产生行为的人,而忽略了人所处的场景,因此大大降低了识别的准确性。

本文主要针对异常活动的识别进行研究,并结合智能空间中的场景感知技术来实现。结合本体推理,将推理得出的复杂活动与智能空间中的预定义的场景活动进行匹配,提出一种基于本体匹配的异常活动识别方法。通过创建以活动( ADL) 为核心的领域本体对用户的行为及智能家居( Smart Home) 进行建模,实现知识的共享和语义推理; 采用本体推理实现底层简单行为到高层复杂活动的识别,并在此基础上增加本体匹配模块进一步判断是否产生异常活动。

该方法明确地描述了智能家居中包含的基本概念,使得推理的过程更加合理。推理得到的高层复杂活动( ADLs) 可以存储到本体库中,通过与本体库中预定义的场景活动进行匹配,判断是否产生异常。本体匹配的异常活动识别方法是采用本体匹配中基于结构层匹配方法进行,通过计算语义之间的相似度,将匹配的结果存储到Deduced ADL中,匹配不成功的结果则为异常活动存储到Abnormal ADL中,并进一步对异常互动进行处理。最后通过设计异常活动识别原型系统( AARS) ,并用实例对该方法进行验证。实验表明,本文提出的基于本体匹配的异常活动识别方法能够有效地识别出用户的异常活动,与传统的基于传感器数据的异常活动识别方法比较,准确率得提高。

1 基于本体的智能家居情境建模

1. 1 基于本体的情境建模分析

针对本文提出的异常活动识别问题,对活动进行形式化的描述是关键。目前大量的推理模式只是孤立地研究产生行为的人,而忽略了人所处的场景,降低了推理的准确性。本文针对异常活动识别的研究结合了智能空间中的情境感知技术实现。首先采用本体对智能家居( Smart Home) 进行建模,Smart Home本体是以活动( ADL) 为核心的,包括场景( Scene) 、传感器( Sensor) 、用户( User) 及相关属性、实例等。通过本体化的情境建模,解决了异构数据之间的数据共享问题,同时本体是语义推理的基础,可用于领域知识的共享; 基于本体的领域建模,具有很强的形式化表达能力,是机器可理解的,支持共享和重用,并且具有可扩展性[8],对于本文构建的Smart Home本体,根据具体的需求,可对核心本体进行扩展,构建扩展本体并逐步进行实例化。

考虑到活动本体的合理性和通用性,本文考察了一般用户的日常活动,并参考多任务交互的场景对用户活动进行划分的方法[9],对活动信息进行分类,提出以下两种活动分类方式:

( 1) 按照活动信息产生的方式进行分类

a. 预定义的活动( Predefined ADL) : 预定义的活动是指事先计划安排好的或者按照用户的日常行为习惯记录下来的活动,这类活动信息相对稳定,用户可以进行预先配置,或者系统预先自动获取。预定义的活动主要由简单的行为( Action) 和复杂的场景活动( Activity) 构成。简单行为将按照活动的状态进一步分类。复杂的场景活动是根据具体场景划分,本文参照一般的家居环境,按照位置对场景进行分割,并进一步对场景中的活动进行分类。如厨房活动( Kithcen Activity) 、卧室活动( BedRoomActivity) 等,进一步对具体的场景活动进行划分,厨房活动( Kithcen Activity) 包括: 做饭( Cooking) 、做家务( House Work) 等,卧室活动( BedRoom Activity) 包括: 起床( Getting Up) 、看电视( Watching Tv) 等。活动的属性主要包括: 活动执行者( User) ,活动执行地点( Location) 、活动起始时间( Starting Time) 和活动终止时间( Terminal Time) 等。

b. 推理得出的复杂活动( Deduced ADL) : 这类活动信息是根据检测到的用户简单行为信息,场景信息以及预定义的活动推理得出。

( 2) 按照活动的状态进行分类

根据上述的预定义活动中简单行为( Action) ,按照活动状态分为静态活动( Static Action) 和动态活动( Dynamic Action) 。

a.静态活动(Static Action):蹲着(Squating)、坐着(Sitting)、站着(Standing)、躺着(Lying)、趴着(Bend Over)等;

b. 动态活动( Dynamic Action) : 蹲下( Squat Down) 、坐下( SitDown) 、躺下( Lie Down) 、趴下( Lay Down) 、坐起( Sit Up) 、站起( Stand Up) 、转身( Turn Back) 、翻身( Turn Over) 、行走( Walking) 、慢跑( Jogging) 、快跑( Running) 等。

目前有关活动识别的研究主要集中在正常的活动的研究中,但是在安全监控中对于异常活动的识别是最主要的任务。

( 3) 从智能辅助角度对推理得出的复杂活动进行分类

本文研究的关键在于异常活动的识别,主要是从安全监控和智能辅助的角度分析[10],将推理得出的复杂活动可以进一步划分为正常活动( Normal ADL) 和异常活动( Abnormal ADL) 。

a. 正常活动( Normal Activity) : 正常活动包括一系列的日常的行为活动,主要是指在正确的时间、地点、场合发生的活动;

b. 异常活动( Abnormal Activity) : 不属于日常行为活动范围内,与预定义的场景活动不匹配的活动。例如: 预定义的场景活动中厨房活动( Kithcen Activity) 可以包括简单行为( Action) : 站着( Standing) 、坐着( Sitting) 等; 复杂的活动( Activity) 包括: 做饭( Cooking) 、做家务( House Work) 、站在厨房( Standing In Kitchen)等。若推理产生的厨房活动为在厨房躺着( Lying In Kitchen) ,很明显与厨房活动不匹配,因此可以判断产生异常。

上述基本的行为和预定义的场景活动都可以存放到本体库中,用于持久性保存。结合简单活动信息与场景信息,可以推理得出复杂活动信息。在将复杂高层活动存储到本体库中,为了识别出是否产生异常活动,需要与预定义的场景活动进行匹配得到。因此本文提出一种基于本体匹配的异常活动识别方法,在将推理得出的复杂活动存储到Deduce ADL中时,与预定义的场景活动进行匹配,产生的匹配不成功的活动则作为异常活动存储到Abnormal ADL中,由系统进一步处理。

如图1 所示为以活动( ADL) 为核心的Smart Home本体模型,该模型可以通过Protégé 本体构建工具构建。

上述活动可以存放到本体库中,用于持久性保存。结合简单活动信息,可以推理得出复杂活动信息。在本体构建之前需要考虑现有的本体资源,一些权威机构发布的本体具有非常高的参考价值。本文在进行场景本体构建时借鉴了现存的智能空间本体Dog Ont[11]。

1. 2 基于本体推理的自定义规则创建

本文将活动的识别看成诱导性的推理任务,通过基于规则的推理方法得到高层复杂的活动信息。创建自定义规则为活动本体与其他的本体之间建立语义关系[12]。自定义的规则主要通过取出本体中相关的属性( 包括Object Property和Data Property) 来创建,然后将本体库中已有的知识同预定义的规则进行匹配,从而得出隐含的信息。

例如,用户是正在厨房,产生一系列厨房活动( 预定义的活动) : 做饭( Cooking) 、洗碗( Wash Dish) 等,动作行为可以包括静态的如: 蹲着( Squating) 、坐着( Sitting) 和站着( Standing) 等,动态行为包括: 蹲下( Squat Down) 、坐下( Sit Down) 、坐起( Sit Up) 、站起( Stand Up) 、转身( Turn Back) 、行走( Walking) 等。如果传感器检测到用户的状态是静态的( Static) 并且是躺下的( Lying) ,推理得出用户在厨房躺着( Lying In Kitchen) 。

创建的规则的描述如下:

@ prefix u: < http: / / http: / / www. semanticweb. org / ontologies /2014 /5 / User. owl# > .

@ prefix act: < http: / / http: / / www. semanticweb. org / ontologies /2014 /5 / Lying. owl# > .

@ prefix sce: < http: / / http: / / www. semanticweb. org / ontologies /2014 /5 / Kitchen. owl# > .

@ include < RDF > .

[rule1: ( ? user: has Activity ? b) ( ? b rdf: has State act: Lying) ( ( ?user: is Located In ? c) ( ? c rdf: has Type sce: Kitchen) →( ? user: has Pre Activity Kit Activity) ) →( ? user rdf: Lying In Kitchen) ]

上述规则表示推理得出用户在厨房躺着的状态( Lying InKitchen) ,将简单的静态行为: 躺着( Lying) 与在厨房( Locaed InKitchen) 作为推理条件,产生厨房活动( Kit Activity) ,从而获得隐含的知识,用户在厨房躺着( Lying In Kitchen) ,与厨房活动( Kithcen Activity) 中的简单行为和复杂高层活动都不匹配,因此产生了异常的活动。

采用本体推理的方法对智能空间中的用户的日常活动进行识别( ADL) 可以产生出新的知识,即高层复杂的活动,例如: 当传感器采集到John当前位于卧室内,室内的窗帘关着,灯光强度黑暗,则可以推断出John正在睡觉。本体的推理过程主要是使用由OWL语言本身定义的规则进行推理,如对称属性Symmetric Property,传递属性Transitive Property等,从而获得隐含在显式定义和声明中的知识。但基于本体推理的方法并不能有效地识别异常活动,为了解决这一问题,本文在此基础上提出一种基于本体匹配的方法对异常活动方法进行进一步识别。

2 基于本体匹配的异常活动识别方法

2. 1 本体匹配的基本概念

本体匹配的基本思想是发掘语义间的关系,匹配能够分析概念间的相似度和差异度,以预测它们之间的语义兼容性[13]。其中语义相似度是判断语义关系的重要标准[13,14]。本文采用本体匹配发掘语义间的相似度,在这个过程中找出不兼容的部分,以实现异常活动的识别。本体匹配涉及的概念较多,本文主要采用的是本体匹配的基本思想,并将其运用到异常活动识别中。下面对本体匹配的基本概念进行分析,采用基于结构层的匹配,将本体中的类和实例看作结构层的节点,本体中的属性和关系则作为结构层的边来分析。首先给出一些基本定义。

定义1 节点相似度Simt( m,n)

节点相似度是由构成2 个节点的联合概率分布得到:

其中∂为深度系数,表示在2 个概念之间的语义相似性,越接近顶层节点的相似性对总体相似性影响越大。

定义2 边相似度,公式如下:

定义3 本体概念的相似度是由所有节点的相似度及边的相似度加权组成,公式如下:

其中sime(ej1,ej2)则表示第j条边的相似性,simt(Cp,Cd)表示2个根节点之间的相似性,w(Ep,n)表示根节点的权值,w(Cp,j)表示给第j条边的权值,其中,从一个节点出发的各条边的权值和为1,即为递归计j算的下次入口节点。

本体匹配的基本流程分析如下,流程如图2所示。

算法1本体匹配算法

Step1

初始化匹配集合,定义源本体概念集合Cp及待匹配本体概念集合Cd,概念集合中的元素分别表示为Ep和Ed。

Step2

计算概念之间的相似度。计算Sim( Ep,Ed) ,分别计算节点的相似度以及边的相似度,节点表示本体中类、实例等,边则与本体中属性、关系等对应。

Step3

设定阈值TH。在完成所有概念层次树中深度为1 的概念相似度计算后,判断相似度是否大于阈值。若大于阈值,则选择相似度较大的进行匹配,得到最优匹配对MP( Cp,Cd,R,Me) ; 若小于阈值,则记录下未匹配概念的上层概念Cp - 1,计算源本体中上层元素与待匹配本体中元素之间的相似度,即Sim( Ep -1,Ed) ,进一步判断是否大于阈值。重复进行相似度计算。

Step4

将得到的匹配对MP( Cp,Cd,R,Me) 存入匹配集合( Deduced ADL) 中。匹配对中的Cp表示源本体中的概念,Cd表示待匹配本体中的概念,R表示两个概念之间的关系,本文主要考虑“相等”的关系,Me表示Cp与Cd之间的相似度。

Step5

判断是否匹配成功,即判断是否产生匹配对,若匹配成功则表示推理产生的活动在预定义的场景活动中存在,即正常活动; 若匹配不成功,则表示产生异常活动,系统将会对异常活动进行处理。

2. 2 基于本体匹配的异常活动识别方法

基于本体匹配的异常活动识别方法的流程如图3 所示。下面是对该算法的详细分析。

算法2 基于本体匹配的异常活动识别算法

Step1

预处理过程。首先对构建的本体进行预处理,消除异质性问题,包括不同的语言表示、建模方法与编辑工具。本文采用Protégé 进行Smart Home本体构建,Protégé 工具只能识别英文,在SHOnto本体构建时统一采用英文表示,因此不存在异质问题。

Step2

导入待匹配的ADL本体。通过本体推理后产生一系列的高层复杂活动( ADL) 。

Step3

抽取ADL中的元素及语境。将待匹配的ADL元素及与其相关的语境抽取用于计算相似度。

Step4

计算语义相似度。采用某种计算方法计算元素间的语义相似度,为了获得较为精准的匹配结果,而不考虑匹配效率,本文主要采用顺序匹配的方法来计算语义相似度。

Step5

匹配。将待匹配的元素及语义相似度作为输入,结合给定的阈值和权重,判定匹配元素间的映射关系。

Step6

匹配后得到相应的匹配集合,匹配集合存入到Deduced ADL中。按照匹配是否成功进一步将结果存入到Normal ADL和Abnormal ADL中。匹配成功则表示是正常的活动,匹配不成功则表示发生异常,需要对异常活动作进一步处理,通知家人等。

2. 3 基于本体匹配的异常活动识别方法分析

本文提出的基于本体匹配的异常活动识别方法,是在基于本体推理的基础上实现的。首先构建的以活动为核心的领域本体,并采用本体推理的方式实现了从简单的用户行为活动推理得到的高层复杂的活动( ADL) ; 然后在将推理得到的结果存入到本体库中时,采用本体匹配的方法,将推理得出的活动( Deduced ADL) 与预定义的场景活动( Predefined ADL) 进行匹配,计算它们之间的相似度,得出匹配集合,其中将不兼容的部分( 匹配不成功的概念) 视为异常活动。最后,系统通过得出的异常活动,提供相应的服务措施。根据所描述的本体匹配算法可以看出,在本体匹配的过程中采用的加权方式能够减小不相似部分对相似度的影响。同时将待匹配本体中未匹配的概念记录下来并与源本体中上一层概念进行匹配,解决概念之间的粒度划分不一致的问题,同时确保不会产生漏配,使得匹配的结果更加准确,因此识别出的异常活动也更加准确。

3 实验及分析

3. 1 异常活动识别系统框架( AARS)

如图4 描述了异常活动识别系统( AARS) 的架构图,为本文提出的异常活动识别方法提供了一种解决方案。从整体来看主要分为4 个模块: 数据采集模块、情境融合模块、ADL模式监控模块和服务模块。用户在场景中所处的位置信息可以用红外传感器系统获取,简单行为可以通过惯性传感器模块获取,高层复杂的场景活动则通过本体推理得到。将数据采集模块产生的数据提交到情境融合模块,采用映射方法进行信息融合处理。将融合后的信息存入到本体库中,通过一系列自定义的规则进行推理,从而得到当前用户正在执行的ADL。采用本文提出的本体匹配的方法将推理得出的活动与预定义的场景活动进行匹配,从而得出异常活动。本文提出的以活动为核心的SmartHome本体通过Protégé 工具创建,Smart Home本体涵盖了场景、活动、传感器、用户等实体、属性及其相应的关系。系统推理模块的实现采用Jena推理机[15]。Jena是一个为构建语义网应用程序的Java框架,提供了可对OWL编程化的环境,同时提供了基于规则的推理引擎。服务模块主要通过分析异常活动为用户提供相应的服务。例如通知家人可以及时提供帮助。

3. 2 实验方案

本文系统方案部署在智能空间实验室中,在实验者身上绑12 个电子标签,用标签位置坐标表示用户位置,标签分别贴在肘部、手腕、臀部、膝盖和脚踝,采样频率为60 Hz,通过动作捕捉系统获取标签的坐标,6 个RFID射频识别传感器嵌在墙上和用户身上贴上标签组合捕捉用户的动作。智能空间中的家用电器等设备也部署传感器。系统运行在Intel( R) Core( TM) i5-3210M CPU 2. 5 GHz Duo处理器的宿主计算机上,系统内存为6. 00 GB,硬盘容量800 GB。数据有0. 8 mm的标准噪声偏差。每一个对象传感器标签的位置都被记录在一个Session中,Session持续3 ~5 s。另外通过惯性传感器系统捕捉用户的简单行为,分别记录10 个标签的加速度数据: 上臂和下臂,大腿和脚踝、胸部和腰部,样本为100 Hz,通过蓝牙将数据发送到计算机中。

实验采用实例来验证本文提出的异常活动识别方法的可行性和有效性。以活动为核心的Smart Home本体采用Protégé 工具创建。如图5 所示是由Protégé 工具创建的Smart Home本体的Onto Graf图,详细描述了Smart Home本体中包含的活动( ADL) 、传感器( Sensor) 、用户( User) ,以及对应的子类与实例,如活动( ADL) 的子类复杂活动( Activity) 和简单行为( Action) ,简单行为( Action) 中的静态行为( Static Action) 的实例躺着( Lying) 、站着( Standing) 等。

用户在智能空间中执行以下五组动作,即在客厅看电视( watching TVIn LivingRoom) ,躺在厨房( Lying In Kitchen) ,客厅行走( Walking In LivingRoom) ,躺在床上( Lying On Bed) ,做饭( Cooking) ,如表1 所示对用户执行的动作和结合本体创建的自定义规则进行了详细的描述。

表2 是对推理活动匹配结果分析。针对上述用户执行的活动,将推理得出的结果与预定义的场景活动进行匹配,匹配分析如下: Me表示推理得出的活动与预定义的场景活动之间的相似度,R表示两者之间的关系,很明显可以看出,匹配的准确度较高,且得出的关键结论是Lying In Kitchen与厨房场景不匹配。

3. 3 实验结果分析

为了评估和验证本文提出的方法的正确性和可行性,本文采用准确率和误报率对实验结果进行评价。准确率( Accuracy) ,用于衡量该方法的正确性,即该算法可以返回的正确匹配结果的能力。误报率( False Alarm) 表示产生异常活动,但系统未检测出。准确率和误报率的公式如下: TP表示识别成功的异常活动数,TN表示识别不成功的异常活动数,FP表示误报的异常活动数,FN表示漏报的异常活动数。

准确率( Accuracy,% ) = 系统正确推理出的活动数/用户执行的活动次数( 总的执行次数) = ( TP + TN) /( TP + FP +TN + FN) 。

误报率( False Alarm,% ) = 误报的异常活动/用户执行的活动数= FP/( FP + TP) 。

实验选取多个用户执行表1 中列出的5 组活动,采用本文提出的方法进行识别。识别结果如表3 所示,根据识别结果可知,本文提出的方法能够有效地识别出用户执行的活动,且准确率较高。

另外,本文将提出的基于本体匹配的异常活动识别方法与文献[7]的基于传感器数据的异常活动识别方法进行比较,主要对两种方法的其准确率和误报率进行了测试。实验结果如图6 所示。

如图6 所示。横坐标表示异常活动识别误报率( False Alarm) ,纵坐标表示异常活动识别准确率( Accuracy) 。由实验结果可以看出,本文提出方法明显优于传统基于数据的异常活动识别方法。针对本文提出的几组活动进识别,从误报率可以看出,文献[7]提出的基于传感器数据的异常活动识别方法的误报率不断上升,且准确率也较低; 而本文提出的方法误报率基本趋于稳定,同时准确率也较高。因此针对异常活动的识别问题,本文提出的方法相对传统的基于传感器数据具有一定的优势。

4 结语

本体匹配算法范文

本体匹配算法范文(精选5篇)本体匹配算法 第1篇Web应用已深刻影响到人类社会生活的各个方面。语义Web是当前Web的一种扩展,是很多智能应用...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部