语义模型范文
语义模型范文(精选9篇)
语义模型 第1篇
1. 共同表征理论
表征是指信息在头脑中的存在方式。由于语言有形式和意义之分, 因此语言的表征也可分为形式表征和意义表征两个部分[2]。共同表征理论认为, 两种语言的形式分别存贮在不同的表征系统, 但拥有共同的语义表征系统。双语者从两个语言渠道获得的语言信息各有其进行信息编码、句法和词汇分析, 以及信息输出组织的单独系统, 二者彼此联系, 可以互相转译, 但两个通道的语言信息有共同的意义表征, 共储存于一个单一的语义系统中[3]。针对共同表征理论, 学者们提出了不同的理论模型。
1.1 层级模型。
20世纪80年代, Potter等人提出了双语词汇表征的层级模型。这一模型包括单词联想模型 (word association model) 和概念中介模型 (concept mediation model) 两个假设模型[4]。单词联想模型 (图1) 认为两种语言的语义表征是共享的, 形式表征是独立的。第一语言 (L1) 的词汇直接与概念相联系, 第二语言 (L2) 的词汇与共享的概念表征没有直接联系, 只能借助L1的词汇间接地与概念发生联系。在进行跨语言加工时, 两种语言不必通过概念中介, 而可以通过词汇通路直接转换。概念中介模型 (图2) 认为两种语言相应的单词没有直接联系, 而是各自与概念表征有直接联系。在进行跨语言加工时, 两种语言直接通过概念表征进行转换。
1.2 修正的层级模型。
Kroll&Stewart综合了单词联想模型和概念中介模型, 提出了修正的层级模型。该模型主要解释了随着第二语言熟练程度的提高, 双语者词汇表征的发展性变化[5]。修正的层级模型 (图3) 认为, 两种语言既在词汇层直接联系, 又同时和概念层直接联系, 但各联系之间的强度不同, 会随着双语者L2的熟练程度和L1相对L2的相对优势而变化。对于第二语言习得早期的双语者来说, 由于双语者首先获得L2新词的翻译词, 因此从L2到L1方向的词汇联系强于L1到L2方向的词汇联结。L1的词汇与概念之间的联系早在学习L2前已建立, 因此L1的词汇与概念之间的联系要强于L2的词汇与概念之间的联系。但随着双语者L2熟练程度的提高, L2也获得词汇与概念之间的直接联系, 而且与L1的词汇联系仍然被保留。由于该模型认为双语表征的特点是不对称性的, 因此被称为非对称模型 (the asymmetry model) 。
Kroll采用词语翻译和图片命名的方法做了大量的实验。结果发现, 非熟练的双语者两种语言形式的转化主要经过词汇联结的途径, 熟练的双语者。两种语言形式的转化主要经过概念的中介。Kroll等人还发现, 无论是熟练的双语者还是非熟练的双语者, 在翻译作业中, 从L2翻译到L1的速度总是快于从L1翻译到L2的速度, 非熟练的双语者更是如此[6]。我国学者莫雷、李利等人分别以熟练和非熟练中的英双语者作为被试者, 实验结果也支持了双语表征的修正的分层模型[7,8]。
2. 独立表征理论
独立表征理论认为, 双语者的两种语言既有独立的形式表征系统, 又有各自独立的语义表征系统。两个语言通道获得的信息各有其进行加工和存储的单独系统, 不仅信息编码、语法分析等是分开进行的, 各有自己的语义表征和存储, 即存在两个语义记忆系统或记忆库;两个语言的记忆库的联系通过两个语言之间的转译来实现[9]。
Kolers最早使用词汇联想实验来考察双语表征问题, 他以德语、西班牙语和泰国语为母语, 以英语为第二语言的三组双语者作为被试者, 分别进行词的自由联想实验。他认为如果在两种语言条件下联想词具有显著的一致性, 那么两种语言被表征在共同的语义系统中;如果一致性不显著, 那么两种语言则被表征在不同的语言系统中。结果实验发现, 只有总平均20%的跨语言联想有一致性, 因此, Kolers得出一个肯定的结论:不同的经验和记忆是分别被表征在不同的语言系统中, 是独立存储的[10]。但Papaioannou和Padilla (1982) 以21个英语希腊语双语者作为被试者, 进行有语境约束的词汇联想实验, 结果证明两种语言被表征在一个共同的语言系统[11]中。
3. 混合表征理论
为调和共同表征理论和独立表征理论的分歧, 20世纪90年代后, 有学者提出了一种折中的理论观点:混合表征理论。
混合表征理论认为两种语言的语义一部分是共同表征, 一部分是独立表征的。两种语言在形式层上是各自独立表征的, 语义表征则依赖一定的条件而变化。其中一个重要的条件就是一种语言的词汇及其翻译词的语义的重叠程度。如果两者语义重叠程度很高, 那么它们是共同存贮的, 否则是单独存贮的[12]。DeGroot等人提出的分布式概念特征模型 (图4) 支持了混合表征理论。这一模型认为双语者的每一种语言中的单词激活的概念表征是分布的, 概念表征由一系列概念节点组成。不同类型的翻译词对共有的概念节点不同。例如, 具体词是用来指称客观现实中一定客体的, 其语义比较明确, 具体词及其翻译词的语义重叠程度很高, 因此, 具体词是共同存贮的。抽象词没有明确的外部所指对象, 其语义的确定常常依赖其出现的语境。抽象词及其翻译词的语义重叠程度不高, 因此, 它们是单独存贮的。在分布式概念特征模型中, 概念重叠式跨语言共享概念的基础。
4. 影响双语语义表征研究结果的因素
双语语义表征在经过半个多世纪的研究中, 由于问题本身的复杂性和个体构建的多样性, 学者们虽然对其进行了大量的实验研究, 但目前对于双语表征的方式仍然没有达成共识。
4.1 实验任务。
不同的实验任务可能导致不同的实验结果。例如在跨语言启动的实验中, 一些研究者采用词汇判断的任务, 在此任务中人为地安排了真词和假词, 被试在判断真假词时可能更多地依赖正字法和语音等知识进行判断, 而不是通过语义, 因此实验结论更倾向于独立表征理论;另一些研究者采用范畴判断的任务, 被试者被要求判断一个词是否属于一个语义范畴, 则会更多地进行语义加工, 因此实验结论更倾向与共同表征理论。
Durgunoglu和Roediger也曾呼吁, 对于回答双语者两种语言是如何表征的这一问题, 要考虑实验任务加工的要求, 区分实验任务所要考察的加工过程是数据驱动加工还是概念驱动加工。他们在研究中进行了自由回忆实验和词干补全实验, 结果表明, 运用像自由回忆的概念驱动任务, 能够支持两种语言共享一个表征系统的假设;运用像词干补全的数据驱动任务, 则会支持两种语言独立表征的假设[13]。
另外, 大部分的实验都是以双语词汇单元为实验材料的, 这就不可避免地导致某些实验的矛盾结论。因为单语条件下有些词汇离开了一定的语境其语言将是模糊不清的, 所以, 词汇之间是否存在启动关系在很大程度上将取决于研究者的主观判断[14]。而且词汇单元的词频、形态构成和长度、语义相关度、启动词与目标词的间距 (SOA) 等词汇特点都会影响实验结果[15]。
4.2 双语者的类型。
根据双语者获得L2的相对时间, 双语者可划分为早期双语者 (early bilingual) 和晚期双语者 (late bilingual) ;根据双语者获得L2的熟练程度, 双语者又可划分为熟练双语者和非熟练双语者[16]。
年龄是影响母语获得的一个重要因素, 它在L2的学习中起着重要的作用。早期的行为实验, 如Genesee采用的双耳分听技术、Vaid采用的Stroop测验和Hynd等采用的敲指法观察早期双语者和晚期双语者的语言处理过程, 结果大部分实验证实这样一个假设:L2开始的越早, 双语者的大脑分工结构就越接近单语使用者;L2开始的越晚, 大脑分工结构就越不同于单语使用者[17]。也有部分研究者提出二语习得年龄不影响双语者两种语言表征的神经皮层。如Chee等人使用FMRI技术进行研究, 结果表明, 早期双语者和晚期双语者两种语言在大脑皮层的宏观表征区是相同的[18]。近期Cheryl等人同样运用FMRI技术, 结果也支持了二语习得年龄不影响双语者两种语言表征的神经皮层的结论[13]。
大量的实验研究表明, 熟练双语者和非熟练双语者的语义表征方式可能是不一样的。正如双语表征的修正层级模型所假设的, 双语者两种语言的表征会随着熟练程度的变化而变化, 也有研究认为L2的关键期会影响两种语言在大脑的表征[19]。
5. 结语
双语者的两种语言究竟是共同表征的还是独立表征的, 尽管研究者们对此已经进行了大量的研究, 但是不同的研究得到的结论总是互相矛盾的。再用相同的实验方法研究相同的问题已经很难再取得突破性的进展。这就要求我们主动剖析影响实验结果的种种因素, 将实验任务和双语者的类型等诸多因素结合起来考查双语者的语义表征, 并且把双语语义表征看作一个动态的加工过程对双语者的语义表征进行进一步的研究。
摘要:从20世纪六七十年代到今天, 研究者们针对双语语义表征问题进行了大量的研究, 积累了丰富的成果。本文介绍了目前关于双语表征的几种理论模型, 并提出了在今后的研究中应该注意的一些影响因素。
语义模型 第2篇
10m级分辨率卫星影像道路语义模型研究
道路模型是遥感影像自动/半自动道路提取中重点研究的内容.本文首先介绍了传统的影像道路模型并指出其中不足,从语义的角度阐述了建立道路语义模型的`必要性,概述了10m级分辨率卫星遥感影像道路的表现特征,分析了遥感影像道路提取涉及的各层次语义信息,建立了面向10m级分辨率卫星遥感影像的道路语义模型,详细阐述了语义模型的实现过程.将语义模型应用于笔者开发的遥感影像道路提取系统,通过新疆阿图什Spot5多光谱遥感影像道路提取试验,验证了道路语义模型的有效合理性.
作 者:王林 秦其明 WANG Lin QIN Qi-ming 作者单位:王林,WANG Lin(中国交通通信中心,北京,100011)秦其明,QIN Qi-ming(北京大学遥感与地理信息系统研究所,北京,100087)
刊 名:测绘科学 ISTIC PKU英文刊名:SCIENCE OF SURVEYING AND MAPPING 年,卷(期): 34(3) 分类号:P236 关键词:卫星影像 道路提取 语义模型语义模型 第3篇
关键词:IDEAS 语法 语义 UML
中图分类号:TP39 文献标识码:A 文章编号:1007—3973(2012)009—093—02
1 国际国防企业体系结构规范简介
国际国防企业体系结构规范(International Defence Enterprise Architecture Specification,IDEAS)的目标是为军事企业体系结构开发一个数据交换格式,以允许采用不同框架的组织之间无缝地、与建模工具无关地共享体系结构。用于交换的基本范畴是支持联合作战计划所需要的体系结构数据。
目前,澳大利亚、加拿大、瑞典、英国和美国国防部联合组成IDEAS小组,开发支持企业体系结构交换和共享的IDEAS基础模型。这个模型是IDEAS基础,其目的是提供一个基础框架来表示企业体系结构常用的概念,可以根据需要来拓展。当前,它已经被用作美国国防部体系结构框架2.0版数据元模型的依据。
2 IDEAS语法分析
语法由词法和句法构成,是符号与符号之间的形式关系。IDEAS基础模型基于统一建模语言(Unified Modeling Language,UML)构建,以UML配置文件(profile)的方式进行使用。它规定了基础类型,而这些基础类型定义了配置文件的构造型,使用时可在工具箱内调用,图元素的大小与其重要程度无关。
语法符号相关的构造型通过不同着色编码UML类定义,其中:可知事物place1与a的关系就是<
4 结语
据本文分析可见,IDEAS基础模型在UML基础上的定义提供了规范的语法,具备有严谨数学意义的语义。一方面获得了UML图形语法理解直观的优点,另一方面严谨的形式化定义保证了理解的无二义性。
参考文献:
[1] 吕翔,姜志平,罗爱民,罗雪山.C4ISR体系结构设计与分析的研究现状及其存在的问题[J].重庆邮电大学学报(自然科学版),2008,20(4):495—499.
[2] 高珊,朱晓刚,田爱景.关于信息的语法、语义、语用以及“全信息”──兼评《信息科学原理》(第三版)[J].医学信息,2006,19(12):2065—2068.
基于语义的逻辑模型优化研究 第4篇
逻辑模型在许多方面都是一个很有用的工具[1]。因为它们有图示说明的特性, 所以可以用系统思想和计划以更好地描述项目。它可以为结果管理提供框架基础, 为公共支出绩效管理的多目标管理和设计绩效评价指标提供一般思路。在逻辑模型里, 随着计划的实施, 可以调整方法和改变进程。进行的评估评论和修正可以产生更好的项目设计以及通过开发式实施, 系统地监控, 管理和报告项目产效。但是, 随着专业业务的关注焦点在不断深入和拓展, 现有的专业业务流程也在不断地调整;各领域信息队伍素质的不断提高, 不断有新的技术和信息化思路出现;即用户的需求发生了变化。为了进一步提高数据库应用系统的性能, 根据应用需求适当地修改、调整数据模型的结构, 就是逻辑数据模型的优化。然而, 相应地应用开发等都是基于逻辑数据模型的, 一旦数据模型发生变化, 应用系统中的相关部分就必须重写, 给系统维护带来了巨大的困难[2]。因此, 本文提出基于语义的逻辑模型优化的研究。在不改变模型结构的基础上, 从语义描述的角度, 采用扩展参照实体的标准值方式, 通过语义约束来更好地响应企业的业务变化需求;从而有效地保证模型的实用性、稳定性和可持续性。
1 相关研究
在信息化建设快速发展的过程中, 不同业务数据管理系统虽然能够满足业务数据存储和管理要求, 但在许多情况下, 这些管理系统已经开始制约企业的数据共享, 不能满足信息、数据高度一致共享的需要。因此屏蔽各种异构数据源间的差异, 使得可以统一地表示、存储和管理各种异构数据。目前, 模型优化的方式主要有:分布式多层异构数据库信息共享结构模型, 即在模型中将数据库的访问集成到中间插件中, 构建跨平台、可扩展的、可移植的、可管理的分布式异构系统;采用基于构件以及构件库的更大程度的复用;采用通过连接子的方式将现有的构件库的构件无缝地连接成一个大的应用系统, 以解决系统的通信及交互性、安全性、扩展性问题[3]。另外的方法是将工作流技术的简单应用深入到业务流程的性能与效率的研究, 即建立工作流模型。通过加权有向无环图的节点、弧和权重映射为工作流模型中的事件、运行过程和付出代价。针对工作流中出现频率最高的顺序运行方式, 提出优化策略[5], 用以提高实际业务流程性能和效率。以上优化方法主要是针对系统异构, 而由于异构数据之间语义表达和匹配的复杂性产生的语义异构问题并没有得到解决。
本文从语义约束的角度, 在不改变模型结构的基础上, 优化模型。
2 基于语义的数据模型优化
2.1 基于语义的模型优化方法
2.1.1 模型优化指标
(1) 数据收集, 统计分类实体的总度
这里将数据模型看成一个复杂网络模型, 在已知网络结构特征及其形成规律的基础上, 通过量化的统计与分析, 确定需要扩展的信息。度是复杂网络中最简单也最重要的节点属性, 从分类实体的出度入度, 耦合度入手, 来分析确立优化指标的度量, 如表1所示。
(2) 优化策略
在不破坏原本模型结构的前提下, 使付出代价之和即权重和值尽可能小。分析出使用频率最高且最便捷的路径, 对它的优化可以显著提高使用效率。
1) 合并优化。针对实例出现频率较高的实体, 根据实体的语义约束统计出实体、分类实体以及实例同时出现的次数。若实例同属于一个类型, 可以将这部分实例合并成一个分类实体的子实体。
2) 数据模型语义描述中, 将描述节点过大的分解成较小的节点的集合。部分实体下的分类实体约束在多个实体约束中出现, 出现的频率较高, 可以把这类分类实体单独分解出来作为一个独立的个体。这样把重复的描述减到最少, 减少模型的物理空间;保证数据模型语义描述的一致性。即纵向分析, 可以去掉相应的实体间的传递依赖。
3) 结合语义树深度, 分析节点间的关联关系。针对使用频率比较低的实体属性并且与别的实体属性之间没有关联, 不常用的只是充当传递功能的节点, 即删除总度比较低的节点。
2.1.2 模型扩展原则
(1) 具有可实现性
可实现性一方面指技术上可行, 另一方面主要是保持与现有技术的一致性。模型扩展后, 模型投影方法、数据元字典、业务单元模型等技术不需要做新的工作。特点是数据元字典, 在模型扩展后必然会对数据元映射产生影响, 因此需要提供专门的工具, 自动更新数据元字典的映射内容, 保持映射与模型的一致性。
(2) 保持进一步的可扩展性
每次模型扩展不是模型优化的终点, 而是一个未来若干次优化中的一步。原先的逻辑模型具有较好的可扩展性, 是下一次扩展的基础。每次扩展都要保持这种可扩展性, 以适应将来新的需求和技术的发展。
2.1.3 模型扩展内容
从业务模型, 数据元映射内容出发来梳理需要扩展的实体, 为下一步实现模型的扩展作铺垫。从业务模型中获取“对象”实体。活动描述中的操作者、活动地点、操作对象都是描述的一类对象, 可作为对象实体的来源。由数据模型的可扩展机制可以知道, 数据元的映射表达了大量的可扩展实体的需求。
2.2 基于语义的模型优化的实现
Express语言是一种机器可读的, 面向对象语言。用Express语言, 可以使各个模型的信息能够通过计算机进行识别、存取和传递, 便于各个模型间的计算机集成;以及便于模型里各个业务领域之间的信息集成。因此本文采用类Express语言描述对逻辑模型的增量式修改, 即完善实体属性的语义描述。
2.2.1 增加新实体
2.2.2 删除实体
DROPENTITY实体名
相应地, 对该实体的引用均要删除;
2.2.3 修改实体
2.2.4 修改实体名
RENAMEENTITY旧实体名AS新实体名;
2.2.5 增加标准实例值
2.2.6 删除标准实例值
DELETE实体名WHERE查询条件;
2.2.7 修改标准实例值
UPDATE实体名SET属性名=属性值, 属性名=属性值WHERE查询条件
如果属性值列表中有对其它实例的引用, 采用格式:
实体名 (where条件) 。
2.2.8 实体转换为元数据
即将实体表示法转换为元数据表示法。
CONVERTENTITY实体名INTO引用实体名.属性名 (属性列表) VALUES (值列表) ;
2.2.9 元数据转换为实体
即将元数据表示法转换为实体表示法。
2.2.1 0 定义扩展组
CHANGE主题名
(1) 到 (10) 中的内容
END_CHANGE;
3 数据模型优化质量评价
逻辑数据模型是对需求分析内容的描述, 其质量对信息系同统开发项目的质量保证工作具有重要的作用[4]。因此, 优化后的模型质量评估必须涵盖以下几个部分。
3.1 模型的效率
优化之后的模型跟原模型比较, 实体间的关联关系, 层次关系应该更简洁明了。例如:实体A的属性b指向实体B, 扩展实体A 1是实体A的子类, 扩展实体B 1是实体B的子类。按照继承关系, A 1.b仍指向实体B, 且A 1.b可指向实体B的任何一个子类。扩展后, A 1.b只指向B 1, 不指向B的其它的子类。这时, 可用self方法直接将A 1.b指向B 1, 这样关系指向更明确详细。关联关系重载如图1所示。
3.2 模型的正确性检验
语义描述跟数据元映射字典中的约束间的相互转换过程就是一个质量检查的过程, 如果从约束向语义描述逆向转换, 结果回不到源实体, 这就说明模型修改有错误。下面以POSC数据元映射字典中的一个语义描述为例。
转换方法:基于XML的数据元语义描述如下。
可以把XML中的一个Item看做一张表。数据元的语义树中包括数据元映射字典中的表名 (tablename) 、数据元名 (dataname) 、源实体 (SOURCEENTITY) , 核心实体 (COREENTITY) , 映射路径 (mappingpath) 、约束 (constrain) 。语义树的根“data value”即数据元字典中的映射路径的值。
根有唯一的一个孩子结点“WELL TEST TRACE”, 这就对应数据元映射字典中的源实体 (SOURCEENTITY) ;唯一的孩子结点加上根节点形成了映射路径 (mappingpath) :SPE WELL TEST TRACE.data value。
语义树中的路径对应到数据元映射字典中的约束的每条路径。如:语义树中结点data value到结点identifier的路径, 对应的约束路径为:
抽油机井测功图;。
形成路径的方法如下:首先遍历源实体的所有孩子结点。当节点不含有属性“detail“时, 那么此节点的父节点的名字和该实体的名字相同即此节点在这种引用关系中的角色名和此节点的实体名相同, 约束形式表示为activity[SPE ACTIVITY];当节点中含有属性“detail“时, 此节点和它的子节点之间就存在引用关系, 那么两节点之间的关系role为R, 属性detail表示子节点在这种引用关系中的角色, 约束形式表示为kind[SPE ACTIVITY CLASS]。约束路径分为两种, 一种是指向实例的通常是节点IDENTIFIER标示, 另外一种是指向被引用的实体。当遍历到没有孩子结点, 且节点名为“identifier”时, 就形成一个指向实例的约束路径, identifier的innertext在约束里表示为identifier=抽油机井测功图;当遍历到无孩子结点并且节点名不为“identifier”时, 形成当前节点与被引用节点的一个关联关系路径。
当遍历完整个Item, 一个完整的实体约束的转换就算完成。
3.3 模型的可扩展性
每次优化都要保持可扩展性, 以适应将来新的需求和技术的发展。
4 结束语
本文从语义描述的角度出发, 在不改变逻辑模型结构的基础上, 采用扩展参照实体的标准值方式, 优化逻辑模型, 使得模型信息更加精准, 从而提高模型的使用效率, 同时给出了模型的评估方法来验证优化后模型的质量。但从方法原理上讲, 不同的优化方法是从不同的角度来探讨同一问题的, 所以每个方法都有自己的优点和缺点, 本文是从语义的角度考虑, 因此从严格意义上讲, 还不能全面地概括整个模型的结构特性, 只能是一种相对结果。
参考文献
[1]程晓龙.逻辑模型及其在绩效管理中的作用.卫生软科学, 2007; (02) :124—126
[2]张宋传, 陈瑞典.面向数据模型优化的系统自适应方案.福州大学学报 (自然科学版) , 2004;32 (21) :80—82
[3]吕晓华, 段江娇, 薛永生, 等.基于CORBA的分布式异构数据模型优化研究.厦门大学学报 (自然科学版) , 2004;43 (05) :609—613
[4]文俊浩, 秦佳, 赵瑞锋.基于WDAG的工作流模型优化分析.计算机工程, 2010;136 (1) :30—32
时空语义模型的方法论意义 第5篇
一时空理论语义模型的提出
当代时空实在论的中心问题并没有改变, 仍然是从17世纪莱布尼兹-克拉克论战开始的实体论和关系论之间的争论。20世纪60-80年代, 时空问题盛极一时, 成为当时的哲学杂志和博士论文的热门论题之一, 但是热烈的讨论背后却存在着一种混乱。实体论和关系论的争论无疑触及了物理学、形而上学和科学认识论的某些最基本的内核, 但是这个问题的纠缠不休让一部分哲学家感到绝望。因为, 时空实在论的复兴是建立在对广义相对论进行解读的基础之上的, 但解读的目的却是要断定时空到底是一种什么样的实在这样一个形而上学的问题, 认识论和形而上学之间的鸿沟注定人们对时空的本质无法得到一致的意见, 最终甚至连争论的目标都产生了争议。形而上学和认识论的问题得不到解决, 实体论和关系论之间的争论就不可能得到解决, 因此, 他们似乎走入了一个看不到结局的死胡同。
在这种情况下, 一些哲学家比如迈克尔弗里德曼 (Michael Friedman) 、约翰厄尔曼 (John Earman) 等人意识到, 要想在时空争论中找到一条统一的路子, 就必须在方法论上有所创新。他们敏锐地看到, 如果能找到一个使实体论和关系论的争论进步的方法, 在这个问题上就可能有重要的突破。这促使了时空语义模型的提出。
1983年, 弗里德曼首次开始构造一种一致的“时空理论”, 开创了使用时空理论语义模型的先河。这种时空理论的实质就是将所有讨论到的物理学理论都用一种关于时空的理论形式表达出来, 即就是“所有时刻的位置, 或者所有实际的和可能事件的集合”[2]。
弗里德曼认为, 时空理论有两个最基本的要素, 其一是时空及其几何结构, 其二是物质场, 即质量、电荷等的分布, 它们表示了时空中发生的物理过程和事件。因此他构造模型的思路如下:首先设定一个事件集的背景, 然后构造各种各样的几何结构嵌入这个背景之中, 追求通过把具体的事件和过程与它们包含于其中的结构相关起来, 从而去解释和预言它们。弗里德曼的方法与传统的方法形成了鲜明的对比:传统的方法中要用到参照系、光线、粒子轨迹、量杆和时钟等许多观察实体, 然后尝试用这些相对的观察实体的行为来描述和定义几何结构。而在弗里德曼的表述方法中, 是把更加抽象的几何实体当作原始对象, 然后用它们来定义更多的可察实体。在这种表述中, 参照系被处理为特别的一类坐标系, 光线和粒子轨迹被处理为时空中特别的一类曲线, 量杆和时钟是基本物质场的特别构型。这样构造的模型被后来的哲学家所接受并逐步加以完善, 最终就成为了大家所公认的时空理论语义模型。我们最常接触的是广义相对论的语义模型
弗里德曼时空语义模型的提出在很大程度上改变了时空实体论和关系论发展的方向, 使时空实在论走向了一条超越直观思辨, 注重语义分析的道路。
二时空理论语义模型的内涵
从形式上看, 弗里德曼的模型非常简单, 它何以引起时空实在论发展方向的变迁呢?这要求我们深入约翰诺顿 (John Norton) 曾探讨这个模型的内涵。按照他的思路, 我们试图把模型还原至最简单的一维理论, 然后再逐步扩张到四维时空, 以了解其包含的深刻物理和哲学思想。
(一) 一维时间理论和二维欧几里得空间的语义模型
从一维理论开始理解模型的原因在于, 物理上最直观的一维理论就是时间理论, 时空模型是从一维构造推广而来的。构造的模型都要符合广义协变的形式, 这样才与广义相对论的模型具有可比性。
按照弗里德曼的思想, 如果把时空模型还原到一维时间理论, 就是要选择实数域R组成的流形作为我们模型的背景要素, 其中的每一个实数表示一个特殊的瞬间。这个表示关系中, 物理可能世界的瞬间和数学结构组成了一种坐标关系, 因而形成了一个对应的坐标系, 其中的对应关系比如:①不存在最大实数, 这对应着不存在最后的瞬间。②R的密度对应着时间的密度:给定两个实数, 总存在一个位于其中间的实数, 这对应于物理可能世界中每一个时间段都是可分的。
但同时, 用R表示物理可能世界的特性, 也有些直观上不相符的地方需要解释, 比如:①R是各向异性的:实数增加的方向和减少的方向是有区别的。但物理瞬间是一个各向同性的连续统。②R是非均匀的。比如实数0对任何其他实数来讲都是不同的。但物理瞬间是一个均匀的连续统。这两种直观上不相对应的情况, 可以通过对R进行反射变换和平移变换得到解决。反射变换和平移变换可以构成一个协变群, 它的作用在于可以分辨出物理理论中真正有意义的量。比如说在一个坐标系中, 对某个瞬间赋值为实数5, 但这个值在坐标变换中并非不变, 因而是没有物理意义的。但是两点之间的坐标差在此就是一个有意义的量, 因为在反射和平移变换中, 两点之间的坐标差是不变的, 它的物理意义就是持续时间或者流逝的物理时间。
我们要求理论的广义协变形式。这就是说理论的允许变换不仅包括了坐标系的反射和平移, 而且包括任何保留了坐标系的光滑性和所有瞬间的唯一性的“伸展和压缩”的变换。在这种变换中, 坐标差不再是不变的了, 要想使坐标差仍然能够表示持续时间, 我们必须在理论中精确地引入一个新的数学结构。比如在坐标被线性拉伸为原始坐标系的两倍的情况下, 新坐标系中的坐标差变为原始坐标差的两倍, 要想找到保持不变的持续时间, 必须把新的坐标差乘上一个比例因子1/2。这个比例因子就是我们所需要的额外的几何结构。随着变换的幅度不同, 比例因子也发生变化, 如果用ΔT表示原始坐标中两点的坐标差 (不变的持续时间) , Δt表示它们在新坐标中的坐标差, 那么,
undefined
一个标准坐标系的比例因子是一致的。对于上述线性拉伸的坐标系而言, 这个比例因子就是1/2。但在任意变换中, 这个比例因子的大小就由变换把原始坐标拉伸或者压缩了多少而定。比例因子保证了理论的广义协变性, 这样的值就是弗里德曼追求的几何对象。
现在我们就可以构造出线性时间理论协变表达的语义模型了。其模型的形式为
这里, R是所有实数组成的一维流形, 比例因子及其所有变换dT, dT′, dT″被称为时间度规, 它们最终表示了同一个协变量或者几何对象, 也就是两点之间持续时间。
这个形式与弗里德曼构造的模型的形式是完全相同的, 即
<流形, 几何对象, 几何对象>
模型的第一个元素流形表示时间、空间或者时空的拓扑特性。因而它可以告诉我们空间有多少个维度, 并且给予我们它的全域拓扑的信息。模型的其他元素是几何对象, 诸如时间度规dT, 被“画入”流形这个画布之中。它们提供空间的非拓扑特性, 比如一维时间理论中的持续时间。类似地扩展到空间的理论中, 要知道某条曲线上两点之间的距离, 我们就要看空间度规。
用同样的思路, 我们可以把时空理论的语义模型扩展到二维欧几里得空间。它的模型是有序对:
R2是有所有的实数对构成的点组成的二维流形。理论要是广义协变的, 因而我们允许任何由原始坐标系通过光滑变换而来的物理空间之间的等同性。这些变换包括旋转、反射拉伸、压缩等。我们可以把R2描绘为二维平面上排列的所有实数对的集合。几何对象γ是空间的度规张量, 度规张量γ定义在R2上的每一点处, 对应于一维时间理论中时间度规dt的角色, 空间度规γ决定着空间两点之间的距离。
在标准坐标形式中, 相邻两点 (x, y) 和 (x+Δx, y+Δy) 之间的距离Δl由以下二次式给出:
undefined
这里, 系数γ12和γ21相等。γ就是取这些系数四个值的矩阵:
undefined
由于要求理论是广义协变的, 物理空间和流形R2之间就可以存在无限多种坐标化方式。正如在线性时间理论中一样, 当从一个坐标系向另一个坐标系变换时, 就要修正形成γ的比例因子, 以保留它所表示的两点之间空间距离的不变性。这样, 理论的模型集就是无穷大的:
这里的量γ, γ′, γ″在不同坐标系之间的变换中都能变换到对方, 共同表示了同一个几何对象。
(二) 从牛顿理论到广义相对论的时空语义模型
牛顿时空的语义模型建立在一维线性理论和欧几里得空间的基础之上, 因为我们可以把牛顿理论看作是由线性时间理论和欧氏几何以及少量的深层结构结合而成的。把牛顿时空想象为三维空间和一维时间组成的四维流形, 它的每一个点 (特定时间的空间点) 都是一个事件。空间的结构由欧氏度规γ给出。时间结构由时间度规dT给出。在这个四维流形中, 每一个瞬间是流形中一个三维面, 是同时性事件的集合, 叫做作“同时性超曲面”。表示点的运动和静止线是它们的世界线。牛顿时空的语义模型可以用一个四元组来表示:
undefined
表示。其中M为四维流形, 它的每一个点代表一个事件。这个流形被分割成瞬间即就是同时事件的超曲面。dT是时间度规, 可测的时间就是我们从一个瞬间向另一个由dT给出的瞬间移动时流逝的时间。每一个同时性的超曲面是一个有着自身的欧几里得度规γ的欧几里得空间。因为理论中γ会随着坐标变换进行调整, 因此需要结构h把所有的度规γ结合成为一个单个的几何对象。另外我们还需要一个结构, 这个结构就是时空的仿射结构∇。仿射结构的作用是明确四维流形M中哪一条线是直线。
相比之下, 狭义相对论的时空语义模型要比牛顿时空语义模型简单很多, 因为狭义相对论使用的是闵可夫斯基度规η, 闵可夫斯基度规合并了时间度规和空间度规, 因此η就可以实现三个牛顿结构dT, h和∇的功能。狭义相对论的模型形式就为:
undefined
η的特性与欧几里得度规γ非常相似。这是因为在狭义相对论标准坐标系X、Y、Z、T中, 闵可夫斯基度规与以下微分形式相联系:
undefined
这与欧几里得空间中的微分形式Δl2=Δx2+Δy2完全类似。向广义协变形式的转换引入了四个任意的空间坐标x0, x1, x2, x3, 上述方程就推广为:
undefined
这与欧几里得空间中的
undefined
类似。度规η的确切表示是系数 ηik (i, k=0, 1, 2, 3) 的对称矩阵。
广义相对论中引力场是非均匀的, 爱因斯坦把狭义相对论的闵可夫斯基度规换成了表示弯曲时空的洛仑兹度规g。因为在广义相对论中, 时空结构和物质长的分布相关了起来, 因此, 语义模型中引入物质场T, 就成为:
undefined
这就是弗里德曼构造的模型。由于宇宙中每一种质量不同的分布都会产生一个不同的引力场, 理论就会存在无数多个不同的模型[3]。
时空语义模型内涵的分析表明, 语义模型的建立是一个过程, 这个过程与时空理论的物理过程相互联结, 从而形成了它特具的可靠性。它内在地表示了从牛顿力学到广义相对论的物理过程之间的必然联结关系, 在这个基础上, 模型的各个元素才具有确定的意义。由此我们也可以判定, 时空理论自身就包含着一种内在的语义分析框架, 这个框架构成了而后对它进行解释、论证和争辩的基础。
三时空语义模型的方法论意义
时空语义模型的构造提供了实体论和关系论争论超越思辨的一个基础。争论从此转向在语义分析方法的基础之上, 使得时空理论体系化的形式理性和抽象的概念统一起, 逻辑的理性分析和认识论的理性分析统一起来, 语义分析的认识论同语境性结合起来, 实现了方法论的突破。
(一) 流形实体论理论-模型-语义分析方法的使用
时空语义模型之于时空实在论的第一个意义就是促使人们对“时空实体”的看法脱离了最初的直观, 与时空理论的形式体系紧密结合, 从语义分析的角度提出了流形实体论的观点。
传统实体论的立场在广义相对论中遇到了困难。广义相对论中, 时空与物质统一起来, 不再是传统实体论者所理解的笼统的背景。关系论者据此力争时空只是物质之间的关系, 没有物质就无所谓时空的存在。实体论者并不能从根本上有力地反驳关系论的观点。弗里德曼时空理论语义模型的提出无疑为实体论者带了希望。正如弗里德曼自己所言, 他所建立的这种时空理论完全地符合了他自己对时空的某种“实在论者的偏见”, 为时空作为实体存在的哲学观点提供了某种方法论基础。
在构造广义相对论的时空语义模型时, 弗里德曼明确指出, 他思路就是首先设置一个事件的流形, 然后把更深层的结构分配给这些事件来表示时空的内容。这样一种对时空的定义直接导致了“流形实体论”的产生。流形实体论认为, 在广义相对论的语义模型
当然, 弗里德曼的思想具有一定的局限性, 因为从牛顿时代以来的“时空容器”的思想使他追求要在广义相对论中寻找到这个描述运动的“背景结构”。这事实上还是在时空和物质场之间划出了一道界限。另外, 实体论者认为时空有着独立于它的内容的存在, 这种观点作为一种哲学的思辨很有力, 但是在物理学语境中作为对时空本质的一种解释, 它却不够清楚。如果我们用事件的流形表示时空, 那么我们怎么才能描述它的存在的独立性呢?广义相对论的场方程说明时空必须和度规结构相连。因此, 流形实体论的辩护在现代物理学语境中显得没有什么力度。但无论如何, 流形实体论的提出开创了时空理论-模型构造-语义分析方法的先河, 使理论的形式体系、概念结构与它的物理解释更有机地结合起来, 强化了人们对时空理论的理性思考和认识。
(二) 实体论的发展语形制约与语用变换下的语义分析
20世纪80年代之后, 广义相对论的语义模型已经成为时空哲学家公认的理论模型了, 在这个模型的基础上, 实体论经历了一系列的发展。厄尔曼和诺顿在1987提出洞问题并且论证了洞问题会导致流形实体论因为无法分辨
度规本质论是1988年由提姆马德林 (Tim Moudlin) 提出的。与流形实体论相反, 度规本质论否定了流形M的物理意义, 反而强调了模型中第二个元素, 认为度规g是时空结构的基础。马德林指出, 流形M不可能表示真实的时空。因为微分流形只是从度规 (和仿射) 结构抽象出来的, 没有任何时间-空间范式的特性:光锥结构没有定义、不能区分过去和未来、距离关系也不存在。因此流形可以属于“没有范式时空特性”, 不能考虑表示它, 更不能说它等同于物理时空[5]。马德林把度规看作时空基础的理由是, 其一, 度规和其他场相似, 时空由此就变成了一个遵循因果律的对象。其二, 度规具有不可或缺性, 不存在只有电磁场却没有度规结构的宇宙。其三, 如果把度规看作时空或者时空的一部分, 洞问题中广义协变性的应用就会发生变化, 从而避免了非决定论发生的可能性。
精致实体论是对流形实体论进行修正的第二种典型方案, 同样是对时空语义模型的M和g进行重新解读的结果。精致实体论为了克服洞问题所带来的流形实体论的形而上学困难, 试图把时空等同于流形加某些能够提供时空观念的更深层结构, 最常见的是M+g。
度规场实体论是卡尔胡佛 (Carl Hofer) 在1996年提出的, 他认为, 广义相对论模型
从实体论的发展可以看出, 不同实体论之间的区别主要是对M和g的意义把握的不同。这就表明, 一方面, 时空实在论的语义分析, 最终要受制于它所表征的理论的客观对象和这些客观对象之间的客观联系, 它不能脱离这些客观的内容和关系而有意义地存在;另一方面, 同样的形式系统具有的指称随着语用结构会具有一定的变化, 在这里语义分析涵盖了物理哲学家相关的意向趋势。这也正是为什么胡佛会说, “有多少个写实体论的人, 就有多少种实体论。”[6]
(三) 结构实在论语义分析之上的超越
实体论发展中语义分析方法的运用弱化了直接对时空做出形而上学结论的方法所带有的思辨性。但是无论如何, 要对时空本体做出断言, 还是具有特定的形而上学包袱, 因而实体论无论如何发展, 它与关系论的争论都无法得到解决。
但语义模型的建立为摆脱形而上学包袱创造了一定的条件。弗里德曼曾经指出, 在他构造语义模型的过程中, 致力于从相对论的发展中寻找到一个方法论特征, 能够充分地区分“好”的理论结构和“坏”的理论结构。他认为理论的“好”的结构有助于理论的统一, 因而会在理论发展中得到保留。这种思想与科学哲学20世纪80年代末90年代初出现的结构实在论的思想不谋而合, 从而暗示了时空结构实在论出现的可能性。
时空结构实在论认为, 实体论和关系论虽然表面对立, 但是它们的解释需要一些共同的结构, 比如度规场g。这些结构虽然从牛顿理论到广义相对论之间经历了一些变化dT、h和∇变为了η, 最终变成了g, 但是它们所表示的具有物理学意义的量在结构的交替中保存了下来。无论对实体论还是对关系论, 如果去掉这些结构, 就不会再有时空。因而, 我们对这些结构应当持一种实在论的态度。
时空结构实在论同样建立在对时空结构进行语义分析的基础之上, 它的超越性在于, 在对时空进行解释的时候, 并不把这些结构和时空客体的本体进行二分, [8]并不追求在表征和对象之间建立某种因果关联。这种做法既坚持了指称意义的关联性, 同时又规避了传统因果指称论的局限性, 从而摆脱了实体论和关系论争论的形而上学包袱, 为时空实在论开辟了一条新的方法论道路。
四结论
可以看出, 时空语义模型的建立是当代时空实在论进步的重要基础。这是因为, 第一, 它尽可能多地抓住了时空理论的本质内涵, 简化了繁杂的时空理论形式体系, 提供了整个理论语义分析的框架;第二, 它使得当代时空实在论的语义分析紧密地联系了隐含着时空理论的逻辑, 从而脱离了传统时空哲学的直观思辨;第三, 它为时空解释中的语用因素设置了一个理性参照的基础, 使得时空实在论与时空理论的物理本质紧密相关;第四, 它明确地显示了时空理论变迁中“好”的结构的保留性, 提供了时空实在论融合的基础。从某种意义上说, 没有时空理论语义模型的建构, 就没有后来的时空实在论的发展, 时空实在论也就不可能与当代科学实在论具有今天的紧密联系。
摘要:20世纪80年代, 时空语义模型的建立引起了时空实在论的巨大方法论变革。文章分析了时空语义模型的内涵, 在此基础上探讨了构造时空语义模型的方法论意义, 指出了它之所以能够成为时空实在论进步的重要基础的原因所在。
关键词:时空语义模型,语义分析,时空实在论
参考文献
[1]郭贵春, 程瑞.时空实在论与当代科学实在论[J].哲学研究, 2008 (1) :105-106.
[2]Micheal Friedman, Foundations of spacetime theories, Prin-cetion Uinversity Press, 1983:32.
[3]John Norton.Philosophy of space and time, in Jeremy But-terfiel (ed.) , Spacetime, Dartmouth, 1996:3-56.
[4]程瑞, 郭贵春.洞问题与当代时空实在论[J].科学技术与辩证法, 2009 (2) :34-38.
[5]Tim Moudlin, The essence of space-time, Proceedings ofthe Biennial Meeting of the philosophy of Science Associa-tion, 1988, 2:87.
[6]Carl Hofer, The Metaphysics of Space-time Substantival-ism, The Journal of Philosophy 93, 1996:5.
[7]A.Einstein, Relativity:The Special and the General Theo-ry, London:Mehtuen, 1952:155.
基于语义理解的叙事文本表示模型 第6篇
自然语言理解是计算机科学中一个富有挑战性的研究热点, 它的任务是在理解自然语言的基础上建立一种计算机模型, 借助这种模型可以像人那样理解、分析以及回答自然语言的问题[1]。人对自然语言的理解涉及到语义、语法、语用、语境这些不同的层面。目前人们对自然语言的理解偏重于形式化结构的语法理论, 而忽视了语义理解的重要性[2]。
近来, “事件”的概念逐渐被计算语言学、人工智能、信息检索、信息抽取、自动文摘和自然语言处理等知识处理领域所采用[3,4,5,6,7,8]。本文在事件的六元组表示方法的基础上, e= (O, A, T, V, P, L) 。其中:O, A, T, V, P, L称为事件要素;分别表示对象、动作、时间、环境、断言、语言表现;针对事件的部分要素会随着时间的推移而不断变化的实际情况, 定义了三元组的要素变迁系统S= (P, T, A) 来表示这种动态变化过程。其中P:要素的取值集合;T:时间段集合;A:动作集合。
本文从事件语义的角度去理解叙事文本, 基于形式概念分析技术给出了叙事文本的表示模型。叙事文本的表示模型是基于事件的文本知识处理的基础, 在此表示模型的基础上可以进行后续的事件提取、事件相似性度量、事件的联想推理等研究工作。
1 叙事文本的语义理解
叙事学自二十世纪六十年代兴起于法国, 此后风行全球, 对文学、史学、语言学等许多学科产生了重大影响。在文学研究领域, 叙事学的研究对象基本是散体的、故事性强的作品, 如小说、史传、回忆录、神话传说、民间故事、叙事诗、戏剧等。以事件发展的先后顺序及其因果关系作为叙事的内在动因, 是叙事文本在构思故事时的必要前提。
语法是一种语言组词造句的规则, 一般把语法单位分为四种:语素、词、词组、句子, 在交际和交流思想的过程中, 词和词组只能表示一个简单或复杂的概念, 句子才可以表示一个完整的意思, 是最大的语法单位。对句子的语法理解就是指分析句子的内部结构, 比如一句话“马英九被选举为国民党主席”, 从语法角度理解, 主语是马英九, 谓语是选举, 宾语是党主席。叙事文本的语义理解是基于事件这个概念之上的, 认为文本是由大量的事件构成的, 事件又是由一些要素组成。比如“马英九被选举为国民党主席”, 从事件语义的角度理解, 选举是一个事件, 此事件应该包括时间、地点、人物等系列要素, 而且事件的要素不必局限于一句话之中, 可见对自然语言的语义理解更能挖掘隐含的信息, 更易进行联想推理。
2 叙事文本的表示模型
2.1 概念格
形式概念分析以概念格为核心数据结构, 为知识表示提供了严谨的数学方法, 具有丰富的构造概念的工具和算法, 其相应的Hasse图实现了对数据的可视化表示。
定义1 假设给定形式背景为三元组T= (G, M, R) , 其中G是对象的集合, M是属性的集合, R是G和M之间的一个二元关系, 则存在唯一的一个偏序集合与之对应, 并且根据这个偏序集合产生一种格结构, 这种由背景T所构造的格L就称为一个概念格。
定义2 上述定义形式背景的对象集A∈P (G) , 属性集B∈P (M) 之间可以定义两个映射f和g如下:
f (A) ={m∈M|∀g∈A, gIm}
g (B) ={g∈G|∀m∈B, gIm}
称从形式背景中得到的每一个满足A=g (B) 且B=f (A) 的二元组 (A, B) 为一个形式概念, 简称概念。其中A称为概念 (A, B) 的外延, B称为概念 (A, B) 的内涵。
从概念格的定义和性质可以看出, 概念格不仅精确定义了概念, 更重要的是描述了概念间的上下位关系, 这为度量概念的相似性提供了良好的数据结构。
2.2 叙事文本的概念格表示模型
定义3 一个基于叙事文本的形式背景是一个三元组C= (D, E, R) , 其中D是文本集, E是事件集, R是一个二元关系, 它表明e是否是文本d中的事件。如果e是d中的一个事件, 则记为:dRe或者 (d, e) ∈R。
例1 设四篇叙事性文本包含五类事件如表1所示。
“”表示文本包含这类事件。根据表1构造的文本概念格如图1所示。
从图1中可以看出, 一共有五个概念, 其中最顶部的概念的外延为{d1, d2, d3, d4}, 说明背景中4篇文本都包含事件e2, 最底部的概念的外延为空, 因为没有文本包含{e1, e2, e3, e4, e5}五个事件。
2.3 事件动态要素的表示
很多事件发生后, 随着时间的推移或动作的发生, 要素的取值会不断地变化。在实际应用中, 人们对一个事件的关注往往集中在两个方面: (1) 事件的最新进展情况, 即在最近时刻, 事件的各要素取值; (2) 事件的来龙去脉, 即事件从发生到最近时刻, 事件的各要素取值的动态变化过程。为了满足实际需求, 我们定义了要素变迁系统来表示事件要素的动态变化过程。
定义4 一个要素变迁系统是一个三元组S= (P, T, A) , 其中P: 要素的取值集合;T:时间段集合;A:动作集合。要素从取值pi经过时间段t和动作a后变迁到取值pj, 记作 (pi, t/a, pj) 或
借助图来表示要素变迁系统。用空心圆圈表示系统的取值, 用带箭头的线表示变迁关系, 其中没有箭头的线头指向变迁前的取值, 有箭头的线头指向变化到达的取值。时间和动作标记在带箭头的线上。
图2是汶川大地震从2008年5月30日到6月4日报道的死亡人数变迁系统, 其中
图3 是张总出差事件, 3月20日在上海坐火车, 3月22日到达西藏, 3月25日乘飞机到达北京的地点变迁系统, 其中
已有的时间序列模型和标记变迁模型仅仅从时间和动作单个方面描述事物的动态变化过程, 没能将两者结合起来研究。其实, 要素取值的变迁必然和时间段相关, 同一时间点上, 一个要素不可能有两种取值;同样, 要素取值的变迁必然受到其它因
素的作用, 即一定显示或隐式地包含某种动作。如果从时间的角度考察要素变迁系统, 可以使用时间序列的相关知识挖掘要素取值变迁的规律;如果从动作的角度研究要素变迁系统, 状态变迁的相关知识也可以借鉴。
3 小 结
本文通过对叙事文本的语义理解, 揭示了叙事文本是由大量事件构成的, 事件又是由大量的要素构成的, 叙事文本具有明显的层次化特征。提出的基于形式概念分析的文本表示模型具有明显的优点:对文本内容的提取变成了事件的提取, 对事件的提取变成对事件的类别识别以及相关要素的提取。要素变迁系统从时间和动作两个角度刻画了事件某些要素的变化过程, 为事件要素的表示提供了一种新的思路。
参考文献
[1]张天庆.基于自然语言语义分析的Internet文件分类与过滤[J].计算机应用, 2001, 21 (9) :4-7.
[2]刘忠.性质语意理论的提出与自然语言理解及其实现的研究[D].华东师范大学, 2004, 5.
[3]Pustejovsky J.Events and the Semantics of Opposition.in Events asGrammatical Objects.Pustejovsky J, Tenny C, Eds.:Stanford:Centerfor the Study of Language and Information (CSLI Publications) , 2000:445-482.
[4]Zacks J M, Tversky B.Event structure in perception and conception.Psychological Bulletin, 2001:3-21.
[5]Chung S, Timberlake A.Tense, aspect, and mood, Language Typologyand Syntactic Description, 1985:202-258.
[6]Pustejovsky J.Events and the Semantics of Opposition.in Events asGrammatical Objects., Pustejovsky J, Tenny C, Eds.:Stanford:Centerfor the Study of Language and Information (CSLI Publications) , 2000:445-482.
[7]Stokes N, Carthy J.Combining semantic and syntactic document classi-fiers to improve first story detection.Proceedings of the 24th annual in-ternational ACMSIGIR conference on Research and development in in-formation retrieval, 2001:424-425.
隐语义模型下的科技论文推荐 第7篇
目前科技工作者做研究比以前更加便利,可以查考大量的相关领域的论文,伴随着论文资源的不断丰富,人们更加希望能够快速精准地搜索出自己需要的影响因子大的论文。科技工作者通过查阅一篇好论文的引用来发现他们兴趣相关的论文,这一直是一种很有效而且应该继续使用的方法[1],因为论文的引用和被引用情况反映了论文的质量。本文提出一种通过建立隐语义模型,建立用户和论文的特征向量,将所推荐论文的引用和被引用的论文情况加入到所推荐论文的特征向量里,然后利用用户和论文的特征向量进行论文推荐的算法。
1 相关工作
为了提高论文检索的效率,很多的研究者都将目光集中在提高论文排名的算法上面[2],这的确可以提高大众检索的效率,影响因子高的论文优先被检索到[3,4,5],但却无法满足用户个性化的检索需要。另外被广泛引用的老论文排名较高,而一些新发表的不同角度的新论文的排名较低,这也不利于挖掘出新的论文。为了解决这个问题,人们做了很多积极的尝试,比如通过建立电子图书馆,例如Elsevier1,Pub Med2,Springer Link3,然后通过给用户提供邮件或者RSS服务推荐符合用户兴趣的论文等。
综合起来目前科技论文推荐常用的一些方法:
第一,利用社交关系进行推荐[6]即User CF。论文的作者都是同一领域的专家、在同一个部门工作、曾经参加同一次学术研讨会议等等,根据这些关系推荐相邻用户所关注的论文。
第二,基于关键词进行推荐。关键词搜索主要是基于关键词,将排名较高的论文优先推荐给检索者,但是它不利于去发现其他方向新的科技论文,因为研究者不知道应该去检索哪些新的关键词。所以对于被动检索而言研究者更喜欢论文推荐。
第三,基于物品( 论文) 的推荐[7]即Item CF。根据用户曾经下载过或者好评过的论文来进行推荐。将相似度最高的论文推荐给用户。
本文中所使用的隐语义模型与上面提出的三种方法相比较有如下优势:
第一,隐语义模型是一种学习方法,通过设立一个设定的指标建立最优的模型,而无论是基于User CF或基于Item CF都只是一种统计的方法,并没有学习的过程。
第二,离线计算空 间的复杂 度。基于User CF或者基于Item CF需要维护一张离线的相关表。假设有a个用户和b篇论文,那么用户相关表和论文相关表分别需要O( a×a) 和O( b×b) 的空间。而对于隐语义模型来说如果有K个用以描述用户和论文特点的维度,那么它需要O( K× ( a + b) ) 的空间,当a和b很大的情况下,这可以很好地节省离线计算的内存。
隐语义模型的劣势是:
隐语义模型在生成推荐列表的时候,需要计算用户对所有论文的兴趣权重,然后排名,返回权重最大的N篇论文。当论文数目很多的时候这一过程的时间复杂度非常高,能够达到O( a×b×K) ,生成一个用户推荐列表的速度太慢,不能在线实时计算。针对这个问题本文的解决方案: 首先根据用户历史的兴趣和论文的特点给出一个推荐列表,然后每次训练的时候扫描所有用户行为记录得到用户隐类向量和论文隐类向量,然后以此修正推荐列表,这样就可以快速得到更加准确的推荐列表。
2 建立科技论文的隐语义模型
隐语义模型 中的矩阵 分解方法 在推荐领 域效果最好[8,9,10,12,13,14]。在科技论文的矩阵因子分解中,用户u的特征向量ui是通过分析用户的历史行为记录得到的,反映了用户的兴趣。论文v的特征向量vj是利用论文的内容属性: 关键词,类别,所引用文献的权重等得到的。两个向量的内积uTivj反映了用户u的全部兴趣和论文v的全部特点之间相互“亲密”的程度,内积的值比较大[11]说明论文正是用户所要关注的,表示如下:
其中K表示能够用来描述用户兴趣和论文特点的维度的个数,ui,k度量了用户u的兴趣和第k个维度的关系,vj,k度量了第k个维度和论文vj之间的关系。接下来的问题是如何计算隐语义模型中ui,k和uj,k这两个参数。
2. 1 建立隐语义模型的关键
隐语义模型的关键是确定式( 1) 中的两个参数,这两个参数都是从数据集中计算出来的。数据集中需要包含用户ui喜欢的论文和不感兴趣的论文。对于数据集中的每个用户来说要保证用户喜欢的论文和用户不关心的论文的数目是一致的。用户喜欢的论文可以选择那些用户曾经下载、评论,即交互过的论文。另外用户不关心的论文尽量选择那些很热门,但是却从来没有交互的论文。这样得到的数据集M = { ( ui,vj) } ,其中如果( ui,vj) 是用户喜欢的,则rui,vj= 1,否则rui,vj= 0。通过求损失函数式( 2) 的最小值,确定参数ui,k和vj,k。
最小化上面的损失函数,采用一种称为随机梯度下降法的算法,然后通过迭代法不断地优化参数。首先对式( 2) 的两组参数ui,k和vj,k求偏导数得到:
根据随机梯度下降法,将参数沿着最速下降方向向前推进,得到如下递增公式:
其中α是学习速率,它的选取必须通过反复试验获得。根据上式得出,隐语义模型中重要的参数有4个:
K———用以描述用户感兴趣和论文特点的维度的个数
α———学习速率
λ———正则化参数
R———数据集的用户喜欢的论文和不喜欢的论文的比率
2. 2 科技论文隐语义模型系统设计
根据上面讨论的建立隐语义模型的这些因素来实际设计科技论文推荐系统。
隐语义模型因为在给出推荐列表的时候耗费大量的运算时间和空间,因此不适合实时在线推荐。本文针对这个问题的解决方案是: 首先根据上一次运算出的用户历史兴趣和论文的特点给出一个推荐列表,然后根据扫描的最近几个小时所有用户行为记录得到用户隐类向量pi和论文隐类向量qj,最后修正推荐列表,这样就得到更加准确的推荐列表。
式中的用户特征向量ui是根据用户的历史行为记录获得的,而vj是利用论文的内容属性: 关键词、类别等获得的论文特征向量。pi向量可以通过用户所检索的关键词、所查看的网页等获得,qj向量通过用户对论文的行为等方式获得。这样对于一篇新加入的论文vj,根据uTivj估计用户ui对其感兴趣的程度,然后几个小时后就可以通过pTiqj得到更加准确的感兴趣程度。在式( 3) 基础上,根据科技论文推荐的实际情况给出一些变化的情形。
1) 加上文献的发表日期因素
为了能够及时的捕捉到某一领域新发表的一些论文,在式( 3) 的基础上加上一个时间权重: Wui,vj,Wui,vj= e- γ( Y - Yvj),其中γ( 0 < γ≤1) 被称作“忘记因子”系数,这样就可以减弱老的论文所占的权重,同时强调了用户前几个小时的行为记录中的用户隐类向量pi和论文隐类向量qj所带来的变化。将式( 3) 变成下式:
2) 加上论文的引用和被引用的因素
一篇论文分析被其引用和其所引用的论文,可以得出该篇论文的质量的高低情况[15]。因此将论文的引用考虑到算法中是很有必要的,对于论文vj引用有两个方面: 引用vj的论文和vj所引用的论文,如图1所示。例如: 图2中一篇论文3,其有若干篇引用的论文和若干篇引用论文3的论文,此时论文3的特征变量变为:
其中用论文3与其所引用的论文和引用其的论文之间的相似度,作为其引用的论文和引用其的论文之间的权重,并且与论文3相似度较高的论文其权重较大,这样会更加的突出论文3所具有的特点,减弱那些无关引用的论文对于推荐的消极影响。推广到一般的论文vji,其论文的特征向量为:
大量的实验证明,权重Wvji→vjl和Wvcy→vjl之间符合指数分布[16],确定一个阈值: 将低于这个值的论文自动给修剪掉,减弱无关引用的论文对推荐的影响,然后用式( 4) 计算出推荐列表,可以提高推荐的准确度和权威性。接下来对科技论文隐语义模型下的推荐性能通过离线实验评测,并且和传统的协同过滤算法做比较。
3 实 验
实验所用数据集为《万篇随机抽取论文中文DBLP资源》Random Ten Thousand,是国内第一份公开共享的优质DBLP资源,属于从自动化学科知识服务平台后台数据中抽取的部分子资源。数据集的规模为: 论文10 000篇,学者20 071位,论文学者关系表30 576条记录。根据2. 1节,影响科技论文推荐的重要的参数有4个: 用以描述用户兴趣和论文特点的维度的个数K、学习速率α、正则化参数λ、数据集的用户喜欢的论文和不喜欢的论文的比率R。通过试验发现学习速率α和正则化参数λ 对科技论文推荐的性能影响不大。因此可以固定α = 0. 03和λ =0. 01,然后研究维度的个数K和比率R对推荐性能的影响。首先固定K的值为20,调整比率R,如表1所示。随着R值的增大即负样本数目的增加,推荐结果的准确率和召回率有了明显提高,但是比率R > 10之后,就基本稳定了。随着R值的增大,覆盖率不断降低而流行度不断增加,说明参数R影响科技论文推荐挖掘长尾的能力。
表2中固定R的值为10,然后调整K的值,随着K值的增大,推荐结果的准确率和召回率都有了一定的提高,覆盖率先下降到一定程度之后,然后又升高,这说明维度K值增大之后,捕捉到论文之间细微的差别,将一些不是很流行的论文给挖掘出来。
基于用户的协同过滤在相同的数据集上做科技论文推荐,通过选择与用户有一定关系的其他用户( N代表用户的数目)作为基础,据此推荐相似的其他用户所感兴趣的论文,离线实验算法的性能指标如表3所示。
通过比较可知,虽然相似用户多一些,可以略微提高论文推荐的性能,但是提高的空间有限,一般在N = 20左右时达到最好的推荐效果。基于用户的协同过滤算法在提高准确度、召回率和覆盖率上都不如基于隐语义模型的算法效果好、效率高,不利于挖掘新的论文。
基于论文的协同过滤在相同的数据集上做科技论文推荐,以用户曾经有过交互行为的论文作为基础,推荐相似度高的论文,离线试验测量算法的性能指标如表4所示。
通过与隐语义模型下的推荐性能指标做对比,基于论文的推荐结果的局限性很高,准确率和覆盖率都不高。对于科技论文推荐系统来说除了要推荐经典的一些论文之外,给用户推荐某一领域的最新研究方向也非常重要。
基于论文共同作者学术关系的学者推荐系统[17]作者通过对科研人员所著论文的关键词进行建模,建立科研人员与研究领域的关联,利用科研人员之间的相似度进行推荐。在相同的数据集上离线实验该算法的性能指标如表5所示。
基于论文共同作者学术关系的学者推荐性能也不佳。局限性在于通过关键词建模时,只考虑了关键词相同和不相同,没有述科研人员,不能够完全表征科研人员的研究兴趣和方向。
最后在表1和表2的基础上计算不同R参数和不同K参数下的均方根误差,如图3、图4所示。随着比率R和K值的增加,均方根误差逐渐减小,推荐的准确度和质量也得到了提高。
4 结 语
本文利用隐语义模型在推荐领域的优势,结合科技论文推荐实际情况,建立科技论文推荐的隐语义模型。所建立的用户和论文的特征向量从不同的方面反映出用户和论文的特点,将要推荐的论文发表时间、其引用的论文及引用其的论文因素加入到论文的变量中,然后通过离线实验检验不同的性能指标情况。实验结果证明,在科技论文推荐方面科技论文推荐的隐语义模型比基于用户和论文的推荐算法更好,能够将更高质量的论文挖掘出来,推荐的准确度更高。将来要做的工作是将标签推荐加入到科技论文推荐里,用户按照标签来重新对论文进行归类,按照标签进行搜索等。
摘要:针对如何在海量资源中快速检索自己所关注的相关领域论文的问题,提出一种通过建立隐语义模型,然后利用扫描分析出的用户和论文的特征向量进行论文推荐的算法。将所推荐论文的引用和引用其的情况,加入到论文的特征向量中,通过用户和论文特征向量之间的内积的大小准确地给用户推荐他们潜在喜欢的优质论文。实验表明所提算法显著提高科技论文推荐的准确度和新颖度。
基于语义目录的个性化检索模型研究 第8篇
本文提出了一种新的检索模型, 它基于领域本体和个人特征本体, 在语义层面进行知识推理, 然后根据语义相似度匹配算法进行匹配, 从而以语义目录的形式返回能满足用户个性化需求的信息检索结果。
1 信息检索方法分析
所谓信息检索就是从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索方法分为普通的信息检索和基于语义的信息检索。前者又分为基于内容分类的目录导航检索和基于关键字的全文查找检索。
1.1 普通的信息检索
1.1.1 基于内容分类的目录导航检索
它是把文本进行树状的分类, 每个文本至少属于一个类别, 另外还对每个文本都进行简单的描述。这方面的典型代表是Yahoo, 它把相关主题的站点组成了一个层次化的目录树。通常, 对文本的分类都是由相关方面的专家来进行的, 因此其导航功能十分强大。
但是由于它对每个文本只是进行简单的描述, 不能深入到文本的细节, 用户不能查询到文本内部的重要信息, 从而造成信息的丢失。
1.1.2 基于关键字的全文查找检索
它是基于词语的机械匹配, 建立由字或词到文档的倒排序索引, 以通过关键词来对文档进行查询。此法虽然能够解决对文本细节的检索问题, 但是依然存在很多缺陷。
1.2 基于语义的信息检索
它是以领域本体为基础, 在语义层面进行知识的推理, 从而返回与用户相关的信息。这种方法虽然可以解决手工分类以及机械匹配带来的相关问题, 但它并未考虑检索者的相关需求, 不能满足检索者的个性化检索需要。
2 基于语义目录的个性化检索模型
2.1 基于语义目录的个性化检索模型的原理
基于语义目录的个性化检索模型是以领域本体和个人信息本体为基础, 通过语义相似度匹配算法进行知识层面的语义推理, 进而将相关信息以语义目录的形式返回给用户的检索模式。其工作流程如图1所示。
2.2 基于语义目录的个性化检索模型工作流程
基于语义目录的个性化检索模型的工作流程如下: (1) 用户根据自己个性化检索需求键入检索信息; (2) 结合用户的个人信息本体对访问信息进行查询分析, 以形成查询元语; (3) 查询元语经本体推理和检索算法检索后即可找到相应的信息资源; (4) 根据检索到的相关的信息资源, 在本体库中得到相应的分类; (5) 分类经过目录映射机制处理后即可得到语义目录信息; (6) 用户点击相应语义目录即可找到相关的信息资源, 或进行更进一步的语义分类, 直到最终找到相应的信息资源。值得注意的是图1中为方便起见, 将领域本体库和个人信息本体库进行了合并, 统称为本体库。
3 个性化检索模型的关键技术
3.1 语义目录
所谓语义目录是指通过建立目录名、路径操作符和属性值到本体的映射, 将语义目录转换为一个RDF图, 系统将输出与此RDF图匹配的资源列表并动态构建下一级语义目录。
传统的个人计算机是以目录和文件名的方式来管理资源, 包括本地计算机的目录和网络目录及每个资源文件的名称等。通过操作系统提供的API, 用户可以在命令行模式下或通过图形界面查找、浏览和操作 (如创建新文件、拷贝、删除文件, 执行文件等) 相应的资源文件。
语义目录则完全颠覆了这一概念。
(1) 语义目录是动态构建的, 即通过用户前面输入的内容动态构建下一级语义目录。
(2) 语义目录中的每一个目录名都对应着本体中的一个概念, 子目录和父目录之间的关系“/”和本体中的“rdfs:subClassOf”关系一样。
(3) 语义目录还借鉴XPATH语法中的轴attribute:以通过设置属性值过滤信息。
提供语义目录一方面可以兼容文件系统目录的表现形式, 另一方面也比较符合计算机使用者的分类方式。用户可以通过命令行输入类以文件系统目录的语义信息 (如“影音资源/国内电影/”) 来查找符合要求的信息资源, 虽然这些资源可能并不属于同一个目录。
语义目录到RDF图的映射如图2所示, 其中“Resoure X”代表系统输出的匹配资源, “Class C”代表将动态构建的下一级语义目录。
3.2 语义相似度匹配算法
3.2.1 概念间的语义距离
定义1:概念C1和概念C2间的包含距离ds (C1, C2) 。ds (C1, C2) 是本体树中连接C1、C2这两个概念节点的最短边数。
定义2:概念C1和概念C2间的定义距离dd (C1, C2) 。dd (C1, C2) 是概念C1和C2在“定义”上的距离, 是由两个概念的语义描述决定的。
定义3:概念C1和概念C2间的语义距离d (C1, C2) 。d (C1, C2) =ds (C1, C2) +dd (C1, C2) 。
在理想状况下, 语义距离应该和定义距离是相等的, 但一般情况下, 概念的语义描述信息都是不完整的, 因此需要引入包含距离来弥补定义距离的不足。为了简化计算过程, 区别两个基本类我们设定两个基本类之间的定义距离是0。同时, 如果C2是C1的子孙, 我们也忽略概念C1和C2间的定义距离dd (C1, C2) 。
如果概念Cl和C2相等, 则d (C1, C2) =0, 如果概念C1和C2不相交, 则d (C1, C2) =∞。
如果概念C1和C2不相等, 则一般有d (C1, C2) ≠d (C2, C1) 。
3.2.2 语义距离计算方法
(1) 包含距离的计算。输入:C1, C2;输出:概念C1和C2之间的包含距离ds (C1, C2) , 其值用整型变量ds表示。算法步骤为: (1) 置ds的初值为0, 置表示本体中尚未遍历的概念列表Nlist和表示本体中已经遍历过的概念列表Alist为空; (2) 将C加入到Nlist的首部; (3) 如果Nlist不为空, 则转 (4) , 否则转 (7) ; (4) 取出Nlist中的第一个元素e, 利用推理机从本体中得到与e具有直接上下位关系的概念集合h (e) , 如果h (e) 中包含C2, 则ds=ds+1, 转 (7) , 否则, 转 (5) ; (5) 对于h (e) 中的每一个元素m, 如果Alist中不包含m, 则将m加入到Nlist的尾部, 如果包含, 则继续判断h (e) 中的下一个元素, 然后转 (6) ; (6) 将e加入到Alist中, 转 (3) ; (7) 返回ds, 退出。
(2) 定义距离的计算。定义4:本体中类C的语义描述是该类的所有直接父类和所有约束的并集。记作C=SS∪SR, 其中, SS是类C所有直接父类的缩写, 而SR是类C所有约束的缩写。输入:Cl, C2, CI=SS1∪SR1, C2=SS2∪SR2;输出:概念Cl和C2之间的定义距离dd (C1, C2) , 其值用整型变量dd表示;算法步骤为: (1) 置dd的初值为0; (2) 如果C1和C2是不相交, 则dd=∞, 转 (7) ; (3) 如果C1=C2, 则dd=0, 转 (7) , 否则, 转 (4) ; (4) 如果 (SS1≠Φ&&SS1中至少有一个类不是本体树的根) 或 (SS2≠Φ&&SS2中至少有一个类不是本体树的根) , 转 (5) 执行, 否则转 (6) ; (5) 设TS=SS1∩SS2, 如果TS≠Φ, 则SS1=SS1-TS, SS2=SS2-TS;如果 (SS1&&SS1中至少有一个类不是本体树的根) , 则对于每一个SS1中非根部的类C而言, 都执行下述操作:设C=SSC∪SRC (SSC表示类C的所有直接父类, SRC表示类C的所有约束) , SS1= (SS1-C) ∪SSC, SR1=SR1∪SRC。如果 (SS2≠Φ&&SS2中至少有一个类不是本体树的根) , 则执行与上述SS1相同的操作, 然后, 转 (4) ; (6) 对于每一个SR1中的属性P, 执行下述操作:对于属性P的每个约束, 执行下述操作:如果约束是Pdl, 则判断Pdl是否∈SR2, 如果否, 则dd=dd+l, 如果约束是≥Px, 则如果不存在 (≥Py) ∈SR2&& (y≥x) , 且不存在 (=Px) ∈SR2, 则dd=dd+l;如果约束是Px, 则如果不存在 (Py) ∈SR2&& (yx) , 且不存在 (=Px) ∈SR2, 则dd=dd+l;如果约束是=Px, 则如果不存在 (=Px) ∈SR2, 则dd=dd+l;如果约束是PC或PC, 则如果存在 (PD) 或 (PD) ∈SR2, 则dd=dd+dd (C, D) , 否则dd=dd+1, 然后转 (7) ; (7) 返回dd, 退出。
4 结束语
本文对信息检索的方法进行了分析, 阐述了现有信息检索方法的各种弊端, 进一步提出了基于语义目录的个性化检索模型, 并详细描述了该模型所涉及到的各种关键技术。实践证明, 该模型不仅能在查准率和查全率上有所提高, 还能针对用户的个性化需求进行查询。这对于进一步研究个性化信息检索具有一定的理论意义。
参考文献
[1]毕强, 张海涛.信息检索[M].长春:吉林大学出版社, 2003.
[2]宋炜, 张铭.语义网简明教程[M].北京:高等教育出版社, 2004.
[3]朱礼军, 陶兰, 杨睿, 等.基于知识本体的语义信息检索框架设计[J].计算机工程与设计, 2004 (9) .
[4]D Aumueller.Towards a Semantic Wiki Experience-Desktop Integration and Interactivity in WikSAR.Proceedings of the ISWC2005Workshop on The Semantic Desktop-Next Generation Information Management&Collaboration Infrastructure.Galway, Ireland, November6, 2005.
语义模型 第9篇
图书馆是学生学习的渠道。建立学校图书馆查询系统是必要的,但大多数图书馆检索系统[1,2]只提供了一些简单的查询功能,同时也无法有效地根据具体需求满足用户的偏好和提供个性化的查询服务。建立有效的个性化推荐服务体系目前正处于一个非常有趣的图书馆研究的内容领域。
目前常用的推荐算法有协同过滤推荐和基于内容的推荐,其中协同过滤算法[3]较为流行,基本思想和你兴趣相似的朋友喜欢图书,你也可能喜欢该图书。协作过滤推荐算法分为基于用户的推荐算法和基于项目的推荐算法,相对于用户协作过滤,项目协作过滤用的较多,其相似性计算更准确,但也存在缺点,即数据稀疏性[4]。
为了解决这个问题,国内外学者进行了大量的研究,许多学者提出了协同过滤数据稀疏的方法更有效的解决方案。这些方法大致可分为两类,一是提高算法的精度,另外一个降低矩阵稀疏性。文献[5]将奇异值分解技术应用到协同过滤中,以减少矩阵降维数据稀疏性。文献[6]结合最近邻法,奇异值分解技术使用最近邻算法来预测目标用户的得分来平滑所述输入矩阵,然后进行奇异值分解技术。但维数降低通常会导致信息丢失,和高复杂性的算法的分解,在极端稀疏得分数据,其结果是不能令人满意的。文献[7]中提出的相似性分矩阵是通过计算该项目的方法填充了用户,有效缓解数据的稀疏性。方法不能有效地解决了稀疏的极端情况下该项目评分的用户。
由此,文中提出引入隐含语义分析[8](Latent Semantic Analysis,LSA)的方法对用户图书数据建模,先用聚类的方法,将同一学科的用户分在一起,在每一类中找到兴趣相似的用户,再进行图书推荐,实现图书的推荐,在Book-Crossing数据集上进行测试,实验结果表明,该算法具有一定的优势。
1 相关知识介绍
1.1 LSA基本思想
传统向量模型反映的是学生和图书借阅关系[9]。图书种类很多,会隐藏了一些语义信息,隐含语义分析是处理用户与图书之间的隐藏的信息,运用统计的方法去发现用户对图书使用过程中潜藏信息,分析用户对图书的兴趣度,提高了图书推荐的精度。隐含语义分析(Latent Semantic Analysis,LSA)模型最早由Dumans等人[8]提出,其基本思想是将原始的向量空间通过奇异值分解投影到低维的正交矩阵,从而转换到潜在的语义空间。该模型建立在用户与图书借阅的关系上,用一个m×n维的特征矩阵A描述用户图书的共性。即:
通过对A进行奇异值分解,取前j个最大的评分来形成一个新矩阵Aj,用Aj来近似表示用户-图书矩阵A。
奇异值分解是最早使用潜在语义分析,即SVD方法。
1.2 奇异值分解(SVD)
奇异值分解矩阵A可以表示为3个矩阵的乘积:
其中,U和V表示A用户信息和图书评分矩阵,S矩阵表示A的奇异值序列:σ1,σ2,…,σr,且σ1≥σ2≥…≥σr>0。分别取U、V的前j列Uj、Vj,构成A的j秩近似矩阵Aj:
式(3)中,Uj和Vj列向量是正交向量,行向量则是用户向量和图书向量。Aj近似表示矩阵A,降维因子j值的选取直接关系到用户图书模型的效率,考虑到计算响应速度和存储空间限制,j值一般在100~300之间。
奇异值分解矩阵有两个优点:(1)将用户向量和图书向量映射到同一个j维的语义空间内,削减了原矩阵的“噪声”,突出了用户和图书之间的语义关系。(2)可以降低矩阵维数以及聚类速度有效的提高。
2 基于隐语义的图书推荐算法
基于隐语义的图书推荐算法[10]的基本步骤,先通过矩阵分解,然后考虑行为中的隐语义,2.1节、2.2节等是对相应步骤地进一步解释。
2.1 矩阵分解预测基本模型
其中,U={u1,u2,…,um}为图书推荐中用户信息,S={s1,s2,…,sn}是图书信息,用户对图书的喜欢用评分矩阵A表示,目的预测那些缺失值aus,即用户U对图书S的偏好度。
给定的矩阵分解模型的优点在时间复杂度和在这里所用的各种可能影响所预测的分解因子的预测模型的空间复杂度的方面,矩阵分解提出了一种改进的预测模型。一般情况下,用户和图书评分预测模型如下:
其中,是平均值,au是用户偏置项,as是图书评分偏置项。比如在图书推荐系统中,所有主题的平均偏好度是,有些理科书籍男生会比女生兴趣高一点假设高出0.3,有些人会比较挑剔,假设为0.1。因此,图书预测偏好度将是
在图书推荐中,对偏好度的预测还受用户注册的个人信息,以及用户在查看某本图书时,在网页上的逗留时间长短,和用户以及用户之间的相似度,这些因素都影响图书的推荐精度。因此,在公式(4)基础上,将、au、as进一步分解,并将这些因素考虑到图书推荐矩阵分解预测模型中。
2.2 行为数据中的隐语义
行为中的隐语义,就是通过用户和图书之间关联来发现的。在LFA中,用户u对图书s的偏好度用建模来表示,使用用户特征向量pu和图书特征向量qs来计算,如下:
其中,特征向量pu和qs是模型的参数,pu,k表示用户u的兴趣与第k个隐含特征的关系,而qs,k表示第k个隐含特征与项目s之间的关系。参数pu和qs可以通过损失函数来进行训练得到:
其中,dt是训练数据集,(rus-qsTpu)2表示预测值和实际值间的平方误差,λ(‖qs‖2+‖pu‖2)是防止训练过拟合。训练的目的就是使得损失函数最小化,即:
对式(6)用对pu和qs最速下降法分别求偏导数,得:
真实值和预估值间的误差用eus表示。之后,对pu和qs进行迭代更新利用随机梯度下降法,得:
其中,α是学习速率,通常取α=0.9。
从上面可以发现,公式(1)是用户对图书的评分矩阵,没有经过预处理,而公式(5)则将用户和图书的内在联系起来。在实际的图书推荐系统中将用户的基本信息都考虑在内,还考虑相似用户的兴趣度。因此,在仅考虑用户和图书评分预测模型基础上,融合LFA模型中用户对图书评分的偏好度后,将公式(4)的预测模型可调整为:
2.3 基于隐语义的图书推荐算法描述
在图书推荐中,用户在预览图书的时间长短也是重要的因素。根据时间的变化,可以预测用户浏览的图书的时间,时间的长短说明用户对图书的喜欢度。比如,用户对某本图书感兴趣,你会点进去阅读,查看具体的内容,浏览的时间就变长。因此,将时间因素考虑到图书推荐中是十分必要的。基于隐语义的图书推荐算法描述如算法1所示。
3 实验结果及分析
3.1 Book-Crossing数据集
文中评估基于Book-Crossing数据集,学校图书馆中用户对图书的评分从2003年到2014年的评分有1000000000条记录,是由1000000个用户对500000的评分,这些评分是0~5,0表示用户不喜欢,5表示用户非常的喜欢该本图书。对不同的算法进行测试,Book-Crossing提供了两个测试集。一个是探测集(Probe Set),在100000000条训练数据集中抽取1000000条数据,用户对图书真实评分。
另一个是测验集(Qualifying Set),由2000000条用户对图书评分构成,不是图书馆真实存在的数据。这两个测试集选择了一些较难预测的项目,使用户对图书进去预测。算法的评估标准是使用均方根误差(RMSE)。
在测试集中的一对用户和图书(u,s),真实评分是aus表示用户u对图书s的评分,而推荐算法预测评分表示用户u对图书s的预测评分,则预测的精度可以用RMSE表示:
3.2 结果与讨论
基于隐语义的协作过滤图书推荐的推荐准确度的评价标准使用均方根误差RMSE试题的。实验通过LFA算法与Hybrid-SVD、ItemNgbr、UserNgbr算法进行预测精度的比较。在LFA算法中,有3个重要的参数:用户浏览时间t、正则化参数γ和学习速率α。通过大量的实验发现,用户浏览的时间t对LFA算法影响性能最大。因此,正则化参数γ和固定学习速率α,考虑用户浏览时间t对算法的精度是否有影响。LFA算法参数:正则化参数γ和学习速率参数α,使用大量实验训练得到。
本文采用α=0.007,γ1=0.005,γ2=0.015进行实验。实验数据反复迭代,迭代了50次时,参数α在迭代时以0.89倍的减小。用户浏览时间参数t,实验证明,时间越长,表明用户对该本图书的兴趣度就越高,误差率就会变低。
在Book-Crossing数据集上使用隐语义模型算法的实验结果如图1所示。随着用户浏览的时间变化,各种算法的精度亦有着变化。随着用户浏览时间的增长,预测精度RMSE在逐渐下降,用户浏览时间t值从250上升到无穷,预测精度RMSE从0.9139下降至0.9002。图1中,可以发现ItemNgbr算法随着时间的增长,预测精度并没有变化,因为ItemNgbr并没有考虑隐含语义;Hybrid-SVD算法是考虑了矩阵降维,也考虑了一些隐语义信息,但是实验的预测精度并没有LFA算法的精度高;而User Ngbr算法的预测精度RSME最低。综上所述将隐含信息考虑在协作过滤的图书推荐中,较其它算法,此算法的精度确有提高。
本文使用了两种典型的模型,分别是基于用户UserNgbr和基于项目ItemNgbr模型。对这两个典型的模型,这种模型都没有考虑到隐语义的基本信息,但是算法的精度不高。实验的结果与用户的浏览时间t没有影响。而将隐语义考虑到图书推荐系统中,LFA算法与以上三种算法比较,算法的精度有了很大的提高。
其次考虑学习速率α对LFA算法的影响。当正则化参数γ=0.025,LFA算法所示。学习速率α缓慢下降,算法的误差有所降低,从0.9237到0.9119,迭代到360次之后近似相同。此表,说明了α越小,预测的误差率就变低。
4 结束语
通过隐语义算法与协同过滤算法的结合改进了图书推荐算法。考虑了用户浏览的图书的时间以及用户之间的相似度,实验数据评估结果表明,文中采用的基于Book-Crossing数据集中的隐性反馈信息在比较有限的情况下,LFA算法的精度仍然得到显著提高,它的性能适合大规模数据。另外,随着时间的增长,用户对图书的兴趣度会有所不同,还没有完全的考虑在图书推荐中,也是下一步主要的研究方向。
摘要:针对协同过滤算法难以处理高维度以及稀疏数据等问题,提出了一种基于隐含语义分析的协同过滤图书推荐算法,该算法融合了用户的显性反馈与隐性反馈信息,考虑了用户在预览图书的时间以及用户与用户之间的相似度,有效地降低了矩阵的维度和稀疏性,提高了算法的精度,运用统计的方法来发现用户对图书使用过程中潜在的语义结构,分析用户对图书的兴趣度,帮助用户快速发现感兴趣和高质量的图书,使图书能够准确地推荐给用户,并提升用户体验。在Book-Crossing数据集上进行测试,实验结果表明,该算法具有一定的优势。
关键词:推荐系统,协同过滤,隐语义模型,均方根误差
参考文献
[1]Zhang Yao,Chen Wei-bin,Fu Shun-kai.Simulation Study of Recommendation System for University Library based on Big Data[J].Computer Engineering and Design,2013,34(7):2533-2539.
[2]奉国和,黄家兴.基于Hadoop与Mahout的协同过滤图书推荐研究[J].图书情报工作,2013,57(18):116-121.
[3]Sarwar B,Karypis G,Konstan J,et al.Item-based collaborative filtering recommendation algorithms[C].Proceedings of the 10th International Conference on World Wide Web ACM,2001:285-295.
[4]Adomavicius G,Kwon Y O.Improving aggregate recommendation diversity using ranking-based techniques[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(5):896-911.
[5]Xie Feng,Chen Zhen,Xu Hong-feng,et al.TST:Threshold Based Similarity Transitivity Method in Collaborative Filtering with Cloud Computing[J].Tsinghua Science and Technology,2013,18(3):318-327.
[6]Jing Min-chang,Yu Ying-hui.CF Recommending Model Based on Borrowing-time Scores and Its Application[J].Library and Information Service,2012,56(3):117-120.
[7]Wu Zhong-huo,Zheng Jun,Wang Su,et al.A Combined Predictor for Item-Based Collaborative Filtering[J]∥Proceedings of the 5th International Conference on Intelligent Networking and Collaborative Systems,2013:261-265.
[8]Deerwesster S,Dumais S T,Fuvnas G W.Indexing by latent semantic analysis[J].Journal of the American Society for Information Sciens,1990,41(6):391-407.
[9]聂飞霞.高校图书馆个性化图书推荐系统设计[J].情报探索,2014,1(5):115-118.
语义模型范文
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。