电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

男性化模型范文

来源:文库作者:开心麻花2025-09-191

男性化模型范文(精选8篇)

男性化模型 第1篇

个性化检索系统一般在普通检索系统的基础上增加了用户模型、提问调整、源选择、结果处理等“个性化”处理模块。用户模型在个性化信息检索中发挥着重要的作用。根据用户的网络搜索行为, 它会建立初始的用户兴趣模块。通过用户对搜索结果的筛选、评价与反馈, 它能不断更新兴趣模块, 从而给用户提供针对性的服务。

从实现原理上看, 目前的个性化信息检索方法主要有3种, 分别为基于文本内容分析的方法、基于点击流分析的方法和基于超链分析的方法。基于文本内容分析的方法通过获取用户的上网查询记录、访问网页等文本信息, 从而得到个性化检索结果。但相关研究表明, 由于存在样本不足、关键词歧义等因素, 个性化检索结果往往不是很理想。基于点击流分析和基于超链分析的方法能够间接的获得用户信息需求及偏好, 因而能够较好地提供个性化检索服务。

个性化信息检索模型主要包括以下几方面。

1. 基于Agent的个性化检索模型。

个性化信息检索系统由多个Agent组成。Agent直译为“代理”, 可以被看成是一种自动处理软件技术, 具有统一的基本结构, 代表了信息技术最前沿的发展方向, 其内涵丰富, 能够按照设计者的要求自主独立地收集信息, 并在该过程中自我学习, 具有连续性和能动性的特点。基于Agent的个性化检索系统主要由三部分组成: (1) 人机交互Agent:主要负责系统与用户的交互, 搜集用户的信息需求和兴趣偏好, 为实现个性化检索提供前期准备; (2) 信息处理Agent:主要负责信息的查询、分析, 对返回的查询结果进行过滤, 同时学习用户的兴趣偏好, 以提供较好的个性化服务; (3) 信息收集Agent:主要任务是与网络中其他搜索引擎服务器建立连接, 在用户不参与的情况下主动搜索用户可能所需的信息, 然后交给信息处理Agent进行分析处理。

2. 基于Multi-Agent的个性化信息检索模型。

Multi-Agent个性化信息检索系统, 简称MAS。对于创建能够处理多个方面信息的个性化信息检索系统, 利用多个资源, 并且随着各个资源的变化进行动态调整, 专门化的Agent并不能灵活地处理, 而基于Multi-Agent的个性化信息检索模型具有很大的优势: (1) 灵活性:在MAS中, 每一种Agent都具有本身独特的功能, 不同功能的Agent互相交织在一起, 构成一个庞大的个性化服务网络; (2) 独立性:MAS为不同的Agent提供了独立的操作环境, 每一种Agent互不干扰地完成各自的功能, 特别是存储和检索技术能够独立地进行; (3) 分布式计算:MAS拥有数量庞大的功能组件, 但这些功能组件无需运行在同一台计算机上, 系统可以分布于网络之中, 这就大大增加了组件的使用范围; (4) 便于开发和维护:MAS由很多部件组成, 每一种Agent具有独立工作性, 增加或删除部件就相对容易, 这既利于核心部件的开发与升级, 又可以方便拆除不必要的组件, 便于系统日常维护。

3. 基于PDM的个性化信息检索模型。

PDM (Product Data Management) 系统是管理现代企业产品数据的一种新技术, 能够合理地处理企业人力资源管理和信息资源之间的关系, 个性化在PDM中的应用是信息检索发展的必然趋势。 (1) 用户实现个性化信息检索的方法。提取用户信息:用户登录个性化信息检索系统, 输入所需信息名称, 而用户信息数据库也会同时提取用户的信息需求模型, 经过信息过滤后, 系统会主动地提供给用户感兴趣的信息;建立信息需求模型:系统会根据新用户的信息需求建立相似用户群, 通过计算相关度来建立信息需求模型。 (2) 自动建模。用户建模指根据用户的兴趣偏好、知识背景, 归纳出可计算用户模型的过程。结合企业自身特点, 系统根据用户的上网行为自动建模, 同时用户还可以更改用户信息, 从而更改用户模型。这种自动建模的方式对于员工的迁入、迁出、升迁等信息的更改与管理, 提供了很大的便利性。 (3) 系统设计。用户管理模块:提供企业所有员工信息的管理, 如增加、删除、修改等等;数据库管理模块:可以对数据库中的信息进行修改, 也可以增加、删除数据库;个性化信息检索模块:按照相关主题进行个性化查询与服务;零件管理模块:主要对实际生产中的各种零部件采取信息化管理, 这样员工之间的沟通更加有效。

4. 基于本体的个性化信息检索模型。

本体是一种新的知识表示方式, 能将知识表示到语义的层面上, 并具有概念层次结构, 实现语义上的信息表示。 (1) 系统设计思路。用户登录系统后, 系统根据用户的检索词与用户兴趣本体库进行相关度比较, 若本体库中有符合要求的信息, 则从本体库中返回相关信息;若本体库中没有相关信息, 则系统会从其他领域本体库中主动检索, 将其他领域本体库中的相关概念罗列给用户, 用户根据需要进行选择, 同时用户兴趣库中的需求信息将得到更新, 通过不断的交互与反馈, 用户兴趣本体库将不断完善。 (2) 系统组成。用户界面Agent:接收用户信息查询, 并返回查询结果;用户通过反馈信息实现兴趣库及时更新;新用户可注册并构建兴趣模型;个性化需求分析:接收用户关键词检索, 基于领域本体对其语义进行扩充, 并结合用户兴趣库查询更多的相关信息, 将所得结果一起交给信息搜索代理;信息搜索Agent:通过兴趣本体库、领域本体库, 利用信息推送技术, 将用户可能感兴趣的资源主动罗列给用户;文档分析与语义过滤:在领域本体的协助下, 根据查询需求与结果之间的相关度, 过滤掉与用户查询请求不相关的信息;个性化处理:对过滤后的文档, 结合用户兴趣本体库, 对查询结果与用户需求的相关度进行评估, 为排序做准备;排序:通过相关度评估, 把符合用户请求的查询结果通过用户界面代理返回给用户;用户兴趣本体库:能够动态地反映用户的兴趣偏好, 主动地从领域本体库中检索与用户查询请求相关的信息, 并返回给用户, 用户根据需要选择, 兴趣库得到及时的记录与更新;领域本体库:在个性化服务模型中发挥着重要的作用, 包含了一个领域中最基本的概念以及概念之间的语义联系。

5. 基于点击流的个性化信息检索模型。

点击流有广义和狭义之分。广义的点击流指用户在互联网上的一系列点击活动, 狭义的点击流指用户访问某一站点的一系列点击活动。本文研究的是狭义的点击流。基于点击流的个性化信息检索就是对点击流信息进行处理分析, 构建用户模型, 对查询语句进行扩展, 对查询结果进行个性化重排和扩展, 实现智能化服务。与传统的个性化信息检索模型相比, 该模型具有三大优势。第一, 用户模型更为准确。不仅包括用户的兴趣模型, 还包括效用函数和大众用户站点使用模型。第二, 用户模型动态更新。利用用户点击信息和反馈信息, 实现模型的自动更新和扩展。第三, 用户负担减轻。检索系统根据点击流信息构建用户模型, 通过查询扩展、检索结果重排序和扩展, 大大减轻了用户的负担。

6. 基于多粒度语言的个性化信息检索模型。

多粒度语言是一种常用的描述人们模糊思维的语言变量方法。二元语义是指针对某目标或对象给出的评价结果, 由二元组来表示。以用户需求建立模糊语言索引的信息检索模型, 可以使用户更加灵活地完成检索目的, 用户需求的表达既可以用模糊语言, 也可以用查询语句。构建该模型, 首先要定义多粒度查询语言, 每一个查询语句以NOT、AND、OR将附有权重的关键词连接起来;其次, 利用广义序比例二元语义对数据库进行预处理, 为数据库建立数据摘要;最后就是查询结果的排序与输出。

7. 基于语义网的个性化信息检索模型。

基于语义网的个性化信息检索模型由以下四个模块组成: (1) 个性化管理模块。主要负责用户个性信息需求的管理; (2) 个性需求语义处理模块。主要负责对用户的检索请求进行语义处理, 获取用户真正的检索需求; (3) 信息与处理模块。负责对非结构化的信息进行处理, 以建立语义信息实体库; (4) 查询模块。负责最终的个性查询。

个性化信息检索模型的研究受人关注, 它对提高检索效率和改善用户检索体验, 起到了重要作用, 其发展前景非常广阔。虽然相关理论和技术已经得到了较大的发展, 但仍有一些领域值得分析和探讨。 (1) 用户搜索界面友好程度需进一步提高。在不影响检索效率的前提下, 尽可能多地提高检索界面友好程度, 以便用户更加方便地使用。 (2) 用户的兴趣偏好处于动态变化之中, 如何准确、及时地更新用户兴趣模型, 也是个性化信息检索系统需要研究的问题。

参考文献

[1]李树青.个性化信息检索技术综述[J].情报理论与实践, 2009 (5) .

[2]廖军, 方北湘.Internet下个性化信息检索研究[J].网络与信息, 2010 (7) .

男性化模型 第2篇

关键词 社交网络 用户行为 个性化知识服务 兴趣模型

分类号 G250

Research on the Personalized Knowledge Service Model based on Social Network

Yang Ruixian, Li Luqi

Abstract Through the analysis of the massive users and data generated by social networks, determining the users’ different characteristics and preferences can customize personalized knowledge services for users, achieving the needs of users and enhancing the viscosity of products and services, which not only satisfies the commercial purpose of the enterprise but also improves the satisfaction of the users. This article is based on deep understandings of our country's social network operating mode and the analyzing of characteristics of the user behavior in the social network, putting forward that we should provide personalized knowledge services by using the user interest model and set up personalized knowledge service model based on the recommendations from the personal interest and the recommendation of interest spread.

Keywords Social network. User behavior. Personalized knowledge services. Interest model.

自互联网诞生以来,数据一直以惊人的速度增长。门户网站、搜索引擎、社交网络的先后问世引领着传统互联网数据不断膨胀,真正的“大数据”时代已经来临。而“大数据”中的“大”字从2011年起的兴旺发达,要归功于SNS(social network service)[1]。SNS不但是人们在互联网上的聚合,还提供了人与人之间的交互平台和关系集合。社交网络产生了海量用户以及实时和完整的用户数据,同时也记录了用户群体的情绪,通过深入挖掘这些数据来了解用户,根据这些分析将用户精准细分;根据用户的消费习惯、兴趣爱好、关系网络对互联网服务以及产品进行针对性的优化和改进,达到真正满足用户的需求和喜好,最终提升用户的使用体验并增强其对产品和服务的使用黏性。这不仅是互联网从业者为实现商业目的所关注的热点,也是情报工作人员为提升用户体验度以及进行知识服务研究的重点。

国内学者大都侧重于对高校或者公共图书馆的个性化知识服务的研究,而在基于互联网热门领域的知识服务研究较少。本文在深入了解我国社交网络的运营模式、分析社交网络中用户行为特征的前提下,提出了基于社交网络所应提供的个性化知识服务。

1 社交网络

1.1 社交网络概况

一般意义的社交网络即Social Network Service(SNS),是指以“实名交友”为基础,基于用户之间共同的兴趣、爱好、活动等,在网络平台上构建的一种社会关系网络服务,属于目前社会化媒体的一种主流形式。根据用户使用社交网络的目的,以及各社交网站的定位,可将国内社交网络分为以下几类:(1)休闲娱乐类社交网络:以满足用户的休闲娱乐需求为主,目前以人人网、腾讯社区(包括腾讯朋友和QQ 空间)、开心网等为典型代表;(2)婚恋交友类社交网络:以婚恋交友的需求为主,如世纪佳缘、百合网、珍爱网等;(3)商务交友类社交网络:以商务交友的需求为主,如优士网、若邻网、经纬网等;(4)其他社交网络。通常,学者所研究的都是以Facebook为模板的休闲娱乐类的社会网络。

1967年,哈佛大学的心理学教授Stanley Milgram(1933—1984)创立了六度分离理论:“你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。”按照六度分隔理论,每个个体的社交圈都不断放大,最后成为一个大型网络,这就是社会化网络(SNS)。然而,随着互联网的发展,社交网络的定义将不再局限于人与人的社交,而是人与人,人与物,物与物的范围更大的社交网络。我们可以称之为“大社交网络”——BIG Social Networking Services (Big SNS),这个大社交网络本质上也就是基于互联网大脑神经系统不断发育的结果,它的发育对于理解云计算、物联网、社交网络、大数据的关系将有着重大的启发作用。

nlc202309041220

1.2 社交网络的特点与发展趋势

1.2.1 社交网络的特点

目前,社交网站的基本模式是网站给用户提供个人主页,方便用户上传照片、视频,发表日志,更新个人状态,同时还可以添加好友,根据好友的隐私设置,用户还可以访问其个人主页或进行留言[2]。因此,社交网络区别于其他互联网产品最明显的一个特点就是其真实性。从发展之初,社交网站都在强调要建立真实的社会网络,提倡用户使用真实信息进行注册。除此之外,社交网络有人际互动、人际弱连接性、隐私保护等特点。

(1)真实性。实名制是很多社交网站的重要特征,用户通过实名注册将线下真实的人际网络关系复制到网络上,不仅保证了关系的真实性,而且也加强了朋友之间的互动关系。在真实和信任的基础上,用户更加愿意参与互动,愿意在自己的网页中表达情绪,关注朋友的状态,分享自己的心情。同时,线上与线下的结合,虚拟空间与实体空间的交流构成了所谓的流动空间。

(2)人机互动特性。社交网站的实名制促进了朋友间的互动性。社交网站不同于社区型网站,社区型网站仅仅是给用户提供了一个表达自我的空间,而社交网站还在此基础上加入周围真实朋友的关注和互动。社交网站也充分利用这一特点推出了各种互动类的小游戏,比如风靡一时的抢车位、偷菜等,这种建立在真实人际关系基础上的互动性格外吸引用户。

(3)人际弱连接性。社交网站从发展最初就参照“六度分隔理论”,利用社会中人与人之间建立关系的可能性以及普遍存在的“朋友的朋友也是朋友”的弱连接性来拓展人际关系网络。现在的社交网络更是依托人际关系将人脉发展到最大化,通过“弱连接”创造一个“极虚拟、极真实”的大社交网络。

(4)权限可控性。真实性在提高社交网站中用户间交互体验的同时,也不可避免地使人们将关注度集中在隐私保护等问题上。虽然各大社交网站在用户注册的时候都承诺不会将用户的个人隐私及信息泄露给他人和机构,但还是无法从根本上消除用户的顾虑。在社交网络中,用户可以自由选择自己信息的开放程度与可见性,以及交友权限,使得用户的隐私得到了更好的保护。

1.2.2 社交网络的发展趋势

社交网站的特性是其建立与发展的基础,而在信息技术的浪潮中,SNS未来的发展趋势也是研究其针对用户提供个性化知识服务的基础。在艾瑞咨询发布的《2014年中国移动互联网用户研究报告》中指出,2013年中国移动互联网用户规模为5亿人,成为中国网民的主要阵地。同时结合《2012—2013年度中国社交网络用户行为研究报告》的数据分析,总结出以下社交网络发展的趋势。

(1)从PC端向移动终端迁移。伴随着移动3G时代的到来,它能够更好地实现无缝漫游,并处理图像、音乐、视频流等多种媒体形式,使得手机、iPad等移动终端能够与互联网充分融合,移动互联网已经势不可挡。所以在国内,无论是传统的互联网阵营(校内网、腾讯),WAP无线互联网阵营(3G门户),还是运营商(移动、联通、电信)和设备生产商(华为)都对移动SNS“虎视眈眈”[3]。

(2)从熟人社交转向陌生人社交和兴趣社交。在国内社交网络发展的初期,以校园网、开心网等以熟人关系为主打的SNS网站成为了主力,然而从2009年开始,以豆瓣网为代表的以兴趣为基础串联陌生人的社交网站开始兴起。“物以类聚,人以群分”的观念在现实中体现在人与人形成的各色“圈子”中,所以越来越多的SNS网站瞄准了特殊的小众群体,通过用户的选择而推荐趣味相投的朋友,彼此交流形成独特的群体。

(3)社交服务的垂直细分。在社交网站针对用户的范围逐渐细分的同时,各社交网站本身提供的服务也有垂直细分的趋势。以人人网为例,从原来单一的交友、动态展示等基础功能逐渐扩充为包含生活、娱乐、求职、便民等一系列可供选择的功能,针对用户的不同需求提供个性化的服务。

(4)社交网络电子商务结合。中国电子商务研究中心数据显示,2013年第二季度电子商务和社交网络的网民日重合率为18.35%,即同一天内访问电子商务或者社交网络任一类服务的网民中有18.35%的网民同时访问了这两类服务。据艾瑞咨询调研数据显示,84.7%的用户愿意使用社交化购物网站,其中有72.9%的用户会逐渐增加对此类网站功能的使用。由此可见,社交化购物网站逐渐得到了用户的认可,未来用户继续使用的意愿很强。

1.3 社交网络中用户行为研究

对社交网络中用户行为、群体特征、用户间信息传播等进行分析,可以充分掌握用户的行为模式和社交网站中信息传播模式,有助于网站运营商全面掌握用户需求从而提供个性化的服务和产品[4]。在分析了用户使用社交网络的行为(见图1)后,可以看出社交网络中用户的行为主要由用户之间的关系、用户生成内容、用户兴趣选择三方面组成。

(1)用户与用户之间的关系。社交网络所提供的基本功能就是供用户维护真实与虚拟的社交关系。然而用户并不只是通过传统的聊天方式维护彼此的关系,关注彼此的信息、分享彼此的生活、互动游戏等已经是当前热门的社交方式。

(2)用户生成内容。在社交网站中,用户发布日志、照片、视频、状态、评论等均是用户生成内容,这些内容极大地丰富了社交网络的内涵,提供了社交所需要的基本信息,是研究用户行为必不可少的内容。

(3)用户兴趣选择。社交网络中的用户需要拥有个人空间,这个空间不仅可以让别人来关注自己,同时也可以根据个人喜好选择一些内容,比如空间风格的装扮、喜爱应用的添加以及感兴趣的话题等等。研究人员可以通过获取用户关注的领域以及经常使用的应用为用户制作个性化标签,提供更加准确的服务。

信息研究人员可以根据以上三个方面的内容对用户具体的行为特征进行调查,例如:(1)用户在网站的停留时间、跳出率、回访者、新访问者、回访次数、回访相隔天数;(2)用户所使用的搜索引擎、关键词、关联关键词和站内关键字;(3)用户访问网站流程,用来分析页面结构设计是否合理;(4)用户在页面上的网页热点图分布数据和网页覆盖图数据;(5)用户在不同时段的访问量情况等。

nlc202309041220

2 个性化知识服务

2.1 个性化知识服务的内涵

个性化知识服务是近几年图书情报学研究的热点,主要是个性化服务与知识服务的结合。它产生于社会的个性化需求,是根据用户的知识结构、信息需求,或是基于用户的兴趣爱好、使用习惯等个人特征,通过用户定制、系统推荐和推送功能,有的放矢地为某一用户创造符合个性需要的信息服务[5]。

2.2 个性化知识服务的特征

个性化知识服务从根本上改变了“我提供什么,用户接受什么”的传统服务模式,发展到“用户需要什么,我提供什么”的个性化服务模式,化被动为主动,提高了帮助用户解决问题的基本能力[6]。

个性化知识服务具有以下一些基本特征。

(1)以用户为中心。以用户为中心是个性化知识服务区别于传统信息服务的本质特点。个性化知识服务以方便用户利用、满足用户需求为前提,尊重用户的意愿,研究用户行为,提供“量身定制”的服务。

(2)知识性。不仅为用户提供其所需要的信息,还要根据用户的研发环境提供针对实际问题的解决方案。

(3)主动性。根据用户对知识信息的需求,有针对性和目的性地将用户所需知识信息送达用户。

(4)互动性。能够提供个性化知识服务的系统不仅要提供友好的界面,而且要方便用户交互,方便用户描述自己的需求,方便用户反馈对服务结果的评价。要能够对用户的个人需要、习惯、爱好、兴趣等信息需求和利用行为进行了解、开发和挖掘,从而不断改进服务质量。

(5)选择性。服务方式要灵活多变,具有选择性。不仅要提供更加准确的知识信息,还要能够按照用户选择的方式进行服务,如信息的显示方式、提供结果的方式等。

2.3 个性化知识服务模式

(1)定制服务。个性化信息定制服务是指用户可以根据自己的兴趣和需求定制不同的信息资源、界面和服务种类等。最终实现不同用户登陆后具有不同的权限、不同的界面风格,能够访问不同的信息资源,实现完全的个性化信息服务[7]。

(2)信息推送服务。推送技术是一种按照用户指定时间间隔或根据发生的事件,把用户选定的数据自动推送给用户计算机的数据发布技术。信息推送服务减少了用户盲目的网上搜索,节约了大量的时间和宽带资源,提高了用户信息检索的效率。

(3)智能代理。用户在检索信息时,没有确切的兴趣爱好和需求,或者无法确切表达时,智能代理技术的运用很好地满足了用户的这一需要,通过跟踪用户在信息空间中的活动,自动捕捉用户的兴趣爱好,主动搜索可能引起用户兴趣的信息并提供给用户[8]。

(4)垂直门户信息服务。垂直门户立足于提供某一领域的精品服务或是某一特定平台,可以有效地把对某一特定领域信息感兴趣的用户与其他用户区分开来,更能满足用户的特定性信息需求,从而提供个性化高质量的信息服务。

3 基于社交网络的个性化知识服务

3.1 基于社交网络的个性化知识服务技术

对于基于社交网络的个性化知识服务,目前国内学者主要集中在对于个性化推荐系统的研究。朱琳珂在基于西安某软件公司与美国某互联网公司的合作项目,以社交网络为基础,研究了经典的社区发现算法、个性化推荐技术以及信任评估方法,提出了一种基于社交网络的个性化推荐算法[2];赵欣结合社交网络、标签系统、协同推荐系统以及群体决策理论提出了基于社交网络的群体推荐系统算法[9];邢星深入研究影响社交网络个性化推荐方法推荐质量的主要因素,建立能够准确预测用户兴趣的推荐模与学习算法,形成真实反映社交网络用户兴趣的个性化推荐方法[10]。

可见,协同过滤技术以及智能标签技术是支撑个性化知识服务的关键技术。

协同过滤技术:用于分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。基于协同过滤的推荐可以分为三个子类:基于用户的推荐(User-based Recommendation),基于项目的推荐(Item-based Recommendation)和基于模型的推荐(Model-based Recommendation)[11],见图2和图3。

图2 基于用户的推荐 图3 基于项目的推荐

智能标签技术:是建立在社会化标签的基础上,用户为自己喜欢的文章、图片、音频、视频等一系列文件所定义的一个或多个描述。通过标签可以发现用户隐藏在互联网中的兴趣,从而进行相似度比较,最终向用户推荐符合其标签页的相关网页和应用,达到个性化推荐的目的[12]。

3.2 基于社交网络的个性化知识服务模型

基于社交网络的个性化知识服务必须建立在分析用户兴趣模型的基础上,同时兴趣模型的建立既要通过历史数据(智能标签)确定目标用户的个人兴趣,也要关注社交网络中其他用户的兴趣对于目标用户的影响。所以应该结合基于个人兴趣的推荐和基于兴趣传播的推荐两个方面进行个性化推荐服务。

图4 基于个人兴趣的推荐

(1)基于个人兴趣的推荐。社交网络中用户的行为可以总结为交友、发布信息、浏览页面、使用应用四个方面,在结交新友时,用户会填写寻找好友的要求(性别、学历、年龄、职业、爱好)等;在发布信息时,用户会对自己感兴趣的内容进行收藏、转载和评论等;在浏览页面的时候,用户会留下标签与浏览痕迹;在使用应用时,可以根据用户的点击量以及分享给好友的情况判断用户的喜好。以上行为都会为确定用户的兴趣爱好提供充分的证据,并由此推荐给用户兴趣相投的好友以及需要的应用,最终实现基于用户个人兴趣爱好的个性化推荐服务,如图4所示。

(2)基于兴趣传播的推荐。在社交网络中用户个人的兴趣不仅影响着与其有直接社会关系的人的兴趣,同时根据“弱连接理论”也影响着大社交网络中的其他人。所以首先要通过用户之间的关注度、亲密度、互动程度对目标用户与朋友之间社会关系的紧密关系进行分析,通过目标用户与朋友之间共同好友的数量与目标用户朋友的数量计算影响因子,然后经过紧密度以及影响力的分析,搜索社交网络中对目标用户的个人兴趣产生影响的用户,并根据贝叶斯定理计算用户之间个人兴趣的间接影响,最终判断社交网络中兴趣传播对用户的影响,如图5所示。

nlc202309041220

图5 基于兴趣传播的推荐

4 结语

基于社交网络所能为用户提供的个性化知识服务远不止个性化推荐服务,然而,无论是何种服务都要实现以用户为中心的目的。从某种意义上来说,社交网络虽然以虚拟的形式建立起人与人之间的关系,但所关注的还是人的本身,因此社交网络的发展必将与互联网上现有的各种服务相融合。正如多年前腾讯设想的那样成为一站式互联网服务提供商,社交网络将网络聊天、交友、博客、网络社区、音乐共享、RSS等有机地融合成为“在线生活社区”;同时,独树一帜的垂直化SNS也将成为发展趋势。所以,研究社交网络的个性化知识服务有助于用户在庞然复杂的网络信息中选择自己感兴趣的和有价值的信息,同时也为互联网服务人员提供了努力的方向。

参考文献:

[ 1 ] 谭磊.New Internet:大数据挖掘[M].北京:电子工业出版社,2013:295-296.

[ 2 ] 朱琳可.基于社交网络的个性化推荐服务研究[D].陕西:西北大学,2012:7-8,4-5.

[ 3 ] 西门柳上,马国良,刘清华.正在爆发的互联网革命[M].北京:机械工业出版社,2009:193.

[ 4 ] 邓夏玮.基于社交网络的用户行为研究[D].北京:北京交通大学,2012:2-3.

[ 5 ] 王世伟.图书馆个性化知识服务发展报告[M].北京:科学出版社,2010(4):80-81.

[ 6 ] 沈东婧,江晓波,王斌.基于用户需求的图书馆个性化知识服务系统构建[J].情报探索,2010(1):14-16.

[ 7 ] 周萍.高校图书馆个性化信息服务研究[D].吉林:吉林大学,2007:10-12.

[ 8 ] 林强.基于智能Agent的用户个性化检索系统的实现[J].图书馆学研究,2005(5):7-10.

[ 9 ] 赵欣.基于社交网络的群体推荐系统[D].成都:电子科技大学,2013:1-3.

[10] 邢星.社交网络个性化推荐方法研究[D].大连:大连海事大学,2013:1-2.

[11] 路晓亚,宋秋丽.基于用户兴趣变化的协同过滤技术的研究[J].电脑与电信,2012(3):51-52,58.

[12] 易明,王学东,邓卫华.基于社会网络分析的社会化标签网络分析与个性化信息服务研究[J].中国图书馆学报,2010(2):107-114.

杨瑞仙 郑州大学信息管理学院讲师。河南郑州,450000。李露琪 郑州大学信息管理学院本科生。河南郑州,450000。(收稿日期:2014-07-05 编校:方 玮)

个性化推荐预测模型性能指标研究 第3篇

1.1 命中率与字节命中率

Web缓存系统中考虑两个重要的性能评价指标:命中率和字节命中率。

定义1命中率 (HR) :表示从缓存中得到服务的请求的百分数。

定义2字节命中率 (BHR) :表示从缓存中得到服务的字节的百分数。

HR与BHR的侧重点不同, HR侧重减少用户的响应时间, 而BHR则着眼减少带宽开销。为提高HR, 一般是在缓存中尽可能保存小文件, 但这种做法在提高HR的同时却降低了BHR;从另一个角度来看, 若保存较大的文件会改进BHR却以牺牲HR为代价。网络用户更看中减少平均的延迟时间, 此时改进HR更重要一些。但ISP却希望减少网络带宽的开销, 此时应该使BHR最大化。由此提出了一种新的性能评价指标命中比 (FBR) , 该指标从命中率与字节命中率两个指标关系的角度来综合评价Web缓存替换算法的性能, 从而为度量缓存系统的性能提供参考依据。

1.2 准确率与查全率

定义3准确率 (precision) :利用P+表示正确的预测数, P-表示不正确的预测数, 那么预测模型的准确率可以表示为:

定义4查全率 (recall) :利用R+表示模型预测的请求数, │R│代表总的请求数, 则查全率 (或称为测全率) 定义为:

从本质上讲, 查全率是用来衡量预测模型的适用性的, 而准确率是用来衡量预测的正确性的。例如, 对于有50个请求的序列, 预测模型共产生40个预测结果, 其中有30个预测结果是正确的, 其他10个不正确, 那么准确率是75%;如果对其中25个请求进行了预测, 那么查全率是50%。

1.3 PRS

查全率和准确率是常用的预取有效性指标。但随着预取数据的增多会带来高的查全率和低的准确率。从公式3可以看出, 如果准确率与查全率都增大, 也会随着增大;如果准确率与查全率都减小, 就会随着减小。但是, 如果准确率与查全率中, 一个增大, 另一个减小, 那么PRS的值就不一定是增大还是减小了。使用PRS指标来综合衡量预取的有效性。

1.4 延迟时间

定义5延迟时间:该指标描述的是系统中的响应时间, 即从发出请求开始到请求得到响应为止的时间间隔。

其中ETi表示请求响应的时刻, STi表示发出请求的时刻。

1.5 流量开销

定义6流量开销:指发生预取和未命中请求时所需要的带宽要求之和占总带宽的比率, 定义为:

其中Traffic表示流量开销, Band+是正确预取所花销的带宽, Band-是不正确预取所花销的带宽, Bandall是实际上所有请求网页所花销的带宽。

1.6 加速比

1.6.1 加速比的概念

加速比是Amdahl定律中用来衡量计算机系统性能的一个指标, Amdahl定律指出:加快某部件执行速度所获得的系统性能加速比, 受限于该部件在系统中所占的重要性。Amdah定律定义加速比的概念为:改进后系统的性能与改进前系统的性能之比。本文引入该指标作为预测模型的一个性能评价指标。

定义7加速比:指一种模型的一个性能指标与另一个模型的同种性能指标的比率, 定义为:

其中Pn表示加速比, Mf表示一个预测模型的一个性能指标, Mb表示另一个预测模型的同一个性能指标。

1.6.2 仿真实验

为了评价一种算法对另一种算法的优劣程度, 可以用加速比 (pn) 进一步量化。用真实的Web日志对Pn值进行比较, 实验处理的日志是Berkeley大学计算机系实验室1996年的Web日志和98世界杯日志。日志的原始记录均包含100万项记录。对原始日志经过预处理, 然后根据被请求网页的URL地址的频度对每一个请求的URL地址进行编号, 最后生成会话。使用日志文件对两个模型HTMM模型的精度投票方法和HMPM模型的选取最高推荐值方法、精度投票方法、选取最高阶方法进行仿真测试, 并对其结果进行分析。

HTMM是一种混合阶的Markov树模型推荐算法, 将头部相同的序列共享存储, 使用树形结构压缩存储访问序列。同时提供两种预测模型:精度投票方法和混合方法, 综合考虑各阶模型的推荐结果, 改进了传统Markov模型存在的低阶精确率、高阶覆盖率低这一问题。精度投票方法各阶模型投票的权值都是固定的, 由传统Markov模型给定, 具有较低的预测精度。

HMPM模型使用模式树压缩存储访问序列, 降低了存储空间复杂度, 同时改进了HTMM的精度投票方法, 每阶的权重不是静态的, 而是由每个阶的精度决定。

图1显示了HMPM模型的3种推荐方法对HTMM模型的精度投票方法PRS的Pn值与Markov模型阶的关系。从总体上看, 随着阶数的增加, HMPM模型的精度投票方法的优势显现得越明显, 变化趋势也越大。从2阶开始, HMPM模型的3种推荐方法对HTMM模型的精度投票方法PRS的Pn值都远远超过了1.0, 从而展现出HMPM模型的各种推荐方法优势的大小。对于所有的预测方法来说, 当阶数达到一定值后, PRS的Pn值基本保持不变。

2 结束语

准确预测用户访问行为在网站设计、电子商务、个性化推荐等领域有重要作用。评价模型性能的指标很多, 本文探讨了常用的性能评价指标, 并用新引入的性能指标Pn对预测模型性能进行评价, 具有一定的现实意义。

参考文献

[1]ZENG C, XING C X, ZHOU L Z.A survey of personalization tech-nology[J].Journal of Software, 2002 (10) .

[2]SHI LEI, HAN YINGJIE, DING XIAOGUANG et al.An SPN basedIn2 tegrated model for web prefetching and caching[J].Journal ofComputer Science and Technology, 2006 (4) .

[3]ZAMIR O, ETZIONI O.Web Document Clusterin g:A Feasibilit yDemonstration[C].SIGIR'98, 1998.

[4]曾春, 邢春晓, 周立柱.个性化服务技术综述[J].软件学报, 2002 (10) .

[5]GEDIMINAS ADOMAVICIUS, ALEXANDER TUZHILIN.Towardthe next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Transactions onKnowledge and Data Engineering.2005 (6) .

[6]石磊, 张岳, 裴云霞, 等.基于Web对象流行度的PPM预测模型[J].小型微型计算机系统, 2006 (7) .

[7]班志杰, 古志民, 金瑜.基于非压缩后缀树的在线PPM预测模型[J].计算机工程, 2008 (10) .

[8]叶海琴, 石磊, 王意锋.基于网络访问行为的混合阶Markov预测模型[J].计算机工程与设计, 2008 (2) .

[9]石磊, 叶海琴, 卫琳, 等.Web缓存命中率与字节命中率关系[J].计算机工程, 2007 (13) .

[10]张晨曦, 王志英, 张春元, 等.计算机体系结构 (第1版) [M].北京:高等教育出版社, 2004.

个性化影片推荐系统中用户模型研究 第4篇

随着数字电视及智能机顶盒(STB)技术的飞速发展,具有信息共享、网络互联、数字化、流媒体化的IPTV时代已经到来。数字电视有线网络带宽及网络存储容量不断提高,海量的影片资源[1,2]往往使用户难以找到符合兴趣的影片。传统电视是以推送为主,用户只能在有限的范围内被动选择,目前的数字电视无法提供较多的交互功能,真正符合用户需求的节目沉没在信息汪洋之中无法有效利用。个性化推荐技术是解决以上问题的有效方法,建立用户模型是实现个性化推荐的基础。由于用户点播影片是个人兴趣的反映,与临时的、随机的信息获取相比,个人兴趣的稳定性高,有保存、分析的价值。个性化推荐可以提取分析用户个性信息,根据用户兴趣制定推荐,满足用户个性化需求,不仅解决了信息过载的问题,对可预测的结果还可以提供资源预读,优化服务质量降低网络负载[3]。

对于用户模型的表示、建立和更新,已有很多研究,但大多是针对用户浏览网页的应用,如购物网站、搜索网站、数字图书馆中文献资料的查询过滤等[4]。主要方法分为两类。一是将用户兴趣以关键词及其权重表示,以基于词的匹配过滤信息[5],这类推荐存在着以下弊端:(1)关键词模型处理起来简单,却丢失了很多概念相关的语义信息,对于视频推荐应用,由于视频语义[6]信息量大、结构复杂,目前尚无确定的描述标准,关键词方法对此难以准确描述[7];(2)多数基于关键词的推荐需要用户提前输入相关个性兴趣信息,作为初始推荐依据,这样将导致推荐过度依赖用户输入,如用户无法及时更新信息,将严重影响推荐结果的实时性[8]。二是语义网、N-grams 、Ontology等方法,对检索对象按照用户的个性化信息进行描述,提取用户感兴趣的检索结果,但没有挖掘用户的偏好[9]。好的用户模型应该是既反映用户兴趣,又反映用户偏好,本文试图建立满足这一要求的用户兴趣偏好模型。

实现影片个性化推荐的前提是建立合理的影片及用户模型,本文提出基于本体论的个性化影片推荐用户模型。影片本体模型能够合理地抽象、归纳影片对象的关键信息,在此基础上学习用户兴趣,建立用户兴趣偏好模型。由于用户模型的建立过程中考虑了时间、用户行为等因素,有效解决了现有算法推荐过程中相关信息优先级选择、推荐结果偏离用户当前兴趣等问题。

1 应用背景与系统构架

以用户体验为中心的智能家庭网络环境为研究背景,在媒体服务器系统平台上开展影片推荐服务的研究。用户端通过宽带媒体网关BMG(Broadband Multimedia Gateway)接入系统。系统的媒体服务器存储影片及影片本体模型信息,接收并记录用户点播,查找影片相关信息,学习用户历史记录以生成用户模型,然后根据推荐算法形成与用户模型匹配的影片推荐列表。个性化影片推荐系统整体架构如图1所示。

2 基于本体论的影片模型

影片模型要易于存储、查找、添加、修改;用户模型需要尽可能真实全面反映用户兴趣,并给出定量描述,能够根据用户不同行为动态调整模型参数。本文提出基于本体论(Ontology)的影片模型。

本体模型是一种概念化模型,目标是捕获相关领域的知识。作为领域概念化模型,明确描述领域涉及的概念、概念的含义及概念之间的关系,为简单的术语赋予明确的背景知识[10]。它可以用在信息检索领域,通过获取关键词间的语义关系,建立一个网状结构,提供用户感兴趣领域的信息空间的抽象视图,也可以得到一个用户兴趣特征的抽象视图[11]。

本文提出的基于本体论的影片模型,依据与用户兴趣相关的影片本体属性,将影片涉及的相关概念及概念之间关系进行抽象与描述。提取与用户兴趣偏好相关的属性信息,如影片类型、演员、背景等,建立影片本体模型。

影片本体OF可以表示为五元组:OF={A,V,R,H,C},其中:C为影片模型中的概念集合;A为模型中概念值,设AC为类概念,表示按不同角度将影片属性分类,如影片类型、演员、导演、背景等;V用来衡量在所属类中,属性概念的价值,由专家评判给出合理的权重;H表示影片模型层次集合,设HC为类概念层次,影片的所有类层次概念组织为同一概念层次;HATR为属性概念层次,为类概念层次HC的子层;R={same_as,composed_of,next_to},为影片概念间关系的集合,表示本体模型中概念间同义、包含、并列的关系[12]。图2表示影片本体模型结构的抽象表示,图3以影片A为例,表示影片本体模型及对应的属性值。

对影片本体模型OF,设类层次HC中类概念的数目为NC (影片模型确定后,对所有影片来说,NC为常数),第k个类概念下有属性层次HATR,属性概念数目为n,属性值为vi,WeightHk为第k个类层次对该影片构成的价值权重,该类对于影片的价值权重同样由专家评判给出。则有:

i=1i=nvi=WeightΗk(1)

那么,每部影片对于用户的价值:

Vto_user=k=1ΝcWeightΗk(2)

影片本体模型构建后,影片本体属性确定,则Vto_user对每个用户都是常值,由专家评判计算得出。

3基于影片本体论模型的用户兴趣偏好模型与影片推荐

3.1 用户访问历史记录

从用户历史记录的内容来看,包括用户访问的影片名称、访问时间、访问长度等信息,是对用户访问内容和行为的记录。从记录的时间范围来看,包括对用户短期行为描述和长期行为描述,用户在不同时间范围内的行为也是用户兴趣的反映,影响着推荐时其它相关影片对用户的价值。

从长期行为考虑,用户的个人兴趣具有一定的稳定性,早期访问过的资源在一定程度上反映了用户的潜在兴趣。由文献[13]可知,用户近期访问过的资源对用户未来可能感兴趣的影片推荐比较重要,而早期的访问对推荐影响相对较小。为描述用户兴趣随时间变化的特性,增加最近信息的重要性同时降低过去信息的重要性,引入遗忘函数h(t):

h(Δti)=(1-θ)+θΔtiL(0θ1)(3)

其中,L为当前访问时间与有效起始时间的间隔,可根据实际情况设定有效起始时间,如三个月或半年前等等。不同的用户有不同的有效时间,访问频繁的用户兴趣更新较快,有效时间相对较短,反之用户兴趣更新较快,有效时间较长,该参数可在实验中根据不同的用户访问行为确定最优时间长度。Δti为用户访问的第i部影片的时间与有效起始时间的间隔。 θ为遗忘系数,遗忘速度与θ成正比,θ越大,遗忘得越快,说明用户兴趣变化快,早期访问资源的影响越小,近期访问资源的影响越大。根据不同的推荐系统, 可以动态调整θ的值来提高算法精度。

从短期行为考虑,并不是每次用户点播都需要记入历史记录中。对于某些影片,用户只是随意浏览一下就退出,也有用户只是对某部影片名称有兴趣,但收看几分钟后发现自己并不喜欢而退出。因此有必要排除访问时间过短,对于分析用户兴趣不具有参考性的记录。为此定义用户对影片fi的接受系数:

β=ti_normalti_total(4)

其中ti_normal为用户从点播影片开始到退出过程中正常收看(以用户端播放器正常码率播放)的总时间;ti_total为影片i的总时间长度。

β衡量了用户对影片感兴趣的程度,β值与用户的兴趣成正比,因此可以用影片接受系数β来衡量用户兴趣度。通过分析中国科学技术大学VOD系统的用户访问行为,服务器IP为202.38.64.88,系统日均访问量可达10000人次/天,根据大量统计,用户的点播行为符合80/20规律,80%的用户对影片的平均访问时间只有影片长度的20%。以此为根据,给出用户历史记录准入参考阈值:β0=20%,若ββ0,则视此次访问为有效数据,加入用户历史记录,记录中的影片按访问时间先后顺序排列。

3.2 用户兴趣偏好模型

基于影片与用户兴趣的密切相关性,以影片的本体模型为基础,将用户以其历史记录中的影片模型表示,建立规则学习用户历史记录,得到用户兴趣集合,然后进一步挖掘用户偏好,得到体现偏序关系的用户兴趣模型。

设某用户的历史记录中有N部影片,所有影片模型有相同的NC个类层次概念,但每个类概念层次中的属性概念随影片而不同。

设影片模型Oi的第j个类层次(1jNC)中共有nj个不同的属性概念,对于属性概念kj(kj属于类j),定义布尔变量bi:

bi={1Οijkj0(5)

定义用户对影片各个属性的兴趣度:

DkjΙ=biβi=1Νvikjh(Δti)(1iΝ)(6)

其中,vikj表示第i部影片中第j个类概念中属性kj的值;DkjΙ表示用户对属性概念层中各个属性概念kj兴趣度; hti)为第i部影片的遗忘函数。

观察当前得到的用户兴趣模型,可以发现,用户的兴趣往往集中分布于某一个概念层次或某一个概念层次的少数几个属性上,这些都是用户兴趣的潜在反映。用户不可能像专家那样关心影片的各类信息,多数情况下他们更关心影片的某一个或几个方面,如演员、情节等。因此,以当前模型为基础,找到对用户选择影片起决定性作用的概念,即用户偏好,得到反映用户偏好的模型。

较好地确定兴趣权重的方法是将重要度与集中度结合[14]。重要度是用户兴趣的体现,集中度是用户偏好的体现,将两者结合得到既反映用户兴趣、又体现用户偏好的模型。

设某用户模型OUHC(类层次)中属性概念数目为NC个(NC为常数),第k个类层次中有nk个属性概念,设第j个属性概念(1jnk)的用户兴趣度为DkjΙ

定义属性akj对用户重要度IMP(akj):

ΙΜΡ(akj)=DkjΙj=1nkDkjΙ1jnk(7)

属性重要度反映了用户对各个属性兴趣度比重,某属性兴趣度比重越大,说明该属性对用户来说越重要。

设用户兴趣模型类层次中第k类内部的用户属性概念兴趣度DkjΙ,定义类层次k的类内集中度CENk :

CEΝk=2m(m+1)i=1nk-1j=i+1nk(DkjΙ-DkiΙ)2(8)

类内集中度反映了该类对用户选择影片时影响力的大小,值越大,说明用户对该类的偏好越大,推荐时,该类的决定作用越强。

由上述分析可得到最终的用户兴趣偏好模型,若以属性兴趣偏好度表示,设类层次中第k个类内第j个属性的总权重系数:

DkjΡ=DkjΙωkj=DkjΙIMP(ckj)CENk (9)

当前的属性概念偏好序列也可以用常见的向量模型表示,形成反映用户兴趣偏好的模型OUΡ:

OUΡ= [(a32,D32Ρ)(a14,D14Ρ)(ajk,DkjΡ)(aNnk,DΝnkΡ)]

该模型深入挖掘用户对特定属性的兴趣偏好,并给出了定量的计算。模型充分考虑了用户访问的时间特性、行为特性,将各种影响因素融于一体,大大降低了推荐算法的复杂度,提高了系统的响应速率。

3.3 推荐算法

算法的目的是在海量的影片文件中,找出最能满足用户兴趣的影片,即匹配度的计算,要考虑参与匹配项目的数目,算法的效率,尽量减小计算复杂度。基于以上的用户模型,直接以影片含有相关用户偏好概念值的大小衡量用户对影片感兴趣的程度,计算简单,很好地适应了实时点播服务。

设影片f的概念集中含有n个与用户兴趣偏好模型OUΡ相关的属性概念ai (1in),ai对应的属性值为vi,则影片f的用户价值VALf为:

VALf=i=1nviDiΡ(10)

根据计算出的候选推荐集中每部影片用户价值,选出用户价值最大的前N部影片,组成为用户推荐的top-N部影片列表。

4 仿真与实验结果分析

评价推荐系统推荐质量的度量主要包括统计精度度量方法和决策支持精度度量方法两类。统计精度度量方法中的平均绝对偏差MAE(mean absolute error)易于理解,可直观地对推荐质量进行度量,是最常用的一种推荐质量度量方法,故采用MAE作为度量标准。MAE通过计算预测的用户评分与实际的用户评分之间的偏差,度量预测准确性,MAE越小,推荐质量越高。

设预测的用户评分集合表示为{p1,p2,,pN},对应的实际用户评分集合为{q1,q2,,qN},则平均绝对偏差MAE定义为:

ΜAE=i=1Ν|pi-qi|Ν(11)

为了测试文中所提用户模型及推荐算法的有效性,本文实现了影片推荐服务系统,并搜集了500多部中外影片信息作为测试集,随机抽取了30名用户作测试对象,系统记录每位用户点播的时间、影片名称、用户对影片的接受系数等参数,经过对影片建模、跟踪学习用户兴趣,生成用户模型,最后给出top-10的影片推荐列表,由用户对推荐结果进行评判。

为了对比基于本体论的用户兴趣偏好模型的有效性,对相同用户对象同时采用传统的关键词向量模型学习用户兴趣,采用同样的推荐算法,得到基于两种不同模型的推荐结果。由用户对两种方法的推荐结果按自身满意程度打分,打分范围限定在60~100分之间。

由图4所示,基于两种不同模型的实验结果MAE对比,可见对于从10~30之间不同数目的用户历史记录,基于影片本体论的用户模型推荐准确率都高于传统的关键词向量模型推荐。

图5表示了随着用户历史记录数目的不同,两种模型推荐结果MAE值变化的趋势。可以看出,在25条记录和10条记录处,有较低的MAE值,说明本文的系统在这两点有较好的性能;而且,随着用户历史记录减少,基于影片本体模型推荐的结果MAE值逐渐减小,即推荐的准确性逐渐提高,与基于关键词向量模型推荐结果的MAE值相比,差值逐渐增加,准确性提高了5.64%,说明基于本体模型推荐的实时性要好于基于向量关键词模型的推荐。

5 结 论

由实验结果可以看出,本文提出的基于本体论的个性化推荐算法,能够有效表示用户兴趣,降低算法复杂度,进一步提高了推荐精度,尤其在推荐的实时性方面好于传统方法。目前存在的问题是实验中影片数据还不够丰富,参加实验的人数有待增加。今后的工作将在此基础上不断改进,并尝试用于更丰富的视频信息,如实时电视节目等的个性化推荐。

摘要:个性化影片推荐服务是解决目前网络视频服务中影片资源迅速增长,用户“信息迷航”的有效方法。针对影片点播应用,给出个性化影片推荐服务系统的架构,根据用户点播历史记录即可实现与用户当前兴趣相关的影片推荐。提出基于本体论的影片模型,该模型有效保存了影片中与用户点播相关的信息,并在此基础上提出新的用户兴趣偏好学习算法,建立用户兴趣偏好模型。实验结果表明,基于影片本体论模型的推荐效果与传统方法相比,具有更高的准确率。

基于语义目录的个性化检索模型研究 第5篇

本文提出了一种新的检索模型, 它基于领域本体和个人特征本体, 在语义层面进行知识推理, 然后根据语义相似度匹配算法进行匹配, 从而以语义目录的形式返回能满足用户个性化需求的信息检索结果。

1 信息检索方法分析

所谓信息检索就是从信息集合中迅速、准确地查找出所需信息的程序和方法。信息检索方法分为普通的信息检索和基于语义的信息检索。前者又分为基于内容分类的目录导航检索和基于关键字的全文查找检索。

1.1 普通的信息检索

1.1.1 基于内容分类的目录导航检索

它是把文本进行树状的分类, 每个文本至少属于一个类别, 另外还对每个文本都进行简单的描述。这方面的典型代表是Yahoo, 它把相关主题的站点组成了一个层次化的目录树。通常, 对文本的分类都是由相关方面的专家来进行的, 因此其导航功能十分强大。

但是由于它对每个文本只是进行简单的描述, 不能深入到文本的细节, 用户不能查询到文本内部的重要信息, 从而造成信息的丢失。

1.1.2 基于关键字的全文查找检索

它是基于词语的机械匹配, 建立由字或词到文档的倒排序索引, 以通过关键词来对文档进行查询。此法虽然能够解决对文本细节的检索问题, 但是依然存在很多缺陷。

1.2 基于语义的信息检索

它是以领域本体为基础, 在语义层面进行知识的推理, 从而返回与用户相关的信息。这种方法虽然可以解决手工分类以及机械匹配带来的相关问题, 但它并未考虑检索者的相关需求, 不能满足检索者的个性化检索需要。

2 基于语义目录的个性化检索模型

2.1 基于语义目录的个性化检索模型的原理

基于语义目录的个性化检索模型是以领域本体和个人信息本体为基础, 通过语义相似度匹配算法进行知识层面的语义推理, 进而将相关信息以语义目录的形式返回给用户的检索模式。其工作流程如图1所示。

2.2 基于语义目录的个性化检索模型工作流程

基于语义目录的个性化检索模型的工作流程如下: (1) 用户根据自己个性化检索需求键入检索信息; (2) 结合用户的个人信息本体对访问信息进行查询分析, 以形成查询元语; (3) 查询元语经本体推理和检索算法检索后即可找到相应的信息资源; (4) 根据检索到的相关的信息资源, 在本体库中得到相应的分类; (5) 分类经过目录映射机制处理后即可得到语义目录信息; (6) 用户点击相应语义目录即可找到相关的信息资源, 或进行更进一步的语义分类, 直到最终找到相应的信息资源。值得注意的是图1中为方便起见, 将领域本体库和个人信息本体库进行了合并, 统称为本体库。

3 个性化检索模型的关键技术

3.1 语义目录

所谓语义目录是指通过建立目录名、路径操作符和属性值到本体的映射, 将语义目录转换为一个RDF图, 系统将输出与此RDF图匹配的资源列表并动态构建下一级语义目录。

传统的个人计算机是以目录和文件名的方式来管理资源, 包括本地计算机的目录和网络目录及每个资源文件的名称等。通过操作系统提供的API, 用户可以在命令行模式下或通过图形界面查找、浏览和操作 (如创建新文件、拷贝、删除文件, 执行文件等) 相应的资源文件。

语义目录则完全颠覆了这一概念。

(1) 语义目录是动态构建的, 即通过用户前面输入的内容动态构建下一级语义目录。

(2) 语义目录中的每一个目录名都对应着本体中的一个概念, 子目录和父目录之间的关系“/”和本体中的“rdfs:subClassOf”关系一样。

(3) 语义目录还借鉴XPATH语法中的轴attribute:以通过设置属性值过滤信息。

提供语义目录一方面可以兼容文件系统目录的表现形式, 另一方面也比较符合计算机使用者的分类方式。用户可以通过命令行输入类以文件系统目录的语义信息 (如“影音资源/国内电影/”) 来查找符合要求的信息资源, 虽然这些资源可能并不属于同一个目录。

语义目录到RDF图的映射如图2所示, 其中“Resoure X”代表系统输出的匹配资源, “Class C”代表将动态构建的下一级语义目录。

3.2 语义相似度匹配算法

3.2.1 概念间的语义距离

定义1:概念C1和概念C2间的包含距离ds (C1, C2) 。ds (C1, C2) 是本体树中连接C1、C2这两个概念节点的最短边数。

定义2:概念C1和概念C2间的定义距离dd (C1, C2) 。dd (C1, C2) 是概念C1和C2在“定义”上的距离, 是由两个概念的语义描述决定的。

定义3:概念C1和概念C2间的语义距离d (C1, C2) 。d (C1, C2) =ds (C1, C2) +dd (C1, C2) 。

在理想状况下, 语义距离应该和定义距离是相等的, 但一般情况下, 概念的语义描述信息都是不完整的, 因此需要引入包含距离来弥补定义距离的不足。为了简化计算过程, 区别两个基本类我们设定两个基本类之间的定义距离是0。同时, 如果C2是C1的子孙, 我们也忽略概念C1和C2间的定义距离dd (C1, C2) 。

如果概念Cl和C2相等, 则d (C1, C2) =0, 如果概念C1和C2不相交, 则d (C1, C2) =∞。

如果概念C1和C2不相等, 则一般有d (C1, C2) ≠d (C2, C1) 。

3.2.2 语义距离计算方法

(1) 包含距离的计算。输入:C1, C2;输出:概念C1和C2之间的包含距离ds (C1, C2) , 其值用整型变量ds表示。算法步骤为: (1) 置ds的初值为0, 置表示本体中尚未遍历的概念列表Nlist和表示本体中已经遍历过的概念列表Alist为空; (2) 将C加入到Nlist的首部; (3) 如果Nlist不为空, 则转 (4) , 否则转 (7) ; (4) 取出Nlist中的第一个元素e, 利用推理机从本体中得到与e具有直接上下位关系的概念集合h (e) , 如果h (e) 中包含C2, 则ds=ds+1, 转 (7) , 否则, 转 (5) ; (5) 对于h (e) 中的每一个元素m, 如果Alist中不包含m, 则将m加入到Nlist的尾部, 如果包含, 则继续判断h (e) 中的下一个元素, 然后转 (6) ; (6) 将e加入到Alist中, 转 (3) ; (7) 返回ds, 退出。

(2) 定义距离的计算。定义4:本体中类C的语义描述是该类的所有直接父类和所有约束的并集。记作C=SS∪SR, 其中, SS是类C所有直接父类的缩写, 而SR是类C所有约束的缩写。输入:Cl, C2, CI=SS1∪SR1, C2=SS2∪SR2;输出:概念Cl和C2之间的定义距离dd (C1, C2) , 其值用整型变量dd表示;算法步骤为: (1) 置dd的初值为0; (2) 如果C1和C2是不相交, 则dd=∞, 转 (7) ; (3) 如果C1=C2, 则dd=0, 转 (7) , 否则, 转 (4) ; (4) 如果 (SS1≠Φ&&SS1中至少有一个类不是本体树的根) 或 (SS2≠Φ&&SS2中至少有一个类不是本体树的根) , 转 (5) 执行, 否则转 (6) ; (5) 设TS=SS1∩SS2, 如果TS≠Φ, 则SS1=SS1-TS, SS2=SS2-TS;如果 (SS1&&SS1中至少有一个类不是本体树的根) , 则对于每一个SS1中非根部的类C而言, 都执行下述操作:设C=SSC∪SRC (SSC表示类C的所有直接父类, SRC表示类C的所有约束) , SS1= (SS1-C) ∪SSC, SR1=SR1∪SRC。如果 (SS2≠Φ&&SS2中至少有一个类不是本体树的根) , 则执行与上述SS1相同的操作, 然后, 转 (4) ; (6) 对于每一个SR1中的属性P, 执行下述操作:对于属性P的每个约束, 执行下述操作:如果约束是Pdl, 则判断Pdl是否∈SR2, 如果否, 则dd=dd+l, 如果约束是≥Px, 则如果不存在 (≥Py) ∈SR2&& (y≥x) , 且不存在 (=Px) ∈SR2, 则dd=dd+l;如果约束是Px, 则如果不存在 (Py) ∈SR2&& (yx) , 且不存在 (=Px) ∈SR2, 则dd=dd+l;如果约束是=Px, 则如果不存在 (=Px) ∈SR2, 则dd=dd+l;如果约束是PC或PC, 则如果存在 (PD) 或 (PD) ∈SR2, 则dd=dd+dd (C, D) , 否则dd=dd+1, 然后转 (7) ; (7) 返回dd, 退出。

4 结束语

本文对信息检索的方法进行了分析, 阐述了现有信息检索方法的各种弊端, 进一步提出了基于语义目录的个性化检索模型, 并详细描述了该模型所涉及到的各种关键技术。实践证明, 该模型不仅能在查准率和查全率上有所提高, 还能针对用户的个性化需求进行查询。这对于进一步研究个性化信息检索具有一定的理论意义。

参考文献

[1]毕强, 张海涛.信息检索[M].长春:吉林大学出版社, 2003.

[2]宋炜, 张铭.语义网简明教程[M].北京:高等教育出版社, 2004.

[3]朱礼军, 陶兰, 杨睿, 等.基于知识本体的语义信息检索框架设计[J].计算机工程与设计, 2004 (9) .

[4]D Aumueller.Towards a Semantic Wiki Experience-Desktop Integration and Interactivity in WikSAR.Proceedings of the ISWC2005Workshop on The Semantic Desktop-Next Generation Information Management&Collaboration Infrastructure.Galway, Ireland, November6, 2005.

男性化模型 第6篇

关键词:个性化Web,语义Web,本体,推荐

目前, Web已成为人们获取信息的一个重要途径, 在经济日益发展的今天, 人们对信息的追求日趋个性化, 个性化信息服务是指以用户需求为导向, 以整合、组织信息资源为手段, 通过建立用户兴趣模型和信息过滤技术主动向用户提供其可能需要的信息和服务[1]。个性化Web就是根据用户浏览模式和个人兴趣爱好以及用户信息, 结合网站特点提供个性化信息的网站。

经过对Web信息资源进行过滤、筛选和分类, 用元数据描述[2], 以满足用户个性化需求的Web信息资源库。本文采用语义Web技术, 提出了一种新的个性化Web信息服务模型, 利用现有推荐算法能更好地挖掘与用户兴趣匹配的个性化信息。实验证明是有效的。

1 个性化Web信息服务模型

1.1模型框架

本个性化服务模型主要包括三个部分 (图1) : (1) 基于语义信息的用户, 收集到的用户信息资料使用语义形式更精确地描述用户的偏爱; (2) 个性化需求库, 根据某种兴趣用户群体的需求, 经过对Web信息资源进行过滤、筛选和分类, 建立元数据描述而形成的、用以满足用户需求的Web信息资源库; (3) 个性化资源库, 依据用户偏好和主要成分的语义属性从Web信息资源挖掘而形成的资源库。

在客户端收集的用户信息经过清洗、过滤、筛选, 采用本体语言来描述用户信息, 这样的方式最终目标就是要使各类信息在Web这样一个动态性极强的开放式环境中能被无歧义地表示和交换, 实现 Web信息的机器可读, 从而为更智能、更复杂的 Web开放式应用创造条件, 将这些用户浏览过的Web, 并对其信息服务做出的评价或者用户在浏览过程在Web Log中留下的足迹, 如在访问了哪些网页, 在某网页上呆了多长时间等方面的资料, 这些资料通过元数据规范化而形成了个性化需求库, 根据用户的偏好的置信度, 用现有的成功的数据挖掘算法, 设立个性化信息推荐方法库, 视具体情况动态采用相应算法将已语义标识的Web信息资源抽取与用户偏好相关联的个性化资源, 这些个性化资源再经过过滤后推送给用户。

1.2 个性化需求库

构建个性化信息需求库, 用户信息收集是关键, 个性化信息服务系统功能的优劣很大程度取决于信息收集得是否全面与准确。现今, 用户信息收集主要有以下四种方式: (1) 填写登记表, 运用这种方法可提供最基本的信息; (2) 通过信息反馈, 用户对个性化服务提供商所提供的信息的评价和建议, 有利于了解客户的消费趋向; (3) 社区内信息。个性化服务提供商通过建立社区, 为用户搭建一个可以相互交流的平台。由于用户会选择所感兴趣的社区, 自动组成具有相近兴趣的用户群; (4) 用户日志。日志文件中记录了大量的信息, 这些信息反映了什么用户什么时候访问了哪些页面, 访问的路径和在页面停留的时间等信息。这些收集来的信息要经过数据清洗、过滤、筛选和分类, 建立相应的本体, 逐步形成本体库, 即个性化信息需求库。

在语义Web[3]中通过某种元数据描述的对象就是本体, 现有最常有的本体语言有DAML+OIL[4]和RDF等几种, DAML+OIL是在RDF的基础上发展的, 比RDF有更多更复杂的类、属性等定义, 在描述本体方面比RDF更方便, 具有更强的表达能力, 非常适合在Web环境下使用, 而且提供了很好的智能推理功能。本文以本体语言DAML+OIL来描述用户信息, 下面是描述用户信息的DAML文件片段

这个片段描述了一个叫TOM的客户, 兴趣偏好主要是看书和旅游, 具体实例中的兴趣偏好是历史小说和国外旅游, 个性化Web服务提供商可以从本体库中索取客户的详细兴趣偏好, 利用现今的推荐技术向目标客户提供所喜好的服务, 这样既可以满足客户的个性化信息服务需求, 又可以增加服务方的利润以及提高对服务方的忠诚度。

利用用户偏好建立了个体本体, 即DAML文件, 逐步扩展形成本体库, 对其也可以根据需要进行动态增加或删除用户偏好, 通过RDF API对本体进行解析和查询, 利用URI对不同用户进行识别, 这些不同用户间的联系将产生用户间的交互, 而用户间的交互将促成用户间相似性的形成, 多个相似用户具有相似的偏好, 这些具有相似偏好的用户便形成了邻居, 以本体的形式利用现有的过滤技术和推荐技术实现, 更能准确、智能化, 如用户之间的相似性计算可以用Pearson相关度方法和目前常用的向量空间相似度计算等方法, 这样用基于邻居用户的兴趣爱好预测目标用户的兴趣偏好, 即根据其他用户的观点产生对目标用户的推荐列表。

1.3 个性化资源库

在信息推荐系统中的数据源是基于DAML+OIL本体语言, 用本体编辑器创建资源本体, 然后嵌在网页文件头部作为标注信息, 下面是本体片段。

标注了的Web页面的主题概念表示了网页本质内容的关键词对应着本体里面的某个概念, 通过推荐系统利用现有的各种推荐技术和挖掘技术将Web服务器中的信息推荐暂存储到个性化资源库模块中。

2 实验和结果分析

本文设计的模型, 能提高个性化程度是由两个方面决定的, 即是由个性化需求库和个性化资源库高质量创建分不开的, 不仅与个性化需求库中拥有准确的用户个性化信息有关, 而且与个性化资源库在相同推荐技术的前提下, 从Web信息资源库中抽取与用户偏好高相似度程度有关, 为了检验系统的有效性, 建立了一个原型, 在Web服务器中以MySQL作为后台数据库, Web脚本使用的是语言JSP, 现有3 000个网页, 包含60个本体概念, 每个主题概念推荐的网页数为n, 准确推荐的网页数m。在收集用户信息创建的DAML本体数据集中相同主题概念本体DAML文件数为p, 用于描述个人用户信息的DAML文件数为f, 建立模型推荐效果数学函数为:undefined, 如果undefined值越大, undefined值越大, 则e值越大, 模型推荐效果就越好, 从而证明模型的可行性。表1给出了实验结果。

实验证明了模型的可行性, 并取决于个性化需求库和个性化资源库高质量创建, 也就是使用语义Web创建本体, 在该模型中是有效、可行的。

3 结论

在经济日益发展的今天, 人们对信息的追求日趋个性化, 个性化Web信息服务成为研究者研究的热点, 本文针对目前的推荐系统存在个性化程度不高, 提出了一种采用语义Web技术的个性化Web信息服务模型, 推荐算法能更好挖掘与用户兴趣匹配的个性化信息, 个性化程度更高、更智能。

参考文献

[1]郭炜, 高琳琦.电子旅游中间商的个性化信息服务模式研究.情报科学, 2006;24 (5) :732—735

[2]陈君, 唐雁.基于Web社会网络的个性化Web信息推荐模型.计算机科学, 2006;33 (4) :185—193

[3]Berners-Lee T, Hendler J, Lassila O.The semantic Web.Scientific American, 2001;284 (5) :34—43

男性化模型 第7篇

基于移动平台的电商个性化推荐系统除了需要满足传统的软件系统诸如系统性、实用性、安全性、易操作性和可扩展性的性能要求之外,还要考虑移动电商的特殊性带来的影响。移动电商对电商个性化推荐系统的要求如下:

1.1 用户兴趣偏好的实时性

用户的兴趣偏好是不断变化的,体现在系统中就是用户评分数据随着用户的商品浏览、购买及评分等操作而改变。移动平台赋予了电商的移动性特点,移动中的用户更容易受到不同情境的影响,兴趣变化程度更为突出。这就要求系统能够及时捕获用户兴趣的变化,把握用户的实时兴趣偏好,做出准确有效的推荐。

1.2 系统响应的快速性

移动电商面向的是使用移动终端进行网购的用户,用户在移动终端上对系统延时等待的忍耐程度要远远低于传统的端,这就要求系统拥有较高的运算和传输效率,能够快速响应用户的要求,在最短的时间内为用户提供准确、可靠的推荐结果。

1.3 大数据处理的适应性

移动平台的便携性使得用户可随时随地浏览商品信息。没有时间和地点的限制,用户的访问量和数据量将会大幅增加,这要求系统具备良好的大数据处理能力,在大数据、高并发情况下也能保证快速响应和有效处理。

2. 推荐系统的模型

系统模型由三个部分组成:输入模块,推荐处理模块以及输出模块构成。

2.1 输入模块

输入模块一般是客户端或者浏览器与用户进行交互,将用户的交互信息收集并存储起来,或者直接交给推荐处理模块进行处理。不同类型的电商推荐系统,收集和处理的用户信息各不相同,有的收集用户的浏览页面路径,有的收集用户的评价,这都会导致推荐结果的不同。电商推荐系统输入模块可以使用如下的信息:顾客注册信息、用户主动评分信息、用户隐式浏览信息、用户文本评价信息、关键字信息、用户购买信息。

2.2 推荐处理模块

推荐处理模块是电商推荐系统模型的主体,具有承前启后作用,接收输入模块的数据,将推荐结果交给输出模块。推荐处理模块具体分成两个部分:推荐建模和推荐引擎。推荐处理模块可以使用不同的推荐算法,还可以使用结合的算法。

协同过滤系统是目前应用最为广泛的个性化推荐系统,其中Grundy被认为是第一个投入应用的协同过滤系推荐工具。Grundy系统可以建立用户兴趣模型,利用模型给每个用户推荐相关的书籍。Tapes2try邮件处理系统人工确定用户之间的相似度,随着用户数量的增加,其工作量将大大增加,而且准确度也会大打折扣。Group Lens建立用户信息群,群内的用户可以发布自己的信息,依据社会信息过滤系统计算用户之间的相似性,进而向群内的其他用户进行协同推荐。Ringo利用相同的社会信息过滤方法向用户进行音乐推荐。其他利用协同过滤方法进行推荐的系统还有Amazon1com的书籍推荐系统,Jester的笑话推荐系统,Phoaks的www信息推荐系统等。

内容推荐许多改进算法已经被广泛研究并且应用到标准的相关性计算和夹角余弦公式中。例如缺席投票(defaultvoting),事例引申(caseamplification)和加权优势内容推荐预测等。其中,缺席投票是基于记忆方法的一种扩展。如果用户明确评分的产品数目很少,上面提到的算法得到的用户相似度都不准确。原因在于这种相似性的计算是基于用户x和y共同评过分的产品集合。实证数据表明,如果给一内容推荐些没有打分的产品赋予一些缺省的打分值,那么预测分数的准确性将大幅度提高。Sarwar等提出应用相关性和夹角余弦方法计算产品之间的相似性。这个思想被Deshpande和Karypis推广到基于产品相似性的top2N推荐算法中,即在进行推荐的时候只考虑相似度最高的N个产品,并非所有的产品。实验证明这种方法不仅比传统的基于用户邻居的推荐算法快1—2个数量级。

2.3 输出模块

输出模块就是把结果输出给用户。它也是与用户的交互过程,对应于输入模块。经过推荐处理模块的处理后,就需要用户能够看到推荐的结果电商推荐系统可以使用不同的方式呈现其推荐的结果,结果的类型也不同,电商推荐系统的输出结果可以分为几种形式:

(1)相关产品的输出:推荐的结果就是商品的集合。典型的列表如Top-N推荐列表或销售排行列表。

(2)等级评分的输出:对应于输入数据的主动评分信息,用户对商品打分,系统记录并统计这些信息,推荐处理模块生成用户对该产品的综合评分,帮助用户判断该产品的质量或者性能。

(3)电子邮件的输出:其实和相关的产品输出一样,都是具体的商品集合。但是呈现方式不同。它不是直接呈现,而是通过电子邮件发给用户。这种输出的方式是站点与用户之间的交互,可以定期吸引客户到站点访问,提高用户忠诚度,减少用户的丢失。

(4)文本评论的输出:对应于输入模块的文本评论信息。当用户浏览某个商品时,可以给出这些评价信息。根据这些评价信息可以辅助用户了解该产品的性能,决定是否购买。

参考文献

[1]邓晓懿.移动电商个性化服务推荐方法研究[D].大连理工大学,2012.

男性化模型 第8篇

我国是一个农业大国,“三农”问题一直是关乎国计民生的头等大事,农业信息化技术无疑是解决这些问题的根本出路。随着网络规模的发展和个人计算机的普及,农业科技信息也充斥在互联网的各个角落。但是,由于农业从业人口文化素质偏低,对信息技术了解不足,为农业信息的传播造成障碍,导致“信息孤岛”现象严重。考虑到农业用户本身的条件限制,希望建立一个健全的自动采集农业科技信息的网络服务平台,促进信息共享。另外,农业信息也包括很多不同的方面,随着站点信息量的增加,使我们在精确定位信息上大费周折。因此,需要站点能够收集和分析用户信息,学习用户的兴趣和行为,发现用户隐藏的兴趣和群体用户的行为规律,从而主动向用户推荐其感兴趣的内容,实现个性化的农业科技信息推送服务[1]。

农业科技信息个性化服务除了早些年以专家到实地进行面对面的科技指导外,近年来依托通讯技术的农业科技信息个性化服务也取得了巨大的进展。岳广飞、何明祥提出农业个性化信息服务的理念,并在广播,电视,手机等通讯媒体上定制消息实现个性化信息服务[2]。随着信息技术的发展,逐渐出现了农业垂直搜索引擎,但它要求用户用关键字明确表达自己的需求。此外,目前垂直搜索引擎仍然无法克服准确率和召回率低的问题[3],用户仍然要从众多检索结果中选出真正需要的信息。2011年,陈晨,田凤珍等在有关农业知识的网上书店中实现了基于用户注册信息的个性化服务[4],增加了用户负担。

计算机领域中,Web信息抽取技术逐渐成为研究的热点,现有的技术主要有基于自然语言、基于归纳学习、基于HTML结构、基于页面视觉特征以及基于包装器的方法,这些方法都各有优势与不足。另一方面,如何获取用户信息,为用户兴趣建模是实现个性化服务的关键问题。用户兴趣信息的获取方式分为隐式和显式两种方式,采用显式收集方式,需要用户自己指出感兴趣的内容,并标注感兴趣的程度,得到的信息较及时、准确,但需要用户的积极配合,无疑增加了用户的负担。隐式收集方式是通过系统自动对用户访问历史数据进行分析,从中获取准确的用户信息,动态生成用户兴趣模型,对用户的依赖程度小[5]。

本文在分析信息源站点网页结构的基础上,实现了将不同信息源站点的数据获取出来并存入数据库,满足了数据查询与更新的要求。同时,设计并实现了一种结合Web站点日志和网页内容的处理方法来建立用户兴趣模型并为该用户模型分类,从而实现站点的个性化信息推送服务。

1 研究架构

为了实现自动采集农业科技信息以及为访问用户提供个性化推送服务的功能,本文主要基于B/S架构进行设计。在客户端,用户通过浏览器访问本站点的资源,同时也是通过浏览器为用户推送信息。服务器端承受了本研究中的大部分工作。首先服务器端定时启动任务从多个信息源站点自动采集信息存人本地数据库中。其次,服务器还要采集站点的访问日志并按照研究要求对日志进行处理,建立用户访问模式,在结合用户访问的网页内容建立用户访问模式描述文件,最终产生用户兴趣模型库。最后,当有用户访问站点时,服务器端获取该用户的访问日志,构造用户兴趣模型并为其分类,从而产生推荐信息,发送给客户端浏览器。本研究的处理流程如图1所示。

农业科技成果数据库主要包括农业相关领域的政策信息、科技资讯、技术产品、科技成果、供应商、科技展会、专家平台7个分类。每个分类对应数据库中的一个基本表,从信息源站点抽取的数据经过处理,消除异构后存入相应的表中。数据库的总体框架如图2所示。

2 数据库建设

Internet上农业信息分散存储且更新较快,为了使用户能在第一时间获得自己想要的信息,需要搜集大量的不同来源的农业信息存入数据库,以供本站点用户查询。因此,采用Web信息抽取方法来自动获得数据,减少对人工的依赖性。另外,由于受网络链接状况以及对方服务器性能的限制,本文着重于对数据更新时失败重试机制和任务分模块执行方法的研究。

2.1 Web信息抽取

针对信息源网页的特点,本文采用聚焦爬虫[6,7]技术,分析要抓取网页的特点,提取其中的URL保存到预先设定的队列中。根据内容评价搜索策略从该队列中选择有用的链接,并将页面保存到本地,重复上述过程,直到所有网页均被下载为止。

在获得满足条件网页集的基础上,本文采用基于包装器的Web信息抽取技术,通过将html文档生成DOM树,根据DOM树中对应的节点确定目标数据项的定界符[8],从而确定该数据项,提取其中的信息,并将其中无关html标签、CSS样式等去除,转化为所需的格式后存入数据库中。

2.2 基于XML文件的数据更新

由于每个模块每次需要从信息源网站获取大量的数据,为了不给对方服务器造成太大的压力,本研究采用Java语言中的定时任务设计定时机制使抽取任务在每天凌晨0点触发,每个模块分别在不同时间段执行抽取任务,并在任务结束后将相关信息记录下来,下次抽取时在本次抽取的基础上继续进行,保证了抽取任务的连续性。

本文设计使用XML文件来保存抽取任务执行情况的信息,主要包括(以政策信息为例):

<Policy>:说明以下子元素记录了“政策信息”模块的抽取信息。

<endDate>:用来存储上次抽取任务的截止日期。

<failUrl param=”农业”times=”1”>:用来存储上次抽取失败的URL,其中param保存这个URL所对应的一些参数,times记录这个URL已经被重试的次数。如果有多个失败的URL,那么就有多个failUrl元素。

XML文件实现失败重试机制流程如图3所示。

当新一次的抽取任务触发后,首先,根据时间判断目前执行抽取任务的模块,在XML文件中获取有关该模块的节点元素。其次,依次获取该节点下failUrl子节点。对于每一个failUrl子节点,如果times值大于3,说明该URL已经重试了4次却依然失败,那么丢弃该URL,在XML文件中将该failUrl元素删除;否则,结合param值再次抽取该URL内容,若抽取成功,将该failUrl元素从XML文件中删除;否则将该failUrl节点中times值加1。然后,获取该节点下endDate子节点,开始本次的抽取任务,本次抽取信息的时间均在endDate元素值之后。最后,将本次抽取失败的URL和属性值构造failUrl节点插入到XML文件中,以便在下次抽取任务开始后优先执行这些失败的URL,实现抽取过程中的失败重试机制。

另外,本文将每个模块的数据抽取过程看作一个事务来处理,只要这个模块在获得可直接抽取数据入库的URL列表前的任何一步出现错误或者异常,就触发回滚机制,撤销本模块所有对数据库已经进行的操作,并终止抽取任务,等待下次执行,保证了数据库数据的唯一性,防止重复数据的产生。

3 建立用户兴趣模型库

为了向用户提供个性化服务,Web站点首先需要了解用户的兴趣,跟踪用户在本站点内的访问行为[9],并对代表其行为的数据进行数据挖掘,建立具有代表性的用户访问模式,形成用户兴趣模型库。

3.1 基于改进k-means方法的会话聚类

建立用户兴趣模型的前期处理主要是通过对日志文件进行挖掘发现具有相似访问模式的用户都感兴趣的网页集合。本部分着重于对改进k-means会话聚类方法的介绍。

首先,通过对原始日志文件清洗除去不能有效反应用户浏览行为的日志记录。其次,在剩余的日志记录中按照客户端IP和用户代理信息的不同识别出每个用户的访问日志记录。再次,对于每一个用户的访问记录按照持续访问时间是30分钟[10,11]的条件分为不同的会话。最后,采用向量表示每个用户会话。向量元素是所有会话中产生的每个有效网页在该会话中所占有的权重,表示用户对该网页的兴趣度。

会话聚类是在正确表示用户访问会话的基础上进行的,用来发现具有相似访问模式的会话,将它们聚为一类,并取每一类的质心元素作为该类访问模式的代表。

传统k-means[12]聚类算法由于初始质心随机选取因而具有很大的随机性并且容易陷入局部最优的状况。本文改进了传统k-means方法中初始质心的选取方法。主要思想是以每个会话向量为圆心,以所有会话向量之间距离的平均值为半径做圆,然后根据初始类别数目和每个圆内数据点的密度排序获取必要的参数信息和初始质心。具体步骤如下:

(1)指定最终的聚类数目k。计算所有会话向量距离的平均值R1,并设定R2=aR1作为判定不同类的距离标准。

(2)对所有会话向量依次计算落在以每个会话向量为圆心,以R1为半径的圆内的会话向量编号以及总数目作为每个会话向量的样本密度。

(3)将所有会话向量的样本密度按从大到小的顺序排列,取拥有最大样本密度的会话向量作为第一个凝聚点。

(4)在密度次大的圆内随机选取会话向量s0,若与所有已确定的凝聚点之间的距离均大于R2,则把s0作为新的凝聚点,否则继续判断下一个密度次大者。直到没有新的凝聚点产生,则算法结束。

对于R2中的a值,本文采取枚举法来确定最符合需求的a值。主要思想是枚举不同的a值采用以上的算法得到一系列凝聚点和聚类数目,然后从中选取聚类数目大于并最接近事先确定的初始分类数k的那一组,在满足条件的那一组凝聚点中选取前k个点作为k-means算法的初始质心。然后,按照k-means算法进行聚类。

会话聚类得到用户访问模式代表npci={w1,w2,,wn},wi,表示网页i在本访问模式中的权重。NP={np1,np2,,npk}表示用户访问模式集合。

3.2 网页内容预处理

网页内容在很大程度上决定用户是否需要访问这个网页,反应用户兴趣。在得到用户访问模式基础上结合每个访问模式包含的网页关键内容构造访问模式描述文件。

对npci={w1,w2,,wn},ci∈C中非零wi对应的网页,提取网页的标题内容,过滤其中的html标记和其他无关字符,得到纯文本信息集合。然后使用中文分词方法获取集合中的信息项。本文中采用基于字符串匹配分词中的正向最大匹配方法[13]来进行分词,并在分词后过滤掉停用词和无用高频词,对剩下的词语计算在本类文档中的权重。

参照TF*IDF[14]方法,用户访问模式描述文件表示为由信息项x、信息项频率tfx,npj、文档频率dfx,npj构成的集合prj={(x1,tfx1,npj,dfx1,npj),(x2,tfx2,npj,dfx2,npj),,(xn,tfxn,npj,)}其中,信息项频率tfx,npj表示信息项x在访问模式npj中出现的次数与npj中所有信息项出现的次数和的比值。文档频率dfx,npj表示在访问模式npj所有网页中出现信息项x的网页个数与npj中所有网页数目的比值。

3.3 建立用户兴趣模型

用户兴趣模型最终表示为关于信息项和信息项频率的二元组集合prj={(x1,tfx1,npj),(x2,tfx2,npj),,(xn,tfxn,npj)},相对于用户访问模式描述文件来说,主要通过设置文档频率阈值df过滤掉其中不重要的信息项,只保留信息项和信息项频率来构建用户兴趣模式。用户兴趣模型库表示为用户兴趣模型的集合PR={pr1,pr2,,prk},其中k是用户兴趣模型的数目。

3.4 用户兴趣模型更新

用户兴趣不是一成不变的,用户的兴趣模型库需要定时更新[15]。本文中采用定时机制在站点访问量较小的每天凌晨0点重新获取日志文件,建立用户兴趣模型库。同时,考虑到站点内容、结构更新以及系统承受能力等方面的因素,定时删除数据库中1个月以前的日志访问记录。

4 个性化信息推送

建立用户兴趣模型库的目的是根据站点内不同用户的历史浏览记录对其访问模式进行分类,从而推荐合适的信息,实现信息的主动推送。根据用户兴趣模型的建立过程,站点来访用户的识别及预测兴趣主要分为以下步骤:

(1)获取来访用户IP,用户代理等信息。

(2)从数据库中取出与客户IP、用户代理相同的最近会话的历史访问URL列表。得到各URL的关键内容,并构建用户兴趣P={(x1,tfx1),(x2,tfx2),,(xn,tfxn)}。

(3)计算与用户兴趣模型库中每个模型的相异值D(P,pri),并把P归为D(P,pri)最小的那一类,同时把该类的有效URL推荐给访问用户。

计算P和用户兴趣模型pri之间相异值算法描述如下:

(1)输入P和用户兴趣模型pri。

(2)对于P和pri中的每一个信息项xi,取出分别对应的tfxi和tfxj,pri;如果在P或者pri中不存在xi,那么设置对应的tf=0。计算d(tfxi,tfxi,pri)。

(3)所有d(tfxi,tfxi,pri)总和就是P和用户兴趣模型pri的相异值D(P,pri)。

其中d(tfxi,tfxi,pri),计算如式(1)所示:

5 性能测试与评价

本文在设计时以可靠性和可用性为原则,选择Jsoup开源工具来解析网页。选取如表1所示的信息源网站中发布日期在2012-05-05到2012-06-05之间的信息作为测试数据,然后从政策信息、技术产品、科技成果、供应商、科技展会、专家平台这6类信息来测试抽取方法的效率,抽取数据的成功率(包括重试成功)如图4所示。

测试用户兴趣模型准确度采用的试验日志是http://211.66.184.35:80/从2004-12-13到2005-01-12一个月的访问日志记录,经过处理得到16171条日志访问记录,丢弃只访问一个网页的会话,最终可用会话有3917个,其中会话训练集有会话3800个,测试集有会话117个。同时,过滤总访问次数小于3的网页URL,得到106个不同的网页URL。

进行会话聚类时根据测试站点内容将聚类类别数k定为10,通过枚举a的值得到凝聚点个数关系如图5所示。

从图5中可以看出凝聚点的个数随着a值的增大而变小,满足条件的a值是1.54。k-means聚类时选择a=1.54时得到的11个初始质心中的前10个作为聚类的初始质心。

预测用户兴趣需要将选作测试集的会话随机分为等量的两部分,一部分用来模拟当前活跃会话,另一部分作为标准的预测结果。推荐给用户的兴趣集是包含测试会话第二部分的URL集合。试验性能评价采用预测精确度A(C)作为性能度量标准,指与整个测试会话有相同访问模式的模拟会话的数量与测试会话总数的比值。同时,为了度量返回给用户的URL集的精确度引入A(P)指标,该指标表示推荐网页集中预测到的网页个数和推荐网页集的总个数之间的比值。

分别采用改进的k-means算法和原始的k-means算法聚类建立用户访问模式,并按照本研究介绍的方法建立用户兴趣模型库,预测用户兴趣。另外,与目前常用的分类方法:Web日志挖掘分类、K近邻分类(KNN)、朴素贝叶斯(Native Bayes)分类在预测用户兴趣上做性能比较,结果如图6所示。

如图6所示,本文使用的用户兴趣模型建立方法在预测精确度和推荐准确度上都优于其他方法。该方法根据用户的历史访问记录为用户推荐的农业科技信息能够相对准确地满足用户的需求,符合用户的兴趣,体现了该方法的可用性和可靠性。

将用户兴趣建模方法用于本站点上,使用站点最近一个月的日志文件做测试数据,采用同样的测试方法来进行预测试验,预测精确度为75.7%,推荐精确度是57.2%,比在测试数据集上的推荐效果稍好些,这是因为测试数据集涉及到的网页格式比较复杂,建模后期对网页关键内容处理没有达到理想的效果,而本站点中网页展示格式统一,有利于建模。同时,本站点在系统构建阶段设置每5分钟检查日志文件是否更新,如果有则将产生的日志记录经过处理存入数据库作为用户的历史浏览记录。用户只要访问本站点,服务器端立即为用户会话分类,进而向客户浏览器推荐农业科技信息,保证站点个性化信息服务的及时性。

6 结语

本研究实现了对指定农业科技信息网站中各类信息的自动获取、集成并存入数据库中,实现了数据库内容的自动更新以及失败重试机制。另外,结合服务器日志和网页关键内容,采用改进的k-means聚类方法建立用户兴趣模型库,为来访用户会话分类,推荐其感兴趣的网页URL。在很大程度上减少了信息获取时对人工的依赖性,使站点主动感知用户的需求。然而,因为数据抽取时要针对不同的站点编写不同的抽取规则,所以在增加新的站点时需要重写编写抽取规则。在信息推荐上,用户对系统推荐的URL进行评分,与系统进行交互,在线修正用户兴趣模型。这些内容有待进一步研究实现。

男性化模型范文

男性化模型范文(精选8篇)男性化模型 第1篇个性化检索系统一般在普通检索系统的基础上增加了用户模型、提问调整、源选择、结果处理等“个...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部