分布式检索技术-盘古文库

分布式检索技术（精选8篇）

分布式检索技术第1篇

为了实现对各个媒体资产管理系统的视频资源的调用,需要在专用网络或者是广域网络环境中构建一个统一的视音频素材业务应用平台,对分布于各个媒体资产管理系统中的视频资源进行检索,以便资源共享、交流和交易。

1系统分析与构架

在广电媒体机构间构建统一的视音频素材业务应用平台的核心内容是对各个广电媒体机构的视音频资源的检索和调用。在视音频资源的检索和调用方式设计上,由于各个业务应用平台在系统互通限制、数据模型结构差异以及平台架构不同等方面的限制,传统的整体开发模式不适合当前统一的视音频素材业务应用平台构建现状。为了解决这一问题,参考目前主流视频服务网站在对于分布式服务器数据访问方式,并结合广电系统的实际需求以及各个广电媒体机构的实际需要,在系统架构上采用面向于服务的体系结构( SOA) ,参考国家相关标准,通过在各个广电媒体机构的媒体资产管理系统基础上建立良好的数据接口和数据协议,为公共视音频素材业务应用平台提供数据服务,建立统一和通用的数据应用服务[3]。

在系统的结构上,主要分为面向于外部用户的统一业务应用平台以及面向于各个媒体资产管理系统的数据服务接口模块如图1所示。

在统一的视音如图1所示材业务应用平台主要实现外部用户与各个媒体资产管理系统之间的数据交互。在数据交互过程中,统一业务应用平台接收用户的请求,并将用户的请求和用户的身份凭据转换为服务调用请求,通过调用通知的方式将数据服务请求发送到分布于各地的数据接口服务模块; 各个数据接口服务模块服务层接口接收数据服务请求,首先对于数据服务请求中所携带的用户身份凭据信息进行验证,确定合法的数据服务请求后调用各自的媒体资产管理系统的数据服务或者直接对媒体资产数据进行数据处理,以数据集的形式返回给数据服务接口模块; 数据服务接口模块在获取检索数据后,根据预先规定的数据业务实体格式对于所获取的媒体资产数据进行数据转换,以SOAP协议向统一业务应用平台的数据接收服务Web Services以业务实体集的形式发送数据。统一业务应用平台通过异步的形式获取数据后,对于数据进行格式校验,将从各个数据服务接口模块接收到的业务实体集转换为对应的用户显示界面实体数据集,并生成用户交互界面。

2 Web服务的构建

构建于各个广电媒体机构的数据服务接口模块是系统数据的服务提供者,其主要的任务是接收用户的请求并将检索的关系数据以标准的数据模型以高效的方式返回给统一数据业务平台。数据服务接口模块在设计上需要兼容媒体资产管理系统的发展程度、架构平台以及数据结构等多方面的差异,要求在对外数据接口的设计上安全、统一,并且在返回数据格式上简洁、清晰,因此在各个数据服务接口模块的设计上,确立以基于广电新闻视频语义描述规范作为参考的标准业务实体模型结构,以WSDL作为公共数据接口发布方式,通过SOAP协议向统一数据服务平台传递业务实体数据集的解决方案。

2. 1标准数据模型设计

在数据转化实现之前,首要任务是需要建立统一、通用的数据媒体资产数据模型。在标准模型设计上,遵循新闻视频语义描述特点以及GY/T202. 12004《广播电视音像资料编目规范第1部分: 电视资料》[4],总结了国内电视台、音像资料管理部门及广播电视设备开发供应商关于音像资料编目的经验,参考国际上以电子资源为主要著录对象的DC元数据标准,对于新闻视频素材采用4层语义结构描述方法,将新闻视频素材在结构上划分节目、片段、场景、镜头等4种常用的描述片段,指定统一的电视资料编目元数据的编目结构、层次及著录项目,实现电视资料编目和应用的标准化。

2. 2数据模型转换

数据转化的核心是完成对于各个子媒体资产管理系统中的关系数据库数据转化为面向于系统的统一对象数据的转化。对于传统的媒体资产管理系统来说,各个部门根据其自身的媒体资产管理系统的实际应用需要,其DC元数据存储标准各不相同,这就将会为在进行分布式管理设计过程中设置一定的障碍,使媒体资产分布式管理统一平台的设计需要熟悉各个系统的数据模型结构,给开发带来了一定的问题。业务对象类图如图2所示。

在确立标准数据模型后,需要在各个子媒体资产管理系统其构架的基础上,通过数据访问层的数据访问逻辑组件实现关系数据库数据向对象数据的转换。根据统一的类型业务实体,以数据访问逻辑组件所封装的面向于特定媒体资产管理系统关系数据库的特定的数据存储结构实现数据检索操作,并将所检索的数据根据标准数据模型进行关联赋值。

2. 3数据通信协议和载体

在数据服务间的数据通信协议上,采用了面向于服务体系架构的SOAP协议,在安全控制上,通过SOAP报头的安全认证信息发送和接收,使各个数据接口服务模块只有合法的数据请求才可以进行访问该服务,实现相应的数据处理调用,保证了系统的数据安全[5]。在各个数据接口服务模块对于请求的数据返回设计上,采用采用自定义业务实体集作为数据通信载体,通过基于XML特征的文本压缩算法对于自定义的业务实体进行序列化压缩,与传统的基于Dataset的数据通信载体相比,在数据传输量以及数据处理效率上都有大幅度的提高。

3异步数据呈现

在分布式数据源的模式下,由于各个广电媒体机构在媒体资产管理系统的架构水平、架构方式以及处理效率上的差异,如果采用传统的面向于单数据源的同步用户数据响应模式,将会导致用户交互界面在接收数据响应过程中非常耗时。因而在数据接收响应模式上采用基于轮询机制的响应模式[6]。系统顺序图如图3所示。

在初始状态下,统一业务应用平台将用户的数据请求建模为请求/答复操作,向各个数据接口服务模块发送数据处理请求,各个数据接口服务模块完成数据处理后,以业务实体集形式将数据返回给统一业务应用平台的数据接收处理服务,数据接收处理服务对于所接收的数据进行必要的验证操作,在通过验证后将数据转化为与业务实体格式对应的JSON数据。在数据接收上,统一业务应用平台要求具有一个通知机制以及一个监听组建来周期地轮询来自数据接口服务模块的响应,当有新的数据返回后,数据接收处理服务需要将新的数据添加到响应数据存储文件中。在异步数据获取上,采用基于AJAX的XMLHttpRequest对象( 简称XHR) 实现对于数据的异步响应和异步呈现。在数据处理上,XHR向同源的数据响应程序发送send( ) 数据请求,获取JSON中的数据文件; XHR以轮询的形式检测是否有新数据返回给统一业务应用平台,当数据接收处理服务接收到新数据后,以数据中介的形式通知XHR在JSON文件中有新数据生成,XHR以主动或者被动响应的形式将DOM新数据返回给用户交互界面,实现新数据的更新[7 - 8]。

4总结

以采用面向服务的体系结构( SOA) 建立面向于广电业务实体的分布式视频检索系统,在媒体资产管理系统的基础上开发公共数据接口服务,并以轮询的请求/ 答复异构响应结构解决各个媒体资产管理系统的数据处理效率问题,建立一种面向应用的异地分布式媒资检索系统,促进在广电系统内、外部的视频素材资源协同化公共平台的建设,推动数字媒体内容产业和多种新业务的发展。

摘要：提出了一种在现有媒体资产管理系统的基础上构建基于网络的分布式视频素材检索系统,通过面向服务的体系结构,以标准数据模型构建统一数据接口和协议实现异构、异地媒体资产数据检索处理,并采用轮询请求/答复的异构响应结构实现与各媒体资产管理系统的检索数据异步通信。为改善广电传媒机构媒资系统分块建设、孤岛运营现状,共享视音频媒体资源做了一种有益的尝试。

分布式检索技术第2篇

网上电子期刊具有时效性强、内容丰富、检索途径多样等优势，利用率非常高。网上电子期刊包括与印刷版同时发行和仅在网上发行的两种，其主要来源渠道有：

（1）出版商和文摘索引服务商提供的期刊检索服务。目前，国际上大多数主要的期刊出版商都建立了全文数字化期刊数据库，并通过因特网提供服务。如美国学术出版社（Academic Prees）的IDEAL（International Digital Electronic Access Library）系统（http：//www.Idealibrary.com），德国Spring-Verlag出版公司的Link系统（http：//www.link.springer.de）等。有的文摘索引服务商则将自己的产品上网，提供包括期刊订购、检索、全文传递等服务。如美国威尔逊公司（Wilson）的Wilson Fulltext（http：//www. wilson.com）。

（2）网络数据库信息服务商提供的服务。存储在网络服务器上的网络数据库品种多、质量高，大多由信息服务商或大型图书情报机构创建维护，如世界上最早和最大的国际联机检索系统Dialog，美国联机计算机图书馆中心OCLC，中国期刊网等。访问的形式主要有授权直接访问或访问镜像站上的数据库两种。中国期刊网的题录数据库免费供用户检索，可为用户提供6000多种刊物的题录信息。有的数据库服务商不定期地提供某些数据库的免费试用服务。

（3）文献情报部门或学术性机构提供的服务。文献情报部门或学术性机构依托自己或协作单位的馆藏，通过自己的网站提供期刊或其他类型文献的网上检索服务，用户在有的网站检索二次文献信息的同时，还可以订购原始文献，原文可通过E-mail、传真、浏览、下载和联机打印等方式获取。如美国科技信息研究所的科学网（web of science，http：//wos. isiglobalnet.com）提供世界三大引文索引SCI、SSCI、A＆HCI）的检索。

（4）网络版期刊提供的服务。许多期刊正在网上建立自己的网站，便于读者上网检索或提供免费的电子邮件现刊目录服务。如《中国远程教育》免费为广大读者提供全文阅读、期刊订阅及检索服务；《世界华人名人录》网络版提供网络版的题录和全文；中国经济展望网提供《宏观经济观察》、《宏观经济论坛》等多种网络版期刊的题录和全文，等等。

1.2 网上图书信息

网上提供的图书信息主要包括书目信息和电子图书。

（1）出版商提供的书目信息。国内外许多出版社都设有自己的网站，通过因特网发布其出版物的目录、最新图书内容简介、价格等信息。如高等教育出版社提供新书推荐、教材目录以及书目查询服务等；Academic Press提供其出版物的目录、最新图书内容简介、价格等信息，带有一定的销售宣传性质。

（2）图书馆、文献情报中心提供的联机图书馆馆藏目录。目前全球至少有15000个大型图书馆的联机目录24小时对外开放。读者通过OPAC可以查询到大量的`书目信息，确定某本书是否在馆，能否通过馆际互借加以利用等。有些联机目录不但提供书目及摘要，还提供其他信息资源，用户可以通过相应的URL地址访问世界各个国家和地区的各种图书馆。

（3）数字图书馆提供的电子图书。数字图书馆是数字化生存时代的重要文化基础设施。用户只需通过鼠标和键盘，记载人类文明成果的图书资料就会方便地进入人们的生活。如超星数字图书馆可为读者提供35万册的PDG格式的数字图书。其会员可随时阅览到最新图书。国内可供读者阅读图书的还有中国数字图书馆、书生之家数字图书馆等。

（4）研究机构提供的电子图书。以香港中文大学中国文化研究所的“古文献资料库中心”和中国台湾的“瀚典”为代表。两网站除部分内容需付费使用外，绝大部分内容可免费在线浏览。

（5）个人或团体网站提供的电子图书。大多数文学类网站属于此类，有的以收藏为主，有的以链接为主。虽然侧重点有所不同，但大多是中外文学名著和眼下一些比较红火的图书，也包括一些网友自己的习作和文摘，一般为全部免费提供给读者阅读。

1.3 网上报纸资源

网上电子报纸时效性强、传播范围广，提供大量时事、专题、经济、政治、法律法规等方面的信息，正逐渐成为新的重要的社科信息源。据不完全统计，自1995年10月《中国贸易报》率先在网上开办电子版以来，到6月，国内已有273家报纸上网提供阅览。以《人民日报》网络版为例，它从每天凌晨0时30分到5时，将每天出版的《人民日报》、《市场报》等17种报刊的全部文字和图片上网发布，还分为“中国”、“国际”、“财经”等9个频道，每天滚动发布国内外新闻1500条，并就新闻热点制作专题。网站还设置了对报刊和频道新闻均有效的信息检索功能，读者很方便就能查到相关资料。

1.4 网上学位论文资源

（1）利用全国性的学位论文数据库提供的信息。许多国家已将学位论文数字化列为重要的项目计划，其中较具规模与成效的，例如：ETD Digital Library Networked Digital Library of Theses and Dissertations（NDLTD）网络博硕士论文数字化图书馆计划。它是一个国际论文资源的电子图书馆计划。通过整合性检索可检索19个单位的

论文；另外更列出许多大学及研究机构博硕士论文的网址。CALIS高校学位论文（文摘）数据库，是中国高等教育文献保障系统的一个子项目，建库的目的是通过对分散在各大学中各类学科的学位文献信息的收集、整理、建库、上网，使原始的论文信息获得升值，为国内外希望获取高校学术信息的用户提供方便的查询途径，起到推动高校教学、科研交流和促进发展的作用。高校学位论文数据库收录包括北京大学、清华大学等全国著名大学在内的83个CALIS成员馆的硕士、博士学位论文，截止到5月21日，已有97所学校申请加入学位论文数据库建库工作，学位论文数据库上网数据已达到约9.7万条。

（2）利用商业出版机构或信息中介者提供的信息。目前已有商业出版机构取得授权，通过正式的出版渠道出版学位论文；有些则是委托代理商接受论文订购。如1983年成立的UMI公司，是美国学术界首屈一指的出版公司，出版物包括自1861年美国的第一本论文到目前所出版的150多万本美加地区博硕士论文，以后出版的已经有PDF形式的论文，可直接使用信用卡订购下载。通过Amazon网络书店订购学位论文，前25页可免费浏览。

（3）利用联机检索系统中的学位论文数据库。一些知名的联机检索系统中都包含大量的与学位论文有关的数据库。如Dialog系统、Questel Qrbit系统、STN FizKar/sruhe系统。我国的“中国优秀博硕士学位论文全文数据库”由教育部主管、清华大学主办，是中国知识基础工程（CNKl）继《中国学术期刊全文数据库》等超大型数据库建成后，又一项大规模开发利用我国知识信息资源的重大信息化工程。按照CNKI信息采集范围规定的信息源，它已收录全国有博士招生点的280多家院校的1800多个博士点和3000多个硕士点以来的博硕士学位论文5万多本。并按科学的体系进行了编辑。到20底，加入这一数据库的博硕士培养单位将达到80％以上，年6月2日的《光明日报》称该数据库是目前世界上惟一最科学、最全面的中文全文博硕士学位论文检索数据库。

（4）学术教育单位自建的学位论文数据库。有些大学或资料中心在原有图书馆馆藏目录查询系统之外建立本校的博硕士论文查询系统，部分学校除提供书目及摘要外，另有全文下载功能。如：MIT Theses Online麻省理工学院，收录经选择后的博硕士论文，提供论文扫描后之全文。可线上订购全文，包括：纸本、PDF档及微缩片三种形式。《上海交通大学学位论文数据库》，提供多种途径包括摘要和全文的检索能力，可以查到上海交通大学历年的博硕士论文书目资料及摘要，博士论文的全文下载仅限授权用户。

1.5 网上政府信息

政府信息是政府活动的原始记录和产物，它的发展与政府机构本身的扩充及其职能的强化有着不可分割的联系；其文献地位和使用价值也随着综合国力的增强和在国际事务中所发挥的作用，而不断上升和升值。网络政府信息的多少，已被视为一个国家民主程度的表征之一。

在网络发达的美国，据19中期统计，美国联邦政府的4300个网站和215个电脑公报牌已将政府的42个部门机构拴链为一体，在20末已将政府3/4的议事录（transaction）电子化。通过网络，可以查找美国的总统文献，如：国情咨文、经济咨文等；可以通过美国GPO Access主页、美国国务院网站或美国国务院外交事务网等查找美国国务院的文献资料；还可通过美国商业部的国情普查局、劳动统计局、经济分析局等查找美国的统计资料。

191月22日，中国电信和国家经贸委经济信息中心联合40多家部委信息主管部门在北京召开了“政府上网工程”启动大会，要求年底60％以上的部委和政府部门在163、169网上建立正式网站，到年底则要实现80％以上部委和政府部门建立网站。据2002年7月22日中国互联网络信息中心（CNNIC）第10次中国互联网络发展状况统计报告，全国各级政府部门申请gov.cn域名的已达5864个，“政府上网”已经成为现实。

1.6 电子论坛和电子会议

因特网上设有USENET及Listserv电子论坛，也称新闻讨论小组。USENET及Listserv都是由成千上万个专题讨论小组构成。每个小组是由某一主题参与的文章所构成。USENET与Listserv类似，但是，前者范围更广泛，几乎无所不包，一般不需订购便可参与；而后者较为严肃，而且更趋学术性，通常还需订购方可参与。因特网上用户通过E-mail均可自由参与电子论坛的活动，从中可以获得用任何其他手段都难获得的第一手重要专题信息与资料。因此，它是研究人员及时了解跟踪学科动态与前沿的最有效途径之一，可消除印刷出版物时间滞后的缺点。电子论坛的另一特点是举办国际电子会议。例如，利用Listserv，一些学术团体与组织已成功举办了多次专业性的国际学术会议。参加这些会议，能了解本专业的最新研究发展动态，获取完整的会议论文与资料。

1.7 网络数据库

存储在网络服务器上的文献信息数据库称为网络数据库，多由信息服务商或大型图书情报机构创建维护，品种多，质量高，但基本上都是需要付费才能使用。访问网络数据库的形式主要有直接访问和访问镜像上的数据库两种。目前在网络上运行的著名数据库，如：Dialog系统已拥有600多个集文献信息库、数据信息库、事实信息库和全文信息库于一体的大型专业数据库系统；OCLC Firstsearch数据库，能为用户提供包括Article First、Contents First、ERIC、 Fast Doc、GPO等14个基础数据库。

1.8 网上其他社科信息

分布式检索技术第3篇

分布式检索系统的基本思想是:根据区域的划分,主题,IP地址,或其他标准将被分为多个自治域,所以建立一个检索每个自治域服务器。每个检索服务器信息搜索模块、索引数据库和代理三部分组成。信息搜索模块负责这个自治域信息收集,并建立索引数据库的索引信息,代理负责向用户提供查询接口,与其他代理和互动,在检索服务器之间的信息交换,并查询可以通过代理来重定向,即如果一个索引数据库不满足查询请求信息,它可以发送查询来检索其他服务器。与集中式搜索引擎使用分布式检索系统相比,具有的优点有:(1)检索服务器就是为了实现资源的共享,在这个模型中信息搜索模块只是收集信息所需要的信息。(2)相互协作的代理之间都是为信息检索提供一个平台,提供一个灵活和完善查询平台。(3)这样的检索技术具有分布式的特性和可扩展性的特性,维护起来比较容易。(4)对于分布式检索系统的分类,将分为分布指数数据库检索等,相对较小,每个索引数据库查询响应时间短,和所有的检索系统涵盖的范围变大。

Z39.50标准是现代信息检索的一个大平台,建立客户端查询平台,查询服务器流程,在查询的过程中涉及信息,将作为记录进行提取,数据之间的交换与数据结构具有相同和形式相似性。Z39.50分布式检索技术在当下,主要用于图书馆中的文献检索和论文查重。当下,我们已经发现了Z39.50的技术在信息检索中的应用的优势,这个系统得到了很好的发展。因此,本文的研究旨在研究和应用的分布式数字图书馆检索,但是检索的效果是可以预见的。

2图书馆机构功能分析及应用

2.1图书馆组织机构功能

在分析系统的用户仍然需要分析图书馆的功能机构[1]。经过调查和研究机构的重庆大学图书馆的核心函数如图1所示的机构主要有以下几个机构:

主任(1)办公室:就是管理图书馆、管理图书馆的财务情况,管理图书馆的人事、对读者进行服务。(2)编辑部:就是搜集图书信息,对图书馆进行图书采购。(3)现代信息管理中心:就是来管理高校图书馆的检索,对图书馆文献进行保存,,组织建立区域信息网络传输系统。(4)系统和数字资源:就是来管理图书馆对接数字信息服务,也就是互联网信息检索服务。(5)信息咨询和研究:对老师和科研工作的知识产权进行查新,查重,文献互助,对前者的研究进行引用,负责专利的申请和代理,区域一组其他部门管理。

2.2基于Z39.50的分布式检索在数字图书馆中的应用

(1)联机书目检索。联机书目检索就是读者利用现代的互联网技术,对图书馆进行联网检索信息服务,进入图书馆的数据库,检索自己所需要的信息,在已经申请注册的Z39.50协议给用户透明访问相同的接口Z39.50协议的支持服务器上的任何资源。每个图书馆自动化检索都是支持Z39.50协议的,控制模块能够利用Z39.50协议模块和广播检索信息交换,并联合行动,从而降低检索网络的负载,分销网络。实现图书馆自动化系统的运行,虚拟框架形式就能够在图书馆检索中得以利用。access.Z39.50协议是基于虚拟联合检索的目录系统,他就可以直接让成员在图书馆自动化系统在检索总利用起来。

(2)联合编目。联合编目是在一个国家或地区之间的图书馆,图书馆和出版部门合作,共同目录的书发表在新文献和常用的合作编目数据的手段。联合目录字啊检索过程中避免了许多重复劳动,节省了成本,还可以对编目数据的质量有效的提高,编目数据的一致性将能得到保护。在实现Z3 9.50协议进行编目的方法主要有两种。一中是进行分布式联合编目。在源系统目录下可以进行模块检索,对Z39.50协议还会有多个目标,将会在下载编目数据。源系统可以对目标系统的检索顺序进行选择。

(3)馆际互借。英特尔图书馆馆际互借(贷款)的许多图书馆传统服务项目的支持。图书馆之间的互借服务的很多都是由图书馆工作人员进行的。要利用信息平台实现图书馆之间的互借服务,系统就要满足协助式的发展。好比,当一位读者要借到一本图书馆,在自己所在图书馆没有这本书,他就要通过一个平台查询到那个图书馆收藏了这本书,然后,通过书面借,或者书信的方式进行借阅,如果利用分布式检索技术建立了一个互助服务平台,就直接可以在线借阅该图书馆的电子藏书,减少了不必要的麻烦,节约了很大的成本。并且提高了书籍的利用效率。所以,利用Z39.50协议构建馆际互借应用程序系统是很容易的,具有现成的技术和服务。

3结语

分布式检索技术的实现基于Z39.50协议模型,对数字图书馆数字资源整合具有促进作用,实现信息资源实现真正意义上的共享,在很大程度上提高数字图书馆的信息和知识服务。

摘要：图书馆实现了现代化,即数字化图书馆建设,使得我们能够更加快的获取我们所需要的信息。本文围绕Z39.50协议在数字图书馆检索系统中的应用,回顾了基于Z39.50协议标准的分布式检索系统的架构模型,将这个检索技术应用到图书馆中去的检索策略;最后给出了基于Z39.50协议标准的分布式检索系统在图书馆的中的具体应用。

关键词：图书馆,Z39.50,分布式检索技术

参考文献

信息检索技术论文第4篇

论文标题：课程名称：信息检索技术课程编号：学生姓名：潘国伟学生学号：所在学院：计算机科学与工程学院学习专业：计算机科学与技术课程教师：

基于音频的信息检索

1220500 1100310220

王

冲

2013年7月3 日

引言：

进入知识经济时代，知识管理、知识服务的理念得到广泛认同，信息检索技术也由基于关键词的信息检索逐步转向针对内容的基于知识的信息检索。较之前者，其检索结果更准确，更贴近用户需求。信息检索是将信息按照一定的规律组织起来，找到所需信息的过程和技术，简单的说，就是信息的有序化识别和查找。信息检索效率就是实施识别和查找过程的效率。信息检索效率不仅是影响信息检索工具价值的重要因素，也是评价信息检索技术发展的重要指标。目前一些基于文本的Web引擎，如Google，Baidu，功能已非常强大，但还缺乏比较实用的音频搜索引擎。Internet上的多媒体流非常巨大，需要一些高效的搜索引擎从浩如烟海的数据中找出需要的信息。另外，音频检索在辅助视频检索和卡拉OK检索系统以及军事、刑侦领域方面都有巨大的应用价值和广阔的研究前景。

基于内容的音频检基索关键技术

问题：

传统的方法，其主要缺点有：

一是当数据量越来越多时，人工注释的工作量加大；

二是人对音频的感知有时难以用文字注释表达清楚，人工注释存在不完整性和主观性；三是不能支持实时音频数据流的检索。

这里主要综述了音频检索方法，讨论了一些音频检索中的关键技术：音频特征提取、音频分类、语音识别技术等。总体介绍：

语音识别技术概述

语音识别技术，也被称为自动语音识别（Automatic Speech Recognition, ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术是以语音信号处理为研究对象，让机器接收并识别、理解语音信号，并将其转换为相应数字信号的技术。让机器听懂人类的语言，这是人们长期以来梦寐以求的事情，而语音识别是一门非常复杂的交叉性学科，它涉及语音语言学、计算机科学、信号处理学、生理学、心理学等一系列学科，是模式识别的重要分支。50年代，是语音识别研究工作的开始时期，它以贝尔实验室研制成功可识别十个数字的Audry系统为标志。20世纪80年代语言识别研究进一步走向深入，基于特定人孤立语音技术的系统研制成功。在过去的30年里，隐马尔可夫模型和人工神经元网络在语音识别中得到了成功的应用。

语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。并通过算法和计算机技术相结合的方式来实现。目前，这样的系统能够做到识别理解数十万条词汇的连续语音信号。这种现代模式识别系统除了在语音领域的应用外，还可以广泛应用于信号处理和模式识别的其他领域。语音识别一般分为两个步骤:

学习和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型。识别阶段是将输入的目标语言的特征参数和模型进行比较，得到识别结果。语音识别系统本质上讲是一种模式识别系统，其原理如下图所示：

图1语音识别原理示意图

语音信号的获取

计算机声卡作为语音信号与计算机的接口卡件，其最基本的一项功能就是A/D转换。声卡是pc的一种多媒体设备，可以用windows的MCI（Media Control Interface)命令来控制声卡。

图3信号获取过程中相关函数使用流程示意图

音频检索的基本方法

音频检索第一步是建立数据库，对音频数据进行特征提取，并通过特征对数据聚类。音频检索主要采用示例查询方式（Query by example），用户通过查询界面选择一个查询例子，并设定属性值，然后提交查询。系统对用户选择的示例提取特征，结合属性值确定查询特征矢量，并对特征矢量进行模糊聚类，然后检索引擎对特征矢量与聚类参数集匹配，按相关性排序后通过查询接口返回给用户。相似音频例子检索

相似音频例子检索是指基于用户提交的查询音频，得到最相似的音频，即计算音频特征的距离。对音频数据提取特征后，假设共N个特征，则形成了一个N维特征矢量的序列。为了缩减数据量而又不失掉每个音频原来的特征，可以对N维特征矢量进行聚类，提取出固定数目的质心来表示音频,即用聚类质心来为音频建立索引。一般采用模糊聚类法，模糊聚类首先要对N维特征矢量进行归一化，一般采用高斯归一化。音频分类识别

音频分类是判断一个给定样本所在的类别，其任务是通过相似度匹配算法将相似音频归属到一类，属于模式识别的问题。首先应提供适量的训练样本，比如选取足量的音乐文件，然后提取样本特征，类似如上所述进行聚类处理，不同的是将每类的全体文件看成一个音频数据来处理，计算该类的样本模板。

判断文件的类别时，与计算音频相似度类似，计算音频的模板与各类模板间的距离，当距离小于某一阈值或为最小距离时，则此时的类即为文件所在的类。结

语

本文阐述了基于音频检索的一些常用技术及相关问题，包括音频特征提取、相似音频检索及音频分类。基于音频检索是一个涵盖十分广泛的研究领域与想好处理，人感知心理研究，语音识别等科学密切相关。为使计算机与人一样能自动对音频语义实现自动理解并根据语义高级内容进行音频检索，还要面临很大挑战。参考文献：

[1] 卢坚, 陈毅松, 孙正兴, 等.基于隐马尔可夫模型的音频自动分类[J].软件学报, 2002, 13(8): 1 593-597.[2] 庄越挺, 潘云鹤, 吴飞.网上多媒体信息分析与检索[M].北京：清华大学出版社，2002.[3] 李国辉，李恒峰.基于内容的音频检索：概念和方法[J].小型微型计算机系统, 2000,(11): 1 173-1 177.[4]尹江艳.基于HMM和ANN语音识别研究[J].2007.4:14 [5] 柳春语音识别技术研究进展[J] 甘肃科技 2008/09 [6刘幺和语音识别与控制应用技术[M] 北京科学出版社 2008

文中涉及的公式：

Em1N[x(n)]m2

频率中心是度量声音亮度（brightness）的指标，计算公式为

分布式检索技术第5篇

1 设计说明

(1) 云计算数据中心分布式、高性能、实时、可扩展日志搜索引擎的设计与实现。

(2) 日志搜索引擎进行通用日志采集接口, 其特征是不同种类的日志信息, 都能通过该接口输入到志搜索引擎。

(3) 日志搜索引擎进行针对非结构化数据的搜索, 其特征是能够从非结构化数据中提取出关键字段信息, 形成日志分析基础数据。

(4) 日志搜索引擎进行针对日志关键属性的搜索, 其特征是在日志分析基础数据之上, 根据日志的关键属性信息进行数据查询。

2 设计模型

(1) 日志采集网络采集到的日志信息发送到分布式日志检索, 需要对日志进行缓存、分析。日志信息通过一个通用的接口将不同来源的日志信息存储在存储系统中, 该接口能够将不同类型, 不同来源的日志信息保存成为统一字符编码的日志文件。

(2) 日志搜索系统对保存到存储系统中的日志文件进行切分, 对切分后的日志信息进行索引操作, 根据日志内的关键属性, 日志搜索系统从非结构化日志数据中提取出数据, 这些数据重新组织成为日志信息索引。日志搜索系统对日志信息索引进行缓存, 提高日志信息查询效率。

2.1 日志数据检索系统设计

日志数据按照数据格式可以将数据分为结构化数据、非结构化数据、半结构化数据三类, 如下所示:

(1) 结构化数据:指具有固定格式或有限长度的数据, 如数据库;

(2) 非结构化数据:指不定长或无固定格式的数据, 如文件型日志原文、word文档;

(3) 半结构化数据:可根据需要按结构化数据来处理, 也可根据需要抽取出纯文本按非结构化数据来处理;如XML。

对非结构化数据 (文件型日志原文) 先建立索引, 再对索引进行搜索的过程叫做全文检索。

全文检索功能非为索引创建、查询语句语法分析、搜索索引、查询结果排序四个子功能。

功能设计包括:

(1) 按照“日志产生的时间”、“日志产生的源地址”、“日志的等级”、“日志类型”创建日志索引。

(2) 对按照“日志产生的时间”、“日志产生的源地址”、“日志的等级”、“日志类型”创建的索引进行分类管理, 对应生成不同的日志索引段。

(3) 将“日志原文”即“日志索引文档”分解为一系列日志信息“日志产生的时间”、“日志产生的源地址”、“日志的等级”、“日志类型”等日志索引域。

(4) 将一系列日志信息“日志产生的时间”、“日志产生的源地址”、“日志的等级”、“日志类型”等日志索引域写入到“日志索引文档”中。

(5) 可以将日志索引域分解一系列的日志索引项。

(6) 通过日志索引的创建形成日志索引词典和日志反向索引表。

(7) 将日志索引写入本地存储。

2.2 日志数据索引设计

(1) 通过日志索引存储将日志索引读入到内存:利用日志查询树搜索索引, 从而得到每个查询关键字的文档链表, 对文档链表进行交、差并得到结果文档。 (2) 集群检索:使用集群检索功能提高日志服务器的日志查询效率。

集群检索使用分片模式切分数据, 将数据分布在整个集群中, 每个分片是一个完整的索引, 然后合并索引来聚合所有的分片搜索查询。

3 研究案例与成果

根据本研究设计, 在电子政务公共平台安全管理中心, 实施对接日志采集系统, 采集分析对象包括了物理设备、业务系统的数据很多, 并对不同设备、系统使用不同协议产生自身的日志信息, 加大了预期的实施工作日志信息采集、处理、检索的难度, 实施结果实现用于全平台的分布式、高性能、实时、可扩展日志搜索引擎, 将各网络安全子系统, 包括防火墙、防病毒系统、入侵检测系统、漏洞扫描系统等整合起来, 在信息共享的基础上, 日志集中分析、检索, 为监控、管理平台提供全平台全网的日志数据的信息收集, 密切合作, 从而形成统一的、有机的平台防御体系, 来共同抵御日益增长的网络安全威胁。

摘要：该课题主要是用于云计算数据中心的日志查询、分析的系统设计及实现。为了大量的日志数据采集、处理、检索的问题, 需要一种作用于云计算数据中心分布式、高性能、实时、可扩展日志搜索系统。该课题研究由专用的分布式组件完成, 分布式日志采集组件能够采集, 转发不同种类, 不同类型的日志信息形成一个能够采集不同协议的日志采集网络。

关键词：云计算环境,分布式,日志检索

参考文献

[1]陈浩然.基于日志分析的信息检索技术研究与实现[D].成都:电子科技大学, 2009.

[2]王荣德.海量分布式日志检索技术的研究[D].上海:复旦大学, 2010.

[3]苏玉召.信息检索系统日志建模研究[J].图书情报工作, 2012 (9) :24-30.

分布式检索技术第6篇

关键词：Web services技术,同步容错,排序算法,布式技术

1 Web services技术

Web services通过接口的定义,可以连接不同功能的服务。它是一种面向服务的体系结构,在这种结构中的接口独立于操作系统和硬件平台。无论是节点传感器、个人计算机的windows平台或是大型服务器用的Unix平台都可以实现跨平台的Web服务。Web services的优点:①跨平台性;②较好的通用性;③不同系统的低依赖性;④修改及更新的自适应性。利用Web services的上述优势,可以简化分布式架构中应用系统异构集成,通过添加另外的硬件资源或者是增加新的软件功能,扩展现有的应用系统。

2 分布式并行处理设计

Web services技术的应用能够解决资源存储量过大检索复杂和检索性能下降的问题,也为将来的扩展打下了基础。分布式结构涉及到的每个节点服务器形式上都是相对独立的,我们必须解决好他们相互间的协作问题,特别是如下问题:

(1)调度、索引、负载、分配服务器的实现方式选择:基于Web services技术进行分布式处理,主要涉及到索引的分布式存储,检索的分布式运行,Spider的分布式。如果每个进程基本上执行同一个控制流,但处理的数据不同,每台服务器完成的任务不同,因此需要将应用程序数据或是索引分配给不同服务器,也称为数据并行。

(2)结果集的汇总排序:在分布式处理之后,对返回的结果按照特定的要求,进行排序,尽量合乎用户的需求。

在处理数据的工程中,采用将分布在不同地域的节点服务器上的信息,通过建立中具有检索意义的事项(可以是人名、地名、词语、概念或其他事项)按照一定方式有序编排起来,以供检索的机制,我们称为分布式索引机制。

索引分散在每一个节点服务器,用户通过检索界面向节点服务器发送检索请求,收到请求的服务器将检索信息发给任务管理器中间件程序,根据用户请求信息进行任务分配,再返回检索结果。因为Search Engine是分布式的,每个节点服务器上都有的,因此需要任务管理器对多个Search Engine返回的结果进行汇总排序,在有效的时间内把结果返回给用户。系统拓扑结构图如图1所示。

3分布式数据索引同步容错

同步容错技术是这样一种技术,它通过使在分布式数据库中的数据库站点之间的数据更新的同步,达到使数据分布存放的目的,从而实现数据库的分布式处理应用。这种同步容错方式允许用户透明地存取那些分布存放的数据,是想数据存放的虚拟性,即用户所需资源就在本地的数据库服务器上。整个同步流程可分为3个功能相对独立的处理步骤:变化捕获(Change Capture)、数据分发(Data distribute)和数据更新(Data Update),它们是组成数据同步容错的3个主要环节。

由于系统的分布式结构,决定了系统的索引必然分布式存放,为了保证存放于不同位置的节点服务器中的索引能够同步,需要对数据库进行监管,并使之运行于不同的索引服务器中进行索引同步操作,为了保障数据的安全性还必须建立索引的备份机制,分布式数据库的同步方法常见的有快照法、触发器法、日志法、API法、影子表法和控制表变化法等6种形式。本文采用分布式多点索引同步容错即:可以在任一服务器组遭受的破坏(包括硬件、软件、人为、自然等因素)的情况下,为了保证系统的正常运行,可以立刻切换到另一个地点的索引服务器。如本系统所部署的服务器组分别位于地点1:上海;地点2:郑州。系统拓扑如图1所示。并不是把本地所有的数据都发送到Web服务器,总是要先判断本地的数据有没有发生过变化,如果有,则客户端只发送变化了的数据给服务器端,如果没有直接让Web服务器与数据库交互。同样,Web服务器在与数据库交互过程中,也不是把数据库中所有相关的数据都传回客户端,只取得该客户端自上次与服务器同步以来数据库中所产生的新数据。客户端在收到Web服务器返回的新数据,把它们再与本地数据合并,这样客户端也拥有了全部数据,Web服务器也避免了繁杂的业务逻辑判断,网络占有量也减少到最低,数据的同步效率更高。

主要实现如下:

4汇总排序及分页实现

在分布式体系结构中,Web services结构需要完成一个协同服务,即完成Web服务的发布和用户使用这种方式服务的过程,实际上就是一种请求/应答机制。通过这种服务需要显示这种服务的结果,就是文中提到的信息汇总和排序的问题。

对于从不同节点服务器传输的信息,在操作的过程中需要进行汇总,按照不同的要求进行排序、分页,比如用搜索引擎在网络检索信息,信息的输出时按照特定顺序出现,因此在分布式系统中,信息的汇总排序也显得至关重要,甚至关系到整个系统的好坏。但是分布式系统的信息来自不同拓扑结构的位置,因此需要考虑到网络传输带来的时延,如果用户请求第一页信息,从服务器检索得到的结果集数目大于每页能够显示的数目,每个从服务器仅将Client端需要显示第一页的数目返回给主服务器。另一种情况是从服务器检索得到的结果集数小于每页能够显示的数目,从服务器将结果集全部返回,主服务器将按照某种特定算法对各个从服务器结果集进行汇总排序后取得一页返回给Client端。用户请求第二页信息时,从服务器得到的结果集数目每页的显示笔数仍然大于每页能够显示的数目,则返回第二页要显示的相应数目,否则全部返回,主服务器将各个从服务器的结果集结合第一次返回的结果集排序后,返回第二页信息即可。接下来的页数就依照这种方法推出。

算法实例描述:

Client每页显示20个结果,从服务器1:结果500个,返回排序后显示的前20个,剩余其他的结果集全部放入缓存中。

从服务器2:结果20个,由于结果数和每页显示数相同,返回排序后的前20个,此时缓冲中不存放信息。

从服务器3:返回结果5个,由于返回结果数小于每页能够显示的数目,全部返回,此时缓冲中没有信息。

(1)当Client要求调阅第一页信息(开始)

(2)当Client要求调阅第二页信息(开始)

(3)Client要求调阅第三页信息(开始)

5结束语

本文通过研究分布式并行处理技术,在Web services技术的技术之上通过研究分布式数据索引同步容错机制和汇总排序算法,很好地解决了分布式技术的跨平台性、数据库异构性和同步性问题。

参考文献

[1]虞歌.XML数据安全交换系统的设计与实现[J].计算机应用与软件,2008(5).

[2]张旭毅,刘忠,刘振.分布式数据库系统的安全因素及策略[J].计算机安全,2009(8).

[3]M LPDEMIR,A UKHERJEE,N ATON,P ATSON,A ER-NANDES,A.GOUNARIS,J.SMITH.Service-based DistributedQuerying on the Grid[C].Proceedings of the First InternationalConference on Service Oriented Computing.Springer,December,2003.

[4]谢承旺.基于J2EE的分布式技术的研究与设计[D].武汉:武汉理工大学,2005.

[5]张旭毅.基于分布式技术的语义感知的实现的研究[D].桂林:桂林理工大学,2010.

分布式检索技术第7篇

多媒体技术及网络技术的快速发展,已导致图像数据的迅速增长,面对海量的图像数据,如何快速、准确地检索到用户需要的图像,已成为人们关注的热点问题。传统的基于单节点架构的图像检索方法,在同时访问用户数量较少时,基本可以满足用户对访问时间的要求,但随着图像数量的迅速增长,图像特征库会变得很大,在线同时访问用户数量也会随之增多,导致图像的检索速度会因此而急速下降;另外,图像的特征相似度计算属于复杂运算,使用传统的检索方法会耗费大量的计算资源,运算速度也很慢。这些都会导致大量用户同时检索时,系统运行效率迅速下降,甚至无法承受,难以及时对用户作出响应[1]。因此,传统的图像检索方法已无法完成对海量图像数据的处理,难以满足人们对图像检索性能的要求。对海量图像的检索面临巨大的挑战,探索新的图像检索方法已成为数字图像理解领域的研究热点。

云计算技术的发展为海量图像数据的处理提供了新的思路,云计算技术的发展过程一直与大规模数据的处理关系密切,因此利用云计算平台进行分布式并行处理是实现海量图像高效检索的一种有效解决方案。Hadoop是一个能够对大规模数据进行分布式并行处理的软件框架,自问世以来因其优秀的大规模数据处理能力、良好的可扩展性、高可靠性以及低成本等优点得到了广泛的应用[2]。本文以最常见的场景图像为例,在分析传统的图像检索方法的基础上,研究了Hadoop平台中的MapReduce并行编程框架,提出了基于MapReduce的海量场景图像检索方案和改进的分布式K-Means特征聚类算法,设计了场景图像并行特征聚类的Map任务和Reduce任务,实现了海量场景图像的高效检索。为验证本文提出的检索方法的性能,实验从检索准确率、数据伸缩率、加速比与效率等多个方面验证了检索方案的强大并行计算能力。

1 相关工作

近年来,研究者们对分布式K-Means聚类算法进行了一些研究,目前研究应用较多的平台是Hadoop分布式平台,它利用MapReduce并行编程计算模型实现大规模数据的存储和计算。对分布式K-Means聚类算法的改进大多是借鉴于传统的非分布式K-Means算法,而对于传统的K-Means算法的改进主要集中在初始聚类中心的确定和距离函数的确定两个方面。Neha A等人[3]利用所有的数据对象到特定中心的计算,选取中间的数据对象作为数据中心,避免了随机选取初始聚类中心的不确定性,减少了循环迭代的次数。张军伟等人[4]和韩最蛟[5]根据聚类数据间的距离和密度,选择距离较大或密度较小的数据作为聚类中心。出了对K-Means算法的聚类过程做一些改进之外,针对Hadoop分布式平台,赵卫中[6]等人提出了一种基于云平台的并行K-Means聚类算法,利用MapReduce并行编程模型的Combine函数进行本地的合并,加快了算法的迭代速度。金伟健[7]等人通过在计算模型中增加通信模块,减少重复的通信流量,从而提高了数据的传输速率。尽管这些算法都可以对大规模数据进行处理,但其聚类的质量并不是很高,也没有很好地考虑算法执行过程中的计算量的问题。

在海量图像处理方面,Wiley K[8]等人通过将图像转换成序列化的二进制文件,利用Hadoop实现了对天文图像的分析处理,但因其无法对图像进行随机读写,所以应用受到了一定的限制。Almeer M H[1]等人利用Hadoop的HDFS实现了对大规模遥感图像的分析和存储。朱义明[9]通过自定义图像接口读写整张图像,提出了基于Hadoop平台的图像分类方法,但该方法未考虑小文件低效率的问题,从而导致一定的资源浪费,因此仅适合对遥感图像的处理。Sweeney C[10]提出了一种新的方法,通过将图像数据信息转化为Float数组的方式将其存储在一个文件中,并附有索引文件,从而有效解决了小文件低效率问题并支持通过索引文件随机读取,但这种方法不能存储图像的原始完整信息,而且图像与数组互相转换的编码与解码方法较为复杂,目前仅支持RGB颜色空间和jpg、png、ppm格式的图像,应用范围受到一定的限制。

综上所述,目前几乎没有一种适合大规模场景图像的高效的特征聚类和检索方法。因此,本文在上述研究的基础上,以传统的K-Means算法和海量场景图像为研究对象,在MapReduce冰箱编程模型框架下,研究场景图像的特征聚类优化方法,分析如何能准确、快速、高效的从海量场景图像库中检索到用户需要的图像数据,实现“以人为本”的高效场景图像检索。

2 系统整体架构

针对传统的单节点架构和场景图像迅速增长引发的瓶颈问题,本文提出了Hadoop分布式平台下的场景图像检索方案,系统整体架构如图1所示。

系统整体架构分为三层:

(1)表现层:用户通过Internet获取服务,提交示例图像或接收检索结果。

(2)业务逻辑层:Web服务器根据用户的检索请求执行相应的业务处理。

(3)数据处理层:是整个系统的核心部分,主要进行海量场景图像的存储和管理,负责场景图像的特征提取、匹配、输出结果等。用户将检索示例图像或检索关键字通过Internet提交给Hadoop分布式系统,经过MapReduce计算模型进行特征提取(如果是示例图像),然后进行特征匹配:如果是示例图像检索,就将示例图像特征与HDFS中存储的场景图像特征库匹配;如果是关键字检索,就将检索关键字与场景图像库的标注信息匹配;最后输出检索结果。

2.1 MapReduce并行编程模型

MapReduce是Hadoop分布式处理的核心技术之一,它为大数据的处理提供了一种面向底层的分布式并行处理计算模式,为开发者提供了一套完整的编程接口和执行环境。MapReduce采用标准的函数式编程计算模式,核心是可以将被称为高次函数的函数作为参数进行传递,通过多个高次函数的串接,将数据的计算过程转换成为函数的执行过程。

MapReduce将数据的计算过程分为Map和Reduce两个阶段,分别对应两个函数:mapper和reducer。在Map阶段,原始数据经分段处理后作为输入给mapper,经过过滤和转换,将产生的中间结果作为Reduce阶段reducer的输入,最后经过聚合处理得到最终结果。

Map阶段,MapReduce将用户的输入数据分割为固定大小的片段(Split),然后将每个Split分解成一批键值对<k1,v1>;Hadoop为每个Split建立一个Map任务,将每个Split对应的键值<k1,v1>作为输入,对执行用户自定义的mapper函数,产生中间结果<k2,v2>;接着将中间结果按照k2的值排序,将key值相同的value放在一起形成一个新的列表<k2,list(v2)>;最后再根据key值的范围对这些元组进行分组,对应形成不同的Reduce任务。

Reduce阶段,Reduce把从不同的mapper函数接收过来的数据整合排序,然后调用对应的reducer函数,将<k2,list(v2)>作为输入,并做相应的处理,获得键值对<k3,v3>输出到HDFS上。

其过程表示为:

Map:(k1,v1)→list(k2,v2)

Reduce:(k2,list(v2))→list(k3,v3)

2.2 HDFS体系结构设计

HDFS也是Hadoop的核心子项目之一,采用主从(Master/Slave)模式体系结构,将大规模的数据存储在多台相关联的计算机上,既可增加存储容量,又能实现自动容错,能够自动检测和快速恢复硬件故障,在超大规模数据集上方便的进行流式数据访问。

当图像数据规模很大时,如果将其全部存储在HDFS中,那么读取图像会产生很大的时间开销,HBase是一个在HDFS之上的面向列的分布式数据库,可以进行实时读写,因此本文将场景图像的存储路径和特征存储于HBase分布式数据库中。结构如表1所示。

将场景图像的ID作为HBase表的主键,取图像和提取的图像特征、标注信息作为HBase表的两个列族。由于HBase对表执行的是按行原子操作,因此将一张场景图像的所有信息全部放在一行存放,以便于读写。

3 改进的分布式K-Means特征聚类算法

3.1 场景图像特征提取

由于SURF算法能在保持尺度、旋转、照明变化等无关特性的同时,使得计算过程效率更高,因此,本文采用SURF算法提取场景图像的特征。过程如下:

(1)计算场景图像每个像素点X=(x,y)在尺度σ下的Hessian矩阵:

其中,Lxx(X,σ)为高斯二阶导数与场景图像像素点X的卷积,其他类似。

该矩阵是由二阶导数构成的矩阵,用不同尺度σ下的近似高斯核计算求得,因此,Hessian值实际上是一个包含三个变量的函数:H(x,y,σ)。

(2)计算在空间域和尺度域上同时达到局部极大值时的相应位置和尺度。

对于每个特征点,求其在半径为6σ的圆内的Haar小波在x和y方向的响应dx和dy,对覆盖在60°范围内的响应求和,旋转窗口得到最长向量的方向即为主要方向。

按求得的主要方向构造大小为20σ的方形区域,并将其分割为4×4的小区域,对每个小区域,选取25个采样点,对其分别计算x和y方向的响应dx和dy并求和,然后对每个小区域提取4个描述子的值:(∑dx,∑dy,∑|dx|,∑|dy|),这样就得到了一个64维的特征向量。

(3)对得到的64维特征向量做归一化处理。

该过程在Hadoop分布式处理平台下的MapReduce计算过程如下:

Map任务:

输入:<image_id,image_data>

输出:<image_id,image_feature>

mapper函数对每张场景图像利用SURF算法特征向量,并统计特证数,便于归一化处理。

Reduce任务:

reducer函数将mapper函数输出的每个键值对作为自己的输入,并再将其传递到输出部分。

3.2 特征聚类

K-Means聚类算法是一个重复迭代算法,在分布式环境下,每次迭代都会耗费大量的时间和通信量,而且用于图像的特征聚类时,图像的属性维数较高,数量较多,因此传统的分布式K-Means算法的时间复杂度很大。本文改进了传统的分布式K-Means算法,首先使用Canopy算法选择初始聚类中心,然后在聚类中心点生成的过程中使用Combine函数进行了本地的合并,这样既优化了初始聚类中心,又优化了算法的迭代过程,大大降低了分布式K-Means算法的时间复杂度。

(1)Canopy算法和K-Means算法

Canopy算法[11]的主要思想是将聚类分成两个阶段:首先,使用一个简单、快捷的距离计算方法将数据分成被称为“canopy”的可重叠的子集;然后,使用一个精准而严密的距离计算方法计算出现在第一阶段中的属于同一个“canopy”的所有数据向量的距离。该算法由于只计算重叠部分的数据向量而有效地减少了计算量。

K-Means算法[11]是一种经典的基于距离的聚类算法,它采用距离作为相似性的评价指标,即两个对象的距离越近,相似性就越大。其基本思想为:首先随机选取k个点作为初始聚类中心,然后计算各样本到中心点的距离,将样本归类到离其最近的簇中,接着对调整后的新类计算新的簇中心,若相邻两次的簇中心没有变化,则样本调整结束,聚类准则函数E收敛。

其中,Mi为类Ci中数据对象的均值,p是类Ci中的空间点。

分布式K-Means算法[11]的基本思想是:首先随机选择一个站点作为主站点,然后主站点利用K-Means算法将其划分为k个簇,接着主站点将各个簇的中心点广播给其余的k-1个子站点,最后各子站点计算本站点的数据对象与中心站点各个簇中心点的距离,并将每个样本点归入离其最近的中心点,将不属于自己的样本对象传送给与该样本对象所属的簇类对应的站点。反复迭代,直到判别函数E收敛为止。

(2)改进的分布式K-Means特征聚类算法描述

本文将Canopy算法与K-Means算法结合,利用Canopy算法优化K-Means算法的初始聚类中心,其算法描述如下。

算法分为两大部分:初始聚类中心的优化和聚类迭代过程的优化。

利用Canopy算法对初始聚类中心的优化过程为:

输入:场景图像数据集List(形如<image_id,image_feature>)

输出:k个初始聚类中心(形如<canopy_id,image_feature>)

①数据预处理。将场景图像数据集合List按照图像的image_id排序,并设置初始距离阈值T1和T2(使用交叉验证获得),且T1>T2。

②mapper函数随机选取一个场景图像样本向量作为一个canopy中心向量,然后遍历场景图像数据集合List,若场景图像数据与canopy中心向量之间的距离小于T1,则将该图像数据归入此canopy;若距离小于T2,则将该图像数据从原始数据集中去除,直到List为空;最后输出所有的canopy中心向量。

③reducer函数处理mapper函数的输出,整合Map阶段产生的canopy中心向量,生成新的canopy中心向量,即初始聚类中心。

这样就得到了k个初始聚类中心。

利用K-Means算法进行特征聚类的迭代优化过程为:

输入:场景图像数据集List(形如<image_id,image_feature>)

输出:k个聚类中心(形如<image_id,image_feature>)

①mapper函数接收Canopy算法reducer函数的输出,计算各场景图像数据对象到其所属的各canopy中最近的簇中心的距离,输出场景图像数据及所属的簇,形如<cluster_id,image_feature>。

②combine函数接收mapper函数的输出,在本地进行同一簇对象的合并,即对各簇中场景图像数据对象的对应维求和,统计数据对象的个数,得到形如<cluster_id,sum,num>的输出。

③reducer函数接收combine函数的输出,统计各簇的所有场景图像数据对象的对应维之和、场景图像数据对象的总个数,得到新的簇中心值作为稳定的K-Means簇中心,形如<cluster_id,image_feature,canopy_id>,并且判断K-Means算法是否收敛。

④根据产生的稳定的簇中心,进行聚类划分:mapper函数接收待聚类场景图像数据作为输入,并加载稳定的K-Means簇中心,计算各场景图像数据对象与k个簇中心之间的距离,得到该数据对象最终所属的簇;reducer函数接收mapper函数的输出,进行数据收集,得到最终的聚类结果。

对于场景图像特征相似度的计算,本文采用欧几里得距离公式进行计算。

4 海量场景图像检索的实现

检索流程如图2所示。

基于改进的分布式K-Means特征聚类的海量场景图像检索,根据场景图像的SURF特征描述图像,结合场景图像的标注信息特征,实现图像检索。主要是以下几个步骤:

(1)场景图像库以及标注信息存储于HDFS的HBase分布式数据库中,用于特征提取、聚类以及获取检索结果。

(2)对库中的场景图像使用SURF算法进行分布式并行特征提取,并使用本文提出的改进的分布式K-Means算法进行特征聚类,将聚类后的图像数据及特征信息存储于HDFS中。

(3)在图像检索阶段,Map任务接收用户输入的检索要求,并读取图像特征信息库,判断检索要求,提取示例图像特征,计算待检索图像特征与图像库中各聚类中心的相似度,并将计算的结果作为中间结果输出。

(4)Reduce任务接收Map任务的输出,将相似度按从大到小的顺序排序,将相似度最大的聚类中心的场景图像作为最终检索结果输出。

5 实验及结果分析

5.1 实验环境和测试数据

本文实验环境搭建的Hadoop集群由局域网内5台计算机构成,其中1台计算机为Master节点,其余4台计算机为Slave节点,各节点计算机采用4G双核处理器,500 GB硬盘空间的基本配置,操作系统采用Ubuntu。

本文的实验测试数据来自Internet上的SUN Database场景图像数据库,该数据库目前包含131 067张场景图像,908个场景类别。由于实验条件的限制,我们从中选取20 000张场景图像作为实验测试数据集。

5.2 系统性能测试与分析

(1)存储性能测试与分析

在做存储性能实验测试时,根据Hadoop集群不同节点个数的情况,我们对存储不同的场景图像集规模所需消耗的时间进行了实验对比,场景图像集的规模分别设置为:500、1000、3000、6000、10 000、15 000、20 000张;在1个、2个、3个和4个节点时分别做了存储耗时性能的测试。实验结果如图3所示。

可以看出,在场景图像的规模小于1000张时,节点数量的增长对场景图像存储耗时性能的影响并不明显,当场景图像的规模大于1000时,分布式并行存储的优势逐渐明显。在相同的图像规模下,存储耗时随着节点的数量增加而下降;随着图像规模的增大,存储耗时也在不断增加,然而,单节点集群增加最快,而4个节点集群的增长速度最为缓慢,即在图像规模不太大时,不适合采用多节点集群分布式存储,而当图像规模变大时,采用分布式存储的效率是很高的。

(2)检索性能测试与分析

为验证检索的效果,本文从检索准确率、加速比与效率、数据伸缩率等三个方面进行了实验对比。

①检索准确率

本文首先使用传统的查准率、召回率以及F1值来衡量系统的检索效果。表2是在不同的场景图像规模下,结合人工辅助的统计,得到的检索效率。

从表2可以看出,系统检索的查准率、召回率和F1值都较高,检索效果较好;另外,还可以看到,随着场景图像规模的不断增大,虽然系统的查准率和召回率在降低,但下降的幅度很小,这充分说明,采用分布式并行处理方式非常适合大规模数据的处理。

②数据伸缩率

数据伸缩率[2]是衡量设计的方案处理不同数据规模的能力的一个指标,是指处理扩大后的数据集所需的时间与处理原始数据集所需时间的比值。实验以节点数为4进行,从1 000张场景图像的数据规模起,逐渐将图像规模增加到10 000,测试结果如图4所示。

可以看到,在场景图像的规模小于5000时,数据伸缩率曲线较为平缓,这说明在图像数量较少时,系统并不能充分发挥各数据节点的计算能力,而当图像规模大于5000时,数据伸缩率的增长趋势较快,曲线上升较为陡峭,这进一步的说明数据规模愈大,愈能发挥各数据节点的计算能力。同时,可以看出,图像规模从5000张扩大到10 000张时大约需要3.8倍的时间,而从1000张扩大到10 000张时只用了大约5.8倍的时间,系统取得了较好的数据伸缩率。

③加速比与效率

加速比[2,13]是指同一任务在单个计算节点的运行时间与多个计算节点的运行时间之比,效率是加速比与计算节点数量之比,二者是用来衡量检索方案整体性能的指标。图5是场景图像规模分别为5000、10 000、15 000时系统加速比与效率的实验对比结果。

在理想状态下,系统加速比应随着节点个数增加而线性增长,效率始终保持不变。但实际上由于任务的控制受到通信开销、负载平衡等因素的影响,加速比不会线性增长,系统效率并不会达到1。Goller A[12,14]等人认为只要效率达到0.5,即可认为系统获得了很好的性能。从图5可以看出,通过对三组规模不同的场景图像的测试,加速比随着节点个数的增加而增加,效率都在0.5以上,这充分说明系统获得了很好的性能。另外,随着场景图像规模的增大,节点个数愈多,加速比与效率的性能就愈好,这同时也说明在分布式并行处理情况下,数据规模愈大,愈能充分发挥各数据节点的计算能力。

从整体上看,无论是存储性能还是检索性能,本文提出的基于改进的分布式K-Means特征聚类的海量场景图像检索方法都达到了很好的效果。

6 结语

本文对基于改进的分布式K-Means特征聚类的海量场景图像检索方法进行了深入探讨和研究,研究了如何对分布式K-Means算法改进,并将其应用于场景图像检索的特征聚类中,在Hadoop分布式处理平台上实现了海量场景图像的检索。实验结果表明,设计的检索方案能均衡系统负载,充分利用分布式系统的资源,提高检索速度;面对海量的场景图像数据,Hadoop分布式系统的检索效率相对于单节点架构的系统有很大提高,充分体现了分布式并行处理架构的强大计算能力。

分布式检索技术第8篇

1、网络社科信息资源的分布

1.1 网上电子期刊资源

网上电子期刊具有时效性强、内容丰富、检索途径多样等优势, 利用率非常高。网上电子期刊包括与印刷版同时发行和仅在网上发行的两种, 其主要来源渠道有:

(1) 出版商和文摘索引服务商提供的期刊检索服务。

(2) 网络数据库信息服务商提供的服务。

(3) 文献情报部门或学术性机构提供的服务。

(4) 网络版期刊提供的服务。

1.2 网上图书信息

网上提供的图书信息主要包括书目信息和电子图书。

(1) 出版商提供的书目信息。国内外许多出版社都设有自己的网站, 通过因特网发布其出版物的目录、最新图书内容简介、价格等信息。

(2) 图书馆、文献情报中心提供的联机图书馆馆藏目录。目前全球至少有15000个大型图书馆的联机目录24小时对外开放。

(3) 数字图书馆提供的电子图书。数字图书馆是数字化生存时代的重要文化基础设施。

1.3 电子论坛和电子会议

因特网上设有USENET及Listserv电子论坛, 也称新闻讨论小组。USENET及Listserv都是由成千上万个专题讨论小组构成。每个小组是由某一主题参与的文章所构成。因特网上用户通过E-mail均可自由参与电子论坛的活动, 从中可以获得用任何其他手段都难获得的第一手重要专题信息与资料。电子论坛的另一特点是举办国际电子会议。

2、网络社科信息资源的检索

2.1 直接进入网站或数据库进行检索

通过这种途径进行检索, 要求检索者对网络信息资源分布有所了解, 进行检索前, 首先要分析所检课题的信息类型, 然后找到可能包含其内容的相应网站的相应系统。

2.2 利用搜索引擎进行检索

搜索引擎俗称“网络门户”, 是搜集网络信息资源最方便的入手工具。搜索引擎通常有两种检索方式:一种是分类目录导航, 一种是输入检索词进行匹配检索。前一种是人工分类式搜索引擎, 根据检索主题所属类别, 逐级展开分类目录, 查找分类匹配信息。后一种是基于Robot的搜索引擎, 它提供对关键词、主题词或自然语言的查询, 由程序自动搜索。用户只要在搜索框中输入检索式或表达式, 搜索引擎就会返回一组指向相关站点的超链接。这两种类型搜索引擎的工作原理各不相同, 检索效果也各有差异, 应合理选用。

3、基于网络的社科信息资源检索策略

网上社科信息资源内容丰富、种类繁多、更新频繁, 通过各种专业搜索引擎和专业信息资源导航系统查找是最主要的途径。但是, 任何一个研究人员都必须关注、浏览本专业相关的国际学会、协会、研究所的网上主页, 同时加以取舍和鉴别, 最终从网上获得有价值的信息, 这才是网络信息检索的主旨所在。

3.1 确定检索项

(1) 分析检索课题, 明确检索要求。分析检索课题, 是为了弄清楚课题学科属性、专业范围及相关内容, 以便正确选用数据库、检索词和逻辑运算符, 确定检索标识, 达到良好的检索效果。

(2) 选择适当的语词, 确定检索项。规范词和自由词是检索常用的语词。检索时, 应遵循优先使用规范词, 根据实际情况恰当使用自由词的原则。

3.2 选择检索工具

(1) 科研选题和科研进行中, 由于要检索比较专业的、学术性较强的文献信息, 应选择网上数据库检索系统, 以保证检索结果的全面性和权威性。

(2) 网上商务信息数据库的比重逐年增加, 用户如要检索比较准确和系统的商务信息, 也可以选择网上数据库信息检索系统, 登录其网站, 进入有关数据库进行有偿信息检索。

参考文献

[1].黄如花《网上电子期刊的利用》图书情报工作, 2001 (12) 1.黄如花《网上电子期刊的利用》图书情报工作, 2001 (12)

[2].李家清《开发利用网络信息资源的对策研究》图书情报知识, 2001 (1) 2.李家清《开发利用网络信息资源的对策研究》图书情报知识, 2001 (1)

[3].李毅萍《网络报纸资源及其开发利用》图书馆论坛2001 (4) 3.李毅萍《网络报纸资源及其开发利用》图书馆论坛2001 (4)

分布式检索技术

分布式检索技术第1篇

分布式检索技术第2篇

分布式检索技术第3篇

信息检索技术论文第4篇

分布式检索技术第5篇

分布式检索技术第6篇

分布式检索技术第7篇

分布式检索技术第8篇

分布式检索技术

猜你喜欢

栏目

最近更新

热门标签

分布式检索技术

分布式检索技术 第1篇

分布式检索技术 第2篇

分布式检索技术 第3篇

信息检索技术论文 第4篇

分布式检索技术 第5篇

分布式检索技术 第6篇

分布式检索技术 第7篇

分布式检索技术 第8篇

分布式检索技术

猜你喜欢

栏目

最近更新

热门标签

分布式检索技术第1篇

分布式检索技术第2篇

分布式检索技术第3篇

信息检索技术论文第4篇

分布式检索技术第5篇

分布式检索技术第6篇

分布式检索技术第7篇

分布式检索技术第8篇