电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

资源检索论文范文

来源:火烈鸟作者:开心麻花2025-09-191

资源检索论文范文(精选11篇)

资源检索论文 第1篇

人类正是通过信息对自然界、人类社会及思维方式与运动规律的认识与概括, 再经过大脑思维重新组合成系统化了的信息, 也就是知识, 它被某种载体记录下来, 可以打破时空且被传递, 不断积累, 不断更新。信息资源是经过人类开发与组织的存储于载体 (包括人脑) 上的已知或未知的可被利用的信息的集合。信息资源的定义与信息的定义一样, 目前仍是众说纷纭, 其核心是对“信息”、“资源”二词的理解及对二词语法结构的理解不同, 是信息化的资源, 还是资源化的信息?还是信息、资源二词仅为同位语?一般说来, 信息与信息资源可视为同义语, 但在有些场合, 尤其是二词同时出现, 需要严格区别。在英文中, “信息资源”一词为单数“Information Resource”时是指信息本身, 当该词为复数时, 常指信息及与信息有关的设备、人员等的集合体。信息资源包括信息生产者、信息和信息技术三个基本要素。

1 信息资源类型

按照信息资源的开发程度来分, 可分为潜在的信息资源与现实信息资源两大类。

1.1 潜在的信息资源是指个人在认知和创

造过程中储存在大脑中的信息资源, 其特点是只能为个人所理解和利用, 无法为他人直接理解和利用;易于随忘却过程而消失。因此是一种没有表达出来的、有限再生的信息资源

1.2 现实的信息资源可分为以下几类

1.2.1 口语信息资源

以口头语言如交谈、聊天、授课、讨论等方式获得的信息资源。特点是传递迅速、互动性强, 但稍纵即逝, 久传易出差异, 不十分准确与可靠。

1.2.2 体语信息资源

以手势、表情、姿势如舞蹈、体育比赛、杂技等方式所传递的信息资源。如“千手观音”。其特点是直观性强、生动丰富, 极富感染力, 印象深刻, 往往起到“此时无声胜有声”的效果, 但此类信息的容量有限。

1.2.3 实物信息资源

以实物如文物、产品样本、模型、雕塑等形式表示的信息资源。如“秦始皇兵马俑”其特点是直观性强、信息量大, 但需要通过知识、智慧、经验和工具挖掘隐含的大量信息。

1.2.4 文献信息资源

以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息。文献是指记录有知识的一切载体。新版《辞海》:“记录有知识的一切载体的统称, 即用文字、图像、符号、声频、视频等手段以记录人类知识的各种载体。”特点是较为系统、准确、可靠, 便于保存与利用, 但也存在信息相对滞后的情况。

按文献的载体形式可分为:书写型、印刷型、缩微型、声像型、机读型。

按文献的出版形式可分为十种:图书、期刊文献、会议论文、科技报告、专利文献、学位论文、政府出版物、标准文献、产品样本、档案。

按文献的加工形式可分为:一次文献、二次文献、三次文献。

1.2.5 网络信息资源

以电子形式存储于世界上成千上万台计算机组成的网络中的信息资源。特点是信息量大, 传递迅速、内容更新快, 但大量的信息中重复交叉较多, 垃圾信息不少。

网络信息资源按组织与揭示方式或分为几种:自由文本组织方式、超维组织方式、FTP组织方式、主题树组织与揭示方式、计算机索引数据库组织与揭示方式。

2 信息资源检索

广义的信息资源检索概念应包括现两个方面:其一, 将分散的信息按一定的方式组织起来进行有序存储, 其二, 根据情报用户的需要从该信息集合中找出有用信息的过程。信息检索是从大量相关信息中利用人-机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。信息检索包含存储与检索两个部分。所谓存储是对有关信息进行选择、并对信息特征进行著录、标引和组织, 建立信息数据库;所谓检索则根据提问制定策略和表达式, 利用信息数据库。只有将大量无序的信息通过一定的方法使之有序化, 检索才有可能。因此从这个意义上讲, 信息存储是信息检索的逆过程, 两者是不可分割的一个某一主题文献的线索查找出来的检索。检索结果不需要具体、唯一的回答用户与提出的问题, 只需提供课题有关的参考文献线索, 即来源信息, 它是一种相关性检索。

事实/数据检索:将存储与数据库中关于某一事件发生的时间、地点、经过等情况查找出来, 或者是在数据库中根据需要查出可回答某一问题的数据的检索。事实或数据检索提供事实、数据等信息的原始资料, 这是一种直接的确定性检索。

2.1.2按组织方式分

全文检索:是将存储于数据库中整本书、整篇文章中的任意内容信息查找出来的检索。它可以根据需要获得全文中有关章节、段、句、词等的信息, 也可进行各种统计分析。例如, 它可以回答“《红楼梦》一书中林黛玉’一共出现多少次?”的问题。

超文本检索:是对每个结点中所存信息以及信息链构成的网络中的信息和检索。它强调中心结点之间的语义联接结构, 靠系统提供的复杂工具进行图示穿行和结点展示, 提供浏览式查询, 可以进行跨库检索。

超媒体检索:是对存储的文本、图像、声音等多种媒体信息的检索。它是多维存储结构, 有向的链接, 与超文本检索一样, 可以提供游览式查询和跨库检索。

参考文献

[1]许家梁.信息检索[M].北京:国防工业出版社, 2004.

[2]肖珑.数字信息资源的检索与利用[M].北京:北京大学出版社, 2003.

[3]王国良, 等.信息资源检索与利用[M].沈阳:兵器工业出版社, 2005.

网上资源检索教案 第2篇

实习班级:高一(18)、(19)班 学习课程:信息技术基础 教材题目:《信息技术基础》 第二章 第三、四节

31-40页 教学目的和要求:

1.常用网络信息搜索的方法;

2.利用搜索引擎获取网络信息检索的策略与技巧; 3.初步掌握信息评价的标准和方法。教学重点和难度:

1.掌握搜索引擎的目录类搜索、全文搜索。2.掌握信息评价的标准和方法。课型:

教法:讲授法 教学过程:

一、回顾已学知识,导入新课

(预期时间5min)

师:同学们,上节课我们共同学习了信息的获取和因特网上信息的浏览和获取的方法。现在,大家回想一下:在古代时,人们获取信息的途径是什么?(学生回答:人的感觉器官的直接感受)。现在呢?(学生回答:书籍、杂志、电视、广播和互联网等)。大家知道了如何在网络上获取信息,今天我们就来学习一下在互联网上资源的检索。

二、激发学习兴趣,教授新课

(预期时间35min)

师:随着网络的发展,在网络上检索信息成了我们每个人的必修课。在因特网上检索信息常用的途径为:搜索引擎、主题目录和元搜索引擎。下面我们就来一起看看:我们“最熟悉的陌生人”——搜索引擎。

搜索引擎一般包括两大核心技术:自动网页搜索技术和全文搜索技术。下面老师就为大家揭秘为什么搜索引擎是我们“最熟悉的陌生人”。大家对搜索引擎的认识只停留在会使用上,现在我们就来看看搜索引擎中自动网页搜索技术的基本工作:(1)搜索引擎运用自动网页搜索技术。

(2)搜索引擎的索引编辑程序将返回的信息进行编辑,建立分类索引,对索引的数据库进行维护。

(3)根据用户的搜索关键词或词组,在索引数据库中进行检索,找出匹配的索引条目。(4)通过网络箱用户返回基于浏览器界面的、经过排序的信息检索结果。

而全文检索是一种从全文中检索所需信息的检索技术,这是一种将文本中的任何字符和字符串都可以作为检索入口点的检索方式。全文检索技术的应用可以提高信息检索的查找速度、查全率和查准率,现在几乎所有的搜索引擎都使用了全文检索技术。

在搜索引擎中我们常常会碰见逻辑运算符,下面我们就看看逻辑运算符有哪些?逻辑运算符分别是:and、or、not。即:与、或、非。

一般情况下,在两个关键词之间用“and”或空格连接,可表示逻辑运算符“与”的操作。在于两个关键词时,同样可使用“与”连接。

师:至于其他的检索方式——主题目录和元搜索引擎,大家简单了解一下即可。主题目录是万维网上所使用的一种分层次排列的主题类索引,多数主题被划分为若干子类或子目录。元搜索引擎又称多元搜索引擎或者并行搜索引擎。

我们对信息进行了检索之后,要对信息的可用性进行评价。评价信息资源的三种方式:1.统计评价;2.专家或核心刊物评价;3.个人推荐 通常可以参考“热门网站推荐”“网站精选”“最佳网站”等栏目,对网站进行选择。

信息资源评价的基本内容:1.信息质量;2.范围;3.易用性;4.稳定性和连续性。信息质量就是评价信息资源的最重要、最基本的标准。包括学术水平、可信度、时效性、内容的连续性等。范围就是指网上资源信息的广度和深度。易用性,这是用户使用信息资源所需要的基本条件。表现为连接速度要快、界面要友好、无空链和死链。

在评价因特网上信息的资源时,常常常常采用CARS列表法。CARS是指可信度(credibility)、准确度(accuracy)、合理性(reasonable)和相关支持(support)。这个大家了解一下即可。

三、布置课下作业,加强练习

(预期时间2min)

课后阅读:

常用网络资源检索方法探析 第3篇

〔关键字〕 网络资源;信息检索 ;百度;Google

在浩如烟海的网络信息中, 要获取自己所需要的信息,并不是一件容易的事, 尤如大海捞针、沙里淘金, 往往使用户望洋兴叹, 一筹莫展, 即使利用搜索引擎, 但当你输入关键字后, 出现了成百上千的查询结果, 使你面对一大堆信息垃圾, 带给你的不是快乐, 而是沮丧。这是你没有很好的驾驭它, 才导致如此结果。下面针对百度和Google中国两大搜索引擎,结合实例,介绍一些网络资源搜索技巧,主要针对从事科研、教学、学生等对网络利用率较高的用户,提供相关检索技巧,增强检索能力。

一、网络资源搜索引擎百度和Google简介

百度1999 年底成立于美国硅谷, 创始人是北京大学的两位毕业生李彦宏和徐勇,“百度”一词来源于辛弃疾脍炙人口的词句“众里寻他千百度”,象征着百度对中文信息检索技术执著的追求,百度现已成为全球最优秀的中文信息检索与传递技术供应商。百度搜索引擎是目前世界上规模最大的中文搜索引擎。

Google 成立于1998 年, 创始人为美国斯坦福大学的两位博士研究生Larry Page 和Sergey Brin。Google 一词由英文单词“Googol"变化而来,“Googol" 指的是10的100次幂,写出的形式为数字1后跟100个零,显示了公司想征服网上无穷无尽资料的雄心。Google 被公认为全球最大的搜索引擎。

二、常用资源检索策略

(一)缩小检索范围的“与”“或”“非”

为缩小检索范围,减少信息垃圾,可以使用:“与”“或”“非”三个布尔逻辑运算符,其代表符号依次为:“AND”“OR”“-”。下面针对“与”“或”“非”各举一例。

如果搜索所有包含“搜索引擎”和“历史”的网页,在搜索框输入:“搜索引擎AND历史”,可以发现比单独输入“搜索引擎”和“历史”查询结果少了很多。百度和Google对“与”的运算逻辑可以减少检索范围,如果包含多个检索词,可以在搜索时把每个检索词之间加个“AND”,可以减少检索范围。通常在进行“与”检索时,“AND”可以用空格代替,检索结果相同。

同理,搜索结果若至少包含多个关键字中的任意一个,用大写的“OR”表示逻辑“或”操作。搜索“A OR B”,意思就是说,搜索的网页中,要么有A ,要么有B ,要么同时有A 和B。若检索不包含某个关键字,使用“非”运算,例如检索包含“搜索引擎”和“历史”但不含“文化”的所有网页,在搜索框输入: “搜索引擎AND历史-文化”即可。这里的“OR”和“-”号, 是英文字符, 而不是中文字符。另外百度和Google对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。

(二)特殊要求检索技巧

1.对资源来源的网站进行限制

对搜索的网站进行限制使用“site :”,表示搜索结果局限于某个具体网站或者网站频道, 如“www. sina.com.cn ”、“edu. sina.com.cn ”, 或者是某个域名, 如“com. cn”、“com”等等。如果是要排除某网站或者域名范围内的页面, 只需用“网站域名”。例:搜索中文教育科研网站(edu. cn )上关于“搜索引擎技巧”的页面。在搜索框输入: “搜索引擎技巧site :edu.cn ”,即可查看所有中文教育科研网站上关于“搜索引擎技巧”的网页。注意“site” 后的冒号为英文字符, 而且冒号后不能有空格, 否则, “site :”将被作为一个搜索的关键字。此外,网站域名不能有“http : ∥”前缀, 也不能有任何“/ ”的目录后缀; 网站频道则只局限于“频道名.域名”方式, 而不能是“域名.频道名”方式,如“site:edu.sina.com.cn”。

2.检索某一类型文件

百度和Google在检索某一类型文件时使用的方法不同,百度搜索时可以直接把文件类型的后缀当作关键词进行检索,而Google使用“filetype :”来标示文件类型。Google 不仅能搜索一般的文字页面, 还能对某些二进制文档进行检索。目前, Google 已经能检索微软的Office 文档如xls、ppt 、doc , rtf , WordPerfect文档, Lotus文档, Adobe 的1pdf文档, ShockWave的swf文档(Flash 动画) 等。其中最实用的文档搜索是PDF 搜索。PDF 是ADOBE 公司开发的电子文档格式, 现在已经成为互联网的电子化出版标准。目前Google 检索的PDF 文档大约有2500 万左右, 大约占所有索引的二进制文档数量的80 %。PDF 文档通常是一些图文并茂的综合性文档, 提供的资讯一般比较集中全面。例: 搜索几个资产负债表的Office 文档。搜索: “资产负债表filetype : doc OR filetype:xls OR filetype : ppt”,则可以下载有关资产负债表的Word、Excel、Powerpoint文档。注意下载的Office 文件可能含有宏病毒, 谨慎操作。

3.搜索的关键字包含在URL 链接中

“inurl :”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中, 如“MP3”、“GALLARY”等,于是可以用INURL 语法找到这些相关资源链接, 然后, 用第二个关键词确定是否有某项具体资料。INURL 语法和基本搜索语法的最大区别在于, 前者通常能提供非常精确的专题资料。示例: 查找MIDI 曲“沧海一声笑”。搜索: “inurl : midi“沧海一声笑””,则可以看到关于此内容的链接。注意: “inurl :”后面不能有空格,百度和Google也不对URL符号如“/ ”进行搜索会把“/ ”当成空格处理。

4.搜索的关键字包含在网页标题中

“intitle :”和“allintitle :”的用法类似于上面的inurl 和allinurl ,只是后者对URL 进行查询,而前者对网页的标题栏进行查询。网页标题就是HTML标记语言title 中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此, 只查询标题栏, 通常也可以找到高相关率的专题页面。例: 查找台湾明星林志玲的照片集。搜索: “intitle :林志玲“写真集””结果搜索出有关intitle :林志玲“写真集”的中文(简体)网页。

5.搜索所有链接到某个URL 地址的网页

如果你拥有个人网站, 如果想知道有多少人对你的网站作了链接。而“link :”语法就能让你迅速达到这个目的。例: 搜索所有含指向华军软件园“www.newhua.com”链接的网页。搜索:“link:www.newhua.com”结果: 搜索有链接到www.newhua.com 的网页。“link”不能与其他语法相混合操作,所以“link :”后面即使有空格,也将被忽略。另外还要说明的是,link只列出索引链接很小一部分,而非全部。一般说来,友情链接的网站都有相似地方。这样,你可以通过友情链接,找到一大批具有相似内容的网站。

三、百度和Google的特色资源检索

(一)Baidu 独特的功能与特点

百度搜索引擎自如的可扩展性和采用ASP (APPLICATION SERVICE PROVIDER) 商业服务模式是它的两个最鲜明的特点。可扩展的搜索技术保证最快最多地收集网络信息,构建大规模索引库。一些搜索引擎网站可能遇到过这样的情况,当有少量的用户登陆他们所使用的搜索引擎时, 系统工作得非常好,但是一旦用户数量到达高峰时,整个系统就接近瘫痪了,这是因为他们的搜索引擎不具备真正的可扩展性,而Baidu 就可以承受所有高峰的负荷而不会在性能方面有任何偏差。

1.体贴的提示功能

百度深刻理解中文用户搜索习惯, 开发出关键词自动提示: 用户输入拼音, 就能获得中文关键词正确提示; 百度还开发出中文搜索自动纠错, 如果用户误输入错别字, 可以自动给出正确关键词提示。此外百度还有其它多项体贴普通用户的功能, 如相关搜索、中文人名识别、简繁体中文自动转换、网页预览等,这些都给用户极大的方便。

2. 雪中送炭的百度快照功能

百度快照是一个广受用户欢迎的特色功能, 解决了用户上网访问经常遇到死链接的问题: 百度搜索引擎预先浏览各网站, 拍下网页的快照并贮存起来。在进行网上浏览时,如因网站服务器暂时中断或堵塞、网站链接更换、网页被删等原因不能正常链接到所需的页面, 就可使用百度快照调用暂存的网页来救急,而且通过百度快照寻找资料往往要比常规方法的速度快得多。

3.专业的MP3 搜索功能

为了满足部分用户从专业的角度来查找音乐资料, 百度搜索引擎在数亿中文网页中提取MP3 下载链接, 建立了庞大的MP3 歌曲下载链接库, 从而塑造出了MP3 音乐搜索、下载和歌词查询基地, 深受广大音乐爱好者的赞誉。此外, 百度还增加了Flash搜索、新闻搜索信息快递搜索等, 更加满足用户的专业需求。

4. 便于用户交流的“贴吧”“知道”功能

百度虽然能搜寻高达3 亿5 千万中文网页的信息, 但与8000 万中国网民头脑中的所有知识之和相比, 仍然只是沧海一粟。为了便于用户交流知识、想法和经验, 百度设置了独一无二的“贴吧”功能, 只要在搜索框内输入感兴趣的话题, 点击搜索按钮, 即可进入相应贴吧, 交流非常方便。

5.生活的百宝箱——百度常用搜索功能

在百度的首页, 有一个“百度常用搜索”, 它提供了大量的与日常生活密切相关的信息。其中包括天气预报、电话区号和邮政编码查询、电视预报、列车时刻表、飞机航班、万年历、外汇牌价、度量制式转换、地址查询、学历查询和数学计算等, 只要点击一下感兴趣的话题, 它就会给你带来实实在在的生活便利。

(二)Google 独特的功能与特点

Google 独特的功能与特点Google 具有语言转换功能。在主页点击右侧的语言工具,可选择搜索特定语言或国家的网页。在翻译选项中选择将网页翻译的语种,在使用偏好内,可将所有网页内容转换成用户所熟悉的语言,还可提供中文简体和繁体文本之间的自动“翻

译”转换。如果你想找一个指定的网站,还可以用到Google的一击即中的独门绝技——“手气不错”,非常方便用户。

Google 在短时间内夺颖而出、傲视群雄, 访问量首屈一指, 主要原因之一是拥有强大、独特、实用的检索功能, 具体是: 图像搜索功能、在线的英文活字典、出色的页面翻译、极强的新闻网站群、新奇的年度排行榜、便捷的网页快照、精准的手气不错(I'm Feeling Lucky TM )功能、实用的语言转换功能等,这些功能绝大部分都是Google 首创, 非常实用。此外, 在Google 主页之外还有一些不为人熟知的辅助搜索功能, 它们相对独立, 各具特色, 是Google 搜索功能的重要补充, 这些功能是: 新闻搜索( http://www.news.google.com)、购物搜索( http://froogle.google.com)、大学搜索(http://www.google.com/options/univ

ersities.html)、邮政快递搜索(http://catalogs.google.com)、更简单的浏览方(http://labs.google.com/gviewer.html)、特殊搜索(http://www.google.com/ options /specialsearchers.html)、无线搜索(http://www.google.com/options/wireless.html)、答案搜索(http://answers.google.com/answers/main) 、术语搜索(http://labs.google.

com/glossary)、引用搜索(http://labs.google.com/cgibin/webquotes)、相关搜索(http://labs.google.com/sets) 等。它们与Google 主页功能相结合, 构成了Google 强劲的搜索功能。

四.结语

百度和Google都是当今最优秀的机器人搜索引擎, 两者既有很多相同之处, 又有很大不同, 前者的用户是全球网民, 后者的用户是全球中文网民, 但两者都以追求完美为最高目标,双方的主要技术各有所长, 难分伯仲; 用户在使用网络引擎检索网络资源之时,可以充分考虑二者之间的特点,快速从浩瀚的信息海洋中获取自己需要的资源,掌握一定的网络资源检索技巧,增强网络资源的检索能力。

参考文献

[1]费志勇,褚润贞.搜索引擎Baidu(百度)研究[J].现代情报,2003,(9)

[2]李艳梅.浅议搜索引擎Google[J].现代情报,2004.(7)

[3]许涛,吴淑燕.Google 搜索引擎及其技术简介[J].现代图书情报技术,2003,(4)

[4]吴娱.中文搜索引擎的现状与发展[J].现代情报,2005.(3)

[5]黄文忠.网络搜索引擎GOOGLE评析[J].现代情报,2005,(3)

资源检索论文 第4篇

1.网络信息资源的类型

网络信息资源十分丰富, 按其出版的形式可分为电子图书、电子期刊、电子报纸、网络专利文献、电子标准文献、电子会议文献、学位论文、报告、档案文献、产品资料等。如此众多的资源广泛于分布于世界各地大大小小的网站及其数据库中, 按CNNIC的统计, 截至2007年6月, 全国网站已达131万个, 在线数据库8万多个[1]。信息检索者如果知道自己感兴趣的资源的出处和类型, 清楚它在什么地方, 属于哪一种类型, 对信息资源的准确检索将是十分有益的。就目前的资源分布情况看, 网络中存放的资源主要是文献资源, 占整个网络资源的三分之一, 但其存放主要集中于各大门户网站和主要数据库中[2]。其中网站中存放的信息以时事、新闻报导等为主, 数据库以相关主题数据为主。

2.常用的检索工具及检索方法

2.1常用的网络检索工具及特性

网络信息资源检索工具有多种多样, 不同类型的信息资源一般都在自己的页面上提供了相应的检索工具, 检索时应根据不同的检索需求及检索者自身对信息资源的了解程度, 来选择合适的检索工具。按照检索机制而言, 目前的检索工具可分为:目录索引型检索工具、全文检索检索工具。

2.1.1目录索引型检索工具

目录索引类检索工具采用分类主题目录的形式组织信息, 是由信息管理专业人员在广泛搜集网络资源及有关加工整理基础上, 按照某种主题分类体系编制的一种可供检索的层次结构式目录。在每个类目及子类下提供相应的网络资源站点地址、标题、描述、类目以组成倒排文档, 类似于图书馆的分类主题目录, 所链接网站按一定的分类标准归入某一类别。使用者在目录体系的导引下, 检索到自己需要的信息。此类检索工具比较适合于查找综合性、概括性的主题概念, 或是对检索准确度要求较高的课题, 检索质量较高, 但内容少, 收录不全面, 各类网站的分类标准不完全一致, 且要求检索人员对自己要检索的内容较熟。有代表性的目录型检索工具如:Yahoo、Google、搜狐、大型图书馆网络导航等。

2.1.2全文搜索引擎检索工具

全文搜索引擎是指能够对所有网站的每一个页面中的每个词进行检索的搜索引擎。它使用机器人程序来发现、收集并标引网页, 而建立数据库, 再以Web形式提供给用户一个检索界面, 供用户检索的网站。检索时, 用户输入检索关键词、词组或短语等检索项, 搜索引擎代替用户在数据库中找出与提问相匹配的记录, 然后返回结果, 并按一定的相关度排序输出。此种检索机制强调的是检索功能, 而非主题指南那样的导引、浏览。它适合于检索特定的信息及较为专深、具体或位置不明确亦或类属不明确的课题, 信息量大且新, 速度快, 但检索结果准确性差, 需要用户针对具体情况反复检索。常用的全文搜索引擎代表有Google、百度等。

2.2选择恰当的检索方法

检索工具确定以后, 接下来的工作就是具体用哪种方法来实施检索了。常用的检索方法有以下几种:

2.2.1分类目录检索

分类目录检索适用于分类明确的信息查找或一般性浏览型查找, 当强调获取较为综合、准确的信息时, 也可用目录检索。它是一种经过了人工筛选和系统组织, 检索结果的质量较高, 条理性较强。缺点是采集信息的速度远远跟不上网络资源增长的速度, 数据库往往较小, 检索到的文献数量有限。且要求检索人员对检索的内容分类要熟悉。代表站点是Yahoo。具体检索时用户可按思维的逻辑顺序或按照其主题目录体系的导引去浏览、追踪、查找。

2.2.2关键词检索

当检索需求为一个特定细节或强调获取较为具体、特定的信息, 且所用的引擎数据库容量很大时, 再或者不清楚所要检索信息的存放数据库时, 应用关键词检索, 以求得到较满意的结果。由于关键词检索是应用检索器对数据库进行巡视, 并将符合条件结果以适当的顺序展现在用户面前, 一般说来速度快, 时间短。如果是搜索引擎本身的数据库, 更有检索的结果新、快的特点[4]。但不足之处是检索的结果难以精确, 常常给查找所需信息带来困难。具体检索方法可分如下两种:

(1) 普通检索

普通检索是一种大多数人都适用的一种检索方式。使用时可按如下步骤进行。首先选择好数据库 (用搜索引擎时此步可以省略) ;其次键入关键词, 对于多数数据库系统还可设置查询条件, 包括查询范围、时间范围、查询方式和馆藏范围;然后可以单击搜索便可。此种方法的方便之处是检索简单, 耗时短。但检索的内容太多太泛, 一般需要进行二次查询。

(2) 高级检索

高级检索是一种较为复杂的检索方法。具体使用时的步骤与简单检索基本一致, 不同之处是检索时可以使用字段限定符、布尔运算符和截词符, 以对关键词进行一定程度的限制。此种方法检索效率较高, 内容相对普通检索而言要准确一些, 但在google、百度上使用时一般也要进行二次检索。

2.2.3追溯法

追溯法是利用文献的参考文献和引文展开信息查找的方法, 是一种跟踪查找的方法。它可利用文献信息密度较大的几种期刊的最近两、三个年度中的综述、述评或专著后的参考书目信息查出一批与检索课题有关的文献, 再以这批文献所附的参考文献作为线索, 找到第二批相关文献, 以此类推获得一批与主题相关的文献。如知网等检索时的参考、提示等。

2.2.4二次检索法

二次检索法是在首先得到一批查询结果的基础上, 充分分析并利用相关检索技术或辅助工具, 对查询的范围、主题、文献类型、语种等作进一步的拓展查询或缩小查询的方法。

3.提高检索效率的措施及途径

随着数据库的扩充, 数据库中收录的文献越来越多, 一般情况下, 使用一个适当的检索方法, 可得到一个较为满意的检索结果。但是, 大多数情况下要对其结果进行二次检索。所以, 具体检索时要注意使用一定的检索技巧, 以提高检索效率。其具体措施如下:

3.1明确需求, 选择合适的检索方法

信息的揭示往往受制于信息资源本身, 加之检索者自身因素的影响, 同一检索方法并非对所有的人、所有的检索需求都适用, 每一种检索方法都有其自身的使用范围与优势, 如要提高检索的效率与质量, 检索者需熟悉各种检索方法的特点, 了解信息提示的一般原则, 遵循一般的检索规则, 选择好恰当的检索方法或进行综合检索。

3.2依据需求, 选择检索工具

选择检索工具既要从工具本身来考虑, 如工具的学科属性、权威性、收录范围、特色、语种、时间界限、收录文献的类型及处理结果的类型、检索功能等;又要根据对待检索内容的熟悉程度来分析, 如类型、可能的出处等;再者, 要清楚待检索内容的精深程度, 是一般性的综述, 还是某一个专题的探讨, 更好的把握检索需求。三个方面综合考虑才能良好的确定选择的工具。

3.3仔细辨析检索内容, 提取检索词

明确需求是做好任何事情的前题, 也是具体着手检索工作时不可逾越的阶段, 是整个检索过程的出发点。检索时提供的关键词越精确, 检索的结果就越好。对检索词的提取可采用如下办法:先用5W1H1Q提问法对需求进行提问[5];然后, 再用一个陈述句来对对问题进行描述;最后对陈述句进行适当的切分, 并仔细辨析检索内容, 合理挑选关键词[6]。

3.4 确定查询途径, 构造检索式

检索式是由检索词和表达检索技术的各种运算符及系统规定的其它组配符构成。构造表达式时需要通过检索途径、检索技术和检索方式与功能三者的共同协作选择来实现。比较通用的检索功能有浏览检索、索引功能、基本检索、高级或复杂检索、二次检索或精制检索、专家检索等几种主要检索功能。

3.5提高检索水平, 合理使用搜索语法

所有的搜索引擎基本上都支持附加逻辑命令查询, 常用搜索语法有:布尔逻辑命令AND、OR、NOT、“+”、“-”、空格、filetype、site、双引号等。想缩小检索的范围, 可输入更多的关键词, 且在关键词中间留空格或插入AND命令;如果要避免搜索某个词语, 可以在这个词前面加上一个"-".但在减号之前必须留一空格;搜索特定的网站可用site:加上网站域名。

3.6分析检索结果作好二次检索

一次检索的结果常常难以令人满意, 往往检索到的页面太多, 检准率低下。这时可以对检索的结果应仔细分析, 要对检索词作恰当的限定, 或找出与主题相关或无关的网页的特征词, 然后用布尔命令“+”“-”加特征词加以限定或排除, 作二次检索。

3.7注意检索结果中的提示

用搜索引擎检索到所需文档并连接到相关网页后, 如果所需要的文献并没有出现在当前视野中。这时可注意当前页面底部的提示内容相关搜索或相关文献。

4.结语

影响检索效率的因素是多方面的, 检索者如能充分理解自身的信息需求, 了解解网络信息资源的分布特征, 熟悉通讯系统功能及某些限制等, 都会不同程度地改善检索效果。具体检索时, 只要遵循一定的检索步骤, 选择恰当的检索方法及检索工具, 构造出准确的检索式, 使检索提问标识与信息需求标识和检索系统保持良好的一致性, 以提高网络信息检索的效率。

摘要:高效利用好网络信息资源, 提高工作、学习的效率, 是新世纪每一个人都须解决的问题。本文针对网络资源的类型和检索工具的特征, 给出了网络信息资源的检索方法, 从检索者的角度探讨了提高检索效率的对策。

关键词:网络信息资源,搜索引擎,检索方法,检索效率

参考文献

[1]艾瑞市场咨询有限公司CNNIC中国互联网统计报告[R][OL].新浪网科技时代, 2007, (6) .

[2]马费成, 裴雷.网络信息资源的分布规律[J].情报科学, 2003, (11) .

[3]王桂玲.网络信息资源检索策略和技巧[J].现代情报, 2005, (6) .

[4]潘芳连.网络信息资源的组织方式研究[D].郑州大学硕士学位论文, 2002, (5) .

[5]赵静.现代信息查询与利用[M].科学出版社, 2008.

信息资源检索心得体会 第5篇

课程收获和体会

自己在本科的时候并没有修过有关信息资源检索方面的课程,所以自己刚来到郑州大学的时候还不会使用图书馆界面上的数据库搜索和下载自己专业方向的外文相关文献,更不知道如何去查询自己专业方向的专利内容。

上了一个学期的《信息资源检索与信息分析》课程,并且期间在图书馆上机操作两次。通过选修学习这门信息资源检索课,自己不仅学会如何使用图书馆界面上的EI、Springer、Elsevier等数据库搜索与自己研究方向相关的镁合金燃料电池的文献,还知道如何设置检索式来有效的检索相关文献及如何精炼检索结果等。

自己也学会了如何填写科技查新单,对科技查新报告也有了一定的认识,自己以后帮老师查新文献时就少了一些不必要的麻烦。同时,自己也学了如何在中国上搜索与自己课题相关的专利申请。

此外,自己也对图书馆的界面也多了许多清楚的认识,在读本科的时候,自己很少查阅文献,所以对不了解本科学校的电子图书馆。现在,自己上完信息资源检索课后,加上自己研究课题需要查阅大量的国内外研究文献,所以自己对图书馆界面有了熟悉的认识。

总之,信息资源课对自己的帮助还是挺大的,至少在查阅课题相关文献方面让自己少走了许多弯路。

课程意见和建议

对于这门课,自己也有自己的一些意见和建议,希望这些建议能够让这门课对以后的学弟学妹们收获更大。下面是自己的几点建议:(1):希望理工科能和医学、文科的学生分开学习这门课程。因为学科不同,所关注的数据库也就有很大的差异。分开上课,就有利于老师根据不同专业的情况着重讲述该专业学生所使用的数据库和检索方式。另外,一起上课时人数比较多,老师和学生们之间的互动比较少,这样就会降低学生对这门课的兴趣。

(2):希望能够增加上机的课时。通过多次的上机练习操作,我们不仅加深课上老师讲的内容的理解和巩固;同时,如果我们有什么问题,在上机的时候就可以直接请教老师,问题当时就能得到解决。因为大多数学生课下应该很少再回过头来复习老师的课件,只有等到自己需要的时候才会打开课件看看,然而通过上机,我们能够及时发现自己对课堂内容的疑惑之处。

(3):希望我们的大作业能够分成更多的小作业,在每次上机操作练习后再统一交上。这样,我们每讲过一点新的东西或数据库都可以上机操作一次,之后把该章节的作业做好交给老师。我们学习的内容就可以当时消化,要是一直在图书馆机房上课就更好了,我们可以随时现场操作练习老师所讲的内容。(4):希望老师老师课堂上能够和学生多进行互动活动。增加老师和学生们之间的课堂互动不仅可以提高学生们之间的学习兴趣,还有利于提高上课的出勤率。可能由于上课的人数比较多,老师和学生们之间几乎没有互动的环节,所以每次上课时,就会有好多的同学在座位上玩自己的手机或者做其他的事情。

资源检索论文 第6篇

关键词:情报检索语言;网络信息资源;信息语言组织

中图分类号:G354

当前,网络信息资源并没有一个绝对权威性的定义,但以网络为载体的信息,不可否认有着非常大的膨胀与拓展空间,并逐渐形成了一个非常强大的全球性信息库,对很多人的生活与工作方式产生了很大影响,在信息处理过程中,其方式与手段也在日益产生改变。而信息组织语言与网络信息资源之间的关系很难进行简单的界定,因此,对情报检索语言与网络信息资源组织的关系进行研究是非常有必要的。

1 情报检索语言对网络信息的作用

网络信息资源从字面角度看,可以将其理解成为一种以网络为基础的、多种大量信息资源的集合体。但是,网络信息资源既然是一种拥有强大信息资源的分布式空间,其在基本结构上也一定会出现一种对信息无序因素进行有序化处理的现象。而无序因素产生的原因非常多,最重要的原因在于:因为国家与地区之间所产生的元素存在一定的差异,服务器便会根据这样的差异进行相关调整,加之网络信息的特殊性,其在产生、发布、传播、使用的过程中随意性非常大,而世界范围内尚没有一种统一的规范或组织对其进行管理,从而导致网络信息资源呈现出凌乱松散的互联状态。

针对这种情况,急需一系列有效手段对其进行组织与整合,而抛开程序性语言不谈,情报检索语言也是语言组织系统中非常重要的组成部分。网络信息传递拥有很强的及时性,这使得网络条件下信息的含义表达在对情报检索语言进行组织的过程中,能够在检索层次以及词汇标引等方面进行有效展开,而这一过程一定要运用与之对应的自动化信息组织方式[1]。其原因在于没有进行结构改造或专业规范化程度相对较高等情报检索语言并不能真正实现与网络信息形态的完美融合。但是,其不单单具备传统信息语言处理的相关功能,还符合未来的发展需求,所以,其还是一种发展潜力非常大的信息处理语言。

2 情报语言与网络信息的原始形态

在网络信息中,文件系统领域内所涉及到的信息大多是表达意义相对好理解的“线形逻辑结构”,如果运用非结构化的格式形态对其所表达出来的信息进行处理,便很难真正做到对结构中相对复杂知识单元的有效处理。所以,情报语言便成为文件系统在显示程序、视频、图形等信息过程中应用性最强的语言反映,而在信息检索的层面中,对情报语言并没有真正展开其多元化的系统层次。

为了实现对已知知识单元的系统揭示,非结构化信息在进行处理的过程中需要形成一种系统化的数据库技术,而这种技术运用的主要信息组织方式为自由文本。在情报语言的组织形式系统中,自然语言是其最为主要的关键词,以信息内容的基本形式为依托,通过自然语言进行信息检索点的设置,以完成在指定范围内实现“自然”与“任意”两方面的检索目的[2]。与传统意义上的文献检索有所区别,这种通过任意文件进行储存的方法可以运用自然语言进行检索,以非文献实体为依托,对未进行标引的文献进行一次获取。

3 情报语言与网络二次信息的关系

网络二次信息资源语言组织所形成的目录绝大部分都是以目录指南的方式对信息进行分类检索的。在等级式目录的构成结构中,其主题指南主要采用的组织方式为人工语言,以实现对信息的筛选与加工,但需要按照相应的逻辑层次进行组织,以实现知识树的构建,所以,该系统具有比较明显的序化特征,在应用的过程中,也比较符合人类的思维习惯[3]。但如果单纯的在这个范围之内进行语言组织,那么主题指南也会因为信息发展的日渐快速而难以穷尽。而对索引软件的使用则可以对信息完成自动标引,在建库过程中也相对较快,在查全率方面的提升较快,但由于其反馈信息的多样性与复杂性,在查准率方面并不是非常理想。在网络二次信息资源的检索过程中,情报检索语言的应用价值非常高,其不仅仅具备对目录指南的分类浏览功能,还在关键词检索方面发挥了重要作用,当前已经成为一种普遍应用的网络信息检索工具。

4 情报语言与网络信息需求的关系

网络信息的多样性、复杂性以及大量性等特征,决定了网络资源中不可避免的会存在一些“信息泡沫”,而在当前的技术环境下,人们很难将其完全消除,但如果运用信息价值评价的相关标准对信息进行科学的衡量,能够在一定程度上使网络信息中的“泡沫”成分受到限制[4]。不过信息价值的评价标准会因个体的不同存在差异,当前相对有效的方法是以检索需求为标准,将网络用户划分成几个不同的类型,每一种类型中用户所制定的信息价值评价的标准要大体相同。而检索工具也同样不可或缺,在对情报语言进行应用的过程中,也需要将其按照类别进行科学划分。事实上,没有一种网络信息检索工具能够将网络中的全部信息分毫不差的全部囊括其中,这种设想不仅不现实,也完全没有必要,同样的道理,也没有一种情报检索语言能够完全彻底的应用到所有信息检索中。

5 网络情报语言与传统检索的比较

在网络信息资源中,无序因素占有很大比例,在一定程度上导致了网络信息资源的紊乱,但网络的便捷性与广阔性却不可否认[5]。不过,虽然网络信息可以在很大程度上使文献资料的信息载体得到有效延伸,然而网络这种信息状态与传统图书馆信息相比,却远没有那么稳定。因此,网络虚拟图书馆走进了人们的视野,这种图书馆拥有特定的检索功能,其所拥有的信息资源虽然相对较广,但也不可能完全囊括全部的网络信息资源。所以,在网络信息的环境下,传统的理念产生出了一种新型结构,使得情报检索语言的优势通过自然语言的成分逐渐凸显出来,可以完成以用户需求为基础的网络信息组织。

6 结束语

网络信息资源中的语言组织需要建立在满足用户的基础之上,而情报检索语言这种原本并非网络信息的语言也在随着技术与理念的进步而得到发展,在网络信息检索领域拥有非常大的进步空间。

参考文献:

[1]贺晓利,郝艳红,白葆红.中国图书情报学核心期刊的发展态势研究——基于核心期刊的多指标比较分析[J].农业图书情报学刊,2013(25):224-225.

[2]刘亚辉,周海炜,屈维意.知识共享型战略联盟竞争情报工作模式研究——基于A设计院的分析[J].情报杂志,2013(19):105-106.

[3]周汝英,傅荣贤.情报语言机读化及其语言学难题[J].温州师范学院学报(哲学社会科学版),2014(15):129-130.

[4]涂佳琪.国内三大中文搜索引擎检索性能评价的实证研究[J].中山大学研究生学刊(社会科学版),2013(20):206-207.

[5]李兰,马恒通.网络信息资源研究的新创获——评《网络信息资源评价指标体系的建立和测定》[J].图书馆,2011(25):206-207.

作者简介:胡必楠(1983.09-),女,绍兴人,助理工程师,研究方向:计算机应用。

网络艺术资源的共享与检索 第7篇

关键词:艺术资源,共享,检索

信息时代计算机和网络的快速发展, 使得网络数字资源成为内容最丰富、获取最便捷的信息资源。网络数字资源的发展, 为艺术资源的共享与检索带来了前所未有的便利, 也提出了新的挑战。以Rich Media (富媒体) 为主要特征的网络艺术资源的共享与检索, 不仅仅是计算机专业人员需要面对的问题, 更是广大的艺术工作者不得不面对的问题。因为它不但涉及到科学与艺术, 且具有跨学科及学科交叉融合的显著特点。

本文通过对网络艺术资源的种类的归纳及特点的研究, 提出资源共享的方法及需要注意的问题, 并给出信息检索的策略。

1 网络艺术资源的种类与特点

对艺术资源的分类方法繁多, 标准不一。本文从数字资源的角度, 对网络艺术资源的种类和特点进行分析。

1.1 按艺术学科门类划分

现在, 艺术学升级为中国的第13个学科门类, 下设五个一级学科。按照一级学科划分网络艺术资源, 有利于艺术工作者的工作和学习习惯。表1是一级学科所对应的数字资源的主要形式:

1.2 按计算机数字资源表现形式划分

富媒体特性是网络艺术资源最主要的特性。按照数字资源的表现形式划分, 可方便信息的组织和检索。表2为各种数字信息对应的艺术作品形式:

1.3 按艺术形态存在方式划分

艺术形态有其独特的存在方式。表3为艺术形态的存在方式及对应的艺术类别和数字资源主要形式:

1.4 按作品性质划分

艺术作品完成的时代不同, 其材料、工具和表现形式亦有所不同。有的作品是直接在计算机上实现的电子数据作品, 有的作品则是对已完成的传统作品的数字化处理, 是真实作品的数字表现。以摄影作品为例, 用数码相机可以直接拍摄得到数字作品, 而用胶片相机则必须在拍摄后将经过冲洗以后的照片或底片经过转换 (如扫描等) , 才可以得到数字化作品。

⑴现代数字创作作品:如MIDI、数码照片、数码摄像、平面设计、CAD、计算机动画等。

⑵传统作品的数字化:对画作、雕塑、陶瓷等实体形态艺术品的扫描或摄影等。

1.5 按作品创作过程划分

艺术作品是艺术工作者进行艺术创作的成果。很多作品在艺术创作过程中要利用一些艺术资源进行再加工和再创作, 按照作品的完成度或作品的创作过程, 网络艺术资源可分为:⑴数字化素材:如各种声音的采集汇总, 各种图形图像元素的合集等等。这些既是作品创作的阶段性成果, 当它作为艺术创作的素材使用时, 也是另一些艺术作品创作过程的组成元素。⑵数字化作品:各种最终完成的艺术作品, 一般拥有原创的版权。总的来说, 富媒体化和数据量大是网络艺术资源最主要的特征。数字信息对实际艺术作品的表述和再现可能存在一定的局限和偏差, 网络艺术资源的素材采集和加工困难, 一些数据压缩等技术操作也会造成信息损失, 引起作品质量的下降。上述原因造成艺术资源数据库结构复杂, 共享和检索的难度加大。

2 网络艺术资源的共享

2.1 艺术资源数据库

专业的数据库不仅信息量大, 权威性高, 而且针对性强。特别是由专业人士建立的具有学术性的数据库, 更是人们进行科研、学习和创作所必需的信息资源。因此, 通过建立艺术资源数据库, 可以更好地实现资源共享。

要建立艺术资源数据库, 首先要搜集和加工制作相应的艺术资源, 按照一定的标准对资源进行合理的分类, 并提取资源特征, 对资源进行准确的描述, 方便数据库的检索和使用。由于艺术资源包含很多富媒体信息, 因此还需要对这些信息进行压缩编码, 而这些工作的进行, 不仅需要计算机专业人士, 也需要艺术专业人士。比如艺术资源, 由艺术家本身制作的资源素材, 具有其他行业人员所无法比拟的优势。因此, 对艺术院校来说, 艺术资源数据库的建立, 离不开校本资源的搜集、加工和制作。

根据需求可以建立不同使用目的或不同使用人群的专项数据库, 如对创作人员来说, 专业的各类图形图像或音频视频的素材数据库尤为重要。对艺术鉴赏和学习研究来说, 需要各类艺术作品数据库。对艺术理论研究来说, 艺术论文数据库也是必不可少的数字资源。

2.2 虚拟艺术场馆

要欣赏到世界各地的艺术作品, 了解灿若星辰的艺术家, 能亲临实体博物馆或美术馆当然更好。但由于地理位置、时间等限制, 一个人能够亲临的实体场馆有限, 对大多数人来说, 网上虚拟博物馆或美术馆是一个绝好的去处。特别是3D云技术等现代技术的不断发展, 可以逼真地还原各类展览场馆, 虚拟艺术场馆的出现, 不但扩大了受众人群, 也满足了社会多层次多方位的需求, 同时也保护了藏品, 弘扬了文化, 使得馆藏艺术资源得到最大程度上的共享。

2.3 课程资源共享

课程资源是学校教学过程中最重要的资源, 优质课程资源的开发和共享是促进学生全面发展、提高教学质量的重要保障。优秀的课程资源可以是富有学校特色的资源, 也可以是具有通识教育特点的资源。对艺术院校来说, 可以充分开发和利用具有专业特点和艺术特色的课程资源, 并实现其最大程度上的共享。

2.4 网站、电子杂志、社交软件和网络存储等

随着网络应用的范围扩大, 用户增多, 信息的传播方式和存储方式也越来越多。要实现共享的最大化和最便利化, 必须要利用一切可利用资源, 如特色网站、电子杂志、社交软件等等。同时, 由于网络艺术资源的数据量大, 信息呈现的形态多, 要充分利用云计算、云存储等先进网络技术和服务, 通过计算机、手机、移动终端等多种设备, 实现网络数字资源的集中存储和共享。

3 网络艺术资源的检索

信息检索是获取所需信息的途径和技能, 只有学会正确建立检索策略, 准确分析信息的能力, 才能快速、准确、全面地获取有用资源。而网络艺术资源的检索, 较之其他类型资源, 需要掌握更多的方法和技巧。

3.1 充分利用各种网络信息资源检索方法

网络信息资源的检索, 可以根据检索对象采用不同的检索方法, 较为常用的方法有搜索引擎、国际联机信息检索、各类数据库检索 (如专题数据库、综合数据库、光盘数据库等) , 还可利用一些交互式网络工具进行检索, 如电子邮件、远程登录 (Telnet) 、文件传输协议 (FTP) 、新闻组网络系统 (Usenet) 等等。

3.2 多媒体信息检索

网络艺术资源的多媒体特性使得多媒体信息检索对艺术资源的检索尤为重要。多媒体信息检索的方式可以分为基于外部特征的检索和基于内容特征的检索。由于不同的媒体特性, 又分别采用具体的检索方法。

3.2.1 图像检索

早期的图像检索主要是基于文本的图像检索技术, 如可根据图像的标题、创作时间、收藏地点、出版情况等可以用文本描述的关键词来进行检索。基于内容特征的检索则在此基础上对多媒体数据进行内容语义分析, 使之进入到更深的检索层次。

基于内容的图像检索是通过分析图像的具体特征并通过特征匹配来进行检索。这些特征包括图像的色彩、形状、纹理、空间关系等等。为了提高检索准确率, 加快检索速率, 需要一些专门的艺术知识, 如图像的局部特征、图像中的人物故事、所属艺术流派、画面的情感色彩等等。

IBM公司的QBIC系统最早成功应用基于内容的图像检索技术, 它是一个绘画作品查询系统, 支持利用标准图像、草图、扫描图像等进行检索, 也可支持Internet上的图像和动态影像查询。系统包含多个图像数据库, 如旧金山美术博物馆图像数据库、法国文化部图像数据库、美国加州大学戴维斯分校艺术和艺术史图像资料等。

基于内容的图像检索系统还有MIT的Photob o ok、Visual SEEk和Web SEEK等。

3.2.2 视频检索

视频检索是从大量的视频数据中检索到所需的视频片段, 主要采用基于内容的视频检索方法。对视频数据进行的处理主要有视频结构的分析、视频数据的自动索引和视频聚类。检索则通常需要经过多次匹配、反馈等逐步求精的过程。视频检索主要有基于关键帧检索和基于运动的检索。

但由于视频包含了丰富的信息, 即便是同一段视频, 同样的内容也可被不同的人应用在不同的地方。因此, 视频的检索与具体应用密切相关, 检索系统在定义和实现上受到相应的限制。视频检索系统的建立就不仅仅是计算机的技术问题, 也涉及到与视频内容相关的专业知识和实际应用的问题。

3.2.3 音频检索

音频检索除了可以采用关键字检索外, 如检索音乐的题名、作者、主题等等, 也可根据音乐的旋律等来进行检索。基于内容的音频检索是从广泛的音频数据中提取特征信息进行分类和检索。如根据音频的特征值 (如声强、能量、带宽等) 进行检索、示例匹配检索等等。

4 结语

大量的网络艺术资源给人们带来了便利, 但要更好地利用这些资源则对建设者和使用者提出了更高的要求, 这种要求是信息时代的要求, 也是艺术专业发展的要求, 只有认识到资源共享和检索的重要性, 才能够更多更好地建设和使用这些信息。对网络艺术资源的共享和检索的研究还有很长的路要走, 它值得计算机技术人员和艺术工作者共同探索和尝试。

参考文献

[1]刘俊熙, 等.计算机信息检索 (第二版) [M].北京:中国铁道出版社.2009.

[2]褚宁琳.现代网络与美术信息检索[J].美术与设计.2002 (02) .

数字资源的集成检索与应用 第8篇

关键词:数字资源,集成服务,融汇

随着网络化和信息技术飞快发展, 面对纷繁复杂的数字资源和分布异构化趋势及用户广泛获取、便捷利用的需求, 如何更好地提供数字资源集成服务成为文献信息领域研究的重要课题, 数字信息资源集成服务和检索系统的研究成为近年的热点和关键问题。集成在信息领域的应用是指信息资源的集成与服务, 即针对某一特定领域或某一特定用户的信息需求, 将信息资源保障体系诸要素 (功能要素、信息要素、技术要素等) 有机地连接成一个整体, 发挥整体效益, 达到整体性能最优, 使用户得到充分的信息服务。集成服务具体包含三层含义:信息资源的集成;信息内容的集成;信息技术的集成。

数字资源是现今信息资源的重要内容, 要管理好数字资源, 并做好数字资源服务工作必须贯彻信息集成服务的思想。随着数字资源越来越多地被人们广泛利用, 人们不满足只检索单一的一种主题资源, 而是希望找到与主题相关的各种信息资源, 方便、快捷地予以利用。为满足这种需要, 信息技术为这种需求提供了可能, 使数字资源可以被方便地查找、呈现和调用, 数字资源的集成服务孕育而生。

一、数字资源的集成服务

1. 数字资源的集成内容。

数字资源的集成服务要以用户需求为导向、资源为对象、网络技术为手段, 把资源与服务连接成一个服务体系来实现。以用户需求为驱动, 数字资源的集成服务主要涉及数字资源集成、服务流程集成和服务系统集成三方面。 (1) 数字资源集成。即数字资源整合, 是对不同来源的异构资源在逻辑上或物理上有机地集中, 提供统一的表示和操作, 以解决多种异构数据资源的互联与共享。用户可以通过一个检索入口一次检索多个数据源, 且看到的是统一的界面。 (2) 服务流程集成。随着网络和信息技术的迅速发展, 传统信息服务模式正在发生变化, 特别是提供数字信息服务以全面开展网络信息服务为基础, 信息检索、查阅、传输、获取、咨询、推送、发布各项功能在网络中进行, 服务集成就是将各项服务进行整合, 构建数字资源的服务机制, 形成高效服务流的有机整体。 (3) 服务系统集成。数字资源集成服务的目的是在一个平台中检索多个数据源, 实现异构系统间的互操作。有两个层面, 一是技术集成, 即网络通信、多媒体和安全、存储技术等的集成, 包括数据采集、管理、交换、推送与发布等技术, 二是系统集成, 即将不同的信息服务系统整合为统一的网络服务平台, 实现集成服务, 方便数字信息利用。总之, 数字资源集成、服务流程集成最终要在集成检索系统中得到体现, 集成检索服务系统是数字资源集成、服务流程集成和服务系统集成的实现途径。

2. 数字资源集成检索。

集成检索是集成服务系统的一个重要核心功能。早期的集成检索也称跨库检索, 是对多个异构数据源对象的检索, 即借助统一的检索接口和检索方法, 实现对分布和异构数据资源的检索, 并对检索结果加以整合集成, 经过排序等处理后, 形成统一格式的结果呈现给用户。

跨库检索主要有两种实现方式: (1) 数据仓库方式, 是一种集中型方法, 系统首先将所有集成的数据源收集到一个中心数据库, 用户对这个数据仓库中的数字资源进行查询, 是对数据源的物理集成。例如, 图书馆早期文献信息集成服务系统, 就是把馆藏各种文献信息数据库和外购数据库整合在中心数据库中, 或把众多图书机构的文献信息通过共建方式集中在统一的数据中心, 这种方式就是数据仓库式集成。当各数据源的资源发生变化时, 中心仓库中的数字资源也要相应变化, 必须定期更新数据仓库, 但这会给服务器运行带来很大压力, 不太容易实现数据的定期更新。 (2) 数据库联邦方式, 这种方法无需将数据进行统一集中, 而是系统直接从相关数据源中进行检索并获得查询结果, 系统提供查询处理机制, 用户使用的是虚拟的集成界面。这种方法获得的信息是实时更新的, 系统不需要存储大量数字资源, 比较适合对数据量大、更新变化快的数据资源进行集成。用户提交检索请求后, 中间件接受请求并对检索式进行转换, 再由封装器通过通用数据接口连接和访问数据源, 将检索结果进行抽取和整合, 以统一的方式呈现给用户。例如:中国科学院国家科学数字图书馆 (CSDL) 采用的就是这种跨库检索方式, 提供跨库集成检索文献服务, 能对30个文献全文数据库、多个文摘数据库和电子图书库及50个左右图书馆近百个公共目录数据库同时进行检索。用户通过网站在统一的界面输入检索关键词, 就可方便地同时检索多个数据库, 很快获得结果并统一呈现出来。

二、数字资源集成融汇

1. 关于集成融汇。

由于用户信息环境的不断变化, 用户更理想的希望可以方便又同时检索多个不同领域分布、不同性质类型的异构数据资源, 集成融汇 (Mashup) 的研究就使这种愿望成为可能, 它是迎合用户需求的变化和信息技术发展的结果, 是网络时代Web2.0环境下发展出的新的集成服务形式。它是在继承中间件互操作功能基础上, 对不同领域、不同类型数字资源实现跨平台、跨系统、跨机构以及跨行业、跨领域的灵活检索、调用、组合和嵌套, 也称跨界检索, 是集成检索的新的发展。

当前, 对于集成融汇的定义国内外还没有统一的提法, IBM认为, 集成融汇就是对不同来源信息的组合, 形成某种全新增值的东西。国内融汇专家李春旺认为, 所谓集成融汇就是融合了多个不同来源、多种多样的数据资源与服务而创建出新的内容复合的服务产品的过程。它是数据库联邦方式的丰富和发展, 作为跨界检索其数据资源对象更为广泛, 更多的是针对网页中第三方的免费资源, 从网页中抽取资源, 另外检索的结果描述多样, 描述方法不同, 呈现方式也更加灵活, 如分类图表、数据地图、展览馆法等可视化的方式。

2. 集成融汇的类型。

集成融汇按不同的划分方式有不同的类型, 下面简要介绍两种划分方式。按集成融汇对象, 可以分成: (1) 数据对象融汇, 即将不同数据来源、不同类型、不同结构的数据集合成一个新的综合数据资源, 便于用户多方面的信息需求; (2) 表示对象融汇, 即将不同来源、不同内容的网页表示层组建进行集成组合, 构成多个网页集中在一个网页中展示的新网页, 用户可以在一个网页页面中方便地利用多个网页或系统的数据资源及服务; (3) 服务对象融汇, 即把不同来源、不同功能的网页服务, 通过一定的程序编码, 集成组合成新的功能与服务。按融汇实现方式, 可以分为: (1) 服务器端融汇, 是指在服务器上通过程序编码实现对数据的选择、链接、调用, 同时对结果数据或服务单元进行集成, 组建成一种新的服务, 并发往用户浏览器实现数据信息交互。这种相关数据的调用和链接更多地采用开放接口技术API (Application Programming Interface, 应用程序编程接口) 方式或利用屏幕抓取技术抽取方式。 (2) 客户端融汇, 是浏览器通过RIA (Rich Internet Applications, 富因特网应用程序) 技术部署富客户端程序, 建立浏览器与各个数据资源和服务间的交互, 集成出综合信息对象, 实现交互和展示。如Ajax (是指一种创建交互式网页应用的网页开发技术) , 增强网页功能, 使浏览器具有丰富美观的界面和交互能力。

3. 集成融汇的应用。

(1) 商业公司应用。目前, 许多国际信息服务机构包括Google、Yahoo及微软等公司都向集成融汇服务的方向发展, 积极研制集成融汇服务产品, 涉及地图、购物、视频照片等搜索方面, 为用户提供更高的、全方位的浏览体验, 满足复杂化的信息需求。例如, 在Google搜索中输入“纳米”检索词, 可以得到百度百科、维基百科、互动百科纳米信息、纳米资讯等网页信息以及纳米图片、地图、视频和纳米有关的新闻、图书、论坛、博客搜索等不同类型信息链接, 点击“地图”类链接后会显示与纳米有关的研发机构和机构所在位置地图, 点击机构列表会出现机构简单信息, 这样就为用户提供了与“纳米”相关的非常全面和丰富的信息。

再如, IBM Mashup Center2008年7月发布的企业Mashup平台, 企业用户通过重新混搭从任何地方得到的数据, 可以完全自主地针对特定需求来构建Mashup应用, 从而使信息运用变得更加高效和有创造力。它给用户带来创新使用信息的方式, 它支持业务人员自由组装动态的信息情境应用, 提供全面和易于使用的Mashup解决方案, 把企业、部门、互联网和个人的信息变成业务人员可理解和使用的信息资源, 再通过自由装配后动态地构建成新的业务应用来应对易变的业务需求。这是一种全新的为解决业务问题利用信息的Mashup方式, 大大提高信息的使用效率。

(2) 图书馆领域应用。近年图书馆领域不断研究和采用集成融汇技术扩展OPAC (Online Public Access Catalogue, “联机公共目录查询系统”) 服务, 将OPAC书目信息与地图 (Map) 等可视化显示方式融合, 动态集成相关第三方数字资源, 如封面图片、目录、章节信息、书评和价格、销售信息等, 创建信息揭示新方法, 提升信息揭示深度, 提高对第三方资源的利用和服务。如, Mc Master大学图书馆将图书馆的馆藏资源和地图服务相结合, 他们为更好地揭示航空摄影照片资料, 按照地理位置把照片资料标识在Google地图上面, 同时按拍摄年代不同进行区分, 使用户可以通过地图检索、查询, 浏览照片信息, 成为非常实用的图片发现工具。

在集成服务功能方面构建新的服务模式, 如可以向用户提供融汇组建工具, 将图书馆资源与服务向用户环境嵌入的解决方案。据介绍, 国外一些图书馆创建包括支持跨库检索、评价、推荐、个人网络书签等功能服务的Widgets, 派专人指导用户在自己的信息环境中调用这些服务, 还有嵌入到用户客户端浏览器的工具条组建等客户端融汇应用, 极大地方便了用户在个人信息环境中使用融汇资源和服务。

(3) 档案行业的借鉴研究。在知识信息管理的今天, 档案行业也需要打破自有局限, 融入到知识服务的海洋中, 吸收融汇服务的思想理念, 拓展与第三方数字资源的融合利用, 提供最大限度地满足用户信息需要的服务。国外许多档案馆就积极开展与相关图书文献机构的融汇合作, 如英国国家数据中心的“MIMAS元数据”项目, 支持跨学科领域资源的网络存取, 数据资源就融合了来自英国各大学校的档案信息资源和书目信息、电子期刊, 还有人口调查数据、政府统计数据、经济方面和空间、地理的数据等。

中国科学院档案馆2010年开展了数字档案信息融汇服务系统项目研究, 旨在研究并建设以满足用户对信息多种需求为导向的档案集成融汇服务系统, 探索实现档案信息的融汇服务模式。该系统在以检索档案信息资源为主的基础上, 通过信息融汇引擎为用户调用相关的第三方信息资源, 为用户提供最大信息量的融汇服务。目前, 该系统设计的主要资源是集成该馆馆藏档案和所属单位的档案资源, 并链接第三方文献资源, 包括图书馆书目数据、维普中文期刊数据、科学基金共享服务网数据、引文数据库信息及中国科学院的机构知识库信息, 系统功能主要体现在分布式检索、集成融汇信息、提供第三方融汇接口、支持本馆资源的融与被融实现、Widget封装、检索接口控制等方面。系统的实现使用户可以体验融汇功能, 同时方便地检索不同数据源信息的服务, 是档案领域探索信息服务新的尝试。

用户对数字资源高效利用的需求推动了集成融汇服务的研究和技术的发展, 但目前也对集成融汇的进一步研究带来了极大的挑战。 (1) 虽然集成融汇检索服务已经成为各国信息行业及图书馆界相关人员的研究重点, 他们从服务需求的变化出发, 总结以往集成检索的问题, 探讨融汇技术与服务, 得到一定的研究成果。但是, 其中还存在许多问题有待解决, 有专家指出, 缺乏一个好的支持系统的数据融汇模型是一个重要问题, 另外, 由于该方面的研究还处在初级阶段, 集成融汇没有相关的标准规范, 没有形成集成融汇的服务模式以及多媒体信息与文本信息的融汇检索等问题还没有很好的解决方案。 (2) 在我国集成融汇在档案领域的实际应用还没有实例, 除技术因素外, 实现集成融汇服务有两个主要条件和特点, 一是它的开放性, 即相互的资源和服务应该是开放共享的;二是对信息的揭示程度、著录标准的兼容性。这些问题对档案数字资源的集成融汇存在很大的制约。档案界应从创新服务理念、机制等方面入手, 开展档案文献数字资源服务研究, 做好档案信息开放利用和数字化的基础工作, 解决好知识产权保护、身份认证等问题。同时, 要深入研究标准规范、元数据问题、档案信息数据与其他资源数据模型转换与映射等问题。

参考文献

[1]百度百科.http://baike.baidu.com/view/101357.htm

[2]安小米.城市建设文件、档案信息集成管理与集成服务研究及其启示//城市建设文件档案信息集成管理与集成服务研究——2004城市建设档案国际学术研讨会论文选集[M].中国建筑工业出版社, 2004.

[3]李春旺.数字图书馆集成检索技术研究[J].图书馆理论与实践, 2004 (6) .

[4]叶亚娜.数字资源的集成检索与资源调度[J].中国教育网络, 2007 (11) .

[5]黄永文.基于数据库联邦方式多数据源集成检索系统[J].现代图书情报技术, 2005 (11) .

[6]李春旺.图书馆集成融汇服务研究[J].现代图书情报技术, 2009 (12) .

[7]李峰.面向数字图书馆的跨界检索系统研究[J].图书馆学研究, 2010 (2) .

[8]吴敏达.IBM Mashup Center初探.http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0808wumd/

[9]http://www.google.com.hk/webhp?hl=zh-CN&sourceid=cnhp#hl=zhCN&newwindow=1&q=%E7%BA%B3%E7%B1%B3&safe=strict

医院信息资源的信息检索服务探讨 第9篇

1.1 社区卫生服务

随着卫生体制改革的深入发展, 大部分省市、自治区逐步建立了社区卫生服务组织、综合医院和专科医院合理分工的医疗服务新体系。社区卫生服务组织主要从事预防、保健、健康教育、计划生育和常见病、多发病、诊断明确的慢性病治疗和康复长期以来, 医患双方存在较严重的信息不对称, 由于患者掌握的信息较少, 就医行为往往显得被动, 患者对医院的信任感也相对不足。为了让患者明明白白、踏踏实实看病, 医院网站整合了多种信息资源, 在网站上做到政策依据公开、医疗程序公开、服务过程公开、实施结果公开, 充分满足患者的知情权和查询需要。随着社区卫生服务组织和综合医院、专科医院双向转诊制度的不断建立与完善, 也进一步明确了社区卫生服务组织和综合医院及专科医院存在着密切的双向转诊、指导培训、信息反馈等关系。这就需要医院信息系统与社区卫生服务信息系统之间能够实现资源共享, 以尽快满足医疗卫生服务模式的转变及实现医疗卫生管理信息化的需要。

1.2 医院的现状

医院信息科的职能作用应是作为一个权威信息部门来管理医院综合信息, 并利用现代化的管理知识和网络化的微机系统进行收集和处理, 经过归纳汇总分析后。为医院领导层提供有价值的信息参考, 目前国内医院信息科 (处) 组织形式各不相同, 比较一致的是几乎全部医院都把图书馆、计算机室 (网络中心) 、统计室、病案室归于信息科管理其隶属关系亦不相同, 有的隶属于院长直接领导下的职能科室。随着现代化医院管理科学的飞速发展, 医院信息管理的重要性已逐渐得到重视, 医院的信息化程度已被普遍视为衡量该院科学管理的重要标志。做到层层负责, 层层落实。简单通俗一点, 就是集中力量, 利用现代信息技术, 为全院提供纵向到顶, 横向到边的全方位服务。目前信息科 (处) 还未充分体现出信息工作的基本特性和优越性, 它的职能作用未充分发挥。

2 信息系统

2.1 资源信息管理

信息技术队伍结构不理想、层次不高信息科专业多分工细, 涵盖信息采集处理、信息资源管理和声像等多媒体制作, 技术独立性和专业性较强, 而当前不少医院的信息科编制少, 知识结构不理想, 直到今天, 医务人员除了掌握本专业学科的知识之外还需学习哲学、心理学、伦理学等人文科学, 这引发了医务人员对医学知识、社会学知识更多的需求。医务人员和医学研究人员要把握自己专业领域范围内的同内外最近研究动态和进展, 业务上无多大直接联系。比如图书馆与统计室。此状况在一定程度上防碍了信息科内部交流, 信息科人才严重缺乏, 是一个普遍现象。图书馆、病案室、统计室多是其他专业改行, 本专业水平低。计算机人才流失频率快, HIS建设存在很多问题无法解决。这些不合理的现象。极大地削弱了信息工作者的地位和自信心, 严重影响信息科工作上档次。

2.2 医院信息科的职能作用

随着现代化医院管理科学的飞速发展, 医院信息管理的重要性已逐渐得到重视, 医院的信息化程度已被普遍视为衡量该院科学管理的重要标志。因此, 由过去体制形成的医院信息部门的工作重点和管理职能必须做出重大的转变, 才能适应医院管理工作的需要。在新的形势下, 医院信息科的职能应转变为承上启下, 担负起向上 (决策层) 精确、快速反馈整个医院医疗信息及医院的科研发展水平, 向下通过计算机网络准确传达实施领导层的管理控制信息、决策信息和快速发展的网络医学信息。在新的形势下, 必须首先明确信息科的基本任务和目标, 使之成为名符其实医院综合管理职能部门。医院知识管理的主要任务是要对医院的知识资源进行全面和充分的开发以及有效的利用, 从而达到医院医疗、科研和管理的创新, 这也是知识管理区别于其他管理的一个主要方面。

3 医院信息的管理

3.1 信息的收集

对知识的收集不再需要耗费大量的人力和时间, 这为医院进行知识管理提供了有效的技术保障和支持。医院在进行知识的收集时应有创新精神, 摒弃一些保守的观念和传统, 加大对知识的投入, 有计划地、科学地进行知识的采集。同时还要认识到, 医院知识收集是一个长期积累、循序渐进、不断完善的过程, 不可能一步到位。检查、督促、处理医院信息工作信息科的新型职能是管理医院的信息资源, 开发、利用信息资源, 为医院领导决策提供及时可靠的信息, 为医院的管理、医疗、教学及科研服务。信息科要充分发挥职能作用, 必须理顺监管与服务的关系, 检查监督与服务的关系。信息部门要建立电子病案、数字化医学影像与通信系统 (PACS) 和检验检查信息库, 实现医疗知识结构化和电子病案结构化。最重要和关键的是如何将隐性知识转化为显性知识, 充分发挥隐性知识对知识创新的巨大作用。

3.2 建立知识管理平台

医院可以通过建立医院知识管理平台来实现医院知识的高效管理和应。高效的知识管理还需要人和技术有良好的配合。知识库的建立则为临床医生提供了学习的渠道, 也为医师培训和继续教育提供了良好的手段。医院要展现积极的态度、制定有效的政策、采取多样的方法来鼓励医务人员对知识加以利用, 激发医务人员的创新潜力和热情。其内容应包括临床医学知识、临床护理知识、辅助学科知识、药学知识、医学文献提供、病例讨论分析、医院科研管理、医学专家人才库、医院公文系统、医学药学护理学考试练习等模块平台还应该为领导的决策提供依据, 实现领导自由定制所需要显示的模块以及工作分类, 还能够将业务系统的数据抓取到领导工作台上展现, 领导能够及时看到所关心的数据信息, 节省时间成本并提高效率。

结束语

医院信息科作为一个新型的多职能综合性科室, 最主要的作用和基本任务就是负责医院信息管理。它必须改变传统的只限于统计信息方面的管理, 而是要掌握医院整体人流、物流和信息流, 成为领导决策的权威性参谋机构。再者医院信息系统中增加的一些新子系统上线后, 也都对发挥着不可替代的作用, 是医院信息系统能够正常运转和有效应用和推广的重要保证。

摘要:简述了信息工作现代化的概念、主要内容及基本要求, 并针对医院信息工作的具体情况进行分析, 提出了医院信息工作的发展思路, 并探讨了发展信息研究系统的具体措施和改革方向。信息资源整合系统的用户构成 (谁在使用该系统) 、信息资源整合系统的工作机理 (用户是怎样使用该系统的) 、信息资源整合系统的设计目的 (用户在该系统的适用过程中能够得到什么) 决定了它们在整合的基本要素、设计原则、设计程序, 整合中用户的参与层次以及整合模式等方面存在差异。

关键词:医院,资源的信息,信息管理

参考文献

[1]傅征, 任连仲.医院信息系统建设与应用[M].北京:人民军医出版社, 2003.

资源检索论文 第10篇

民航突发事件主要是指发生在民航领域内的各种突发事件。民航突发事件发生时,民航应急决策人员需要快速检索和调度相应的民航应急资源,有效组织应急救援,保障生命财产安全[1]。民航应急资源信息通常存储在数据库中,民航突发事件发生时,民航应急决策人员需检索数据库中的民航应急资源信息并对其处理,作出应急决策。目前,这些常基于传统的关键词检索技术实现,并对于整合、发挥各救援部门的合理作用,提高应急救援工作水平发挥了积极作用。然而,传统信息检索技术只采用语法匹配访问数据库,因此存在着高匹配、低精度,低匹配、无匹配等问题,导致检索的查全率和查准率往往都不太令人满意。这些问题会干扰民航应急决策人员作出应急决策和制定应急处置方案,对决策效率与质量产生不利影响。

语义检索是一种基于明确的、形式化定义的语义信息而进行的匹配查询内容的搜索技术[2]。基于本体的语义检索可以有效提高检索的查全率,同时也可以改善查准率。文献[3]提出一种基于本体的关系数据库检索方法,用于经济领域论文的检索。文献[4]以产品信息检索为例,研究了产品信息检索系统框架以及语义相似度算法,提出了一个基于本体的产品信息检索模型;文献[5]以玉米种植领域为例,提出了基于领域本体的语义标注方法以及用户查询处理和查询推荐算法,设计了一个面向玉米种植领域的语义检索系统;文献[6]以电子学习资源领域为例,提出了一种基于领域本体的电子学习资源库检索模型。在以上领域,语义检索方法对于提高信息检索的查全率和查准率取得很好的效果,因此,将基于本体的语义检索技术引入民航应急资源信息的检索,以解决传统的信息检索技术存在的问题。

1 语义检索方法

1.1 问题分析

在民航机场的应急管理中,用户通过输入一个或者多个关键词,希望检索得到包含所有或者尽量多的关键词的民航应急资源信息。民航应急资源主要由应急部门信息、应急设备信息、存放地点等各类信息构成,存储在数据库中。假设数据库中包含了c个元组t1,t2,,tc,元组与元组之间通过元组之间主码外码关系连接,构成一个数据图,因此,检索的结果是这个图中的一个包含了用户输入关键词的元组连接图。

定义1查询请求Question由一组关键词k1,k2,,km组成,表示为Q(k1,k2,,km)。

定义2检索结果Answer由一组元组t1,t2,,tn组成,表示为A(t1,t2,,tn),A满足以下条件:(1)含有至少一个Q中的关键词;(2)t1,t2,,tn通过主码外码关系连接成为一棵元组连接图。

本文定义3类关键词:(1):;(2):;(3):?。其中为词语,是关系操作符,可以是“=、、≥、<或>”,只能为数字。“:”之前的,用来匹配领域本体中的概念或者属性,用于限制查询的范围,“:”之后的关键词为要检索的内容。第1类关键词作为文本信息的查询条件;第2类关键词作为数字属性的查询条件;第3类关键词作为查询的目标,输入的一段查询语言可以出现多个第1类或第2类关键词,但有且只有一个第3类关键词。

如用户输入多个关键词如:{设备:泡沫车,地点:东丽区,设备≥3,单位:?},检索结果如图1所示,包括五个元组t1,t2,t3,t4,t5,图中的每个方块代表了一个元组中的属性,U用于标识应急部门,R用于标识应急资源,G用于标识地点信息,五个元组分布在不同的表中,通过数据库的主码外码关系连接,构成了一个元组连接图,元组连接图涵盖了输入所有的关键词,其中U0001是元组t1的主码,元组t2,t4的外码,元组t1,t2,t4,通过U0001连接起来,同理,元组t2,t3通过主码R0002,元组t4,t5通过主码G0001连接起来。

1.2 框架的提出

本文提出一个基于领域本体的语义检索框架,包括下面四个层次:用户接口层、信息检索层、语义层和数据层。如图2所示。

其中,用户接口层包括用户界面模块,用于与用户进行人机交互;信息检索层包括查询解析模块,查询扩展模块、查询生成模块、检索引擎模块、检索结果排序模块,根据用户输入的查询请求,进行信息查询,并对检索结果进行排序;语义层,存放领域本体及相关配置文件,配置文件包括词语本体元素映射文件和本体数据库元素映射文件;其四,数据层,数据以表的形式存放在数据库中,作为查询的数据源。各个功能模块详细设计如下:

(1)人机交互模块该模块提供给用户输入查询请求,浏览检索结果的功能。

(2)查询解析模块该模块基于词语本体元素配置文件对用户输入请求进行解析,解析成多个关键词的形式化的表示,提供给查询扩展模块进行扩展和提供给查询生成模块。

(3)查询扩展模块该模块基于领域本体,对原查询请求进行处理,提取关键词在领域中语义信息,把与原查询请求语义相关联的检索词添加到原查询,扩展原查询请求。

(4)查询生成模块该模块合并查询解析和查询扩展模块提供的查询请求,基于本体数据库元素映射文件,生成相应的SQL语句。

(5)检索引擎模块调用查询生成模块生成的SQL语句,对数据层的关系数据库进行检索,再把得到检索结果提交给结果排序模块处理。

(6)检索结果排序模块对检索引擎返回检索结果,根据检索到的结果与检索请求的相关度大小按照从大到小排序,再将排序后的结果交付给用户。

1.3 语义检索流程

利用Java语言搭建语义检索框架,实现框架中模块的基本功能以及模块之间的交互。利用惠普研究所开发的jena包[7]所提供的API来访问并获取本体信息。对于语义检索框架,其语义检索流程如图3所示。

(1)用户输入的查询请求Q(k1,k2,,kn),ki为用户输入的关键词。

(2)查询解析模块基于词语本体元素配置文件对用户输入的查询请求进行解析,把匹配上本体概念的关键词提交给查询扩展模块,无法匹配上的关键词提交给查询生成模块。

(3)查询扩展模块基于领域本体,计算本体中其他的概念和提交上的概念的语义相似度,把语义相似度高的概念作为新的检索词,把处理后的关键词提交给查询生成模块。

(4)查询生成模块合并查询解析模块和查询扩展模块分别提交的关键词集合,生成相应关系数据库查询语句,然后提交检索引擎模块。

(5)检索引擎根据得到查询语句,对关键词进行检索,得到检索结果,返回给检索结果排序模块。

(6)检索结果排序模块对检索结果进行排序,把排序后的结果返回给用户。

2 语义检索方法的实现

2.1 民航应急管理领域本体

民航突发事件应急管理领域本体定义为一个四元组:O=(C,AC,R,I)。其中O为领域本体,C为概念的集合,AC为概念属性的集合,R为关系的集合,I是实例的集合。

(1)概念。概念是对民航突发事件领域中个体的抽象,可以指任何事物,如描述、功能、行为、策略和推理过程等,本体中概念通常构成一个分类层次。如果概念ci是概念集合中C的一个概念,记作ci∈C。

(2)概念属性。如果ci∈C,那么ci的属性可以表示为AC(ci)。概念间存在差异是因为概念间存在着不同的属性,对应着不同的个体集合。因此,概念的属性集合又被称为概念的内涵,它所对应的个体集合为概念的外延。

(3)关系。关系代表了在民航突发事件领域本体中概念之间的交互作用。形式上定义为n维笛卡儿乘积的子集:R:c1c2cn,c1,c2,,cn∈C。当关系rk∈R为二元关系,它的定义域为ci,值域为cj,ci,cj∈C,则表示为rk(ci,cj)。

(4)实例。实例是指属于某概念类的基本元素,即某概念类所指的具体实体。它对应着本体中的一个概念或多个概念,具有概念描述的属性和具体的属性值。如果实例ik∈C,概念ci∈C,ik是的实例ci,则表示C(ik,ci)。

本文使用Protégé4.0作为本体开发工具构建的民航突发事件应急管理领域本体[8],包括应急预案体系、应急案例、救援方案、应急部门、应急设备、事件过程、事件等级、事件类型等主要概念,用于描述民航突发事件应急管理领域公认的概念、实例、概念与概念之间、实例与实例之间的关系。图4为民航突发事件应急管理领域本体中的片段,描述了应急资源的相关概念及其语义关系。

基于这些概念、语义信息和这些概念下的实例,可以提取出用户输入的关键词在本领域的语义信息,通过添加与用户输入关键词同义、相似的词语作为额外的检索词,使检索由传统的基于关键词的检索变成语义的基于内容的检索。

2.2 语义相似度计算

利用本体的层次结构计算本体中概念的语义相似度,参照文献[9,10]通过计算概念之间的语义距离,获取它们的语义相似度。

定义3层次记为H(S,)。假设H(S,)是一个偏序集,H(S,)是一个哈斯图,即一个五环图,其结点集为S,并且有一个最小边集E,当且仅当,upv(表示在这个哈斯图中从u到v存在一条路径)。

两个概念之间的距离可以通过它们在概念层次中的相对位置来决定。由于不同层次之间抽象跨度的不均匀性,给概念层次中的每个结点c赋予一个计算距离用的值,并成为里程,它可以通过以下公式得到[2]:

其中k为大于1的因子,用来指明mileage值沿着概念的层次向下方向递减的速度。在具体实现中,取k=2。lev(c)表示结点c在概念层次中的深度:对于本体概念的顶层结点root来说,lev(root)=0,向下逐层递增1。

对于概念层次中的任意两个概念c1、c2,它们都具有一个最近公共父类[9]ccp(c1,c2))。如果概念c1是c2的父类,或者概念c2是c1的父类,那么ccp(c1,c2)分别为c1或c2。概念c1与c2之间的距离是由它们分别与最近公共父类的mileage差值之间的和来确定:

根据式(1)至式(3)计算出概念c1与c2之间的语义距离后,它们之间的相似度Sim(c1,c2)为:

通过计算概念与概念之间的相似度,查询扩展模块把与原查询请求语义相似度高的概念作为新的检索词添加到原查询,扩展原查询请求。

2.3 检索结果排序

对于检索结果中的元组连接图A(t1,t2,,tn)排序的规则是:A如果包含用户输入的关键词越多,那么该图与检索请求的相关度越大,则得分越高,故排在返回结果的前面;当关键词的个数相同时,A包含的元组的权值和越大,并且所含的元组个数越少,那么A与检索请求的相关度越大,则得分越高,故排在返回结果的前面。A采用如下评分公式:

其中,A是查询结果Answer的缩写,是构成查询结果的一个元组连接图;sizeof(A)是A中所含的元组的个数,它与查询结果的得分成反比;n是查询请求Q中的关键词个数;n'是A中所含关键词的数量;α是个常数,为了提高元组的个数对查询结果排序的影响程度,α使用一个较大的值,这里取值为10,用来保证含关键词的查询结果的得分更高;Score(ti)是元组ti所包含关键词的评分和。

3 实验与分析

为了评估语义检索在民航应急资源中检索的效率,以天津机场及协作单位的民航机场应急资源数据构建的数据库作为查询,共有417个元组,建立了语义检索和基于关键词的检索实验环境。使用信息检索常用的两个基本评价指标查全率和查准率评价语义检索的性能。假设查询请求为Q,R代表在数据库中与Q的相关的元组连接图集合,A代表着返回的查询结果,Rα代表着返回的查询结果中与Q相关的元组连接图集合。

查全率:用来衡量检索成功度的指标,即检索出的相关元组连接图与数据库全部相关的元组连接图的比值:

查准率:用来衡量检索信号噪声比的指标,即检索的相关元组连接图与返回的结果的比值:

其中,分别为Rα、R、A的数量值。

为了使实验尽可能做到全面而准备,选取常用的9个关键词组作为检索信息进行检索实验,这9个检索词涵盖了应急资源中常用的应急部门、应急设备、地点三个方面,如表1所示。

利用以上的测试所用检索词组得到了两种检索方式的查全率和查准率对比图,如图5、图6所示。使用语义检索方法的查全率相对使用关键词检索方法的查全率要高。这是因为通过基于领域本体的查询扩展可以得到更多的相关概念作为检索词,提高了检索的查全率。

语义检索方法的平均查准率要比基于关键词检索方法的平均检索率要高,语义检索方法的查准率曲线更平缓,原因有以下几点:(1)查询扩展通过增加语义相关的检索词,提高检索查全率的同时,也增加了检索的噪声,因此,在只有文本属性作为关键词的情况下,语义检索的查准率有时比不上传统检索的查准率,如编号5、7;(2)当关键词中包含了数字属性时,关键词检索因为不能完全匹配上所有关键词,很多只满足数字属性的元组被检索出来,造成查准率偏低,如编号1、3、4;(3)当关键词中包含了数字属性时,语义检索可以通过查询扩展获得更多文本属性的关键词,来约束检索,因此,在包含数字属性检索中语义检索的查准率要比传统检索的查准率表现更好。

总体来说,相比传统的基于关键词的检索方法,语义检索方法的查全率和查准率都有所提高,检索性能有所提升。

4 结语

本文针对现有检索技术在民航应急资源信息检索中存在着高匹配、低精度,低匹配、无匹配等问题,提出一个基于领域本体的语义检索框架,给出了语义检索的流程。围绕领域本体,语义相似度计算及检索结果排序等关键技术进行了探讨,最后搭建了实验平台。实验表明语义检索在查全率、查准率方面的检索效果都有所提高,更加符合用户的需求。

参考文献

[1]杨太东,张积洪.机场运行指挥[M].北京:中国民航出版社,2008.

[2]朱海平,基于概念图匹配的语义检索[D].上海:上海交通大学,2006.

[3]王珊,张俊,彭朝晖,等.基于本体的关系数据库语义检索[J].计算机科学与探索,2007(1):59 78.

[4]Gao Huiying,Zhao Jinghua,Yin Qiuju,et al.Ontology-based enterprise information retrieval model[C]//Proceedings of 2009 IEEE International Conference on Grey Systems and Intelligent Services.Washington,DC:IEEE Computer Society,2009:1326 1330.

[5]Qi Hong,Zhang Liangliang,Gao Ying.Semantic retrieval system based on corn ontology[C]//Proceedings of the 5th International Conference on Frontier of Computer Science and Technology.Washington,DC:IEEE Computer Society,2010:116 121.

[6]张泸寅,张铭洋,李鑫.基于领域本体的电子学习资源库模型[J].计算机应用,2012,32(1):191 195.

[7]jena[EB/OL].http://sourceforge.net/projects/jena/files/Jena/Jena-2.6.4/.

[8]王红,杨璇,王静,等.基于本体的民航应急决策知识表达与推理方法研究[J].计算机工程与科学,2011,33(4):129 133.

[9]石静,肖航宇,熊前兴.基于SWRL规则与本体相似度的语义检索模型研究[J].计算机应用与软件,2010,27(7):236-238,273.

公开网络信息资源的组织与检索探析 第11篇

关键词:网络信息,资源组织与检索

在互联网高速发展的今天, 网络的广泛应用, 使人们获取信息越来越容易。但是, 一方面信息的大量增加, 出现了信息爆炸;另一方面, 碎片化信息越聚越多。这种情况的出现, 大大增强了人们获得所需有用信息的难度, 同时也给网络信息的组织与检索提出了前所未有的挑战。面对日益频繁的网络信息资源, 进一步熟悉其内涵和特点, 采取更有效的措施, 成为当前网络信息资源组织与管理越来越重要的一项工作。

1 网络信息资源概述

从广义来说, 网络信息资源的范围比较广阔, 本文这里特指在公开网络环境下可以利用的所有信息资源, 比如网站上一些信息。与其他类型信息资源相比, 网络信息资源具有以下主要特点: (1) 表现形式多样性。 (2) 存取方式广泛性。 (3) 存在形态无序性与不稳定性。 (4) 信息值差异性。其来源分散, 难以控制, 内容庞杂, 几乎涵盖了各个领域, 表现形式丰富多样, 除结构化信息外, 还有非结构化或半结构化。根据不同的标准, 还可以将网络信息资源划分为不同的类型。例如根据内容范围可划分为商业信息、政府信息、教育信息、学术信息、娱乐信息等。根据内容类型可划分为文本、图像、音频、视频等。随着网络的深入发展, 未来网络信息资源也会有更多类型的内容出现。

2 网络信息资源组织方式和检索利用

2.1 网络信息资源主要组织方式

网络信息的组织方式比较丰富, 大致有以下几种方式: (1) 文件方式。主要以文件为单位共享和传输信息, 但是, 随着网络中持续增加的数据量, 以文件组织方式的信息会使网络负荷加大, 导致控制和管理的难度增加, 从而影响信息资源组织效率。 (2) 数据库方式。主要是把所获得的资源按照一定的规则存储起来, 用户可以通过关键词查询到所需要的信息线索, 它能高速处理大量各种类型的信息资源, 尤其是在关系数据库、面向对象数据库中, 不仅能提供用户查询, 还实现了信息的知识关联, 极大地提高了用户对知识需求满意度。但是查询规则的建立比较繁琐, 前期花费时间较多。 (3) 主题树方式。主要通过将所有获得的信息资源, 按照某种事件确定的概念体系结构加以组织, 然后建立主题类目和子类目, 这种方式结构比较清晰、目的性更强、查准率也较高。但对于体系结构的要求比较简单, 所以只能适合建立在专业性或示范性的网络信息资源体系中。 (4) 超媒体方式。主要通过将文字、声音、图像、视频等各种多媒体信息以超文本方式组织起来, 实现高度链接的网络结构, 用户可以在多种信息类型中查询到所需要的信息。这种方式类似于人类的联想记忆结构, 把各种类型的资源有机整合起来, 方便描述和建立各媒体信息之间的语义关系。但是, 多种类型的融合, 使所占空间变大, 这给网站的内容规划与设计增加了工作量。

2.2 网络信息资源的检索

网络信息资源的检索应用在网络环境下, 要想获得信息, 除了要了解网络信息资源的组织方式外, 还要学会检索策略、利用检索工具, 才能更有效地获得自己想要的信息资源。检索策略一般是在分析检索提问的基础上, 根据需要确定检索的数据库、检索的用词, 并明确检索词之间的逻辑关系和查找步骤的科学安排。通常情况下, 网络信息资源检索策略主要有2种实现方式: (1) 一般检索。以浏览的方式, 采用主题法的自然语言进行检索, 它使检索变得更加直接、简单, 这种检索方式通常又被称为“智能检索”。 (2) 高级检索。使用叙词语言进行检索, 如布尔逻辑检索、邻近检索、截词检索、字段限制检索、短语检索等。它提高了用户检索网络信息资源的准确性和时间效率。检索工具。是指用于存储、查找和报销档案信息的系统化文字描述工具, 是目录、索引、指南等统称, 也是检索策略实施的平台。主要方式有3种: (1) 自动搜寻。通过自动搜寻网络资源、自动索引和摘要, 提供检索方法和用户界面等功能。但是其收录信息良莠不齐, 虽然检全率高, 但检准率较低。 (2) 人工分类。通过人工或机器进行搜寻, 使用人工分类制作索引数据库, 可以达到信息质量高、准确性强, 但人工花费时间和工作量都较大。 (3) 混合搜寻。这种方式是多种方式的结合体, 既可以通过类目浏览查询, 也可以输入句子、短语等进行自由查询, 并且它具有自动搜寻与人工分类的2种方式的特点。

3 网络信息资源组织与检索存在问题及对策

3.1 存在的主要问题

当前, 网络信息资源的组织与检索主要面临以下一些问题:一般网站上的信息资源, 在整体组织上还比较混乱, 主要表现在类目划分标准上还不够合理, 对信息资源在同一层次上划分不统一。如一些网站, 在网站内容规划与设计的时候考虑不周全, 导致不能适应不断变化的用户需求等。还有一些网站一个类目下面包含一些不属于它的下一层子类的现象, 这样一来, 导致用户检索时, 出现一些毫不相干的内容。如色情信息、虚假新闻、网络广告等。多数网站动态反映比较多。从一定意义上方便用户及时了解最新变化, 但是一些动态脚本、小程序、插件等, 在一定程度上影响了用户的检索时间。检索结果缺乏准确性, 平均50%的返回信息是无用的。如在百度搜索引擎中, 用户检索一个关键词, 出来相关甚至不相关的信息会成千上万条, 这些信息当中真正发挥对用户作用的有效信息屈指可数。检索失败, 用户得到的有用信息少于20%, 大多数据情况下, 普遍用户检索信息的返回结果并不理想, 甚至有的返回信息为零。

3.2 解决的主要对策

目前, 国际国内的许多专家一致认同对网络信息资源的有效管理和利用, 离不开先进的技术支持, 尤其是网络内容管理系统和智能化的概念检索系统将是提高网络信息组织与检索效率的关键。在此主要介绍网络内容管理系统和智能信息检索系统。

网络内容管理系统是可以协助进行网络内容管理的一种工具或者一套工具的组合, 是提供给组织中懂得技术的成员和不懂得技术的成员创建、编辑、管理和出版内容的工具, 在此过程中还要受到一套规则、过程和工作流程的限制, 以确保管理组织的有效性 (见图1) 。

目前, 国内部分知名中文的Web内容管理系统有北京拓尔思信息技术有限公司开发的TRS内容协作平台、北京泰得互联开发的Turbo CMS、深圳市蓝电科技有限公司开发的Xplus网站内容管理系统、上海网达信息技术有限公司开发的网达内容管理系统、联想集团开发的联想内容管理系统等。虽然在这方面国内取得了一定的成果, 但国内的网络内容管理系统供应商和国外的网络内容管理系统供应商之间还存在着一定的差距, 有待于进一步提高完善。

智能信息检索系统。当前, 国外的检索系统如The telcordia semantic indexing software (简称LSI) , 检索效果比较好, 在实际应用中已经克服了普遍使用以关键词为基础进行的检索的缺点, 并已经应用广泛。但是, 国内现阶段专业人员提高检索效率的主要有6种方式: (1) 利用各种分类表、主题词表、叙词表建立网上信息检索自动索引、在线目录和主题索引。如采用张琪玉教授提出的“分类法主题法一体化”方法, 即编制一种分类号与主题词的双向对应表, 作为网络资源分类、检索的依据。 (2) 建立同义词转换概念空间。通过这种方法建立转换系统对提高信息的查全率和查准率有着非常重要的作用。就是把表示同一概念的词转换为同一等级的代码, 如电脑、计算机统一转化为“计算机”等。 (3) 建立学科领域统一概念。主要是建立专门领域或学科的词典, 可以起到主题过滤的作用。如统一的医学语言系统UMLS数据表。 (4) 建立否定关键词程序。通过准确计算的否定模式来消除不相关。也就是说在实际操作中用户可以消除不想得到的信息, 从而得到真正想要的内容。 (5) 建立和完善信息反馈程序。就是通过设计一个用户信息反馈程序, 在用户进行信息检索时, 可以提高检索效率和用户的满意程度。 (6) 建立个性化过滤系统。这个主要基于用户特别的兴趣偏好, 通过过滤系统实现模仿用户本人, 并选择符合用户需求的信息传送给用户。如利用先进的感知器获得用户个人信息, 再通过使用时间序列分析等预测技术推断用户行为模型。

4 结语

在科技迅速发展的今天, 人们已经置身于网络信息的汪洋大海之中, 唯有不断地对网络信息资源的进行有效组织管理, 才能更好地为用户检索分析提供优质服务。本文总结在网络信息资源组织和检索中常见的一些问题, 所提出的对策是基于网络内容管理系统和检索策略2个方面的知识梳理。如何面对未来网络信息资源组织与检索的新问题, 如何提出有效地解决新办法, 留给了人们广阔的研究和探索空间。

参考文献

[1]戴伟辉.网络内容管理与情报分析[M].北京:商务印书馆, 2009.

[2]徐海燕.互联网信息组织与检索初探[J].图书馆建设, 2003 (4) :78-80.

[3]穆颖丽.网络信息资源的组织与检索[J].图书馆学刊, 2004 (2) :52-53.

[4]邱桂梅.主题语言在网络信息组织与检索中的应用[J].现代情报, 2005 (2) :152-154.

资源检索论文范文

资源检索论文范文(精选11篇)资源检索论文 第1篇人类正是通过信息对自然界、人类社会及思维方式与运动规律的认识与概括, 再经过大脑思维...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部