非结构数据范文
非结构数据范文(精选11篇)
非结构数据 第1篇
1.1 非结构化数据定义
非结构化数据是相较于结构化数据而言, 如果说结构化数据是用二维逻辑结构来表现的数据, 那么非结构化数据就是指无法用二维结构表示的一种数据类型。非结构化数据主要包括以下三种类型:内容文档信息 (包括文书处理、电子表格、简报档案与电子邮件等) 、Web内容信息 (HTML、XML等格式信息) 、多媒体信息 (声音、视频、图片等) 。可以有这样一种理解:结构化数据用详实的方式记录了企业的生产交易活动, 那么非结构化数据则是掌握企业生产经营活动的关键内容。
1.2 非结构化数据的特点
数据体量大, 非结构化数据不仅数据量大 , 而且增长非常迅速。从出现文明到2003年, 人类总共才创造5EB的数据。但是随着信息通信技术的飞速发展, 特别是智能手机和互联网技术的成熟, 我们现在仅在两天内就创造出相同的数据量!预计到2015年将达到8 ZB, 这相当于1800万个国会图书馆。而在如此庞大的数据中, 只有10% 的数据是存储在数据库中的结构化数据, 其余的则是由邮件、视频、微博、文档、页面点击等产生的大量的半结构化数据非结构化数据。
格式多样化, 非结构化数据格式多样化, 在实际的应用中, 非结构化数据的格式多种多样, 如Word、Excel、PDF、JPEG图等等。
难以标准化, 相对结构化数据有统一的格式和标准, 非结构化数据的样式复杂多变, 所以在存储、管理、检索等应用上现有的标准化体系难以支撑。
数据加工难度大, 由于非结构化数据体量大、格式复杂多样, 如何从海量数据中发掘有价值的信息一直是个难题。
1.3 非结构化数据研究背景
非结构化数据的迅速增长引起了从业者与研究者的注意, 非结构化数据的存储和管理一时成为了研究的热点以及发展方向。国外起步较早, 虽然目前还没有出现一个真正意义上公认的标准非结构化数据处理模型, 但己经出现了诸如Google提出的Big Table、Map Reduce与Facebook自己开发 的Cassandra和e Bay基于Hadoop开发的Athena等非结构化数据存储与处理等技术和产品, 并已经取得了较为成熟的应用效果。
相较于国外在结构化数据研发领域的主导地位, 目前占信息总量80% 以上的非结构化数据在全世界范围内仍处于低效率的处理阶段, 这就给我国软件产业的跨越式发展带来了契机。2012年7月我国正式成立非结构化数据管理标准工作组。工作组负责制定和完善中国非结构化数据管理领域的标准体系。在工信部和全国信息技术标准化技术委员会的指导下, 北京航空航天大学、清华大学、浙江大学、中国人民大学、北京大学、中国科学院软件研究所等高校及研究机构, 以及百度、用友、阿里云、拓尔思、中软等业界厂商发起成立了非结构化数据管理标准工作组, 秘书处设在中国电子技术标准化研究院。2005年底, 北京书生公司宣布推出了其SEP文档库技术, 经过不断的完善已经形成可以实际应用的文档模型描述和相应的操作标准——UOML (Unstructured Operation Markup Language, 非结构化操作标记语言) 。这意味着中国的企业有可能成为非结构化信息产业发展中核心技术的持有者和标准的制订者。在产品市场, 北京国信贝斯软件有限公司的IBASE和北京拓尔思信息技术股份有限公司TRS大数据管理系统均为具有自主知识产权的非结构化数据管理系统, 已经取得了不错的市场和经济效益。
2 相关技术简介
2.1 Hadoop
Hadoop是Apache组织研发的一个开源的能对海量数据进行分布式处理的开源分布式计算平台, 被认为是目前应用最为成熟的海量非结构化数据存储管理解决方案。英特尔、EMC都发行了自己的Hadoop优化版本, IBM、ORACLE都已经将Hadoop当做了自己大数据解决方案当中一部分。
Hadoop的优势在于:扩展性非常的高。Hadoop本身便是一个能够进行高度扩展的存储平台, 其在进行数据存储以及分发的时候可以横跨几百个能够进行并行操作的廉价服务器数据集群。
容错能力非常的强。Hadoop能够自动为保存多个副本:将数据发送到某个单独借点中去的时候, 这些数据会直接被复制到其他的借点上。一旦出现故障导致数据损坏的情况, 能够自动加载副本保证任务正常执行。
处理海量数据非常高效。HDFS+Map Reduce架构可以轻松的组织利用实际资源可以在节点之间动态的移动数据, 保证各个节点之间的动态平衡, 因此他的处理速度非常快。
高可靠性。Hadoop按位存储和处理数据的能力值得。
2.2 Hadoop 体系结构
Hadoop的核心是HDFS (Hadoop分布式文件系统) 和Map Reduce (一种并行计算模型) , 还包括Hbase、Hive、Commom、Avro、Zookeeper等组件, 如图1所示:
2.2.1 HDFS
HDFS (Hadoop Distribution Files System分布式文件系统) 是基于流数据模式访问和处理大文件的需求而开发的, 因而特别适合非结构化数据的处理。HDFS的主要特点有:处理大文件。这里的大文件通常指MB级以上的数据;流式地访问数据。HDFS遵循“一次写入、多次读取”的原则, 即源数据一旦生成, 会立即被复制几个副本分发到不同的存储节点, 可以分别同时相应不同的任务请求, 而且这样的副本策略提高了系统的可靠性和安全性;适用于集群。HDFS的设计对硬件配置要求不高, 可以运行在低配集群上。
HDFS体系结构 中有两类 节点, 一类是Name Node, 另一类是Data Node。这两类节点分别承担着Master和Slave的角色:Name Node负责集群 的管理调度、相应外部请求、维护Data Node的索引目录等;Data Node承担具体的存储任务。需要注意的是, HDFS默认将文件块副本数设定为3份, 分别存储在不同的Data Node上。一旦一个数据块损坏, 系统会通过Name Node获取副本信息, 从另外的副本读取数据信息, 这样体现出了不俗的容错能力, 如图2所示。
2.2.2 Map Reduce
Map Reduce最早是由Google公司研发的函数Map和Reduce演化而来, 主要是用于处理集群的并发。Hadoop中的Map Reduce是一个使用简易的软件框架, 能够以一种可靠容错的方式并行处理上T级别的数据集。Map Reduce就是“任务的分解与结果的汇总”。遇到大数据量任务时, 首先将数据分段进行Map并行处理, 然后把多任务处理的结果汇总起来发送给Reduce, 得到最终结果, 如图3所示。
2.2.3 Hive
Hive是建立在Hadoop体系架构上的数据仓库存储架构, 它提供了一系列的工具, 用来进行数据提取、转化、加载。传统数据仓库是把数据导入系统中, 而Hive则是动态的将对数据处理的逻辑 (代码) 导入系统中, 这样一来大节省了数据导入的开销。Hive的执行计划在Map Reduce框架上以作业的方式执行, 最终输出文件写到HDFS文件系统, 利用HDFS的多副本机制来保证作业的容错性。同时Hive还提供了一种SQL类型的语言 -Hive QL, 可以进行类似SQL的操作。由于Hadoop是批处理系统, Hive在处理数据时会出现一定的延迟, 不适合在线事务处理场景, 他的优势在于处理改变不频繁的大规模数据集。
2.2.4 Hadoop 工作机制
Hadoop将计算节 点分为JobT racker和Task Tracker。TaskT racker必须运行于Data Node上, 负责具体执行Map和Reduce等任务。Job Tracker会把Map任务和Reduce任务分配给空闲的Task Tracker并监控任务的运行情况, 如图4所示。
3 中国地质图书馆存储建设历程及现状
中国地质图书馆经过百年积累, 积累了大量的专业地质文献信息资源, 包括近代地质学启蒙时期以来近200年的国内外地学文献;世界各国地质图件1万余套;20余个自建和采购的大型文献数据库, 近6000万条文献信息数据;拥有中国地质图书馆馆藏特色资源全文数据库、中国地质文献数据库和青藏高原数据库以及Geo Ref国外地学文摘数据库、GSW (Geo Science World) 等中外文数据库14个。
3.1 中国地质图书馆存储建设历程
为确保如此海量数据安全、可靠, 为地质文献信息化工作提供可靠支撑, 中国地质图书馆信息化建设者一直在孜孜不倦的努力着。
图书馆最早使用存储系统设备始于2006年, 由于数字化工作的开展形成了大量的成果数据, 图书馆购置了两套Dell Power Vault直接附加式存储 (DAS) , 总可用容量达24.5T。主要存放馆藏数字化的成果数据, 包括PDF、TIF、XML和JPG文件。
2009年借助野战军地质装备专项, 部署了EMC中高端企业集中存储系统。内容包括:总可用容量达28T的EMC CX4-480光纤磁盘阵列 (通常称作SAN存储区域网) 、总可用容量达6.9T的EMC NS40 NAS存储以及总可用容量19.5T的EMC DL 3D3000虚拟带库 (简称EDL) 。集中存储系统的实施加快了地学文献数据中心的建设步伐, 其中SAN光纤磁盘阵列主要存放高I/O的数据库和文件, 如元数据仓储、经常使用的CNKI镜像数据等。NAS主要存放了文件级的共享型数据。EDL虚拟带库主要用于诸如MS SQLserver、Oracle及Sybase等数据库及服务器文件的在线数据备份。
2011年, 中国地质 图书馆购 置了10台EMCi Store Center的桌面NAS存储设备, 总理论容量达到64T。这些桌面级存储设备主要用于数字化成果的中转存储。
2012年, 购置了总容量达到53T的昆腾SCALARi500 14U LTO5磁带库用于离线数据保存。
至此, 图书馆在线离线存储系统已经构建了高I/O高性能的在线存储、存放不经常使用数据且I/O不频繁的近线存储以及完全用于数据保存的离线存储体系。三种类别的存储空间累计达到了196T, 如图5所示。
3.2 馆藏数据资源现状
中国地质图书馆馆藏数据资源现状如下:结构化数据包括馆藏自动化系统、文摘数据、数据库文件容量约为10G;非结构化数据分为:2006以来年馆藏成果数字化原始数据36.91T、备份数据10.74T、发布数据5.17T;购买的数据库镜像:CNKI24.05T、维普7.98T、万方数据712G;元数据仓储发布平台索引文件10T。综上, 目前中国地质图书馆非结构化数据存储特点。
从源数据看, 非结构化数据占绝大多数, 且构成结构复杂。数据格式多样化, 馆藏数据格式呈现出多样化方式, 包括结构化和非结构化数据, 非结构化数据又分为如PDF、XML、word、图片视频等。业务构成多样化, 非结构化数据包括自2006年以来馆藏成果的数字化原始数据、数据库镜像、元数据仓储发布平台索引文件、项目建设成果、公文等。不同的业务构成决定了数据存储管理方式和应用需求的不同。存储方式多样化, 非结构化数据由各个业务应用自行管理, 主要有文件存储方式和FTP等。
从存储结构分析, 后端存储较多, 品牌型号驳杂, 管理不便;缺乏非结构化数据统一集中存储管理体系;数据备份效率不高 , 缺乏容灾恢复机制。
3.3 中国地质图书馆非结构化数据存储的需求
统一管理的需求。由于建设周期较长, 以及不同时间节点系统建设侧重点不同, 形成了较为分散的孤岛式的信息分散存储状态。为优化存储策略、统一运维流程、提高存储资源利用率, 亟需建立一个统一的非结构化数据管理平台从而提高对非结构化数据的管控能力。根据数据类型以及实际业务的需要, 充分利用磁盘阵列、NAS、磁带库等设备不同特性, 建立分级存储体系。
数据安全管理的需求。对任何一个存储系统地建设来说, 安全可靠永远是首要考虑的。根据中国地质图书馆实际业务需求, 安全管理具体由以下内容:制定统一的访问授权机制。对内容的访问进行统一的访问控制;制定统一的应用接入标准规范;制定审计策略, 一旦需要做到有据可查;制定高效的容灾备份机制, 确保数据的安全。
数据分析和决策支持需求。图书馆一直致力于资源建设的基础性工作, 积累了大量的地质文献资源, 也取得了一些效果, 但大多仍停留在目录检索、集成层面, 更深层次的内容服务开展较少。随着地质工作的不断深入, 迫切需要开发知识化、个性化、专业化的高针对性地学文献信息服务产品, 提升服务能力和水平。
4 中国地质图书馆非结构化数据存储平台设计
根据以上的技术分析 , 结合中国地质图书馆信息存储建设实际和需求, 构建非结构化数据存储平台架构图6所示:平台采用分层结构, 依据逻辑结构和功能分为基础设施服务层、数据服务层、应用服务层。
4.1 基础设施服务层
基础设施服务层是存储平台中基础部分。利用中国地质图书馆现有的NAS、磁盘阵列和虚拟带库等存储设备 , 采用虚拟化技术实现存储设备的逻辑虚拟化管理。
4.2 数据服务层
数据服务层是中国地质图书馆非结构化存储平台最为核心的部分。采用HDFS分布式文件系统存储数据、Map Reduce提供的控件和API处理数据请求、Hive作为数据仓库抽取、转化、加载数据, 定制数据模型, 为下一步数据分析做好准备。逻辑上采用主从结构, 由Control node和存储节点组成。Control node作为主控节点集成了HDFS的Namecode和Jobtracker, Name Node管理Data Node元数据。同时执行文件系统的打开、关闭、重命名文件或目录等操作。Jobtracker负责存储节点上Task Tracker的调度;数据服务层的存储节点为具体的数据存储载体, 将Task Tracker与HDFS的Data Node部署在同一服务器和能最大限度的提升并发的效率。Controlnode和存储节点共同构成了非结构化数据分布并发处理架构;利用Hive可以直接读取Hadoop文件数据的优势 , 采用类似于结构化查询语言 (SQL) 的Hive QL将查询转换为Map Reduce的job在Hadoop集群上执行实现对大规模数据集的查询与分析。
4.3应用接入层应用接入层输入链接实际应用和数据的中间层, 功能包括:集成PAI接口为应用接入提供同一的规范和标准;
身份认证和访问管理则确保了数据访问的安全可靠。
4.4 非结构化数据存储平台特性分析
中国地质图书馆非结构化数据存储平台采用了Hadoop分布处理架构, 具体来说有以下特性:
4.4.1 统一集中管理
平台采取“主从模式”, 主节点control node作为主控节点集成了HDFS的namecode和Jobtracker, 集中管理数据的存储和读取, 可以有效的解决目前中国地质图书馆海量异构非结构化数据分散管理的问题。
4.4.2 可扩展性
平台设计充分利用现有的存储设备, 而且Hadoop的高扩展性决定了未来随着数据量的增大可以轻松采用大量廉价存储设备代替费用高昂的高端存储。
4.4.3 安全可靠性
HDFS的副本存储机制为数据存储提供了冗余备份, 同时由于HDFS采用心跳检测Datacode的健康状况, 一旦发现问题即可采用副本数据备份的方式来保证数据的安全性。
4.4.4 高效性
Map Reduce“任务分解执行结果汇总”的工作模式实现了在不同节点上的分布运算确保了非结构化数据数据读写速度的高效。同时, Hive直接对HDFS的文件进行读写操作, 由于HDFS副本机制的高容错性, 我们可以将一个Hive查询同时在大量节点并发运行, 极大的提高了海量地学文献非结构化数据的检索效率。
5 结语
如何有效存储管理非结构化海量数据, 为进一步分析加工提供基础支持日益引起人们的关注, 笔者在分析非结构化数据发展背景、特点的基础上, 结合中国地质图书馆实际, 提出了采用Hadoop架构的非结构化数据存储平台设计方案。为如何安全高效管理地学文献非结构化数据资源做了积极的尝试。
参考文献
[1]陆嘉恒.Hadoop实战[M].北京:机械工业出版社, 2012:11.
[2]White T.Hadoop:The definitive guide[M].Nanjing:South-east University Press, 2011:34.
[3]崔杰, 李陶深, 兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展, 2012 (18) :12-17.
[4]文艾, 王磊.高可用性的HDFS-Hadoop分布式文件系统深度实践[M].北京:清华大学出版社, 2012.
非结构化数据库与异构数据库区别 第2篇
答:不一样,
非结构化数据库,是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势,
非结构数据 第3篇
关键词:水文地质;非结构化数据;信息
一、非结构化数据的定义
相对于结构化数据(即行数据,存储在现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括数据库里,可以用二维表结构来逻辑表达式所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。据统计,非结构化数据占到现有数据总量的80%以上。
二、非结构化水文地质数据的特点
1、专业性强。水文地质数据涉及到的大部分是和水文地质相关的信息,如水文地质图、物探、测井曲线、地质构造三维结构图、各种水文视频资料等内容。对于这些数据的分析和解释,不同的经验背景、不同分析方法得出的分析结论可能依然会有差异。
2、媒体形式多。水文地质资料包括数字化的文本、实物、照片、电子出版物、数字及三维地质图、地质构造图等各种各样的水文地质相关资源。其存储媒介已不限于印刷体,它包含文本、声音、图像、视频等多种媒体形式,类型复杂。
3、存储容量大。水文地质相关的各类资料非常多,要实现由计算机来进行处理分析,则需要对大量资料进行信息抽取和数字化,随着资料的不断完善,资料的积累导致的数据会成倍增长并将一直持续下去。
三、水文地质数据信息的管理及使用现状
1、管理现状。目前,在国内各水文地质、勘察设计等单位之间没有形成有效的资源共享,各单位的详细信息资源基本都相互独立,产生了信息孤岛。同时,在单位内部,除部分结构化的信息资料(如地质结构数据等)由计算机进行管理,大部分的应用系统中的非结构化数据,如报告、报表、图片等都是以二进制的格式保存在结构化数据库的BLOB字段中。保存在BLOB字段中的好处是调用文件的速度很快,维护和管理简单;缺点一是由于非结构化数据文件大,在数据量不断增大的情况下,会使得结构化数据库迅速膨胀,导致数据库性能下降,进而影响整个应用系统的性能;二是由于各个应用系统相对封闭和独立,其他应用无法共享相关文档资料,信息之间的关联程度低,不能有效发挥信息之间的关联解释作用,极大的降低了数据的价值。
2、使用现状。由于上述的管理现状,水文地质资料在使用上存在影响资料价值有效发挥及工作效率低的问题。例如,在本单位所掌握的资料区域内执行任务时,由于信息资料管理的自动化程度低,资料之间的关联关系没有有效建立,查阅资料时就需要翻阅不同存储位置、不同存储介质的大量信息,以便为制定决策提供依据,极大的降低工作效率。如果到本单位所掌握的资料区域外执行任务,所能得到的参考资料非常少,通常需要提前进行现场勘查或到当地有关单位索取相关资料。
四、水文地质数据的应用分析
第一类决策指挥层:主要关心的是水源分布及施工進度情况,从宏观上掌握控制水环境,以便能够及时进行任务分派、调整、做出指挥决策。
第二类工程地质人员:主要关心如何利用现有水文地质资料及以往的知识和经验分析某一区域的水文地质情况,寻找水源位置,评估施工效率和施工成本,报表打印,为施工、钻井设计以及水源侦查过程中所遇到的一些问题提供相关资料和解决办法。
第三类施工技术人员:包括钻井指挥人员、机台管理人员、设备操作人员等,主要关心施工区域的地质构造,应采用的施工工艺,发生故障时应采取的处理办法。
五、水文地质信息知识抽取模型的建立
1、对水文地质非结构化数据进行专业细分,使其作为一个独立的专业领域来进行专门处理,从而极大缩小数据的管理范围,提供管理的专业化水平。因此,集成行业的相关数据,或者说为了搜索和分析而对这些数据进行专业细分,其实现的可能性就非常大。
2、在非结构化水文地质数据采集的方式上采用元数据管理和系统自动学习修正的技术,从而提高数据质量。对于非结构化的水文地质数据,大部分都无法直接由计算机来进行统一管理和使用,必须对其本质信息进行抽取和总结,从而提取出便于计算机管理的有价值的信息。抽取的这些信息便是非结构化数据的元数据描述。这些元数据通常无法由计算机直接生成,需要由专业人员对其进行解释分析生成。
3、在数据使用上采用全文检索技术和信息自动关联的方法。根据调查,地质工作者每天30%的工作时间,用于收集信息:72%的领导者认为,知识没有在他们的组织得到重复利用。从这些异构、繁杂、丰富的内容中,准确、快速地找到自己所需要的信息,减少信息搜寻时间,能够创造巨大的价值。当非结构化的水文地质元数据库建立好以后,信息查找就变的和处理结构化数据一样简单了。
六、非结构数据模型存在的问题
1、各水文地质单位之间的数据共享问题。由于这些水文地质数据可能涉及到国家利益和各单位的自身利益,因此有些数据通常属于保密范畴,通常不便于联网使用。因此,这些详细的水文地质资料需要由国家相关部门来统一进行整合,统一管理使用,及时进行数据更新,从而方便相关部门执行任务时进行查找使用。
2、结构化数据与非结构化数据之间的互通问题。以上模型的建立是基于非结构化的水文地质数据而得出的,对于结构化的水文地质数据依然保存在结构化的数据库中,二者之间如果要建立关联,则需要一个中间的特殊纽带来完成。纽带的选择非常重要,我们将地理坐标和区域名称作为这一关键性的关联纽带,在结构化和非结构化水文地质数据之间建立联系。
3、专业化解释的问题。对于非结构化的水文地质数据,由于其专业化程度较高,很多数据都需要进行分析解释,因此,元数据构建的工作量非常大。
企业非结构化数据检索研究 第4篇
非结构化数据约占企业数据总量的80% ,除了数据总量大还具有格式多样、增长速度快等特点。非结构化数据包含有关企业发展的重要信息,其主要包括所有格式的办公文档、文本、XML/HTML、图片和音频/视频文件等。伴随信息化的建设和发展,企业每年非结构化数据的增长量已经达到PB级别。经过多年的运行积累,各业务系统形成信息孤岛,非结构化数据存储、管理和搜索问题日益凸显。据调查,人们将大部分时间花费在信息搜索上,用于创造工作价值的时间相对较少,如何在企业多年积累的海量非结构数据中快速获取有效的信息,帮助员工分析和决策,是企业信息化建设需要思考的问题。
本文在对企业搜索引擎相关技术进行了深入的研究和分析后,构建了基于Solr[1]的企业级检索平台。该平台采用B /S架构,服务器端利用Solr对上传至Hadoop[2]分布式文件系统中的各类非结构化数据建立倒排索引,实现了对来自各业务系统非结构化数据的全文检索[3]。业务系统用户可以通过浏览器进入系统,通过输入查询字段向服务器提交查询请求,服务器收到查询请求后排序并返回查询结果,浏览器解析返回的结果并显示给用户。平台实现了企业内多业务系统的接入[4],使得用户在统一的数据资源库中检索数据,将主要精力用在创造价值的工作上。
1 业务系统海量非结构化数据的集中存储
针对各业务系统管理各自大量非结构化数据的现状,建设该企业级非结构化数据检索平台,首先实现企业各业务系统非结构化数据的集中存储。企业内各业务系统,诸如ERP、数字图书馆、生产管理等系统逻辑业务不同、开发技术迥异。为实现企业非结构化数据的统一管理,平台为不同类型的业务系统提供了具体有效的接入方案,满足多类型业务系统的接入需求,构建起企业级的非结构化数据存储中心,数据的存储结构如图1 所示。
平台采用Hadoop的分布式文件系统( HDFS)集中存储企业非结构化数据,各业务系统可以共享数据资源,打破了原来业务系统管理各自非结构化数据的瓶颈,促进了系统间的信息交互。HDFS[5]是一个主/从( Master/Slave) 体系结构,Name Node为主控制服务器,它负责管理文件系统的命名空间,记录文件数据块在每个Data Node上的位置和副本信息,协调客户端对文件的访问; 各个Data Node负责其所在物理节点上的存储管理,并依照Name Node的命令,负责处理客户的读写请求。在HDFS中,来自各业务系统的海量非结构化数据分布式并行存储,文件以分块和副本的形式存储在不同的计算机节点上。
2 非结构化数据搜索引擎服务器Solr
2. 1 Solr中的关键技术
分词技术[6]对于搜索引擎来说是非常重要的。汉语的表意文字不能简单按照西方语言那样依靠空格和标点进行分词。本文中引入IKAnalyzer作为搜索引擎的中文分词器。IKAnalyzer采用基于字符串匹配的分词算法,按照一定策略将待分析的字符串与机器词典中的词条进行匹配,若能成功匹配到某个字符串,则认为找到了相关词汇。
Solr服务器采用高效的倒排索引组织结构。倒排索引采用面向单词的索引机制,它通过建立关键词到文件的映射,每个关键词都有一个置入列表来记录该词在所有文档中出现的编号、位置、频率等信息。每个字或词对应的文档是动态变化的,导致倒排索引的建立和维护都较为复杂,但是由于一次查询可以得到包含关键字的所有文档,所以效率较高。在全文检索中,检索的快速响应是最为关键的性能,而索引在后台进行,不会影响整个搜索引擎的效率。
相关度是指两个事物间存在相互联系的百分比。相关排序是指通过搜索引擎服务器进行检索后返回结果的排序,检索结果的排序直接反映出相关文档信息与查询条件的相关程度。Solr搜索引擎对查询语句与文档之间的相关性进行打分,分数高的搜索结果相关性好,就应该排在前面。
2. 2 Solr服务器体系结构
Solr是基于Lucene[7]的开源搜索引擎,Solr填补了Lucene仅作为开发工具包的遗憾,它开箱即用,是一个完整的全文检索服务器。Solr底层的核心技术是使用Lucene实现的,它封装了Lucene定义文档对象、描述文档属性、分析处理文档、索引生成、索引存储等整个索引建立的流程。其主要功能包括强大的全文检索功能,高亮显示检索结果[8],电子文档( Word,PDF等) 的处理,易于安装和配置,且附带了一个基于HTTP的管理界面。
作为一个完整的全文检索服务系统,Solr具有良好的使用接口,其体系架构如图2 所示。Solr是基于Lucene的搜索引擎,又是对Lucene的扩展,系统架构中,最上层为对外提供服务的HTTP接口,用户或其他系统通过向Solr发送HTTP请求,启动索引或搜索服务。Solr根据建立的数据模型来分析数据,并根据配置的分词器来对数据进行分词处理,然后将请求交给底层的Lucene接口,由Lucene生成索引文件或在索引文件中进行检索并返回结果。中间层为Solr核心层,负责系统模式、配置参数的解析、文档分析,提供并发控制和缓存机制。最底层为Lucene,负责具体的文本分析、索引建立、索引查询。
3基于Solr的企业级搜索引擎架构及实现
3. 1 企业搜索引擎架构设计
各业务系统用户上传文件到平台的HDFS后,Solr的索引器经过分词处理后对文件内容建立索引,并将索引保存在索引库中。当然,对于Solr不能直接为其建立索引的文件,比如图片文件,先要通过平台中的文件内容解析模块提取图片上的文字信息生成相应的文本文件,再由索引器为其建立索引。用户在业务系统执行搜索任务时,服务器获取用户的查询请求后,由检索器从索引库中搜索出相关的信息并返回给用户。平台中Solr服务器索引及查询流程[9]如图3 所示。
建立索引和对关键词进行查询都需通过中文分词模块对字串进行分词,即将句子拆分成单个的词元,构建分词词典。索引模块把文件分词处理后的结果使用指定过滤器过滤后生成索引加入到索引库中,做为用户查询的数据源。查询模块解析用户输入的查询关键字,将其转发给Solr发出查询请求,响应结果通过解析按照一定的组织格式返回给用户。Solr需要对分词器、词库及对应的索引文档进行配置,分词器、索引器和检索器组成了服务器端。
Solr通过HTTP接口,可以直接接收PDF、办公文档、各类报表以及XML/HTML等文件建立索引。但是对于图片、音频和视频文件,要开发相应的预处理模块分别将其转化为可以基于Solr建立索引的文本文件。任何格式的非结构化数据都是通过转化为文本文档格式,然后调用底层的Lucene接口生成索引。比如,Solr中自带了将PDF转化为文本文档的处理模块,但是对于图片,Solr中并没有相应的处理模块,提取图片信息为文本文档需要另外实现。该企业搜索引擎框架结构如图4 所示。
3. 2 企业级非结构化数据搜索引擎的实现
Solr主要是通过schema. xml和solrconfig. xml这两个XML文件来完成配置。Schema. xml相当于数据表配置文件,它定义了加入索引的数据的数据类型,主要包括types、fields和其他的一些缺省设置。在Schema的设计中,必须有一个unique Key指定某一field作为文档的唯一标记。同时要在types节点内定义field Type子结点,定义field Type有时需要建立Analyzer,Analyzer是建立索引和进行查询时使用的分析器,例如:
最后定义copyfield,建立拷贝字段,将所有的全文字段复制到一个字段中,以便统一检索。
另一个重要配置文件solrconfig. xml包含了大部分的参数,用来配置Solr的缓存、索引路径、查询参数、查询相关的事件监听器、更新处理等,与Solr运行相关的参数都可以通过这个文件来配置。在本系统中,主要对下述几点进行了配置:
( 1) < mainindex > ,该节点用来控制合并索引段,其中子节点< merge Factor > 决定低水平的Lucene段被合并的频率,< max Buffered Does > 指定在合并内存文档和创建新段之前所需索引的最小文档数,本文设置merge Factor = 30。
( 2) < Update Handler > ,更新处理器主要配置底层更新处理内部信息的方法。系统中设置子节点< autocommit > ,设置max Docs = 1000,max Time =30000。
配置好Solr服务器后,进而构建起该企业级非结构化数据搜索引擎。从该系统的运行情况来看,当文件数量在百万数据级时,对一般的查询请求,其响应时间一般都能控制在毫秒级,系统提供了分面浏览和过滤功能,检索结果能实现高亮、分页显示。检索界面如图5 所示。
4 平台性能优化及改进方向
4. 1 故障转移机制保证HDFS的稳定性
平台采用Hadoop的HDFS实现海量非结构化数据的存储,然而Hadoop本身也是有缺陷的,Hadoop的Name Node一旦宕机[10],将导致用户在搜索时无法通过搜索结果查看和下载文件,造成平台不可用,给企业带来重大损失。据了解,Facebook的Avatarnode方案以及Hadoop自带的Backup Node方案,采取自动备份Name Node元数据信息,故障发生时人工切换至备份Name Node技术实现故障转移。下一步会参考以上方案实现Name Node的故障转移,防止因为Name Node的单点故障给企业带来重大损失。
4. 2 搜索引擎的分布式优化
该企业级搜索引擎实现了企业多业务系统的接入,使得用户在统一的数据资源库中检索数据,提高了用户获取有用信息的速度,将用户从信息的海洋中解脱出来,将主要精力用在创造有价值的工作上。随着企业中非结构化数据的数据量急剧膨胀,单节点搜索引擎服务器处理海量数据变得力不从心,为了提高索引和检索效率考虑采用分布式搜索引擎。分布式搜索引擎[11]的策略就是当用户登录到任何一台服务器时,除了本地资源的检索服务器可以为客户端提供搜索服务,也可以自动连接到其它服务器,发出搜索请求,并将检索后的结果合并汇总反馈给最终用户。在这种方式下,用户只需登录到任何一台服务器,就可以从不同的服务器获取大量的所需资源,用户检索和获取的这些资源的方式就如同检索和访问相同的服务器。
为此,考虑实现一个基于Solr的海量非结构化数据分布式全文检索系统。Solr Cloud[12]是基于Solr和Zookeeper的分布式搜索方案,支持分布式索引与检索、容易扩展,是目前新版本Solr中的核心组件之一,它的主要思想是使用Zookeeper作为集群的配置信息中心并协调shard之间的状态。具有集中式的信息配置、自动容错、近实时搜索以及索引、查询时自动负载均衡几个特色功能。通过相应配置就可以实现一个具有高并发、高容错性的分布式搜索引擎,下一步将基于Solr Cloud在原有搜索引擎的基础上进行扩展,构建企业级的分布式检索平台。分布式检索平台中,企业非机构化数据分布式存储在Hadoop的文件系统中,相应的索引数据将分布在Solr分布式搜索引擎的索引库中,文件及其索引信息存储在相同集群不同的逻辑存储结构中。
5 结束语
搜索引擎做为企业数据量极速增长环境中获取有用信息的工具,具有重要的意义。本文将开源的全文搜索引擎Solr应用到企业海量非结构化数据检索平台,并取得了良好的效果。平台中HDFS实现了各业务系统海量非结构化数据的集中存储,Hadoop的Name Node单点故障隐患是将要解决的问题。随着非结构化数据量的迅速膨胀,为了提高搜索引擎的性能,下一步将采用分布式方式优化该企业级搜索引擎,充分发挥Solr在建设企业级搜索引擎中的优越性能。
摘要:随着信息化的高速发展,企业内部各业务系统中非结构化数据的数据量急剧膨胀,使得信息的搜索工作变得极为繁琐。建设该企业级非结构化数据检索平台,在Linux计算机集群上部署Hadoop开发框架以及Solr全文检索系统,将各业务系统中的非结构化数据进行集中式的存储、管理,并且提供统一的搜索服务。介绍了Solr的原理,并使用它搭建非结构化数据的中文搜索引擎,通过测试证明了该搜索引擎具有良好的搜索性能。通过检索平台,用户能够快速而高效地获取精确的搜索结果。
大数据只是可能 而非万能 第5篇
雅虎的研究小组从轻博客Tumblr浩如烟海的1.889亿个博客账户的831亿篇文章中抽取出与足球相关的内容,再将焦点凝聚在今年2月至5月2730万篇与世界杯相关的粉丝评论,以“为每支队伍赋予优势值”的方式,判断出巴西队的赢面较大。
与我们这个时代最伟大的物理学家霍金教授应用“世界杯夺冠公式”来测算比赛结果不同,雅虎给出的结果由于是基于轻博客粉丝讨论,因而更多地展现了多数观众的倾向和预期——每位球迷都有心目中的冠军球队,桑巴足球凭借强悍实力和出众的观赏性而深得人心,夺冠呼声极高。巴西队大比分惨败德国后,球迷的悲痛也是个证明。但比赛结果不取决于亿万观众票选,而是场上十几人的表现。这一点也正如霍金教授所言:相对于量子力学来说,足球要复杂多了。
无论如何,雅虎的预测都是一种非常有益的尝试。在那些粉丝倾向足以决定结果的领域,类似的研究对于企业研究市场和消费者需求会很有帮助。
雅虎对世界杯赛结果的研判还可能引发更多思考:比如近来被炒得有点儿过热的大数据能否预测未来?一些业界同仁和分析家认为数据可以揭示规律,进而帮助人和企业预知结果;另一些研究者则认为大数据的功用有限、迷信大数据是愚蠢的。
作为在此领域有所涉猎的研发人员,我的观点介于两者之间。
大数据揭示的是关联与现象,而非规律和本质,所谓“知其然而不知其所以然”正是大数据分析结果的写照。商学院流传很广的一个案例,卖场数据显示啤酒和纸尿裤的销售相关。经过调查发现,这是年轻父亲被妻子指派采购婴儿用品时夹带啤酒私货的一种趋同倾向。如果仅限于发现关联,卖场也许会简单地把两种商品摆放在一起;而了解到现象背后的模式,便可以开展更有针对性的促销。
也就是说,大数据能提供宝贵的线索,但不能替代人工研究——比如深入现场去发掘消费行为链背后隐藏的逻辑。有兴趣的读者可以看看《品牌洗脑》一书,作者是资深营销人士,书中列举了很多生动却可能让人惊诧的例子:现代营销是如此无孔不入,比如,人还没出生营销就开始了,孕妇常去的卖场的背景音乐对婴儿有止啼的效果等等。
这些案例经常有研究数据支撑,虽然未必达到大数据的级别,但已经相当精密,包括用核磁共振扫描测试者的大脑。
对大数据极度乐观或悲观的人,其实都是将大数据视为传统营销模式的延伸。乐观派渴望找到一个“大杀器”,对消费者实现完美的“引诱”和控制。而悲观派则更理性一些——物极必反,过度营销会招致消费者反抗,利用大数据分析结果来强化原本已如水银泻地般无孔不入的营销,这真是好事吗?
在我看来,消费者行为实际上很难预测和控制——据传萨特在战后出版哲学巨著《存在与虚无》,出版商对这部巨著的销量并不看好,权当支持文化事业,但销售成绩居然大大超出预期。出版商惊讶之余,发现原来战争期间金属被搜刮一空,商贩缺乏秤砣,用各种物品代替,有不知名的商贩发现该书的重量正好是一磅,于是商贩普遍购来充当秤砣。
在这个故事中,大数据分析就无法准确预测这一应用情境。但我们可以做到,当消费者产生用书来当秤砣这样的奇思妙想,大数据可以马上向他推荐《存在与虚无》。既然消费者很难预测和控制,不如一方面利用大数据来观察和总结特定情境下的群体行为关联,一方面更谦虚和认真地与消费者个体沟通,用审慎执着的态度及更好的产品、服务来黏住顾客,而不是只在营销上下功夫。
总而言之,大数据虽然能在很大程度上提高预测的准确性,它也只能让产品和服务本就出色的企业变得更强,却不能拯救那些存在致命缺陷的企业于水火之中。
海量非结构化数据存储问题分析 第6篇
1.1非结构化数据存储的特点
从存储的角度出发进行相关的研究,其主要具有以下几个特点:
第一,具有较大的存储容量。在数字档案馆中,绝大多数的数字化媒体将会随着存储的不断增多而随之成长,在度量单位方面,存储的信息也从以往的KB,MB,GB朝着TB,PB发展着,从数量的角度来说,存储的规模正在空前发展着,这虽然标志着数据存储领域发展的进一步加深,但也导致了诸多问题的出现。
第二,媒体具有较多的形式。在数字档案馆的馆藏之中,主要包含着数字化的电子出版物、图书、照片、互联网的内容、图纸以及科学与人文的相关资源数据,在存储的媒介方面,也不仅仅限制以往的印刷体的范畴之内,其包含着诸多种类并不相同的媒体形式,例如声音、影视等等,具有十分明显的复杂性。
第三,增长速度较快。近些年来,档案馆的数字资源增长十分迅速,可以说是十分惊人的,在当前的数字档案馆之中,两个具有较为明显的重要性的增长方向与增长点便是数字档案与全文数据库,距离来说,当前在我国,绝大多数的企业便正在从以上两方面展开相关的研究工作,这也将会使得数字馆藏的增长变得十分迅猛。
1.2非结构化数据存储的现状
在当前市场企业的实际应用中对非结构化数据的存储主要有以下的几种方式:
第一种:在结构化数据库的BLOB字段之中对数据进行直接存储。
目前,对于绝大多数的企业之中,其在对非结构化数据进行保存时都是通过结构化数据库之中的BLOB字段来进行的,例如报表与图片等等,在该字段之中进行保存具有较为理想的应用效果,在进行管理与维护时较为简单,且在对文件进行调用时能够保证足够的速度,其同其他的应用系统之间不存在着关联性;但是,在不断的应用中也已发现,该方法也存在着一定的缺点。其一,对于非结构化数据来说,其文件的数据相对较大,并且,随着运行时间的不断增多,数据量必然也会不断的呈现出增加的趋势,这必然会在较短的时间内使得结构化数据库出现极速的膨胀,随着时间的增加,在运行的过程之中,数据库的性能很难保证同最初时相同,下降是必然的,甚至可以说,整个应用系统都将会随着时间的推移,数据量的增大而出现一定的下降,甚至会对整个应用系统的性能造成不良的影响;第二,在数据库之中,系统与系统之间时相对于独立与封闭的,相关的文档资料无法同其他的应用之间共享。
第二种:通过FTP的方式在文件的服务器之中进行保存。
在实际中,以这一方式对非结构化数据应用进行保存的用户相对较少,其中,网站以及数字档案馆较为典型。这种方式通过将文件上传到远程计算机上,然后其他用户可以在其他主机上下载和查阅文件,从而实现文件或数据的共享。
第三种:在文件服务器之中以文件系统的方式直接进行存储。
对于非结构化数据之中没有应用系统的,例如开发的应用系统软件、在信息管理部门之中经常应用的软件与工具以及技术研究的资料等,通常情况下都会在文件服务器之中将文件直接存储。
2 海量非结构化数据的存储与整合
在对数字档案馆进行建设的过程之中可以发现,在企业之中,每一个类别的业务系统都存在着一定的数字资源需要归档,然而当前的存储系统中,各个业务系统之间并不存在关联性,这就造成了存储的困难,当前许多的企业都认识到了这一问题并积极地研究最佳的信息资源整合的途径,并且,其中大多数的企业都选择研究基于文件结构应用NAS或者SAN进行整合的方法。
2.1 数据整合的驱动因素
选择对存储系统进行整合,主要是为了对需要进行存储的资源的数量进行减少,随着企业应用的不断部署与新型扩展需求的增加,文件服务系统的规模也不断地增长,这也就会导致文件服务器的数量不断增多,文件服务的环境更加庞大,然而对于系统数字资源的归档与管理,文件服务环境的复杂性是十分不利的,笔者在下文中将会对数据整合的驱动因素进行分析与论述。
1)降低了管理的成本
在企业管理中,完成对系统的整合这一操作,能够使得这一企业之中IT管理工作人员的工作量得到明显地减少,这主要是得益于存储设备的减少从而减少了管理的工作量,然而,若是不对其进行有效的管理与整合,必然会导致系统随着运行的增多与时间的推移而不断地增长,系统则会随着时间的不断流逝累积起来十分巨量的文件服务器资源,而对于IT工作人员来说,对于这些资源的维护将会成为十分巨大的负担。
2)经济利益
对于企业本身来说,实现了存储系统的整合将会十分明显地提高企业的经济利益,将许多的系统整合成为一个系统时,从而企业便能够节省下十分客观的磁盘空间与资金经费,也就是节省十分客观的IT成本,这样,企业就能够有效地降低自身的运行成本,从而不断地提高自身竞争力。并且,对于IT的管理人员来说,在相关数据管理问题的解决方面以及软硬件更新上所耗费的时间方面也能够得到节约和控制,进而提高了人力资源的利用率,提高了单位时间内的工作效率,进而能够创造出更大的经济效益。。
3)资产保护
对存储系统的整合进行实现,另外一个基本性的驱动因素便是需要更好地对企业的资产进行保护。对于数据来说,仅仅应用备份机制是否能够获得足够的保护,是否拥有者合适的安全控制,若是对于以下的这些过程都能够通过一个统一的系统进行控制与管理,便能够极大地减少对系统的安全控制点以及需要进行备份的次数,这样,企业也能够确认资产都得到十分完善的保护。
2.2 实现不同方式的整合
当前,能够选择许多的方式来对多个存储系统进行整合。其一:企业将以往所应用的型号较小的存储设备进行舍弃与淘汰,而后更换一个新型的,具有较大功率与先进技术的NAS设备,仅仅应用这一个存储来负责整个企业的相关运行工作;其二:对虚拟数据中心这一技术进行应用,该技术的核心理念是将企业之中型号相对较小的存储设备全部在中央存储系统之中隐藏,或者,将其分布在各不相同的物理地点之中,这一方式将会使得所有的资源与设备都不会被舍弃而是被隐藏在不同的角落,然而,在进行管理时,却可以仅仅针对一个数据界面,使得工作人员可以更加集中精力,大大地减少了工作量。
1)文件服务器的整合
对存储系统进行整合的第一种类型主要是针对一些应用与对某一个特定的应用需求进行解决的单独的文件服务器,在以往的基础架构之上,随着企业应用的不断增加,将会有偶读文件服务器在企业IT的环境之中独立地进行部署,这也必然会导致企业的存储系统出现十分明显的膨胀,对于文件服务器来说,其主要的目的便是对相关的应用设施进行整合,使得能够应用更小的机构来对系统进行控制,举例来说,在企业之中,对一个小组或者说一个部分可以统一地集中起来,最为常见的处理方式是部署并安装一个全功能的盒子或者与其相类似的设备,将许多文件的服务器进行结合并将其放置到一个统一的平台之上。
2)非结构化数据的整合
随着企业的不断发展,其对于各方面的认识也将会不断的加深,虽然企业有能力保证对当前的NAS系统进行更新,使其更加大型,在对系统的扩容性进行增强方面,能够获得十分理想的应用效果,并且,对于小型的、具有独立性质的、在各处进行分布的存储设备也能够进行消除,然而,在实际的整合过程之中,仍然存在着成本过高以及整合的过程较为复杂这一问题,而这种通过虚拟数据中心管理的软件也就是中央化整合默契能够将分散着的文件服务器以及数据中心的存数设备进行整合,想要对分布在诸多地点的存储设备进行统一的有效的管理,加拟一个非结构化的虚拟数据中心必然将会获得十分理想的应用效果,并且,对于管理工作人员与客户来说,还能够提供出一个唯一的访问路径,随着企业发展的不断深入,很容易出现多个物理中心并存的情况,而在这一实际背景之下,该方案也会有更高的符合性。
2.3 其他的需要进行考虑的因素
完成对存储系统的整合仅仅是最为关键的一个环节,对此,企业不应放松,而是应对其他的一些因素进行考虑,这里的其他因素主要包括在管理过程之中可能出现的变化、对系统的安全控制以及数据的迁移等。
一般来说,实现了整合仅仅代表着安全有了保障,然而,这并不代表在以往发展与运行过程之中已经存在了的问题被解决,整合的实现与完成后,仍然需要设置相应的访问的权限,对于一些较为复杂的安全过程的设置而言,在完成系统整合后,将会体现出较为明显的优势,然而,不管怎样,都必须要保证安全控制的存在。
将数据从文件服务器或者其他的NAS设备上迁移至中央平台之后,较为理想的一种情况则是控制列表以及访问权限的设置等一系列以往设置过的内容也能够跟随数据一同迁移到中央平台之上,避免再次对相关的内容进行设计,既节省了时间,也节省了人力物力,具有十分重要的意义。因此,在实际的整合之中,其中十分需要考虑且具有着重要地位的一点便是如何在对数据进行迁移的同时对访问控制以及安全控制等类型的信息进行一同迁移,减少工作量,提高迁移的效率。
数据操作流程会存在着一定的变化。在对计划实现进行整合的过程之中,若是可能,可以对企业当前的管理模式与数据操作进行改变,在不断地探索之中对当前整合系统之中所存在着的优点进行发掘,最终获得一个相对较为理想的操作流程,提高数据的实际可用性与数据按操作的流程。
在对整合计划进行制定时,最为关键的一点便是一定要立足于未来,需要耗费大量的时间来对存储系统的承载力进行评估,评估其实际的应用能力与发展的能力,想要保证整合计划能够如期理想地进行,一个十分重要的因素则是企业是否在计划开战前进行过较为细致的计算,包括是否应该整合到一个设备之上,其是否具有必要的扩展能力等等。
3 海量非结构化数据存储的管理
可以说,虽然在当前应用非结构化数据的存储这一技术能够满足存留与归档的要求,然而,其却很难满足电子发现所提出的相关需求,随着搜索技术的不断深入发展,其在文件搜索方面的功能也变得十分完善,能够很好地对电子发现所提出的相关需求进行满足,然而,其并不能够对数据组织以及管理的功能进行提供,对于长期留存需求这一功能也无法进行满足,这一问题主要是由数据存储技术以及数据管理技术这两方面在进行研究与设计的过程之中是分别进行的,具有十分明显的隔离性,因此,导致了这一情况的出现,从实际的角度来说,这一问题同用户的需求是相违背的。
并且,在档案系统之中的非结构化数据本身属于企业的数字资产,也是企业的凭证库与知识库,然而,想要对以上的作用进行较好的发挥,不仅应对以上的问题进行解决,还需要对非结构化数据真实保证以及知识发现等问题进行解决。
对网络存储架构的研究:由于文件与网络层从无法同时对数据共享以及高性能两个需求进行同时满足,因此,对象存储的概念也因此而出现,对象存储能够有效地对文件系统与块的优点进行结合,并通过元数据一数据进行简化与分离的管理,对磁盘进行直接访问,从而对性能进行提高,以此来同时满足数据共享与高性能两种要求,在开发与研究的过程中,有两个分支引起了企业界与学术界的重点关注,其中一个是智能存储,另一个分支则是基于内容的存储,例如内容寻址存储(Content Addressab1e Storage, CAS)。
在传统的文件系统与网络存储系统之中,主要是对二进制流文件进行存储,对于非结构化数据所建立的更加丰富的数据模型则予以禁止,因此,在传统的文件系统之中,想要对自身所需要的内容进行寻找是十分困难的,用户所面临的困难也从以往的数据存储转变为当前的数据管理。对于存储系统来说,一个亟需解决的问题便是有效地帮助用户找到其所需要的信息。
非结构化数据的数量十分庞大,想要保证对用户存储的目标进行搜索时能够具有理想的高效性,当前企业与学术领域主要通过文件搜索技术以及网络存储架构这两个角度进行分析与探索,并展开相应的研究。
4 发展与展望
综上所述,想要对数字档案馆进行建设,首先需要通过各个渠道对数字资源进行收集,这也就是当前所研究的非结构化数据的留存与归档的问题,然而在实际之中,需要解决的并不仅仅是以上两个问题,更需要对真实保证以及只是发现等诸多的问题进行解决。
对于以上的两个问题,在当前的产业界与学术界之中均有着一定的研究,作为当前存储行业之中主要的发展趋势,笔者在内容存储的相关内容进行介绍时,应用了更多的笔墨,主要包括对于对象的存储以及内容的管理等等,例如对内容进行检索、对数据进行分类、对信息进行发表等等,可以说,在内容存储之中应用文件搜索技术以及语义文件系统技术,特别是对信息存储之中的核心技术同语义文件系统进行融合,必然能够获得十分理想的效果,得到更加理想的应用,笔者认为,在日后的研究中,也必然会以这一问题作为研究的主方向,提高研究的质量。
摘要:该文以数字档案馆为例,主要研究非结构化数据存储,从其主要特点出发,介绍了非结构化数据存储的现状,进而分析了海量非结构化数据的存储与整合过程中的影响因素以及怎样实现不同方式的整合,最后讨论了如何对海量非结构化数据存储进行有效管理,期望本文的研究能够帮助人们进一步深入地了解海量非结构化数据存储中的相关问题。
关键词:非结构化数据,存储问题,结构化数据,特点,现状
参考文献
[1]黄恒君,漆威.海量半结构化数据采集、存储及分析——基于实时空气质量数据处理的实践[J].统计研究,2014(5):10-16.
[2]景民,胡晓峰,吴琳,等.面向态势回放的两种海量数据采集存储结构分析[J].系统仿真学报,2012(5):989-993.
[3]李国杰,程学旗.人数据研究:未来科技及经济社会发展的重人战略领域—人数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.
[4]葛文斌,王军鹏,贾乐鹏,等.联合作战模拟系统中事后分析系统军事需求分析[J].装备指挥技术学院学报,2009,20(5):1673-0127.
企业非结构化数据管理平台研究 第7篇
关键词:非结构化数据,分布式,Hadoop,存储,管理
1 前言
企业中的数据资产按类型可分为结构化数据和非结构化数据。其中结构化数据可以用二维表表示并能够采用关系数据库处理, 而非结构化数据无法像结构化数据一样用二维表表示, 也无法完全采用关系数据库来处理。非结构化数据约占企业数据总量的80%, 其特征是数据格式多样、数据总量大、增长速度快且包含有关企业管理发展的重要信息, 主要包括办公文档、各种报表、XML文件、图片、音频和视频文件等。伴随企业信息化的建设和发展, 非结构化数据的数据量急剧增长, 大企业每一年非结构化数据的增长量已经达到PB级别。经过多年的运行积累, 企业分散的业务系统中存储了海量的数据资源, 这些数据资源尤其是非结构化数据管理分散、共享检索困难, 形成了信息孤岛。科学管理和合理开发这些非结构化数据, 是企业面临的巨大挑战。
Hadoop[1,2]是一个能够对大量数据进行分布式处理的软件系统, 它在海量数据的存储、数据的分析和挖掘等业务中表现出良好的性能。国际上著名的互联网门户网站雅虎以及社交网络服务网站Facebook内部就一直使用Hadoop完成后台数据处理需求, 国内淘宝、百度等众多知名的IT企业也纷纷引入Hadoop技术。在此构建基于Hadoop的企业级分布式非结构化数据管理平台[3], 该平台通过在Linux计算机集群上部署Hadoop开发环境, 利用Hadoop上的分布式文件系统HDFS、Map/Reduce编程模型和分布式数据库Hbase, 实现对海量非结构化数据的分布式存储和分布式的处理。客户端向平台发起服务请求时, 整个服务器集群对外提供数据存储和业务访问, 而具体是由集群中哪些服务器提供的服务对客户端来说是透明的。基于Hadoop的非结构化数据管理平台部署在廉价PC构成的分布式环境中, 平台具有较快的响应速度以及良好的可靠性和可扩展性, 能够实现企业非结构化数据的集中存储和有效利用, 对提升企业非结构化数据的集约化管理水平具有重要意义。
2 企业非结构化数据管理平台架构
企业中非结构化数据体量巨大、数据类型繁多, 各业务系统中的数据量很容易超过单机承载能力。搭建起基于Hadoop的分布式数据管理平台, 首先在廉价的PC机群上安装Linux操作系统, 然后在Linux环境下部署好Hadoop的开发框架, 进而设计和开发出该非结构化数据管理平台。企业各业务系统的非机构化数据在Linux集群中分布式存储, 平台主要解决的是企业海量非结构化数据的存储、检索、挖掘以及展现问题, 其核心是基于存储的计算。平台的框架结构如图1所示。
在实现各类业务系统接入的同时, 平台也提供了企业用户访问平台的云盘客户端。在系统层面上, 非结构化数据管理平台为企业不同业务系统指定了一套科学的数据访问接口, 供各业务系统用户通过该平台对非结构化数据进行存储和检索等操作。在用户层面上, 企业各部门用户在自己的PC终端上通过登录云盘客户端接入平台, 进行非结构化数据的存储与访问操作。下面从存储和检索的角度, 描述业务系统以及云盘客户端用户对平台的访问。业务系统用户上传的非结构化数据, 以及云盘客户端用户收集的有价值的非结构化数据, 分别通过与之对应的接口被上传至平台的分布式文件系统HDFS中进行集中存储[4];同时, 相应的文件元数据信息被统一保存在分布式数据库HBase中;上传成功后, 平台调用分布式计算逻辑对相应非结构化数据建立倒排索引[5], 并将索引保存在HDFS中。用户在业务系统或直接通过云盘客户端执行对关键词的检索操作时, 平台中的搜索引擎将启动, 对文档进行分布式的全文检索;检索结果根据文档内容与关键词的匹配度从高到低排序, 并反馈给业务系统用户以及云盘客户端用户;用户进而对文件进行查看和下载操作。
平台中众多计算机组成的业务服务器和数据服务器统一对外提供服务, 这些服务器通过获取彼此的IP地址和主机名进行通信, 任务的处理是由集群中的服务器协同完成的。随着企业非结构化数据数据量的增长和更多业务系统的接入, 平台可以通过增加服务器节点来进行扩展。平台透明地对各类用户提供非结构化数据的存储、检索等服务, 服务器集群安全、稳定的分布式的处理过程对用户是不可见的。
3 平台功能及特点
3.1 海量非结构化数据的集中存储
平台针对企业众多业务系统管理各自大量非结构化数据的现状, 为各业务系统提供有效的数据访问接口, 构建企业级的非结构化数据存储中心[6]。平台采用Hadoop的分布式文件系统HDFS集中存储业务系统的非结构化数据, 各业务系统可以共享数据资源, 打破了原来业务系统管理各自非结构化数据的瓶颈。非结构化数据集中存储, 避免了原来各业务系统各自存储同一文件造成的冗余, 同时方便了系统间的信息交互。在HDFS中, 来自企业各业务系统以及云盘客户端用户的大量非结构化数据分布式并行存储, 分布式的存储方式改善了大文件I/O读写耗时长的问题;同时, 文件以分块的形式存储在廉价的硬件PC机上, 降低了原来购买昂贵服务器所需的成本。
HDFS是平台分布式处理的存储基础, 它是一个主/从 (Master/Slave) 体系结构, 由一个Name Node和多个Data Node组成, 分布式文件系统体系结构如图2所示。Name Node为主控制服务器, 它负责管理文件系统的命名空间, 记录文件数据块在每个Data Node上的位置和副本信息, 协调客户端对文件的访问。各个Data Node负责其所在物理节点上的存储管理, 并依照Name Node的命令, 负责处理客户端的读写请求。客户端通过Name Node获取文件的元数据信息, 同Data Node进行真正的文件I/O操作, 然而从用户的角度看, 整个架构就像传统的文件系统一样。HDFS中的文件以副本的形式存放在不同节点上, 并在DataNode不可用、数据副本损坏等情况时, 对文件进行重新的复制, 这样能保证在某个节点失效时, 不会影响到数据的可靠性和可用性[7]。平台文件系统良好的容错性和可扩展性等性能, 为海量数据提供了不怕故障的存储。
3.2 分布式平台中数据的统一管理
非结构化数据管理平台不仅是企业非结构数据的存储中心, 同时也制定了各种非结构化数据的管理方法, 用以满足企业的统一管理需求。平台通过为不同类型的业务系统提供接入方案[8], 以及建立非结构化数据元数据管理标准等措施, 实现了企业非结构化数据的统一管理, 平台集成架构如图3所示。
企业内各业务系统, 诸如ERP、数字图书馆、生产管理等系统逻辑业务不同、开发技术迥异。为实现企业非结构化数据的统一管理, 平台为不同类型的应用系统提供具体有效的接入方案, 满足多类型应用系统的接入需求。此外, 海量非结构化数据分布式存储在HDFS中, 为了便于对这些海量数据的管理, 让数据对用户有一个清晰的展现, 平台建立起企业内部非结构化数据元数据的管理标准。平台中引入分布式数据库HBase存储非结构化数据的元数据信息, HBase是一个分布式的、面向列的开源数据库, 它运行在HDFS之上, 且非常适合于非结构化数据的存储。在非结构化数据管理平台中, HBase位于结构化存储层, HDFS为HBase提供了高可靠性的底层存储支持。
3.3 平台中海量数据的分布式计算
平台采用分布式计算的策略处理大规模非结构化数据集, 用以提高数据处理的效率和质量。平台使用基于Hadoop的Map/Reduce分布式计算模型[9], 该模型执行的是一个数据分布式计算和数据合并的过程, 模型中map函数把计算任务分解为多个任务, reduce函数把分解后多任务处理的结果汇总起来, 得到最终结果。Map/Reduce任务由一个Job Tracker和多个Task Tracker两类节点控制完成。Job Tracker通常运行在Name Node节点上, 主要负责调度和管理运行在Data Node上的Task Tracker。Map/Reduce和HDFS运行在相同的服务器集群上, 这样计算节点和存储节点结合在一起, 将计算分配到存储, 减少了数据在网络中的传输, 避免了网络带宽成为任务处理的瓶颈。
平台中的全文检索技术即实现了与分布式计算模型的整合, 索引构建及检索流程如图4所示。平台针对文档的检索, 采用Lucene[10]并引用各类语言的分词器为文档建立倒排索引, 实现对文档的全文检索。全文检索技术从检索的速度和质量上明显优于传统的过字符串匹配获取搜索结果的方式。针对上传至HDFS中海量的文档数据, 服务器集群调用Map/Reduce模型为各类文档建立起索引[11], 并将建好的索引保存在分布式文件系统HDFS中。当用户从各业务系统或者云盘客户端执行搜索任务时时, 请求通过相应接口传入平台, 平台调用Map/Reduce逻辑并行执行搜索任务, 主控服务器Job Tracker负责分配任务给空闲的Task Tracker, 从服务器Task Tracker负责执行任务, 最终将查询结果合并后返回给用户。平台中全文检索技术与分布式计算模型的引入, 提升了用户检索的速度和质量。
4 平台性能优化及改进方向
目前, 平台在对企业用户提供云盘客户端的同时, 实现了数字图书馆、ERP、企业信息门户、生产管理系统和知识管理系统等业务系统的有效接入。用户可以通过登录云盘客户端接入平台, 进行相应的文件上传、管理以及检索等操作。业务系统用户还是在原有系统中执行文件的访问操作, 此时操作面向的是整个企业级的数据存储管理平台, 而非原来业务系统各自的文件系统, 用户可以获取更多的数据资源。平台存储了来自企业各业务系统丰富的非结构化数据资源, 且并行处理模式使得搜索的效率更高, 后续将有更多业务系统整合进入平台。在数据访问方面, 平台也建立起对不同业务系统用户以及不同云盘客户端用户设置不同访问权限的机制。
针对海量的数据, 企业往往要求对其进行深入的分析和挖掘, 用以指导运营和决策。尽管Hadoop的Map/Reduce框架功能相当强大, 但是其开发工作量大、开发周期较长, 为此我们在平台中引入了Hive。Hive是一个在Hadoop上构建数据仓库的开源软件, 它将类SQL的HQL语言翻译成MapReduce代码并在Hadoop上运行。为使平台向用户提供更好的数据分析和决策支持服务, 下一步我们将通过提取非结构化数据的元数据信息, 并结合关系数据库中的数据, 在Hive中构建丰富的数据仓库。
Hadoop本身也是有缺陷的, Hadoop的NameNode一旦宕机, 可能导致整个集群不可用, 造成平台的崩溃, 给企业带来重大损失。据了解, Facebook的Avatarnode方案[12]采用自动切换技术实现Name Node故障转移, 该方案目前还不成熟, 需要修改源码, 存在复杂性高、维护困难等问题;由于Name Node宕机的可能性比较小, 也可以通过备份信息采用人工切换Name Node的模式。下一步我们会在以上两个方法上做一些尝试, 防止因为Name Node的单点故障对企业带来重大损失。另外, Name Node的内存限制也影响到集群的规模, 这也是我们需要考虑的问题。
5 结束语
随着非结构化数据数据量的急剧增长, 企业对非结构化数据管理的重视程度前所未有。在此构建基于Hadoop的分布式管理平台, 企业非结构化数据分发存储在分布式文件系统HDFS中, Hbase存储元数据, 平台采用Map/Reduce分布式计算模型提高数据处理的效率。平台实现了海量非结构化数据的集中存储, 为用户提供高效的分布式检索等服务。由于Name Node的单点故障等问题, 对平台可靠性提出了挑战;另外随着企业需求的不断提升, 需在平台上构建丰富的数据仓库, 为用户提供数据 (下转第44页) 挖掘、经营分析等服务。因此, 该企业非结构化数据管理平台还需要不断优化。
参考文献
[1]刘鹏, 黄宜华, 陈卫卫.实战Hadoop[M].北京:电子工业出版社, 2011.10-172.
[2]Tom White.Hadoop:The Definitive Guide[M].O'Reilly Media, Inc., 2009.15-362.
[3]程志华, 倪时龙, 黄文思, 等.企业级非结构化数据管理平台研究及实践[J].电力信息化, 2012, 10 (3) :12-20.
[4]崔杰, 李陶深, 兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展, 2012, 49 (z1) :12-18.
[5]EGENHOFER M.Query Processing in Spatial—Query—by一Sketch[J].Joumsl of Visual Languages and Computing, 1997, 8 (4) :403—424.
[6]孙福权, 张达伟, 程勋, 等.基于Hadoop企业私有云存储平台的构建[J].辽宁工程技术大学学报, 2011, 30 (6) :913-916.
[7]贺秦禄, 李战怀, 赵晓南, 等.云存储性能评测技术研究[J].计算机应用研究, 2013, 30 (5) :1357-1364.
[8]张琛.基于SOA的信息交换平台设计[J].信息技术, 2009 (20) :15-16.
[9]Dean J, Ghemawat S.MapReduce:Simplifie'r date processing on large clusters[J].Communications of the ACM, 2008, 51 (1) :107-113.
[10]林碧英, 赵锐, 陈良臣.基于Lucene的全文检索引擎研究与应用[J].计算机技术与发展, 2007, 17 (5) :184-190.
[11]赵宝学, 李战怀, 陈群.基于共享的MapReduce多查询优化技术[J].计算机应用研究, 2013, 30 (5) :1405-1409.
非结构化数据的ETL设计方法探讨 第8篇
1 ETL技术概述
ETL (Extract-Transform-Load) 技术是数据抽取 (Extract) 、转换 (Transform) 、装载 (Load) 的过程。从其技术概述来看, Extract是对数据的抽取过程, 其作用是从原始数据系统中读取所需要的数据, 是实现数据转换工作的前提;Transform是按照预先设计规则进行相应转换的过程, 其作用是基于异构的数据资源实现对数据格式及定义的统一;Load是对数据仓库进行装载的过程, 其作用是对转换后的数据重新导入到数据仓库中, 以实现对数据资源的有效整合。从国内外ETL技术的发展与应用来看, 主要有IBM Data Stag、Informatics Power Center、Oracle 2ODI, 以及国内开发的Bee Load等产品。在中高端应用上以Data Stage和Power Center居多。ETL技术能够实现对异构数据库中相关数据的挖掘和统计, 并结合数学模型来实现对未来发展进行可靠的预测分析, 为行业决策支持系统提供有效的数据服务功能。
2 ETL技术模型分析
从主流的ETL技术应用来看, 多以元数据为基础, 也就是说满足CWM元数据标准的数据模式。CWM是Common Warehouse Metamodel的简称, 由国际对象管理组织OMG制定的元数据模型标准, 其作用主要是为了能够对异构环境下各数据仓库中的元数据进行交换和共享。其逻辑结构图如下所示:
在ETL系统中, 借助于元数据采集工具来实现对源数据库、主题数据库, 及相关数据抽取、转换、装载等操作, 并依据CWM元模型标准, 存储于元数据库。其执行过程是通过系统调度模块来实现对相应元数据的抽取与整合, 其元数据主要包括三类:一是技术元数据, 如ETL技术对各类源数据库中的数据类型、数据格式、数据序列名等进行描述, 并准确获得源数据库与主题数库之间的变化信息;二是操作元数据, 主要包括对业务用户和数据操作有价值的元数据, 如数据质量、更新计划、访问模式等;三是业务元数据, 主要包括对各业务用户有用的信息, 如数据的所有权及各类业务规则, 数据装载计划等, 其作用能够为用户与数据仓库提供访问的桥梁。
3 ETL数据分析及设计
从CWM元数据模型对ETL系统的逻辑关系来看, 这些元数据具有明确的格式特点、属性及数据关系, 可以通过使用二维表来进行逻辑表达。而对于异构环境下无法用二维逻辑表进行表达的非结构化数据来说, 其相对零散的数据堆积, 不仅存在大量数据冗余和无效信息, 还难以用简单的结构化描述语言进行准确表达。也就是说, 对于非结构化数据, 如视频数据、图像数据、音频数据等信息进行管理和提取时, 迫切需要从ETL技术设计上来进行优化。在对CWM元数据结构进行分析后, ETL系统设计主要是对存储在源数据库中的结构化数据进行抽取、转换和加载, 而对于非结构化数据来说, 其元数据属于技术元数据, 只要处理好技术元数据中的非结构化数据的转换, 使其便于使用CWM元数据驱动ETL系统即可。因此, 对于非结构化数据系统中的操作元数据和业务元数据, 依据常规的数据控制转换模块即可完成对源数据库到主题数据库的装载。
对于结构化数据可以根据数据的属性来建立元数据, 而对于非结构化数据, 则需要从各种数据的隐藏属性进行分析, 并使其能够显现出来。我们从非结构化数据的自有属性进行观察, 主要有时间属性、空间属性、内容属性、格式属性、来源属性、获取手段属性及使用属性等, 通过对原有非结构化数据文件进行重新命名分类, 如结合某应用需要来建立新的文件名, 即单位_科室_总类_分类_具体类型_日期.pdf, 就可以很清晰的反映出某数据文件的来源、分类及时间等信息。Adobe公司的PDF数据压缩包能够实现对数据压缩和转换的功能, 既可以节省存储空间, 还能够实现对数据结构的转换。其组织结构如下图2所示:
利用Adobe PDF数据包来实现对非结构化数据库的转换, 可以依照树形结构来进行显示, 也可以对不同类型的数据文件进行设计, 使其满足对某一非结构化数据进行单独压缩, 也可以对多个非结构化数据进行全面压缩, 其摘要信息可以存放在info.xml文件。利用非结构化数据的转换方法, 可以从其相关属性中来判定数据的摘要及内容, 还可以利用工具软件编制数据索引, 便于日后对相关数据的快速检索, 从而实现了对非结构化数据的CWM的ETL处理, 满足了非结构化数据的整合和管理目标。
4 结束语
文章通过对非结构化数据源的PDF转换压缩的分析, 为更好的挖掘非结构化数据的隐藏属性, 提高对非结构化数据源的准确定位, 并实现了对非结构化数据的整合和管理, 为满足行业应用提供了有效的解决方案。
摘要:现代信息技术在行业中的应用日益深入, 而各系统在开发过程中因其自身的独立性, 在处理相关业务或实现数据管理时, 多需要从异构环境下来进行整合。文章结合当前流行的公共仓库元模型以及ETL技术特点, 针对非结构化数据的差异性, 探讨属性提取和数据打包的有效方法, 为实现非结构化数据的ETL设计奠定基础。
关键词:非结构化数据,CWM元模型,ETL设计
参考文献
[1]万里鹏.非结构化到结构化数据转换的研究与实现[D].西南交通大学, 2013.
[2]周茂伟, 邓苏, 黄宏斌.基于元数据的ETL工具设计与实现[J].科学技术与工程, 2006 (21) .
[3]马晓东.地理信息元数据的管理探讨[J].测绘技术装备, 2009 (02) .
非结构化数据管理平台研究与建设 第9篇
目前,企业数据基本上分为结构化数据和非结构化数据2种类型,且2种数据常常相伴产生。结构化数据是指存储在数据库里,可以用二维表结构来逻辑表达实现的数据;非结构化数据是指那些不方便用数据库二维逻辑表来表现的数据,如通知、文件、规章制度、档案、单据、发展规划、工作报告等,这些资源都是企业员工相互协作的成果,汇集了参与者的辛勤劳动,为提升企业综合效益作出了重要贡献,是宝贵的数字资产,其格式如办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。
随着各类信息的巨量增长,人们对非结构化数据的需求也在加速发展。在许多领域,非结构化数据正以每年200%的速度快速增长,许多企业被淹没在该类数据的汪洋之中。企业为了对非结构化数据进行管理,消耗了巨大的人力物力。由此可见,对非结构化数据开展安全高效管理,是信息化企业面临的一项重要工作,否则企业就无法实现信息投资的回报。
1 现状分析
电力企业的非结构化数据贯穿于发电、输电、变电、配电、用电和调度所有环节,几乎存在于企业的所有业务应用当中,不仅如此,公司非结构化数据还具有以下特点。
1)数据格式多样化。在业务应用过程中非结构化数据格式呈现出多样化方式,如Word、Excel、PPT、PDF、CEB、TXT、JPEG、压缩文件、Cad图纸等。
2)业务对象多样化。非结构化数据的业务对象包括凭证、公文、发票、报表、技术规范书、标书、设计图、可研估算书、批复文件、生产文档、结算文档、图纸策划等。
3)存储方式多样化。非结构化数据由各个业务应用自行管理,有结构化数据库、FTP、纸质材料等多种存储方式。
4)业务流程多样化。非结构化数据业务流程包括业务系统内流转、人工流转、打印、扫描、复印、上传、下载等。
5)安全课题多样化。目前,非结构化数据在电力企业的各个业务应用中已经实现了初步的安全管控,但对于非结构化数据在线安全、离线安全、数据容灾等方面还需加强和补充。
2 需求分析
1)统一海量存储的需求。国家电网公司SG186工程成功实施后,企业原来的孤岛式的信息分散存储状态以及IT设备分散式的运维状态,已经不能满足SG-ERP一体化平台的要求,迫切需要建立一个统一的海量存储中心,用于存储非结构化数据。同时优化存储结构,建立分级的存储策略,统一运维流程,提高存储资源利用率,以此提升企业信息化运作效率。
2)统一集中管理的需求。通过对企业所有非结构化数据进行统一集中管理,可以提高非结构化数据的利用价值,提高企业对非结构化数据的管控能力。
3)统一版本控制的需求。针对非结构化数据的管理,需要根据企业自身的实际情况,建立企业非结构化数据的统一版本。一份非结构化数据在企业只存储一份,非结构数据管理平台负责对所有的非结构化数据版本进行统一控制。因此,非结构化数据在传递过程中,不再是传统意义上的单纯数据传递,而是版本信息的传递,这样既提高了企业的办公效率,提高了部门的沟通效率,也减少了数据在传递中的无谓存储,提高了存储及带宽的利用率。
3)统一安全管控的需求。对存储在非结构化数据管理平台中的数据,保证其在时间和空间上全方位安全是目前企业各业务应用的迫切需求。根据电力企业对数据安全等级的管理要求,对各种不同的内容按不同处理方式进行加密;建立统一的访问授权机制,对内容的访问进行统一的访问授权,同时保证对终端用户机上离线内容的打开次数、复制权限、打印等进行离线安全管控;通过完整的内容审计,对内容访问、借阅等过程进行全程监控;提供高效的备份还原机制,确保内容的安全。
4)全生命周期管理的需求。在统一海量存储、统一版本和统一权限管理的基础上,结合工作流技术,根据业务的需求,实现非结构化数据内容的全生命周期管理,实现数据在部门间的电子化无缝传输,对数据从创建、申请、审核、生效、下发及销毁等过程进行自动控制,实现使用者的自动化推送,提高企业的工作效率及企业各部门间的沟通效率。
5)数据深加工和决策支持需求。为实现SG-ERP“平台集中、业务融合、智能决策、安全防护”的目标,需要对非结构化数据进行集中存储,为数据深加工奠定基础。利用文本分析、加工挖掘和信息抽取等技术手段,分析非结构化数据间的关联性等,提供该类数据的全文检索和决策支持服务。
3 平台架构
根据企业对非结构化数据管理平台的需求,充分挖掘和准确利用面向服务架构的技术特性,设计出基于SOA的非结构化数据管理平台总体架构(见图1)。
非结构化数据管理平台的技术架构采用J2EE技术、关系数据库(RDB)以及内容管理系统(文档数据库、开发技术)相结合的架构形式,该技术架构存在以下优势。
1)方便实现集中部署模式。通过Documentum强大的内容管理功能可方便实现从上级机构到下属单位非结构化数据版本的统一,无需进行重新开发,有利于对已投入资金的保护以及各单位之间的互联互通、资源共享,在安全性、高负载、可移植性方面都有保障。
2)系统的体系架构全面支持B/S模式及多层体系架构,帮助企业实现多种业务系统的集成。
3)统一应用平台采用了广泛应用的成熟技术,大大降低了平台的建设风险。
4)充分利用了关系数据库擅长结构化数据处理、文档数据库擅长非结构化数据处理的技术优势,提升了各类数据的存储、检索能力。
5)无论是J2EE平台或Documentum平台,都可支持多种操作系统。
6)利用已经被验证的全球领先的Documentum平台,能最大程度地保障系统海量存储的稳定性。Documentum平台具有优秀的安全控制体系,可以有效地保证系统和数据安全,提供Web Services服务,便于应用集成。遵循J2EE标准,保证系统的灵活性、可用性、可集成性、可扩展性和可伸缩性。
4 功能应用
非结构化数据管理平台主要包括平台管理、应用管理、运行监控、集成管理、统计报表五大功能模块。
1)平台管理。通过平台管理模块可以实现对系统参数的配置,对非结构化数据涉及到的文件类型进行管理,对描述非结构化数据的属性公共元数据进行统一管理,对不同用户角色的菜单进行配置,对用户的身份进行统一管理。
2)应用管理。该模块可以对库进行管理(库是文档管理的基础单位,一个库具备单独部署及运行的能力),对文件夹进行管理,并将文件进行有效的归类,提高文件的查找、检索效率。不同的业务对象可以具有不同的元数据属性,通过灵活的业务元数据管理与应用接入配置管理。非结构化数据管理平台可以适应不同业务系统的不同业务流程的接入。
3)运行监控。该模块可以对平台服务器的各项指标进行监控,及时了解服务器的运行情况,对接入的业务系统的非结构化数据进行监控,及时了解业务系统的使用情况;通过系统操作日志、审计配置管理以及各类运行实况的监控、告警管理,及时了解平台运行情况,为平台的稳定运行提供保障。
4)集成管理。该模块可以对接入平台的应用系统进行集成管理,只有注册并启用的应用系统才能访问平台。因此,可以对统一目录同步过来的目录数据及平台的用户数据、角色数据进行管理。
5)统计报表。统计报表模块可展示各个应用系统的总体运行情况,各单位可对不同的运行数据进行比较,根据时间段统计平台某个指标及各个应用系统某个指标的情况。
5 实现目标
根据目前企业非结构化数据的现状及需求分析,建设非结构化数据管理平台将按照以下3个阶段的目标分步完成。
1)第1阶段(集中化管理阶段):实现非结构化数据集中化管理,制定统一标准,完成平台部署,初步确定数据利用范围,构建基本服务框架。主要工作内容包括:完成非结构化数据管理平台研发,部署统一的非结构化数据管理平台,实现包括核心业务系统在内的近20个业务应用系统的接入及数据迁移等工作,达到对各业务应用系统上传的所有非结构化数据进行集中存储、流转、管理以及综合应用的目标。
2)第2阶段(业务融合阶段):实现各业务应用非结构化数据融合及全面集中管理,初步实现业务融合、数据加工挖掘,深化数据服务内容。主要工作内容包括:完成平台的深化研究开发,实现所有业务应用系统的接入及数据迁移,进行非结构化数据资源梳理,达到非结构化数据全生命周期管理和综合利用,确保非结构化数据全方位安全。
3)第3阶段(决策支持阶段):提供非结构化数据高级应用服务、业务深度融合、智能决策支持及离线数据安全,最终将非结构化数据管理平台建设成为企业信息化的基础设施。主要工作内容包括:进一步完成非结构化数据管理平台的深化研究及高级应用开发,提高智能电网建设中各项业务产生的大量文件档案、规章制度、工程图纸、合同票据、统计报表等各类非结构化数据的集约化管理水平,实现非结构化数据的规范化、流程化、自动化,从而提高企业生产效率,充分实现企业信息价值,全面服务国家电网公司“三集五大”战略,为智能分析与决策支持提供支撑。
根据以上3个阶段的目标建设内容,集中化管理阶段是业务融合阶段和决策支持阶段的基础,而业务融合阶段和决策支持阶段须在集中化管理阶段完成后,由平台和业务系统协同进行,共同开展。
6 结语
开展非结构化数据管理平台的技术研究与建设,有利于在国家电网公司范围内建立统一的非结构化数据管理标准,将分散在各个系统中的公司非结构化数据进行集中存储和有效整合,逐步消除数据孤岛,促进业务流程规范融合及运营管理高效协同,将非结构化数据贯穿企业的日常生产、经营、管理和决策全过程,集中体现了国家电网公司信息化建设的整体工作思路。
参考文献
[1]国家电网信息[2011]721号,国家电网公司非结构化数据管理平台典型设计:试行[Z].北京:国家电网公司,2011.
[2]CSDN中文社区.非结构化数据“飞”入云中企业如何应对[EB/OL].http://cloud.csdn.net/a/20110805/302706.html.
[3]崔淑琴,李艇,蔡超.企业文档管理[M].广州:暨南大学出版社,2010.
[4]Rod J.Expert One-on-One J2EE Designand Development[M].Indianapolis:WROXPR/PEER INFORMATION INC,2002.
[5]张德政,张萍萍.非结构化信息管理[J].微计算机信息,2006,22(9):218-219.ZHANG De-zheng,ZHANG Ping-ping.Themanagement of unstructured information[J].Micro-Computer Information,2006,22(9):218-219.
[6]文龙.XML与非结构化数据管理[J].电脑知识与技术,2009,5(6):1306-1308.WEN Long.XML and the management ofthe unstructured data[J].ComputerKnowledge and Technology,2009,5(6):1306-1308.
非范畴化与回文结构逆向对称重叠 第10篇
关键词:回文结构;非范畴化;逆向对称重叠;前景化语言效果
中图分类号: H319文献标志码: A 文章编号:16720539(2015)04009704
英语回文“palindrome”一词来源于希腊语的“palin-drome”,意为“running back again”,即通过词序回环往复的一种辞格。据基督教传说,人类始祖亚当和夏娃初次见面时,亚当就说了一句回文语:“Madam, Im Adam.”(女士,我是亚当。)汉语回文,也叫回环,正如我国著名修辞学家陈望道先生所说:“回文是讲究词汇有回环往复之趣的一种措辞法。无论顺读、倒读都可成文。”人们把相同的词汇或句子,前后部分顺序互为逆向,产生首尾回环的文字游戏情趣。《道德经八十一》中“信言不美,美言不信。”回文修辞或许出自于人们行文的偶然巧合,但其形式存在却是必然,语言运用之妙真可谓神奇之至,堪称美文。
一、回文修辞的非范畴化的语义
(一)认知语言学的基本层次范畴理论
基本层次范畴是人类对事物进行分类最基本的心理等级,是认知与客观世界最基本、最重要的关联。人类的大部分知识都是在基本层次上组织起来的,大多数思维也是在基本层次上展开的。认知语言学的范畴观认为,人脑对世界的概念认识,是以原型(prototype)作为参照点,以基本原型为中心成员,其他成员通过家族相似性(family resemblance)围绕在原型周围,呈放射状向外投射,从而形成不同的认知语域范畴。认知范畴的边缘具有模糊性,范畴与范畴之间是逐渐过渡的,范畴的典型性逐渐递减。范畴不是建立在范畴成员共享特征之上,而是建立在相互交错的相似性网络之上。范畴分为上位范畴、基本层次范畴和下位范畴。人类的大部分知识都是在基本层次范畴上组织起来的,都是通过基本层次范畴构建事物的基本知识结构的[1]84。
(二)回文修辞的非范畴化的语义
Hopper和Thompson(1984)最早提出非范畴化概念,用以解释词的范畴属性的动态性[2]703-752。Taylor(1989/1995) 从语言系统本身出发研究名词与动词的非范畴化[3]。刘正光系统地研究了非范畴化问题,认为非范畴化不仅仅是一个语言层次的问题,更是一个认知层次的问题。在语言层次,非范畴化指在一定的条件下范畴成员逐渐失去范畴中典型特征的过程;在认知层次,非范畴化是一种思维创新方式和认知过程[4]33-34。很多情况下,范畴成员在非范畴化后至进入新的范畴之前,是处于一种不稳定的中间状态。也就是说,在原有范畴和即将产生的新范畴之间会存在模糊的中间范畴。这类中间范畴丧失了原有范畴的某些典型特征,同时也可能获得新范畴的某些特征[5]29-30。在“Madam,Im Adam.”中人们只要知道回文的前半部分字母范畴相同成员m-a-d-a-m,就能按顺序逆向推断并重叠成后半部分。从基本层次范畴理论看,在语义上字母范畴组合之间存在一定制约性,前半部分字母组成madam一词,而后半部分由于字母顺序反向组合,使其语义发生变异,表现出抽象与泛化,丧失指称功能,具有一定程度的非范畴化特征[6]20。该语义成员只有与原型语义的认知参照点“I”组合,才具有一定的逻辑概念,构成一个完整的语句。类似英语回文词有“ Lion oil”( 狮子油)、“ OMO”(奥妙洗衣粉)、“Raw and war”(一家电视台)、“Yreka Bakery”(一家面包店名)等;回文句有“Delicious simply,simply delicious”(美味地道,地道美味。)、“Girl,bathing on Bikini, eyeing boy,finds boy eyeing Bikini,on bathing girl.”(身穿比基尼泳装的女孩看男孩。她发现男孩正在看游泳女郎身上的三点式泳装。)等。上述例子分别以“n”、“M”、“B”、“and”、“simply”、“finds”等原型语义认知参照点组合字母或单词,前后部分语义结构具有对称性和非范畴化特征,共同构成新语义范畴,处于不稳定的中间范畴状态。“信言不美,美言不信”句中,汉字以“信”为原型语义认知语义参照点,范畴成员“美”、“言”、“不”、“信”等四个字的语序逆向重复,前后语义成员顺序并非逐一完全颠倒,而是位置跳跃式重叠,在语义范畴上成员不变而位置发生转换,使“信言”、“美言”和“信”、“美”之间语义呈并列组合关系。“你不理财,财不理你。”这句回文由于修饰对象的搭配调换,使得原本组合关系的范畴成员置入到聚合关系之中,即“ABCD”模式中修饰关系对调变成“DBCA”模式,形成相互对立的辩证关系。英语回文中由“AB”变成“BA”模式,属于回文中具有相同身份的范畴成员位置反向对调,使得修饰关系发生相应变化,在语义参照点和语境作用下,回文中前后部分语义形成相似统一关系。
当然,回文的范畴成员可以从英文的字母组合或汉语的字到整个语句,乃至段落,甚至篇章,都能够按照对称性结构和非范畴化语义,体现该修辞的审美感和趣味性。请看下面两则公益广告:1.“Shall We all die?”一句按照语序逐一后移构成:“We shall die all?”、“All die shall we.”、“Die all we shall.”等回文句;2.“可以清心也。”可读成:“可以清心也。”、“以清心也可。”、“清心也可以。”、“心可以清也。”、“也可以清心。”等回文句。上述回文句可以分别组合成为以“die”和“清心”为主题的回文语篇:英文回文语篇“Shall We all die ?We shall die all? All die shall we. Die all we shall.”;中文回文语篇“可以清心也。以清心也可。清心也可以。心可以清也。也可以清心。”这样的回文回环往复均能成诵,合辙押韵,朗朗上口,真可谓反复吟诵成佳作[7]35。由此可见,中英文的回文篇章运用都可达到异曲同工之妙,仔细品味无不感到情趣盎然。endprint
回文是通过范畴中具有相同身份的语义成员逆向对称组合实现的,这些成员可以是任何言语单位,小到字母、大到段落篇章,构成回文修辞。请看宋代李禺的一首回文诗,顺读是一首描述夫忆妻的诗,而倒读则变成妻忆夫的诗。
枯眼望遥山隔水,往来曾见几心知?
壶空怕酌一杯酒,笔下难成和韵诗。
途路阻人离别久,讯音无雁寄回迟。
孤灯夜守长寥寂,夫忆妻兮父忆儿。
从诗文的最后一字“儿”倒读,逆向则成为一首妻忆夫的诗。
儿忆父兮妻忆夫,寂寥长守夜灯孤。
迟回寄雁无音讯,久别离人阻路途。
诗韵和成难笔下,酒杯一酌怕空壶。
知心见几曾往来?水隔山遥望枯眼。
同一首诗寄托了夫妻两地的相思情,真可谓叹为观止[8]74。在语义范畴成员保持不变的情况下,从最后一个字“儿”逆读成文,构造出另一种诗歌语境,与原诗呼应成双,巧妙地生成妻忆夫的诗文,这种独具匠心的回文修辞手法可以增强语言的艺术效果[9]64-65。
以上分析表明,回文前后部分范畴成员的位置完全逆向重复或主要成员跳跃式重叠,并且回文是由前部分的范畴成员、原型语义和后部分的非范畴化成员组成的。从表面形式上看,语义呈明显的对称性结构;从实际意义上说,前后部分内容各异,后部分语义发生了不同程度的非范畴化变异。因此,回文的范畴成员之间容易超越词的选择限制与组合规则,使具有相同范畴成员身份的语义、同一语言成分出现在线性组合关的不同位置,得以把聚合关系或联想系列的对等性加诸于组合轴上[10]24。由于回文语义结构重叠呈明显的对称性并置特征,并且非范畴化的语义变异超越了常规范围的语言成分选择,因此其语义关系实现由前部分的组合前景化到后部分的聚合前景化的转变,在认知参照点的作用下构成共同的语境,从而完成回文修辞的前景化语言功能。这种前景化语言效果为众多广告和公共标识语所采用,其原因在于回文本身在形式和意义上所赋有的奇妙特征,其对称性结构和关联性语义,可以产生无穷的审美情趣和语言感染力。
二、回文的前景化语言
“前景化”(foregrounding) 这一词首先是由布拉格学派的莫卡罗夫斯基在其著名论文《标准语言与诗歌语言》中提出的,原指文体中引人注目的、新颖的、系统地违背常规的特征。Leech认为,语言前景化的主要价值就在于它的形式与功能的结合点。从形式上看,前景化就是偏离,偏离语言系统或偏离通过语言表达手段反映不同常规的社会语码系统;从功能上看,前景化则包含通过偏离所产生的特殊效果或意义[11]48。一方面,回文中具有相同身份的范畴成员位置对调,使得修饰关系发生相应变化,在语义参照点和语境作用下,回文中前后部分语义形成相似统一关系;另一方面,由于回文语义范畴成员位置移动,突破了组合关系或聚合关系的常规限制,使得回文的后部分语义发生非范畴化变异,完成由前部分的组合到后部分的聚合前景化的转变,在认知参照点的作用下构成共同的语境,实现回文非范畴化语言功能。无论是对立关系,还是统一关系,回文句摆脱了语义范畴成员之间的相互依赖,突破了组合关系或聚合关系的语言常规限制,从而在语用功能上实现了回文语言模因的修辞表达效果,这种非范畴化语义正是回文修辞实现语言前景化的重要特征。
不过,回文修辞的非范畴化语义在英汉语言中表现各异,这主要在于语言本身的内在属性不同的缘故。因此,英汉回文的语言前景化功能也不相同。一般说来,汉语注重意合,词语自身存在内在逻辑联系,经过词语前后倒读,某些语义之间保持某些相似或相反的关联度,例如,“客上天然居,居然天上客。人过大佛寺,佛寺大过人。”和“雾锁山头山锁雾,天连水尾水连天。”,前句回文的后部分“居然天上客”和“佛寺大过人”叙述的内容与前部分一致,即讲述关于“客/天”和“人/佛”之间的关系;后句回文描绘了“山锁雾”和“水连天”的回环结构,每个范畴成员本身都具有各自的语义,在“头”和“尾”原型语义范畴的中心作用下,该句回文前后部分各自构成相互对应的完整意义。在语义范畴的形式和意义方面,前后部分范畴成员相同而且语义相近。因此,汉语回文句中,词语之间隐含着内在逻辑关系,语义范畴之间的关联性较强,保持相对稳定的语境,而且语言前景化表现力较强。这是由于汉语属于意合语言,语义的形式和意义具有一定的关联度,容易以“形”断“意”。
然而,英语注重形合,字母或词语前后部分顺序调整,可能会使原先的语义发生变化,所以前后语义之间的关联度小。这是由于英语属于形和语言,回文重形式而轻语义,因而语义概念只能从字母形式的倒读来推断,无法从语义结构来判断。例如,“Do,O god, no evil deed, live on, do good.”(天啊!不要干坏事啊,活下去,干好事!),我们不难看出上述英文回文句是以“ deed ”为对称点,但是“evil”与其回文词“live”是两个完全不同的概念词语,只存在词形关联,虽然能构成一定的语义关系,但是缺乏逻辑表达功能。因此英语回文虽然范畴成员相同,但是前后部分语义范畴之间的关联性和语言前景化表现力较弱,具有不稳定性或者灵活性特征。
三、结语
回文是语义范畴中具有相同身份成员的逆向对称重叠而成,由于范畴成员位置的前后移动形成错位的修饰关系,使得本来属于并列组合关系的相同范畴成员置入到聚合关系之中,在句法上突破了组合关系和聚合关系的常规限制,后部分语义发生非范畴化变异。在认知参照点的作用下,回文前后部分具有某些关联性形成统一关系或者对立关系。这种语义的非范畴化变异和语用上关联性关系能够充分解释回文修辞语言前景化的震撼性效果,然而由于英汉两种语言的不同属性,英语回文的前景化表现效果较弱,而汉语回文却较强。这也表明,认知语言学的基本原理对修辞的理据生成具有十分重要的借鉴与应用价值。
参考文献:
[1]李瑛.范畴化与英语写作——从认知范畴视角分析英语写作中的词汇表达[J].西华大学学报:哲学社会科学版,2006,(5):84.
[2]P·J·Hopper,S·A·Thompson.The discourse basis for lexical categories in universal grammar[J].Language,1984,(60):703-752.
[3]J·R·Taylor.Linguistic Categorization: Prototypes in Linguistic Theory[M].Oxford:Oxford University Press,1989:95.
[4]彭赏,刘正光.非范畴化与现代汉语中的“名词状语”[J].外语教学,2008,(6):33-34.
[5]刘正光,崔刚.非范畴化与V—V结构中V2的完成体意义[J].外语学刊,2005,(6):29-30.
[6]刘润清,刘正光.名词非范畴化的特征[J].语言教学与研究,2004,(3):20.
[7]贺学耘,谭晓丽.广告翻译:形式美与语用功能的再现[J].上海翻译,2007,(4):35.
[8]王国凤.汉语文字游戏对比赏析[J].浙江万里学院学报,2007,(3):74.
[9]黄跃进.广告英语中回文修辞的认知翻译策略[J].绵阳师范学院学报,2015,(1):64-65.
[10]刘正光.非范畴化与汉语诗歌中的名词短语并置[J].外国语,2008,(4):24.
非结构数据 第11篇
关键词:非结构化数据,数据整合,数据管理,存储架构,内容管理
电力企业信息数据一般分为两种:一种是数字的或能用统一的结构来表示的数据, 如存储在数据库中的数据, 这些数据基本上是以数据块 (Block) 的形式呈现, 称之为结构化数据;另一种是相对于结构化数据而言, 无法用数字或统一的结构来表示的数据, 如办公文档、图片、各类报表、图像和音频/视频等信息, 它们大多以文件 (File) 的形式保存, 称之为非结构化数据。
随着电力企业电子政务、协同办公、网络媒体等信息化应用的快速发展, 在整个信息资源的开发、建设、利用和管理中, 非结构化信息资源相关应用在企业运营工作中越来越重要, 企业中的非结构化数据已经超过了信息总量的80%, 并且以每年200%的速度激增, 但是这些数据往往散落在各个信息系统中, 无法统一管理, 造成严重的信息资源浪费。
1 非结构化数据的主要特点
信息增长速度快:结构化数据一般以Byte为量级逐条递增, 而非结构化数据往往至少以MB为量级增长, 因此非结构化数据要求存储设备应具备大的存储空间与方便灵活的扩展性能。
信息存储容量大:非结构化数据一般单个文件规模较大, 达到几百MB至GB的级别, 并且一般情况下要求保存周期较长, 存储信息的度量单位也由GB向TB、PB转变, 数据总量将达到海量规模。
信息格式、标准多样化:随着电子政务、协同办公等信息化应用的不断深入, 企业信息包含办公文档、文本、声音、图像、影视等多种非结构化媒体形式, 数据类型复杂, 信息标准不统一。
分布于异构系统:非结构化数据产生的渠道广泛, 并且由于非结构化数据量大且格式多样化, 所以极少进行深度信息加工, 而是散落分布于各自的异构信息系统中, 缺乏统一管理。
2 电力企业的非结构化数据存储和管理现状分析
在非结构化数据存储方面, 当前电力企业的存储方式主要有两种:一种是以二进制的格式直接存储在结构化数据库的BLOB字段中, 如大部分信息系统中的报告、报表、图片等;另一种常用的存储方式是通过文件系统直接存储在文件服务器中, 如大部分信息系统之外的工具软件、文档资料等。
在非结构化数据管理方面, 存储在数据库中的非结构化数据, 由数据库进行统一管理, 并通过信息系统平台实现信息的检索和展现, 好处是文件调用速度快, 维护和管理简单, 但由于非结构化数据文件大, 数据量增长快, 导致数据库性能下降;传统的文件系统基于目录和文件的层次型结构, 因而不能提供高层的、基于语义的关联式数据存取;另外, 常见的还有企业网站信息通过企业内容管理 (EMC) 平台实现信息共享与管理。
总之, 非结构化数据不论采用何种存储和管理方式, 由于各信息系统相对封闭和独立, 都无法实现相关文档资料的共享和统一管理。
3 电力企业信息化应用现状及客观发展需求
电力企业已建成了各级单位纵向贯通的基础信息网络, 实现了主要信息系统到各级单位的全面推广应用, 信息化已渗透到各个管理领域和各项业务环节, 不断推动企业管理模式由壁垒转向协同、由分散转向集中、由孤岛转向共享, 有效促进了企业的科学发展。
随着企业的快速发展, 企业管理模式不断创新, 企业业务流程不断重组再造, 业务应用之间需进一步按照业务价值链进行深度集成, 需进一步强化任务协同和工作的计划性, 以大幅提升企业经营管理水平和分析决策能力。而当前对于企业意义越来越重要的非结构化数据大部分散落在各个信息系统中, 系统之间缺少横向集成和数据共享, 已经难以满足现代企业发展的要求。随着信息化在各个领域应用的不断深入, 信息系统数量和数据量都在不断增加, 非结构化数据量增长尤为迅速。
因此, 电力企业必须关注非结构化数据的存储整合, 强化非结构化数据管理, 深化信息业务集成, 深入挖掘非结构化数据的信息价值, 充分保护和利用企业的宝贵信息资源, 不论从企业发展的角度还是从节约资金成本的角度都将具有重要意义。
4 存储整合是非结构化数据信息挖掘基础
非结构化数据基于自身特点对信息存储系统提出了更高需求, 包括存储容量、访问性能、传输性能、管理能力、存储扩展能力等诸多方面。由于传统的基于块的SAN和基于文件的NAS网络存储不能同时满足高性能和数据共享的需求, 势必大大促进基于对象存储的新兴网络存储技术的发展, 当前应用较多的新兴存储技术主要有以下几种:
集群存储:是将多台存储设备的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池, 应用可以通过访问接口透明地访问和利用所有存储设备上的磁盘。集群存储是基于文件系统的, 像NAS系统一样易于构建、操作和扩展, 而没有传统NAS系统的固有瓶颈, HP、IBM、Net App、Isilon等存储厂商都推出了集群存储领域的产品。
虚拟存储:指将多个不同类型、独立存在的存储设备, 通过软、硬件技术, 集成转化为一个逻辑上的虚拟存储单元, 集中管理供用户统一使用。虚拟存储提供了一个大容量存储系统集中管理的手段, 由网络中的一个环节 (如服务器) 进行统一管理, 方便了存储设备扩充和管理, 实现了多个存储模块之间的负载平衡, 提高了系统访问带宽, 同时具有良好的兼容性和扩展性。IBM、HDS、EMC等都存储厂商提出了各自的虚拟存储方案。
云存储:云存储技术应用近几年来逐渐崭露头角, 云存储可以实现存储完全虚拟化, 大大简化应用环节, 节省客户建设成本, 同时提供更强的存储和共享功能。云状存储中所有设备对使用者完全透明, 任何地方任何被授权用户都可以通过一根接入线与云存储连接, 进行空间与数据访问。业内厂商已经成功产品化这种理想的存储模式, 以满足不同的应用需求。
5 有效管理是非结构化数据信息应用关键
非结构化数据的存储整合解决了存储和归档问题, 但不能满足对非结构化数据统一的内容管理和检索需求。非结构化数据管理目的是实现对分散应用系统平台环境的有效管理, 把电力企业分散的各级单位和部门的数据, 通过系统集成使其相互关联, 实现对企业信息的有效挖掘和利用。
实现对电力企业非结构化数据的有效管理, 首先, 应基于有效的非结构化数据整合, 依托技术平台实现对多种数据源 (包括结构化数据和非结构化数据) 的管理, 如ERP系统、Lotus Notes、数据库、文字处理和表格文件等, 通过从后台系统 (如数据库、ERP等) 抽取业务信息、建立索引并映射到基于企业Intranet的内容, 实现数据集成和应用集成;另外, 还应搭建企业更深层次的知识管理体系, 通过信息的采集与分类, 为企业和员工提供所需主题、类别的相关信息, 实现信息个性化、信息提示、信息检索等对信息利用的高级功能。
企业内容管理 (EMC) 正是为满足企业的发展需要, 而不断完善和扩展自身功能, 实现在企业范围对信息内容的捕获、管理、存储、保护、发布, 并将其集成到ERP、CRM等结构化数据的信息系统中。企业内容管理已经突破了传统的网站内容管理的概念和范畴, 从“特殊应用管理内容”到“特定领域的内容管理系统”发展成现在的“通用企业内容管理平台”了, 其功能、技术更加复杂, 支持企业有序管理、挖掘非结构化数据的信息价值。
当今主流的企业内容管理平台主要有IBM DB2内容管理解决方案、Interwoven公司Interwoven 6内容管理平台、微软的Content Management Server系统以及TRS内容管理解决方案, 作为当今的主流企业内容管理平台技术, 各公司的产品各有千秋, 也在不同行业和单位有所应用。
6 结语
随着电子政务、协同办公、网络媒体等信息化应用的快速发展, 非结构化信息资源相关应用的地位日趋重要。有效利用海量的文档信息, 构建信息共享平台, 将信息数据转换为业务动力, 以提升企业竞争力, 是电力企业开展信息化建设和应用的最终目的。充分利用现有资源, 减少运营成本, 实现非结构化数据存储的有效整合与管理, 有效保护企业信息财富, 充分挖掘信息价值, 成为IT管理者需要面对的新一轮信息化工作重点。
虽然面对当前电力企业的快速发展需求, 我们谈及了非结化数据整合、内容管理的必要性和主流技术方案, 但企业级存储技术 (如云存储) 、内容管理技术目前还不是很成熟。对于结构化数据的存储和管理已经历了数年发展, 技术已经相对成熟, 而非结构化数据的复杂程度远远高于结构化数据, 目前的技术现状还暂时难以满足企业的发展需求。因此, 电力企业在今后的信息化建设与应用中, 还应充分结合企业信息化现状和发展需求, 逐步探索自己的非结构化数据整合和管理模式, , 既要挖掘和利用企业的宝贵信息资源, 又要有效保障信息安全, 同时避免资源浪费。
参考文献
[1]张志刚.海量非结构化数据问题初探[J].中国档案, 2009 (08) .
非结构数据范文
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。


