电脑桌面
添加盘古文库-分享文档发现价值到电脑桌面
安装后可以在桌面快捷访问

大数据时代的存储备份

来源:漫步者作者:开心麻花2025-11-191

大数据时代的存储备份(精选9篇)

大数据时代的存储备份 第1篇

(1) 数据量大。互联网、物联网、云计算等技术的发展, 网络社会、数字地球、智能终端等信息体的建设与普及, 使得全球数据量出现了爆炸式的增长, 根据互联网数据中心统计, 仅在2011年, 全球数据量就达到了1.8万亿GB, 并预计, 在2020年, 全球数据量将会是现在的50倍。

(2) 价值量大。大数据的终极目的就是实现价值。特别是在竞争激烈的商业领域, 数据价值量更是无可比拟的。数据作为企业的新型资产与宠儿, 企业正通过各种各样的途径实现价值的最大化。同时, 大数据的价值也存在密度低的特性, 需要企业对其进行分析统计, 汲取其中的精华, 得到真正有用的信息, 形成用户的价值。

(3) 类别多样。当前的大数据不仅仅表现在数据量爆炸性的增长, 而且还表现在其类别的多样化发展。随着互联网、多媒体技术的发展, 数据的呈现形式已经不满足于以往的二维结构, 视频、音频、图片、邮件、GPS、传感器等非结构化数据呈现形式的出现, 丰富了数据呈现形式。

(4) 高效运算。当前, 语义引擎、可视化影视分析、数据挖掘等分析技术的发展, 加快了从大数据中提取有价值信息的速度, 技术的有效运用, 就犹如掌握了数据增值的“加速器”, 加快了企业的发展步伐。同时, 在云计算Hadoop大数据框架下, 运算高速的集群威力与存储, 实现了分布式运行系统。

2 大数据面临的安全威胁及存储备份的重要性

2.1 大数据面临的安全威胁

互联网信息时代的到来, 实现了数据之间的共享。互联网为数据之间的流通提供了一个便捷快速的渠道。开放的互联网环境超越了时间、空间的限制, 实现数据最大程度上的流通与共享。同时, 在信息化时代下, 数据已经成为一种生产要素渗透到社会的各个领域, 虽然数据中价值密度低, 但价值量高, 随着分析提取技术的发展, 在数据中提取价值速度加快, 大数据中所蕴藏的高经济价值吸引很多网络黑客铤而走险。在开放的网络环境中, 数据之间具有很强的关联性, 对于网络黑客而言, 相对低的成本就可以谋得“滚雪球”的暴利。近年来互联网上陆续发生的用户账号被盗窃, 造成大量个人信息泄露就是一个典型的例子。其次, 随着信息技术的发展, 数据类型的多样化也让我们措手不及, 虽然非结构化数据类型No SQL具有可用性与可拓展性等优点, 但其作为新型存储工具仍存在很多漏洞, 而且存储模式并不成熟, 仍有很多技术与安全的难关需要攻破。

2.2 大数据存储备份的重要性

数字化时代的到来, 信息与数据的传播与获取已经成为企业发展最核心的部分。传统的网络结构已经适应不了时代发展的需要, 远远满足不了人们对数据与信息的需求, 一直处于计算机从属地位的存储系统逐渐走上历史的舞台。同时, 对信息的高度需求也让我们对存储系统提出越来越高的要求。但据调查, 国内只有16%的服务器连有备份设备, 这也就意味着, 我们仍有84%的数据是赤裸裸地展现在大家面前的, 随时都有可能遭到全部破坏或丢失的危险, 那结果将是灾难性的。唯一的解决办法就是实现全部数据的网络存储。

3 保护大数据时代的存储备份安全策略

3.1 对大数据存储备份进行加密设置

在云计算架构下的大数据, 都是以服务的形式存在的。当前, 对于大数据的安全存储都是通过虚拟化海量存储技术来进行存储工作的, 涉及数据的传输、恢复与隔离等诸多问题。在大数据的安全服务设计中, 大数据可以通过SSL安全套接层协议层实现加密, 并可以根据数据安全存储的需求, 储存在数据集的任何存储空间。为大数据进行加密, 可以为数据的下载与上传提供安全有效的保护, 最大限度地避免大数据的丢失与破坏。除了SSL外, PGP与True Crypt等程序也提供了强大的加密功能。

3.2 使用过滤器

过滤器的使用也是一个保障大数据安全传输的重要途径。可以通过过滤器对数据传输过程进行实时监控, 当发现大数据已经传输完毕, 自动离开用户网络后, 就自动切断数据的再次传输。

3.3 加密数据与分离密匙

通过加密技术把要保护的数据与密匙隔离, 实现数据使用与数据保管的分离, 同时定义产生、存储、备份、恢复等密匙管理生命周期, 实现数据存储的安全性。

3.4 深入一体化容灾技术

一体化的容灾技术集OFS对象文件系统、FAST引擎和重复数据删除等基础执行框架、重复删除数据、存储对象、传输通道等技术特性于一身, 无论是应用容灾、数据的备份都可以在同一平台上进行。深化一体化容灾技术, 实现大数据时代存储备份。

4 结语

信息时代的到来, 大数据的存储与利用已经成为每一个企业所要攻克的技术难关之一。只有适应历史发展的潮流, 从大数据中提取有用的价值并加以利用, 做好数据的存储备份, 切实保护本企业大数据的安全, 才能在竞争日益激烈的商业环境中立于不败之地。

摘要:大数据与云时代的到来, 推进了信息化社会的前进步伐, 各大企业的数据量已经从之前的MB、GB, 迅速增长到现在的TB甚至是PB、ZB的级别, 并且还在以前所未有的速度增长着。数据是企业信息应用的核心, 企业的所有运行都是建立在数据的存储下。但有时人为操作的失误、系统软件硬件的损坏、电脑病毒、黑客攻击、电脑死机等自然或非自然的原因都会造成计算机中关键数据的破坏或者丢失, 都会给企业或政府的发展造成重大的损失与灾难。因此, 在大数据时代下, 保证数据的安全已经成为亟不可待的任务之一。本文将立足于大数据的时代背景, 阐述数据存储备份的重要性以及保证存储备份安全性的策略。

关键词:大数据,时代,存储备份

参考文献

[1]孟小风.大数据管理:概念技术与挑战[J].计算机研究与发展, 2013, 50 (01)

NAS存储与数据备份方案 第2篇

数据备份部分是整个网络系统的关键点,任何原因造成数据丢失都将带来无法估量的损失,因为这些数据涉及到公司各应用系统(包括缺陷、动态成本、点检、物质仓储、大宗物料、生产运营等系统),为了保证各系统的正常运行,必须保证能随时访问生产数据、查询历史数据。一旦发生意外导致数据丢失(包括系统崩溃、数据的丢失等),造成影响难以估计。

NAS(Network Attached Storage:网络附属存储)是一种将分布、独立的数据整合为大型、集中化管理的数据中心,以便于对不同主机和应用服务器进行访问的技术。按字面简单说就是连接在网络上, 具备资料存储功能的装置,因此也称为“网络存储器”。它是一种专用数据存储服务器。它以数据为中心,将存储设备与服务器彻底分离,集中管理数据,从而释放带宽、提高性能、降低总拥有成本、保护投资。其成本远远低于使用服务器存储,而效率却远远高于后者。

NAS数据存储的优点:

1、NAS适用于那些需要通过网络将文件数据传送到多台客户机上的用户。NAS设备在数据必须长距离传送的环境中可以很好地发挥作用。

2、NAS设备非常易于部署。可以使NAS主机、客户机和其他设备广泛分布在整个企业的网络环境中。NAS可以提供可靠的文件级数据整合,因为文件锁定是由设备自身来处理的。

3、NAS应用于高效的文件共享任务中,例如UNIX中的NFS和Windows NT中的CIFS,其中基于网络的文件级锁定提供了高级并发访问保护的功能。

公司现有存储及备份模式已经无法满足日益强大的信息系统,现急需建立一套先进的存储备份管理系统,以合理利用存储资源为基础,突出以数据为中心,实现高效的存储与数据管理,给诸多宝贵的数据提供安全、稳定的环境。

基于以上NAS系统的种种优点,结合公司实际情况,决定采用NAS系统来升级公司的存储与备份现有模式。

下图为目前的拓扑图,需要操作服务器的数量多,数据的完整性无法得

到很好的验证。

下图为添加NAS存储系统后的拓扑图,在不改变当前网络环境的状态下,直接将NAS存储系统连接至二层交换机,快速投入使用,同时支持基于Web的GUI远程管理,大大提升了备份效率。

数据存储备份系统的有效构建浅析 第3篇

关键词:数据存储;数据备份;SAN架构;集中存储

中圖分类号:TP309.3文献标识码:A文章编号:1007-9599 (2011) 03-0000-03

The Effective Building of Data Storage&Backup System

Tian Ruilan

(Shenhua Shendong Coal Group,Yulin719315,China)

Abstract:With the integration establishment of Shendong Coal Group,the integration of Shenhua Group"the scientific development,Shenhua Recreat,five years implementation of its double economy"strategy under the guidance of god to create a Shendong Coal Group,coal enterprises Shendong world of the goals set out for the national economy maintained good and quickly develop a greater contribution.also,for the construction of coal,the group of information is an opportunity is also a challenge.The firm which,to build and need to upgrade the application system,based on the application data storage,systems and data security,data storage,the centralization and unification of the factors for consideration.

Keywords:Data storage;Data backup;San schema;Concentrated storage

一、引言

神东煤炭数据存储备份系统项目将完成数据库层的数据集中存储和备份以及应用层面的虚拟化部署,以期达到公司应用系统的整体性能和安全级别的提升。数据库层采用100TB物理容量的光纤硬盘作为末端存储,以四台IBM N6060作为管控端,根据业务数据的安全级别要求,将存储级别划分为RAID DP+MIRROR和RAID DP方式,并配以IBM TSM进行数据的集中备份和管理;既实现了对数据的统一规划管理,同时也提高数据安全性。应用层采用VMWare虚拟化架构,通过对现有应用服务器配置信息的分析,实现高性能设备的多应用负载,并能通过VMWare管理端的统一调度,实现应用系统按负载量的冗余切换实施方案,实现应用系统发生错误时的快速切换。不仅可以实现高性能硬件的充分应用,同时也可以实现应用系统的高可用性。

二、搭建统一数据存储平台

在本项目未实施之前神东公司各应用系统均为部署为SAN孤岛或服务器本地硬盘存储状态对于管理人员的维护工作量巨大同时存在着极大的安全隐患。本项目实现了各信息系统和数据库系统等核心业务全部数据集中存储和资源的合理利用,实现快速访问、读写应用的需求,同时也解决了数据安全隐患问题。

本项目中采用高端智能数据存储设备IBM N6060,该存储系统具有高缓存、高带宽、高扩展性、高可靠性、高连接性等特点;统一硬件资源存储,充分利用现有信息系统硬件设施和存储设备,结合神东煤炭集团原有存储系统建设时间、规模和性能原因,对存储中心进行统一整合。配置存储内部的卷快照和卷复制软件,提供对单个数据卷发生逻辑或者物理错误的迅速恢复手段。

实现存储设备的高可用行,将数据存储平台配置镜像存储设备或制定策略,完成存储之间的数据复制,当主存储平台失效后,可通过切换镜像存储设备进行切换。当新业务系统将接入数据中心时,存储系统内可支持随机增加存储分区和主机连接,并且不对连接主机数量、平台进行限制。

随着神东信息化程度的提高,数据类型既要考虑结构化数据,又充分考虑神东非结构化数据和工控数据的传输与存储。对核心服务器、非关键应用系统配置优先级连接,以保证应用系统使用过程中性能都有明显提高。本项目中存储设备将满足5-10年的容量扩展要求,达到400TB以上物理容量扩展,存储设备具有良好的掉电保护技术保护缓存数据,采用RAID DP+MIRROR技术有效的保证了数据的安全性。

下图为该项目中统一集中存储结构图:

本次项目中的两台N6060均按照上述示意图连接,每台N6060为双控制器配置8台14*450GB的EXN4000,根据N6060官方最有性能的考虑采用4台EXN4000串联成一个loop,通过双控制器实现链路冗余,保证每台磁盘扩展柜均为双链路到达控制器从而保证核心存储设备的高可用性。

三、搭建集中备份/恢复及归档平台

本项目实现了对核心业务数据库数据、应用数据、操作系统快速集中备份,同时有效的支持异构硬件环境,实现了任意时间点的备份和恢复。

备份平台的建设须具有以下功能,通过备份平台对所有关键业务数据进行集中网络数据备份,备份软件操作界面简单、高效稳定;集中备份设备是使用IBM虚拟磁带库TS7650G,充分利用其全局数据删减技术在数据源端发现并删除冗余数据段,不会因为太多的备份数据量而导致的网络带宽不足,影响应用系统的正常运行;改善备份设备性能,实现高级磁盘备份方式,提高备份速率,备份操作完成后,后台进行无人值守的数据迁移至物理磁盘,从而完成数据的完整保存;本项目实现了数据库和应用系统的在线备份,并且支持通过IP网络的异地远程复制,为以后异地容灾系统做好基础;同时制定了科学、可靠的备份策略,减少备份给信息中心维护人员带来的数据恢复的复杂度,并且能够提供定期的恢复测试策略,保证备份数据安全有效。

制定简单、快捷、完整的数据恢复策略;并支持数据的异机恢复,即将备份数据恢复到其他主机上进行数据验证等工作;存储在备份平台上的数据能够高效、加密、异步的复制到远程地点部署的设备上,而无需运送磁带。备份平台通过RAIN和RAID保护、热备份磁盘、自我告警等机制对备份数据加以保护,提高了备份数据的可恢复性。在本项目中构建一套数据恢复/测试环境,能够支持每天从备份系统中将数据进行恢复测试,同时使用测试应用系统进行数据完整性验证。并且将数据验证工作加入IT日常管理流程中,使得备份数据更加的有效及完整。

项目实施过程中在备份服务器上安装oracle数据库软件,数据库使用和当前生产环境相同的release的数据库。在我们神东环境中最高版本使用Oracle10.2.0.4。创建种子数据库,创建catalog知识库所有者用户,例如可以创建名为netback的方案用户,并授权netback用户有catalog_owner_,创建catalog知识库的表空间,创建catalog。

以下介绍知识库创建的过程

创建知识库表空间:

SQL>create tablespace netback datafile /u01/oradata/netback/netback.dbf'size 2048M;

Tablespace created.

创建netback用户:

SQL>create user netback identified by netback default tablespace netback;

User created.

授权netback可以使用知识库:

SQL>grant connect,resource,recovery_catalog_owner to netback;

Grant succeeded.

然后创建catalog:

[oracle@oatest~]$rman catalog netback/netback@netback

RMAN>create catalog;

RMAN>quit

至此,oracle备份知识库创建完成。

在数据库服务器上安装TSM备份软件的备份客户端。安装数据库软件的备份代理。在数据库服务器上创建到catalog知识库的名字解析服务,确认oracle数据库能够访问catalog知识库,在知识库中注册备份数据库。使用新的介质管理层接口替换oracle或者先前备份软件的介质管理层接口,确认备份代理工作正常。可以使用oracle提供的介质管理层测试工具sbttest进行测试,如下:

$sbttest test

返回为sbtinit succeeded表示测试成功。

在数据库服务器上,首先配置rman使用环境,可以使用类似如下命令查看oracle数据库默认的备份环境:

RMAN>show all;

RMAN configuration parameters are:

CONFIGURE RETENTION POLICY TO REDUNDANCY 1;# default

在catalog知识库中注册数据库,命令如下:

RMAN>register database;

如果遇到如下错误:

bash-3.00$ rman target/catalog netback/netback@netback

表明知识库版本低于生产数据库,需要升级catalog,命令为:

RMAN>upgrade catalog;

recovery catalog owner is netback

enter UPGRADE CATALOG command again to confirm catalog upgrade

提示需要再次运行一次:

RMAN>upgrade catalog;

RMAN>quit

成功后即可使用catalog。

修改数据库默认备份通道为sbt,命令如下:

RMAN>CONFIGURE DEFAULT DEVICE TYPE TO sbt;

必須打开控制文件的自动备份,否则数据库仍然不能恢复。

RMAN>CONFIGURE CONTROLFILE AUTOBACKUP on;

至此,备份软件对数据库的备份配置完成。

使用rman脚本对数据库进行全备,rman应该同时连接到目标数据库(即需要进行数据备份的数据库)和catalog知识库。需要记录数据库的DBID。

四、建立虚拟化服务器(VMware)基础架构

目前在神东公司环境降低服务器大量增加和对平台依赖性等因素成为企业实现其目标的障碍。

通过本项目在一台高性能服务器上运行多个操作系统和应用程序,提高硬件的利用率,降低能耗,并减少资金成本和运营成本。通过虚拟化架构实现硬件性能、可扩展性和可用性级别的提升。在实时过程中使用在线迁移虚拟机避免计划内停机;通过自动化负载平衡实现基于策略的IT资源动态分配;消除许多重复的配置和维护任务。确保计划内硬件维护和备份时间依然保持业务运转不停顿。确保永不宕机的可用性,并在发生灾难后进行快速、有效恢复。

VMWARE软件分为两个主要部分:VMWARE vCenter server,即原来的ESX server和Vcenter console。

Server用于创建虚拟环境,运行虚拟主机。VC服务器要求的安装的操做系统为WINDOWS SERVER 2003,上面安装SQL 2000 SP4或是SQL 2005 SP1以上。在此系统上面配置VC服务和LICENCE服务。VC服务器要与ESX主机的SERVICE CONSOLE在同一网段内。

使用多台ESXserver,两台serer共享LUN。虚拟机创建在LUN上(事实上也就位于N6060上),然后创建N6060的LUN到虚拟机。在专用的LUN上保存数据库,以确保虚拟机处理数据库的性能。任何一台ESXserver故障,只需要在另一台ESXserver上启动虚拟机操作系统即可。能够实现快速接管。

Vcenter console用于远程管理vCenter SERVER。安装后可通过管理界面对虚拟机进行管理和调整。

使用VMware vCenter Converter转换物理主机到虚拟机

这一步是整个项目中难度最大,也是风险最大的步骤。所以,一定要确认系统各项备份成功。并完整保留用户生产环境直到这个转换过程完成。

转换过程比较简单。首先在需要迁移的服务器上安装VMware vCenter Converter企业版,随后在夜间指定的时间点停止数据库和应用服务,使用VMware vCenter Converter将整个服务器所有文件系统及分区表等相关内容转换到外部存储设备上,成为一个虚拟机目录。

然后将这个目录复制到N6060上,在VMWARE server中打开该虚拟文件即可。整个转换过程通常都在分钟级。虚拟机启动后,启动虚拟机中的数据库和应用程序。

五、神东数据中心SAN架构

N6060配置有4Gb速率FC接口24个,这24个接口分为连接扩展存储柜的接口和连接主机的主机接口。扩展接口应确保磁盘柜双冗余接入控制器。主机接口应分别接入不同的光纤通道交换机,并进行FC绑定,提高设备带库和冗余;N6060配置有千兆以太网接口8个,这8个接口应分别接入到Cisco以太网交换机中。

每台N6060部署4个aggerates,两台N6060之间25TB实现mirror,剩余13TB存储空间叠加使用,划分相应的Volume、Qtree、LUN给相应的主机。

在神东煤炭数据中心环境中部署两台MDS9506作为核心存储交换机,在项目的设计中基于神东集团公司业务的不同将核心存储交换机逻辑的划分为多个虚拟交换机,保证数据存储过程中业务的相对隔离。在主机与存储设备的部署上采用业内成熟的zone技术,保证不同主机与存储设备的独立性。

六、项目总结

神东煤炭公司数据存储备份系统的实施核心分为三个部分:数据集中存储、关键数据的热备份以及全网应用服务器虚拟化的实现,通过三大模块的改造升级安全合理的保证神东信息化的运行。

大数据时代数据存储技术的发展研究 第4篇

1 大数据时代的意义

1.1 大数据的作用

大数据, 并没有一个十分确切的定义, 其起初是起源于技术领域。在信息量不断扩大的情况下, 常规电脑原有内存量已不能承载新数据, 新兴数据处理技术得以产生, 如雅虎的Hadoop平台、谷歌的Map Reduce等。此类技术能够消除僵化层次结构及一致性, 使数据无需通过常规数据库表格进行排列, 极大程度上增加了人们可处理的数据量。

1.2 数据是重要生产要素

在信息技术急速发展的背景下, 数据必然会转变为一类十分重要的生产要素, 成为社会大众的广泛需求, 并不再单单局限于为一些特定市场、行业所使用。不同行业不同领域的企业均希望通过对庞大的数据进行采集, 并剖析采集数据, 以达到控制生产成本、改善生产水平、提升生产效率以及实现产品改革创新等目的。如企业可于生产线现场开展数据采集工作, 并直接对该数据进行分析, 如此便可为企业生产出谋划策。值得一提的是, 企业还可对目标市场消费群体的行为展开针对分析, 通过对庞大的行业数据进行比较, 提升自身市场竞争力。

1.3 存储技术要更新

伴随着云计算、物联网等新兴技术的不断发展, 数据增长表现出惊人的状态, 海量庞大的数据出现标志着大数据时代的来临。大数据已有了自身特定的框架, 并显著促进了互联网、计算以及存储技术的进步。对海量的数据进行处理是一个全新的挑战, 企业要借助软件需求的力量推动硬件技术的发展, 要全面意识到通过大数据对市场应用需求进行分析, 对数据存储基础设施存在着深远的影响。这一背景俨然为数据存储企业及相关TI基础设施生产企业创造了有利的发展契机, 大数据时代下, 数据的一系列形态结构变得越来越复杂, 相继出现了各式各样的结构化 (门户网站、数据库等) 、半结构化数据及非结构化数据 (搜索方式、存储信息行为等) , 原有的存储方式显然难以满足大数据存储需求。这要求存储相关企业要对存储技术进行全面更新, 以适应大数据时代下各类新需求。

1.4 容量与延迟

大数据时代下, 一方面数据规模不断扩大, 另一方面文件数量也变得越来越庞大。这对存储容量提出了严苛的要求, 存储系统要进行简便的扩展, 采取增加磁盘柜、模块等方式来提升容量。大数据应用还要面临实时动态性问题, 尤其是关于一些金融、互联网交易相关的内容, 这要求存储系统不仅要对这类行业特性予以支持, 还要确保良好的响应速率, 倘若响应延迟必然会对企业发展造成不利影响。

2 大数据时代数据存储技术

2.1 存储虚拟化

存储虚拟化属于现阶段及未来一段时间里数据存储技术发展的重点内容, LVM、RAID、SWAP等此类均被囊括于存储虚拟化范畴。存储虚拟化存在多方面优势特征, 如简化存储方式、改善存储性能以及节约运营成本等。结合存储虚拟化技术所提出的应对对策能够为数据中心消除一系列数据存储挑战, 全面整合不同类型的异构存储数据, 除去信息孤岛, 促进数据共享、流动等。

2.2 固态硬盘

固态硬盘属于现阶段数据存储领域较为关注的一种新型数据存储技术, 其被视为一类革新性存储技术。于计算机系统中, 总线、L1cache、L2cache等组成部分相互间, 现阶段外存内存相互面临极大的存储鸿沟。固态硬盘有别于常规磁盘, 其属于一类电子器件机械装置, 有着小型体积、强抗扰能力、高IOPS及小耗能等特征。鉴于此, 固态硬盘能够极大改善外存内存相互存在的外存内存相互问题, 计算机内部原有应对I/O性能不足的相关技术及组件功效有着被固态硬盘取代的趋势。

2.3 重复数据删除

重复数据删除属于现阶段既热门又主流的一种数据存储技术, 其能够有效优化存储容量。重复数据删除对集中重复数据进行删除, 并留存重复数据中的一份, 达到摒弃冗余数据的目的。该类数据存储技术能够极大缩减物理存储空间需求, 从而满足逐步提升的数据存储需求。重复数据删除数据存储技术现阶段被广泛推广应用于归档系统及数据备份, 由于数据经数次频繁备份之后, 总是留下诸多的重复数据, 两者一拍即合。

2.4 云存储

云计算属于现阶段极为热门的IT话题, 其与人们日常生活、工作全面融合。云存储同样如此, 云存储致力于提供给使用者基于互联网的在线存储服务, 其含有使用管理简便、按需付费以及弹性容量等特征。目前, 云存储多被应用于数据保护、数据存储以及分布式存储等相关技术领域。对相关专业机构行业探析评估及实际发展状况而言, 云存储发展方兴未艾, 信息技术急速发展的背景下为云存储技术发展创造了有利契机。

2.5 SOHO存储

SOHO存储指的是个人式存储或者家庭式存储。伴随社会经济的发展, 人们生活水平日益改善, 现代家庭中往往有着多部智能手机、PC、平板电脑及笔记本电脑等硬件设备, 此类设备能够组建成家庭网络。SOHO存储的数据大多来源于个人文档、音乐电影、程序软件源码以及视频照片等, 一些数据要与各种设备相互同步、共享, 重要数据要与各种设备相互存储备份, 要与各台设备相互查找文件等。

3 结语

大数据时代“如火如荼”, 在大数据技术及云计算急速发展的背景下, 未来数据存储信息结构组织及数据存储模式将发生显著的转变, 企业要有效应对这一转变及这一转变所带来的挑战, 就必须不断钻研研究、总结经验、与时俱进, 掌握行业发展动态, 更新服务理念, 跟上未来数字化数据存储技术发展脚步, 更科学地给予用户高质量、高效率的数据存储服务。

摘要:文章分析大数据时代的意义, 对大数据时代数据存储技术展开探讨研究, 旨在为相关人员分析大数据时代数据存储技术的发展研究提供一些思路。

关键词:大数据时代,数据存储,发展

参考文献

[1]王珊, 王会举, 覃雄派, 等.架构大数据:挑战、现状与展望[J].计算机学报, 2011 (10) .

[2]温浩宇, 李京京.大数据时代的数字图书馆异构数据集成研究[J].情报杂志, 2013 (9) .

大数据时代的存储备份 第5篇

关键词:图书馆,大数据,数据存储,安全管理

1 大数据时代下的数据特征

关于大数据至今各界尚未有一个统一且全面的定义, 但笔者比较认同的一个定义方式是:大数据是难以在传统思维及常规软件的基础上, 在规定时间内对其内容实施采集、管理及分析的数据集合[1]。大数据时代下的数据具有数据量大、数据类多、流动速度快、价值密度低等特点。不难看出, 在大数据的背景下无论是从管理角度还是技术角度, 对于图书馆的数据安全管理, 尤其是基于海量数据的数据存储安全管理, 都是新的挑战。

1.1 数量巨大

通常认为, 数据量大于10TB即为大数据。伴随着计算机、云计算、物联网等技术普及, 以及社交网络对人们生活的不断渗入, 人们的个人信息、网络足迹、网络交际等数据爆炸性增长, 这些信息与长期积累的结构化数据共同构成了大数据。对于图书馆来说, 纸质电子资源增多, 以及用户增多带来的大量用户信息, 随着时间推移, 数据量会越来越大。

1.2 种类繁多

数据种类繁多主要是指数据结构的多样化。伴随着传感器技术、移动终端、通信设备的广泛应用, 数据结构形成结构化、半结构化和非结构化共存的局面, 如音频、视频、网页等形式。

1.3 流动速度快

流动速度快主要指数据创建与处理速度。实时性是大数据的一个显著特征, 生活在互联网环境中, 人们通过移动终端使用的各类应用, 如天气、物流、交通等应用, 这些应用使用或产生的数据都是具有实时性的, 即为流式数据。对于这些数据, 传统的软件显然不能处理。

1.4 价值密度低

大数据的价值获取和应用是大数据应用的最终目标。然而在数据大量增长的同时, 蕴含于其中的数据价值并未显著增长, 因而数据价值密度降低, 这就大大增加了获取有价值信息的难度。

2 大数据时代图书馆面临的存储安全问题

在大数据背景下, 图书馆非结构化数据占80%以上, 这为图书馆数据存储方面提出了新的要求, 具体体现在存储模式、安全级别划分、身份验证等方面。

2.1 存储模式局限

随着数据量及数据复杂程度的迅速增长, 非关系型数据库由于可扩展性及可用性较强优势被广泛应用, 成为图书馆数据存储的主要方式。然而, 由于非关系型数据库系统服务器软件内置安全管理系统不足且存在较大安全漏洞, 造成在数据访问控制及用户隐私管理方面存在较大难度。

2.2 安全级别划分问题

图书馆在统一管理平台对数据进行存储、管理、分析、应用的过程中, 难以对数据按照安全级别进行划分并分类存储。同时, 数据库在用户进行访问的过程中, 会将组织架构暴露给发起访问的程序, 安全性受到威胁。另外, 由于用户在操作中与多个信息节点进行通信, 数据库难以对访问者身份权限进行即时验证。

2.3 安全管理产品局限

非结构型数据库在进行大数据资源操作中, 会在多个网络通信会话间建立协调任务, 因而传统安全管理产品具有的系统监视、日志分析以及安全评估等功能难以运行或难以取得良好效果, 同时还可能对大数据应用效率等方面带来不利影响。

3 大数据背景下的图书馆存储安全管理策略

3.1 利用大数据决策及时发现安全威胁

图书馆在利用大数据技术来保护自身系统与服务安全时, 不应仅仅将防范目标锁定在恶意事件的发现上, 也应结合大数据安全资源进行分析, 确定恶意攻击的来源、攻击途径及危害程度等, 并结合数据挖掘与关联技术, 实现对未来攻击的来源、途径及目的预测, 提前把握危害程度, 做好防范。

同时, 在安全管理大数据平台的构建过程中, 在维持平台一定的复杂程度与合理建设成本的条件下, 尽可能选取技术成熟且兼容性强的数据包捕捉与分析工具, 以此来实现信息的快速采集、定位与科学分析、决策的过程。而系统结构过于复杂的安全管理产品会导致平台功能性与可控性的大幅度降低。

同时, 加强对安全数据仓库诸如监控日志、工作日志、服务器日志、防火墙日志等的管理控制, 有助于图书馆大数据资源安全高效地处理以及安全攻击行为的及时发现。

另外, 在了解图书馆大数据服务与安全管理需求的基础上, 定制大数据资源挖掘工具以及相应的分析师, 来提高图书馆利用大数据技术发现安全威胁的效率与主动性。

3.2 构建大数据安全威胁与防御能力为基础的评估体系

建设以大数据安全威胁与防御能力为基础的评估体系, 是图书馆构建高效安全防御系统的关键内容, 评估体系分为宏观网络感知与微观威胁检测2部分。

网络是图书馆各类信息传输的载体, 在网络层面上, 对于数据中心内部网络与外部传输网络的评估, 需广泛地在网络上设置大量安全检测与数据采集设备, 以此来保证安全评估平台全面且客观地收集网络安全评估数据。

在微观层面上, 应注重数据采集并构建安全评估指标。应重点采集APT攻击方法、路径、后果等, 并建立模型模拟预测。而在评估指标的建立上, 应从大数据平台二次提取数据, 并分为基础指标与应用层指标等多种类型, 结合不同指标对图书馆安全的影响, 进行科学的动态评估。

同时, 由于结构化数据可降低对大数据平台的性能要求并提高分析效率, 图书馆也应加强对采集数据的结构化处理, 从而提高安全分析效率与分析结果的可靠性。

3.3 整合大数据安全管理软硬件平台

大数据安全管理平台应实现安全管理工具与流程的整合, 以便图书馆依据相关信息来完成对安全事件的管理、分析与决策。将监控设备采集的信息进行传输时, 需提前进行预处理, 并经由SIEM工具传输至大数据安全仓库, 传输数据需标准、高价值且具备可用性。同时, 通过实时控制, 以及安全管理平台数据的反馈, 来实现对图书馆应用平台的参数设置及管理。

同时, 大数据安全管理平台应使用科学算法、可视化决策与自动化管理, 应通过大数据平台对用户行为数据、阅读终端参数分析, 实现对用户行为特征模拟, 以此来进行大数据下的读者身份认证。

3.4 执行安全的大数据管理与应用策略

针对图书馆大数据的具体特征, 为提高数据的安全性与可用性, 图书馆必须对原始数据进行有效精简, 即通过过滤、删减、标准化、匹配、评估、清洗等过程, 以及结合云存储平台, 将无用数据和重复数据进行删除。同时, 图书馆的大数据平台在保证开放共享的同时, 也应保证数据不被非法访问和过度分析, 因此, 应允许用户查看、纠正或删除自身隐私数据, 增加用户隐私数据使用的透明度。

另外, 图书馆在大数据安全管理中, 通常将内部系统视为可信环境, 执行较为宽松的安全管理策略, 往往造成内部环境相较于外部环境安全威胁更大。所以, 为防止黑客利用内部系统漏洞提高攻击成功率, 加强图书馆内部系统环境安全控制与监控十分必要。

4 结论

在大数据的背景下, 图书馆的资源建设与管理存在大量的发展机遇, 同时也存在更大的挑战。在图书馆的数据存储安全管理方面, 应运用大数据决策敏锐感知安全威胁, 构建起以大数据安全威胁与防御能力为基础的评估体系, 对大数据软硬件平台进行整合, 并执行安全的大数据管理与应用策略, 真正提高图书馆的数据存储安全管理能力, 以求更加稳定长远的发展。

参考文献

[1]张瑜.大数据环境下图书馆公共媒体数据库建设与利用研究[D].大连:辽宁师范大学, 2014.

[2]陈臣.大数据环境下数字图书馆安全威胁与对策研究[J].图书馆工作与研究, 2014 (11) :34-38.

[3]高煜红.云计算数据存储安全的研究[D].杭州:浙江工业大学, 2014.

[4]鲍劼, 李苏丰.大数据环境下图书馆信息安全问题与对策分析[J].科技情报开发与经济, 2014 (22) :12-14.

[5]陈臣.基于大数据的图书馆个性化服务安全体系构建研究[J].新世纪图书馆, 2014 (11) :47-51.

[6]陈臣.大数据环境下数字图书馆安全威胁与对策研究[J].图书馆工作与研究, 2014 (11) :34-38.

[7]张毅, 赵元媛.大数据技术在数字图书馆中的应用分析[J].网络安全技术与应用, 2015 (3) :52-53.

大数据时代的存储备份 第6篇

“互联网+”时代越来越多的企业认识到数据是企业很重要的核心资产, 并开始通过信息应用来改造传统行业。许多传统企业开始探索互联网化转型之路, 企业数据爆炸性增长, 随之而来出现了“存”、“管”、“用”这三个方面的难题:“存”——如何解决PB级别海量数据的存储问题?“管”——如何解决结构化、非结构化数据并存的管理问题?“用”——如何解决这种大规模复杂结构下的实时应用问题?

传统关系型数据库系统与新兴的大数据技术平台是两条技术解决路线, 本文将通过对比这两种技术, 为企业大数据的存储与应用提供一个技术解决思路。

二、企业大数据的组成与技术支持

企业的传统数据主要来自于业务运营支撑系统、企业管理系统等, 主要是结构化数据;企业当前爆炸式增长的新数据主要来源于互联网、移动互联网上的图片、文本、音频、视频等非结构化数据;结构化传统数据和非结构化新数据一起构成了企业的大数据。目前业界对大数据还没有统一的定义, 但各大研究机构与国际组织对大数据的定义都至少包含这2层意思:一是要能对大体量、多类型的数据进行快速的处理, 二是在成本可接受的前提下从大数据中提取有用的价值。概括的说, 企业的大数据具备“4V”的特征:超量 (Volume) , 需要存储的数据量越来越大;多样 (Variety) , 存储的数据类型种类越来越多;高速 (Velocity) , 数据处理速度与应用速度要求越来越快;价值 (Value) , 从低密度的数据中提取有价值的信息。因此, 在技术层面上面临3大挑战: (1) 海量数据存哪里, 才能既满足高效率存储和访问的需求, 又使存储成本可控制? (2) 如何满足海量数据的高并发、实时动态获取和更新数据? (3) 如何保障数据库系统的高可扩展性和7*24小时不间断服务的高可用性需求?目前有两条技术解决路线:一是将传统关系型数据库系统进行整合升级, 如Oracle、EMC等企业设计了采用Shared-Nothing与MPP体系架构的数据库一体机作为解决方案;二是专门设计了No SQL数据库系统, 以Apache的Hadoop、IBM Pure Data为代表的大数据平台为主要的解决方案。

三、关系型数据库系统与大数据技术平台的比较

3.1关系型数据库如何应对大数据

工程师们对关系型数据库系统进行升级与优化, 通过分库、分表, 缓解数据增长压力;采用主从数据库分离、读写分离思路, 缓解写压力, 增强读库的可扩展性;采用主从结构Master-Slave, 增强读库的可扩展性, 并采用MMM (Master-Master Replication Manager for My SQL) 技术来解决分布式存储问题。在产品支持上主流数据库厂商纷纷推出数据库一体机产品, 如Oracle Exadata、IBM Netezza、EMC Green Plum等。

数据库一体机的核心是SQL体系, 可以兼顾企业中OLTP和OLAP两类系统的应用要求, 但这条技术路线仍有瑕疵:如分库、分表受业务规则影响, 维护变得十分复杂, 系统数据访问层代码需要大量修改;Master-Slave架构在实时性很高的场合Slave实时性保障存在瓶颈, 在高可用性上Master容易产生单点故障;MMM本身扩展性差, 一次只能允许一个Master写入, 只能解决有限数据量下的可用性。

3.2大数据技术如何应对大数据

相对于传统关系型数据库的行存储模式, 大数据技术采用列存储模式满足海量数据的高效存储和访问要求, 以No SQL体系的非关系型数据库服务器架构应用而生。其中Hadoop是一个典型代表, 海量的数据交给Hadoop处理后, Hadoop提供一个分布式文件系统 (HDFS) 及分布式数据库 (Hbase) 用来存储或部署到各个计算点上, 最终在内部采取Map Reduce的模式对其数据进行分布式并行计算与合并处理, 然后输出处理结果。

No SQL数据库大都只是提供了海量数据的分布式存储与基于索引的快速读取机制, 对复杂Join的操作性能低下, 因此对OLTP系统的支持成为它的短板。

3.3两种技术的异同点比较

从硬件集成角度上看, 大数据技术与数据库一体机基本相同。两种技术最核心的区别在软件体系上, 具体比较如下表:

四、企业大数据的存储架构建设思路

针对企业大数据的存储与应用需求, 大数据技术与关系型数据库架构技术是相辅相成的, 而不是互相替代的。它们针对不同的应用场景设计, 可以相互补充与合作。

数据库一体机较适用于存储关系复杂的数据模型, 如企业核心业务数据, 并且需要限制为基于二维表的关系模型;同时适合进行一致性与事务性要求高的计算, 以及复杂的BI计算。大数据技术则更适合于存储较简单的数据模型, 并且可以不受模式的约束, 因而其可存储管理的数据类型更丰富。大数据技术同时适合进行一致性与事务性要求不高的计算, 如No SQL的查询操作等, 以及对超大规模海量数据的、批量的分布式并行计算。

因此, 在“互联网+”时代, 当前企业的大数据存储架构建设思路是采用大数据平台与关系型数据库系统混搭的架构。具体来讲:业务支撑系统仍然部署在关系型数据库上, 传统关系型数据库技术还是作为企业数据仓库的主流技术, 它存储与计算最主要的、有重大价值的企业关键业务数据。大数据技术可以处理企业内海量的、模型简单、类型多样的非结构化与半结构化数据, 其处理结果可以被直接使用, 也同时可以被当成是新的输入存储到企业级数据仓库中, 这时大数据技术相当于是面向大数据源的新的ETL手段。

五、结束语

进入“互联网+”时代, 在一个信息爆炸的环境下, 企业更需要搭建合适的企业大数据存储架构来存储好、管理好和使用好这些数据, 以真正将企业的数据资产变成企业的核心竞争力。

摘要:本文通过分析“互联网+”时代传统企业互联网化转型, 企业大数据在“存”、“管”、“用”技术支撑上面临的问题, 比较关系型数据库系统与大数据技术平台的应用特点, 提出了企业大数据的存储混搭架构思路。

基于云存储的数据备份研究 第7篇

信息时代, 随着互联网的广泛普及和网络技术的迅速发展, 各种数据呈爆炸式增长, 而社会对数据的依赖性也随之加强。同时, 黑客活动日益猖獗、病毒泛滥、系统漏洞百出等因素, 使得数据面临着极大威胁。数据一旦损坏或丢失, 将会带来不可估量的损失。通过数据备份, 可以有效地保护数据, 减少数据灾害带来的损失。

传统的数据备份软件, 一般需要花费高代价购买存储设备, 而且其面对海量数据, 越来越难以应对。近年来, 作为一种商业计算模型, 云计算以其大规模、虚拟化、可靠性的优势, 迅速发展和普及起来。随着软件即服务和云计算的出现[1], 云备份服务逐渐成为业内一个热点话题, 其核心理念是通过服务实现客户价值[2]。

1 相关概念

1.1 数据备份

作为容灾的基础, 数据备份是指将数据复制到其它存储介质上, 在数据出现问题后, 可以通过备份来恢复之前正常的数据。与数据拷贝不同, 数据备份为降低备份数据所占用的额外空间, 一般需要转变数据格式, 进行压缩等操作。与普通文件备份不同, 数据备份需要通过应用插件与数据库协调, 以保持备份数据的一致性和完整性。简言之, 备份等于拷贝加上管理。

根据存储介质的不同, 数据备份可分为死备份和活备份。顾名思义, 死备份将数据备份到不可擦写的存储介质上, 以防错误删除和别人有意篡改;活备份将数据备份到可擦写的存储介质上, 以便更新和修改。根据备份的时机不同, 数据备份可分为冷备份和热备份。冷备份是当系统处于停机或维护状态下备份数据, 而热备份是当系统处于正常运转状态下备份数据, 由于备份过程中数据可能随时在更新, 所以相对真实数据有一定的滞后性。

1.2 云计算与云存储

云计算是分布式处理、并行处理和网格计算的发展, 通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序, 再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户[3]。云是一个包含大量可用虚拟资源的资源池, 它通常由基础设施提供商按照服务等协议采用用时付费的模式开发管理, 而这些资源根据不同负载动态的重新配置, 以达到更优化的资源利用率[4]。云存储是在云计算概念上延伸和发展而来的一个新概念。云存储是云计算的存储部分, 即虚拟化的、易于扩展的存储资源。用户通过云计算使用存储资源, 并按使用付费[5]。

云存储架构[6]如图1 所示, 从下往上依次分为存储层、基础管理层、应用接口层和访问层。最基础的存储层包含大量的存储设备, 它们分布在不同地域, 彼此之间通过广域网、互联网或光纤通道网络连接在一起。通过基础管理层的集群网格等技术, 实现存储层中多个设备的协同工作, 以对外提供更好的服务。各种运营商根据实际业务需求, 开发对应的应用程序接口, 为客户提供所需要的应用程序服务。客户经过授权后, 通过标准的公用应用程序接口登录云存储系统, 享受云存储服务。

2 数据备份策略

数据备份常用的策略有3种, 分别是完全备份、增量备份和差异备份。

2.1 完全备份

完全备份是将某个时间点上的所有数据进行一个完全拷贝。如图2 (1) 所示, 一周内, 完全备份每天将所有的数据进行备份, 随着时间的推移和数据的增加, 备份的数据量会越来越大。每个全备份数据中存在大量的重复数据, 占用存储空间大, 而且每次备份大量的数据, 需要的时间长, 但当需要进行数据恢复时, 一个完全备份就可以恢复丢失的数据, 加快了数据恢复的速度。

2.2 增量备份

增量备份在一次完全备份或增量备份后, 以后每次备份只备份与前一次相比增加或修改的数据。如图2 (2) 所示, 每周第一天进行一次完全备份, 接下来六天只对当前新的或修改的数据进行备份。每天的备份数据都没有重复, 所以备份的数据量不大, 需要的时间也短。但是, 第一天的完全备份和接下来六天的增量备份像一条链条环环相扣, 一旦其中一环出现问题, 数据将无法恢复。

2.3 差异备份

差异备份在一次完全备份后到进行差异备份的这段时间内, 对那些增减或者修改的数据进行备份。如图2 (3) 所示, 一周内第一天进行一次完全备份后, 在接下来的六天里, 再将当天所有与星期天相比新的或修改过的数据进行备份。差异备份避免了完全备份在和增量备份缺陷的同时, 又具备了它们各自的优点:备份过程中重复数据少、时间短、节省存储空间, 数据恢复只要最近的一次完全备份和差异备份即可, 方便快速。

3 基于云存储的数据备份

3.1 云端设计

面对现今海量的数据, 传统的数据分析软件显得力不从心, 新的海量数据引擎应运而生, Hadoop就是其中的佼佼者。Hadoop是Apache下的一个开源云计算基础框架, 是在由大量计算机组成的集群中运行海量数据的分布式计算, 其核心是云计算组件MapReduce和分布式文件系统HDFS。HDFS是专门针对廉价硬件设计的分布式文件系统, 为分布式计算模式下的数据存储提供底层支持, 在软件层内置数据容错能力, 提供高吞吐量来访问应用程序的数据, 可应用于云存储系统的创建开发[7]。

根据云存储的分层模型, 云端服务器基于Hadoop开发, 其功能模块[8]如图3所示。云端通过数据通道从客户端获取数据缓存于数据模块中, 并接受控制通道传来的控制指令。经过数据传输模块, 根据接收到的控制指令对数据进行相关处理, 包括数据压缩、数据加密和数据重复删除。数据压缩技术通过各种机制来降低备份数据的大小, 数据重复删除技术删除多次备份产生的大量冗余, 都是为了节省存储空间。数据加密技术降低了数据丢失和被盗的风险, 同时也降低了备份的速度, 这有客户自由选择, 可选择是备份速度优先还是数据安全优先。在数据一致性检查通过后, 将数据存放在虚拟化的存储中, 可以通过存储介质管理模块来管理, 为数据分配存储空间。

3.2 客户端设计

开发商通过云存储的应用接口层, 为需要数据备份和恢复的客户提供相关应用程序。客户通过应用程序, 发出数据备份或恢复的请求即可, 其它操作都将由云端完成。

3.3 数据组织结构

存储于云端的数据组织结构如图4所示。顶层是域, 服务器上可以包含多个域, 即可以保存多个客户的数据备份, 并以域的文字建立文件夹。一个域文件夹对应一个客户。

一个域可包含多个备份计划, 根据客户需求, 不同的备份计划保存客户所选择的不同数据, 每个备份计划有一个唯一的ID:Plan+ 创建时间, 时间精确到秒, 如Plan20120601080023表示是2012年6月1日8点0分23秒生成的备份计划。

一个备份计划有多个备份任务, 分为全备份、增量备份和差异备份3种。每个备份计划的第一个备份任务必须是全备份, 以后的增量备份和差异备份以该备份为基础。每个备份任务也有一个唯一的ID:备份类型+ 创建时间。FB、IB和DB分别表示完全备份、增量备份和差异备份。

每个备份任务都包含一个头文件和多个数据文件。头文件为索引信息, 用来保存数据的元信息, 包括文件名称、路径、属性等信息;数据文件保存实际的备份数据。

3.4 数据完整性验证

数据完整性和安全是用户最关心的问题之一。常见的数据完整性检查主要有基于访问的、基于挑战和应答的方法。基于访问的方法需要频繁访问服务器的数据, 给服务器增加额外负担而且占用网络带宽;基于挑战和应答的方法由客户端提出挑战某些数据块、服务器来生成数据完整性的证据, 最后交由客户端来判断结果。

Atenises等人[9]提出可证明的数据拥有 (Provable Data Possession, PDP) 模型, 主要研究静态数据存储, 缺少对数据动态存储的支持。Zhu等[10]提出一种分层混合云模型, 能有效利用不同云存储服务商提供的云资源来协作存储用户的数据, 同时将这个模型分为3层:解释层、服务层和存储层。这种模型在一定程度上增加了系统可靠性的同时, 也增加了额外的存储开销。

文献[11]基于PDP模型, 提出了一种适用于云存储的数据完整性验证协议。客户端在把数据文件及其校验标签上传到云存储服务器后, 通过随机抽查的方式, 让服务器生成指定数据块的验证证据并返回, 由客户端判断数据文件的完整性。对于较小的文件, 可以通过检查所有数据块来保证数据的完整性;而对于较大的文件, 则可以通过检查部分数据块以一定的概率来保证数据的完整性, 从而减少系统资源和网络带宽的消耗。

3.5 云存储优势

作为一个多存储设备、多应用、多服务协同的工作集体, 云存储并不是要代替传统的专用存储设备, 而是为了应对爆发式增长的数据与带宽限制而产生的新型存储系统, 具有以下优势:

(1) 云存储提供完整的数据服务, 用户可使用其智能的备份软件并获得合适的存储容量, 且无需专人负责维护数据。

(2) 云存储不受地理位置的限制, 在有网络的地方, 用户都可通过互联网获取服务, 实现异地备份。

(3) 云存储仅对数据进行备份, 不会任意篡改数据, 用户不必担心失去对原始数据的控制。

(4) 云存储具有价格上的优势, 按照使用收费。对多数企业而言, 与用户自行购置存储设备建立数据中心相比, 云存储所需的成本低很多。

4 结语

随着云计算的发展和数据的海量增长, 基于云存储的数据备份越来越受到欢迎。考虑到数据安全性和数据量大的问题, 企事业单位可以考虑建立自己的云储存系统, 即私有云。而对于个人用户, 因为数据量小, 在线的云备份系统是一个不错的选择。微软、谷歌、金山等公司都推出了自己的云存储服务, 供个人和企业选择使用, 按照数据量收费, 并提供智能的数据备份和恢复。

作为信息领域的另一个研究热点, 人工智能具有自学习、自适应的特性。可以考虑将人工智能应用到数据备份中, 根据先验知识和自学习积累的经验, 只对需要备份的重要数据进行备份, 尽量减少冗余备份。对于损坏的数据块, 自动屏蔽先不予备份并标记, 在使用之前将此数据块恢复后再进行备份, 这样可以有效保证数据的完整性。但是人工智能先验知识的确定和如何通过自我学习获取经验, 则是一个难题, 有待后续深入研究。

参考文献

[1]NAMJOSHI J, GUPTE A.Service oriented architecture for cloud based travel reservation software as a service[C].Proceedings of2009 IEEE International Conference on Cloud Computing (CLOUD) , 2009:147-150.

[2]HE ZHONGLIN, HE YUHUA.A Study on cloud backup technology and its development[J].Communications in Computer and Information Science, 2011:1-7.

[3]刘鹏.云计算[M].第2版.北京:电子工业出版社, 2011.

[4]陈全, 邓倩妮.云计算及其关键技术[J].计算机应用, 2009, 29 (9) :2562-2567.

[5]云存储.维基百科[EB/OL].http://en.wikipedia.org/wiki/Cloud_storage.

[6]云存储架构详解.中国云计算网[EB/OL].http://www.cloudcomputing-china.cn/Article/luilan/201003/564.html.

[7]杜勇.基于HDFS的云数据备份系统[J].吉林大学学报, 2012, 50 (1) :101-105.

[8]叶云.基于分布式架构的数据备份与恢复系统的设计与实现[D].长春:吉林大学, 2008.

[9]ATENISES G, BURNS R, CURTMOLA R.Provable data possession at untrusted stores[C].Proceedings of the 14th ACM conference on Computer and communications security, 2007:598-609.

[10]ZHU Y, WANG H, HU Z.Efficient provable data possession for hybrid clouds[C].Proceedings of the 17th ACM Conference on Computer and Communication Security, 2012:756-758.

企业数据存储和备份系统的架构探析 第8篇

随着信息化应用程度的深入, 企业的信息化已经渗透了各个领域, 企业的数据存储与备份在快速增长, 如何做好数据保护, 对于高效性、有效性以及可靠性的建设显得尤为重要。数据备份、灾难恢复和存储资源管理等理念近年来得到企业的广泛认同和接受。构建一个“集中存储、集中备份、高度安全、便于维护”的系统架构, 创建基于数据并以企业的存储能力为动力的基础架构已成为企业成败的关键。

2 数据存储的架构探析

目前, 企业数据存储的应用架构主要有DAS (直连式存储) 、NAS (网络接入存储) 和SAN (存储区域网) 三种模式。DAS存储是一种传统的数据存储方式, 企业在考虑未来存储系统建设时应该采用网络存储技术, 即SAN或NAS或IP SAN技术, 通过网络存储实现信息的有效共享, 建设一个高性能, 高可靠, 高扩展, 高兼容的信息存储基础架构。

2.1 SAN架构

基于FC (光纤通道协议) 的专有数据高速传输网络SAN, 是近年兴起的一种全新存储理念。SAN是采用通过光纤通道交换机连接存储阵列和服务器主机, 建立专用于数据存储的区域网络, 与企业现有局域网进行连接, 使所有连接到网络上的应用主机均可以共享到SAN网络上的存储设备, 数据存取通过SAN网络在相关服务器和后台的存储设备之间高速传输, 对于LAN的带宽占用几乎为零, 而且服务器可以访问SAN上任何一个存储设备, 提高了数据的可用性, 实现了数据的高速存储与数据备份。SAN存储区域网络是目前企业大数据量管理的主流应用技术, 通过SAN架构, 巨大的、集中的磁盘存储池可以被多个主机共享, 并根据需要可以从共用存储池分配出新的卷, 极大地提高了存储资源的利用率, 其具有的优越扩展性能、简化的存储管理功能以及优化资源、服务共享等, 已被广大企业所接受与应用。

2.2 NAS架构

NAS是传统网络文件服务器技术的发展延续, 是代替传统网络文件服务器市场的新技术新产品, 它提高了文件系统的处理能力、可靠性、访问连续性和可扩展性, 可以满足企业用户对性能及可靠性的需求, 同时也是用来帮助服务器完成一些文件任务和I/O的操作。NAS是通过一个公共接口来实现空间的管理和资源共享, 是共享与独享兼顾的数据存储池。对于NAS来说, 可以减轻服务器负担, 分离网络设备中的服务器和存储, 让二者独立进行, 使服务器有更多的计算资源来处理用户的各种应用和业务。在LAN环境下, NAS还可实现异构平台之间的数据级共享。

2.3 SAN与NAS融合是发展趋势

从技术层面上讲:SAN与NAS是可以互补的。SAN的关键是高性能的光纤通道交换机和光纤通道网络协议, 它具有集中、高效、高扩展性等优点, 可以广泛用于数据库应用、集中管理的存储备份方案、高可靠性存储方案、远程灾备应用等关键任务。而NAS采用的是传统以太网和IP协议, 当进行文件共享时则利用了NFS和CIFS以沟通NT和UNIX系统, 由于NFS和CIFS都是基于操作系统的文件共享协议, 所以NAS的性能特点是进行小文件级的共享存取。

从应用层面上讲:SAN与NAS的互补优势更为明显, 这也是业内提倡SAN和NAS融合的主要出发点。用户可以采用SAN运行关键应用, 如数据库、备份等, 以进行数据的集中存取与管理;而采用NAS作为需要经常交换的文件存储与管理, 以降低整体存储的成本投入和提高系统性能。

然而, SAN和NAS并非是完全对立的存储技术, 为保证数据在不同硬件平台、不同操作系统下流转的畅通, 存储架构的开放性、存储硬件的兼容性、存储软件的适应性归结在一起, 就表现为存储的融合。SAN提供速度, NAS提供文件处理时的协作性, NAS更适合文件级的数据处理。尽管二者存在根本特性上的差异, 但将NAS的传统共享优势和SAN的高性能等优势结合在一起, 却为关键存储系统的实施提供了完美的解决方案, 有效地解决了企业对数据共享和快速访问的要求。随着SAN和NAS技术的不断成熟, SAN和NAS会日益趋向融合, 并且会有很多的因素来加速二者融合。

3 数据备份及方式探析

3.1 数据备份

数据是企业最为重要的信息资源和宝贵财富, 企业的运营无时无刻都离不开数据。将整个系统数据或部分重要数据从应用主机的硬盘或阵列中复制到其他存储介质中, 是确保企业信息系统持续正常进行的重要举措, 是关系到企业能否在竞争激烈的商场中立于不败之地的关键环节。对于数据备份, 企业应根据自身的数据备份类型、备份点所运行的环境、备份数据量大小以及数据库是采用在线进行备份还是离线进行备份等问题来制定相应的备份及恢复方案, 从而确保在应用系统发生问题时, 以最短的时间恢复数据及系统的正常运行。

3.2 备份方式

数据备份大致分为三种方式:即完全备份、增量备份和差异备份。完全备份是对整个系统进行完全备份, 包括系统和数据;增量备份是对于上一次备份后, 所有发生变化的文件进行备份, 与完全备份比较, 增量备份较为节约系统时间和存储空间;差异备份是对于上一次完全备份后发生变化的所有文件进行备份。企业在进行数据备份时, 应根据存储介质容量和系统具体情况, 选择合适的备份方式。在做备份策略时, 应根据数据的备份优先级别及备份周期来进行选择, 选择优先级高的数据进行一周一次全备份, 同时做好每天的增量备份。对于优先级别低的数据, 可采用两周或者一个月进行一次全备份, 同时一周进行一次增量备份。

4 结语

企业的数据存储及备份系统的分析具有一定的普遍性, 随着企业信息化的建设推动, 数据存储和备份系统终将得到广泛的应用。企业应结合自身的特点, 以发展的眼光、从全局的角度进行科学规划, 利用数据存储技术, 实现数据的合理存储与备份是保证企业信息数据安全的保障。

摘要:目前企业的数据价值要比软硬件设备本身的价值高出许多, 数据一旦丢失, 损失不可估量。为了有效地保护企业宝贵数据资源的安全, 对企业数据存储和备份系统的可靠性、可用性以及数据备份和容灾整体能力应该进行有效地分析, 使其得以更好的实现。

关键词:企业,数据,存储,备份

参考文献

[1]肖平.企业数据存储与备份[J].中国科技信息, 2009 (12) .

[2]赵为民.存储常识:企业如何选择适合的存储备份[J].网络与信息, 2012 (5) .

大数据时代的存储备份 第9篇

随着计算机和网络技术的飞速发展,数据已呈爆炸性的增长。硬件故障、软件错误、人为误操作、病毒以及自然灾害等常常引起数据的丢失,处于信息时代,数据已经成为最宝贵的财富,人们对数据的高可用性、安全性提出了更高的要求。因此如何保证数据的安全性、完整性、高可用性成为信息时代的关键问题。

数据备份是为防止系统故障或其他原因导致的数据丢失,而将部分或全部数据从源存储设备复制到其他存储设备的过程。随着存储信息容量的不断增加,出现了新型的存储区域网络结构,存储区域网络是一种专注于信息存储和访问的高速子网,它是传统的SCSI技术与网络技术相结合的产物,目前主要使用光纤通道技术为网络和I/O建立一个标准集成,在存储区域网络中出现了两种新型的数据备份工作模式,即LAN-Free模式和Server-Free模式。

2 传统数据备份技术

2.1 基于主机的备份模式

传统的数据备份方式是在每个服务器的上直接挂载内置或外置的磁带机,每个服务器备份自己的数据,各个服务器之间互不干扰,如图1所示。

这种备份模式数据传输速度快,备份管理简单;由于各服务器直接操作各自的备份设备,导致备份设备不能共享,需要大量的硬件投资,另外由于各个业务服务器之间操作系统的平台的不同,可能会使不同平台选用不同的备份软件,使得备份设备和备份软件之间存在兼容性问题。

2.2 基于局域网的数据备份模式

在局域网备份模式下,局域网中增加一台备份服务器,将备份设备直接连接在备份服务器上,在备份服务器上安装备份软件服务端的软件,在各个业务服务器上安装备份软件客户端软件;这样业务服务器将需要备份的数据从源存储设备通过局域网传输到备份服务器,由备份服务器将需要备份的数据写入备份设备中,如图2所示。

这种备份模式下可节省投资,实现目标备份设备的共享;但在数据备份过程中加重了网络的负载量,数据备份和恢复受制于网络带宽,同时业务服务器和备份服务器之间的TCP/IP协议方面的开销也影响了备份系统的性能。

3 基本原理

基于光存储区域网络的数据备份系统主要利用了采用光纤通道技术实现的存储区域网络的高速访问特性,将数据存储与数据处理分隔开,使得备份软件通过网络数据管理协议协调源备份系统、目标备份系统、备份执行系统之间的操作,减少了操作系统的干预,提高了系统的吞吐量,数据直接在独立的存储区域网络内传输,使备份数据不再受制于网络带宽,业务服务器不再参与数据备份过程中的数据流传输,使得业务服务器负载量大幅度降低。

3.1 实现步骤

LAN-Free备份模式中,业务服务器与存储设备之间通过存储区域网络连接在一起,数据存储与数据处理被分隔开,每个业务服务器可以通过存储区域网络访问相应的存储设备。当执行数据备份时,备份软件的客户端与备份软件服务端所在的服务器通过局域网传输建立连接的控制信息,分配好相应的设备后,业务服务器可通过存储区域网络将需要备份的数据写入到目标存储设备中,由此可知LAN-Free数据备份是一个“以服务器为核心的两阶段传输行为”,其连接方式如图3所示。

(1)通过存储区域网络将各个存储设备与业务服务器连接起来,将网络数据管理协议(NDMP,Net Data Management Protocol)引入LAN-Free备份系统,网络数据管理协议是一种客户机/服务器模式的通信协议。

(2)选择一台应用服务器安装NDMP客户端备份软件,在需要进行数据备份的服务器上叠加SCSI接口、数据接口、配置接口等NDMP协议的服务接口,以实现NDMP数据服务器。

(3)在备份磁带设备上叠加磁带机接口、数据接口、连接接口、配置接口等NDMP协议的服务接口,以实现NDMP磁带机服务器。

(4)进行数据备份时,NDMP客户端通过局域网与NDMP磁带机服务器建立连接。

(5)NDMP磁带机服务器与NDMP客户端协商版本号。

(6)NDMP磁带机服务器对NDMP客户端进行验证。

(7)NDMP客户端向NDMP磁带服务器发送消息,使其打开一个独享的磁带驱动,用于随后的数据备份。

(8)NDMP客户端通过局域网与NDMP数据服务器建立连接并进行验证。

(9)NDMP客户端获得NDMP数据服务器与NDMP磁带机服务器支持的连接类型,并选择一个NDMP数据服务器和NDMP磁带机服务器都支持的连接方式,使NDMP磁带服务器与NDMP数据服务器建立连接。

(10)NDMP磁带机服务器创建一个数据连接点,并监听连接。

(11)NDMP客户端上运行的备份软件启动备份,同时通过局域网向NDMP数据服务器发消息通知它需要备份的数据内容、参数和磁带机服务器的数据移动连接点。

(12)在数据备份的过程中,数据直接由NDMP数据服务器发送数据经由存储区域网络以NDMP的格式写入磁带设备中,同时NDMP客户端的运行备份软件接收来自NDMP数据服务器和NDMP磁带服务器的参数以监控备份过程。

(13)最后,备份成功完成,NDMP数据服务器关闭与磁带机服务器的连接并通知NDMP备份客户端的备份软件,NDMP客户端的备份软件分别向NDMP数据服务器和NDMP磁带机服务器发送终止消息,一次完整的数据备份过程结束。

在LAN-Free备份模式中,仅有连接控制流在局域网中传输,而主要的数据传输发生在存储区域网络内部,使整个数据备份过程不再受网络带宽的瓶颈的影响,同时独立的存储网络节省了数据传输过程中TCP/IP协议的开销;但是在整个备份系统中,业务服务器仍然参与了数据备份中的数据传输,在备份数据量比较大时,数据备份占用了业务服务器宝贵的CPU处理时间,且整个LAN-Free备份系统的实现成本较高。

3.2 实现步骤

Server-Free备份模式是一个全新数据备份方法,其本质上是对LAN-Free备份模式的一种延伸,将业务服务器通过存储区域网络与各存储设备连接起来,引入NDMP协议协调备份系统中各模块的操作。在Server-Free备份模式中,业务服务器与存储设备之间通过光纤通道交换机进行连接,在数据备份的过程时,服务器只需要协调相应的连接,备份数据通过数据迁移器直接从源存储设备传输到目标存储设备,其连接方式如图4所示。

(1)在各个业务服务器上安装NDMP协议客户端的备份软件。

(2)在存储区域网络中的磁盘设备上叠加SCSI接口、数据接口、连接接口、配置接口等NDMP协议服务接口,以实现NDMP数据服务器。

(3)在磁带设备上叠加磁带机接口、数据接口、连接接口、配置接口等NDMP协议服务接口,以实现NDMP磁带机服务器接口。

(4)进行数据备份时,运行在业务服务器上的NDMP客户端通过存储区域网络向NDMP磁带机服务器发送连接请求。

(5)建立NDMP连接后NDMP磁带机服务器与NDMP客户端协商版本号,同时验证NDMP客户端。

(6)NDMP客户通知NDMP磁带机服务器分配相应的磁带驱动器,供其后的数据备份之用,接着NDMP客户端与NDMP数据服务器建立NDMP连接。

(7)此时NDMP客户端获取NDMP磁带机服务器与NDMP数据服务器都支持的连接方式,使NDMP磁带机服务器与NDMP数据服务器建立NDMP连接。

(8)业务服务器上的NDMP客户端启动数据备份,同时向NDMP磁带机服务器发送一个拷贝命令。

(9)收到命令的NDMP磁带机服务器向叠加在磁盘上的NDMP数据服务器发出一个读命令,并在拷贝命令中指定命令参数如磁盘设备号及块号等信息。

(10)磁盘设备上的NDMP数据服务器在收到读命令后,通过存储区域网络将指定的数据块送到磁带库。

(11)数据移动完成,NDMP磁带机服务器通过存储区域网络将拷贝命令的完成情况返回给业务器上的NDMP客户端。一次完整的数据备份完成。

Server-Free备份系统不仅减轻了LAN的负担,同时也使业务服务器对备份过程的干预减到了最小,节省了业务服务器的CPU周期和I/O总线的带宽,从而使备份过程的可靠性和备份系统的性能。

4 课题特点

4.1 迫切需要

基于局域网数据备份技术的缺点越来越明显,在实际应用过程中,加重业务服务器的负载量,严重影响了局域网的网络的性能。随着存储区域网络技术的成熟,实践迫切需求出现新技术来解决数据备份系统中的性能问题。

4.2 研究手段

通过网络仿真来模拟基于存储区域网络数据备份系统各个方面的性能,依据仿真过程中收集的数据进行分析,为选择最优方案提供可靠的数学依据,同时可以为网络建设节省投资。

4.3 实用价值

基于存储区域网络的数据备份技术减轻了服务器的负载量,提升网络的吞吐量,有效解决了数据备份过程中服务器负载量与网络带宽的问题,使整个备份系统的性能大为提升。

5 存在问题

基于存储区域网络的数据备份技术各个厂家具有不同的特点,在兼容性上存在很多问题;在存储区域网络中,构建数据备份系统投资多、成本高、难度大。基于存储区域网络的数据备份技术在数据恢复操作还需要提高。

6 研究热点

随着存储区域网络技术的进步,基于存储区域网络的数据备份技术中,LAN-Free结构的数据备份技术已经相当成熟,在实际中已经得到了广泛使用,而Server-Free数据备份技术则还需要进一步完善。

基于存储区域网络的数据备份中引入了NDMP协议,在数据备份的过程中,数据服务端是备份的源端,磁带服务端是目标端,在数据恢复时,数据服务端是目标端,磁带服务端是源端,因此从网络传输的角度看,两者提供的都是输入输出功能,严格区分NDMP的数据服务和磁带服务会影响NDMP协议的适应性。另外NDMP协议对存储设备的支持存储设备的类别还需要进一步完善,目前NDMP v5.0协议的正在修订中。

7 结语

在存储区域网络基础上引入了网络数据管理协议,设计并实现了LAN-Free备份和Server-Free备份。从系统结构和工作原理的角度看,本研究能够最大限度地减少业务服务器对数据备份过程的干预,从而可以有更多的时间来处理业务需求,同时数据备份过程中的数据传输从局域网络转移到存储区域网络的内部,降低了局域网的网络负载量。

国外的很多公司都推出了自己的产品,其产品主要有:EMC公司的EDM,Legato公司的NetWorker,Veritas公司的NetBackup,以及Crossroads Systems公司开发生产的无服务器备份产品。国内更多的是对这些产品进行代理,很少有独立研发的产品。随着存储区域网络的发展和NDMP协议的完善,可在不中断当前的在线业务实时提取要备份的数据等,基于存储区域网络的数据备份系统正逐渐成为远程容灾备份技术的主流。

摘要:从数据备份系统结构的角度,研究了传统数据备份技术的优缺点,针对现有备份技术的存在的问题,通过在存储区域网络中引入网络数据管理协议,使得存储区域网络环境下的数据备份极大减轻了网络负载量,同时业务服务器最大限度地从数据备份过程中解脱出来,从而提高了整个备份系统的性能;同时对基于存储区域网络数据备份技术研究的特点、存在的问题、研究热点和应用情况等进行了分析。

关键词:存储区域网络,LAN-Free,Server-Free,数据备份,光纤通道

参考文献

[1]林强,熊华刚,张其善.光纤通道综述[J].计算机应用研究,2006,(2):9-13.

[2]SACHS Martin W,VARMA Anujan.Fibre channel and relatedstandards[J].Communication Magazine,IEEE,1996,(8):40-50.

[3]韩双利,赵尚弘,底翔.光纤通道及其在存储区域网络中的应用[J].光通信技术,2007,(11):34-37.

[4]DNMP v4.0.http://www.ndmp.org.

大数据时代的存储备份

大数据时代的存储备份(精选9篇)大数据时代的存储备份 第1篇(1) 数据量大。互联网、物联网、云计算等技术的发展, 网络社会、数字地球、...
点击下载文档文档内容为doc格式

声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。

确认删除?
回到顶部