IBM3650双机热备方案示例
IBM3650双机热备方案示例(精选3篇)
IBM3650双机热备方案示例 第1篇
IBM X3650服务器+DS3200 SAS 磁盘柜双机热备方案
双机热备方案所需软硬件清单如下:
1、IBM X3650 服务器2台(具体配置根据需求选配)
2、IBM DS3200 磁盘柜一台(单控制器,单SAS 接口)
3、SAS HBA 卡2块(每台服务器各加一块)
4、双机模块(子卡)一块
5、SAS 连接线2条
6、双机热备软件(ROSE HA OR LIFEKEEPER)一套
DS3200/DS3400安装心得及技巧
这应该是网络上第一篇关于IBM System Storage DS3200和DS3400产品安装的非官方性文章,希望可以对大家的工作中带来帮助。
作为DS400产品的更新型号,DS3200和DS3400提供了更强的性能及灵活性,相信会成为今后一两年内的IBM低端存储产品的首选。
DS3200和DS3400均出自于LSI公司的Engenio系统(DS4000系列的大部分产品也是由Engenio为IBM协议设计及生产,去年Engenio被LSI收购)。所以设计思想和结构与DS400(Adapter公司设计)会有较大的不同,管理方式也会与DS4000系列较为接近。
DS3000系列均需要在自身上安装不少于4个硬盘。建议先装上硬盘再上电开机。
DS3000系列提供与DS4000系列类似的带内和带外两种管理方法,带外管理的默认IP地址也与DS4000一样,控制器A为192.168.128.101,控制器B为192.168.128.102。
本人比较喜欢采用带外管理,将本本网卡设至192.168.128网段后,可以ping通即可。管理口长时间未起用时需要若干分钟的时候等待管理接口工作。
在本本上安装DS3000 Storage Manager(随机附带),注意该SM与DS4000上的Storage Manager为不同程序,不可替换使用。甚至不能在一台机器上共存。
打开Storage Manager后,首先需要发现设备,可以ping通控制器后,发现工作会非常容易。
双击发现的设备就可以进入该设备的管理界面,学名叫Subsystem
Management。
Subsystem Management分为5个大项,Summary,Configure,Modify,Tools,Support。
常规的操作这里不再详述,如果你装过DS4000产品,应该对配置方法不会感到陌生。
当然Storage Manager里只提供一些常规功能,在遇到问题的时候,比如需要重置手动清零时在该程序里无法完成的,所以与DS4000产品一样,提供了Script的方式,运行Script有两种方法。方法一:在DS3000 Storage Manager 的Enterprise Manager界面里右击单击所找到的设备,选择Execute Script。方法二,在c:program filesIBM_ds3000client里找到smcli.exe程序,使用smcli ip-address-c “commandline;”的方式执行。
DS3200和DS3400都会有单控和双控两种机型。如果您购买的是单控的型号,而在安装时发现系统有类似找不到第二个控制器的电池,冗余路径丢失的错误,那是由于未将系统设置成单控工作模式所引起的,遇到这种方法,可以在Execute Script窗口下键入:
set storageSubsystem redundancyMode=simplex;
然后,选择Tools菜单下的Execute only来执行。
如果遇到需要重置系统设置的需要也可以在同样的窗口下执行:
clear storageSubsystem configuration / eventlog等。
当然如果大家有兴趣也可以进一步借助该系统了解一下更多的命令功能,相信会对进一步masting该设备有更好的帮助。
最后提供一些DS3000系列做配置时的注意事项:
1.所有的3000系列产品,包括EXP3000、DS3200、DS3400使用时,至少配置4块硬盘才可使用
2.EXP3000只能与一台服务器连接,不能连接两台服务器,所以也不支持微软的双机MSCS
3.与EXP3000连接的卡只能用MegaRAID PCI-e卡(39R8850)
4.IBM system x3650自带的SAS接口是为连接SAS磁带机准备,不能与EXP3000连接。(理论上可以,但IBM不予支持)
5.服务器与EXP3000的连接线为3m MegaRAID SAS Cable 39R6471
6.EXP3000与EXP3000扩展式的连线为SAS Cable 1m的39R6529和3m的39R6531,不可与MegaRAID线混用
7.服务器与DS3200连接的卡只能用SAS HBA PCI-e 卡 25R8060,连接线是1m的39R6529与3m的39R6
5318.DS3200每个控制器上只带一个SAS主机端口,但通过一个SAS 2-Port Daughter Card 39R6509 可以使每个控制器增加至3个端口
9.DS3200默认带4分区license 不带flashcopy和volumecopy功能,要升级分区,flashcopy及volumecopy的功能需先购买39R6540 DS3200 Software Feature Pack,然后再购买相应的功能包,也就是说39R6540是购买后续升级功能的前提。
10.服务器与DS3400的连接可以用任何标准的4Gb HBA卡,连接线就是标准的FC cable,但请注意在DS3400上需要选配4GB的SFP
11.DS3400每个控制器上带2个主机接口,没有扩充选择
12.DS3400默认带2分区License 不带flashcopy和volumecopy功能,要升级分区 flashcopy及volumecopy的功能需要先购买42C2143 DS3400 Software Feature Pack,然后再购买相应的功能包,也就是说42C2143是购买后续升级功能的前提,与DS3200的升级方法相同,但产品号不同。
方案组成:
本方案由IBM X3650服务器两台,DS3200磁盘柜一台,ROSE HA软件一套组成实现。
工作原理:
RoseHA双机系统的两台服务器(主机)都与磁盘阵列(共享存储)系统直接连接,用户的操作系统、应用软件和RoseHA高可用软件分别安装在两台主机的内部存储(硬盘)上,数据库等共享数据存放在存储系统上,两台主机之间通过私用心跳网络连接。系统主机开始工作后,RoseHA软件开始监控系统,通过私用网络传递的心跳信息,每台主机上的RoseHA软件随时监控另一台主机的状态。当工作主机发生故障时,心跳信息就会产生变化,这种变化可以通过私用网络传递到备份机的RoseHA软件。之后,RoseHA就会控制系统进行服务切换,备份机启动和工作主机一样的应用程序,接管工作主机的工作(包括提供TCP/IP
网络服务、文件共享、数据库等服务),并进行报警提示管理人员对故障主机进行维护。当维护完毕后,RoseHA可以自动或手动地将切换回原先的工作主机。也可以选择不切换,此时维修好的主机就作为备份机,双机系统继续工作。
解决方案优点:
l对服务器硬件配置要求不高,可以根据应用情况采用不同型号或配置。
l系统切换时间短,最大程度减少业务中断的影响。
l切换过程对应用程序无影响,无需重新启动或登录,做到无人值守。
l系统效率高,系统中数据读写、管理及容错由磁盘阵列来完成。而系统服务器故障监控切换处理由HA软件来完成。双机监控依靠RS232线路或专用100/1000M自适应网卡线路,既不占用主机CPU资源也不占用基础业务网络带宽,是RoseHA的特色功能,在实际的应用中得到用户的一致好评。
l支持丰富的应用配置,譬如:Oracle,SQLServer,Sybase,Exchange 等。
l硬件可采用机架式结构,便于维护管理
双机热备方案探讨 第2篇
在信息系统建设中充满安全危机,一个小小的硬件故障或误操作都有可能造成网络出现停滞或瘫痪,使业务蒙受损失。同时,信息系统建设的目标是对来自内外的业务信息、业务数据、重要信息、安全保密信息的综合有效的利用和管理,随着信息的膨胀、网络技术及产品的发展,安全性问题日趋严重,系统中断、信息的泄密、丢失、篡改、毁坏、盗用等等对所有的单位来说都是一种灾难。
目前自动化成度高,各单位对服务的安全性、可用性,依赖性变大,甚至要求24小时不允许停机,在这种情况下,服务器的双机热备就显得非常必要及迫切。从以前加大的硬件可用性,到现在的双机要备用,来保证服务器的不停机运行,是服务器高可用性的一次重大的进步。
2 需求
服务器的故障可能由各种原因引起,如设备故障、操作系统故障、软件系统故障等等。一般地讲,在技术人员在现场的情况下,恢复服务器正常可能需要10分钟、几小时甚至几天。从实际经验上看,除非是简单地重启服务器(可能隐患仍然存在),否则往往需要几个小时以上。而如果技术人员不在现场,则恢复服务的时间就更长了。而对于一些重要系统而言,用户是很难忍受这样长时间的服务中断的。
在保持应用服务运行上面有负载平衡和双机热备两个选择。但是负载平衡主要应用于访问用户数量过大的情况,对于中小企业而言会造成资源浪费,而且它只能应用在Windows系统服务中。
而决定是否使用双机热备正确的方法是要分析一下系统的重要性以及对服务中断的容忍程度,以此决定是否使用双机热备。即用户能容忍多长时间恢复服务,如果服务不能恢复会造成多大的影响。
另有一点需要强调,即服务器的故障与交换机、存储设备的故障不同,其概念要高得多。原因在于服务器是比交换机、存储设备复杂得多的设备,同时也是既包括硬件、也包括操作系统、应用软件系统的复杂系统。不仅设备故障可能引起服务中断,而且软件方面的问题也可能导致服务器不能正常工作。
还应指出的是,一些其他的防护措施如磁盘阵列(RAID)、数据备份虽然是非常重要的,但却不能代替双机热备的作用。
3 双机热备原理
PlusWell Cluster容错软件提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。PlusWell Cluster容错软件不需要任何特别的容错硬件,并访问特定节点的配置数据。PlusWell Cluster容错软件会自动地提供错误检测和现场恢复。
在出现故障的情况下,PlusWell Cluster容错软件会将保护资源自动转换到一个根据预先设定好优先权的系统。在实际进行切换用户时,会经历一个十分短暂的休眠。但是,当系统完成了切换操作后,PlusWell Cluster容错软件会在所选择的节点上自动地恢复操作。
3.1 心跳故障检测Heartbeat
PlusWell Cluster容错软件在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,PlusWell Cluster容错软件就把这条路径标示为失效(红色)。
如果只定义了一条通信路径,当PlusWell Cluster容错软件把这唯一的一条通信路径标为失效时,PlusWell Cluster容错软件便立即开始恢复过程。然而,如果有冗余路径,PlusWell Cluster容错软件能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果PlusWell Cluster容错软件开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉需要修复有故障的路径。
一般情况下PlusWell Cluster容错软件只在下列事件发生时,启动系统恢复功能:
(1)所有的通信路径故障。如果所有节点都没能收到心跳信号,把所有通信路径都标为失效,PlusWell Cluster容错软件开始安全检查。
(2)安全检查失败。当所有通信路径故障时,PlusWell Cluster容错软件向整个网络发出安全检查信号。如果信号指出配对系统还“活”着的时候,PlusWell Cluster容错软件不启动Failover。如果安全检查没从配对节点返回信号,PlusWell Cluster容错软件就开始Failover。
因而,为了减少由于潜在的通信错误所引起的不必要的系统切换,需要使用不同介质的多条通信路径。
3.2 通信路径
PlusWell Cluster容错软件支持在节点之间和心跳通信中,使用如下通信路径:
(1)socket,即套接字。使用任何的网络硬件接口,只要它能够支持TCP/IP的通信协议。这样的硬件包括:以太网、快速以网。
(2)串行口:在PlusWell Cluster容错软件配置中,应当配置有一个串行口通信路径。串口通信路径需要利用RS232的拟调解线路来与PlusWell Cluster容错软件系统相连接。
PlusWell Cluster容错软件假定当通过心跳信号检测其他服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。
3.3 网络数据镜像
与常规的双机系统相比,纯软件双机热备份系统的两台服务器之间少了公共的存储设备(通常是磁盘阵列),但是多了网络数据镜像软件Mirror。没有了公共存储设备磁盘阵列,对于某一个需要进行切换的服务而言,怎样保证其所用的数据在两台服务器上是一致的呢?这就是数据镜像软件PlusWell NT Mirror的功能所在:NT Mirror通过网络,将某一台服务器上指定路径下的数据采用同步或异步方式,镜像到另一台服务器。
镜像软件取代双机热备份系统的磁盘阵列,关键之处在于其必须与Cluster软件协同工作。当某一服务运行于服务器A时,它所使用的特定数据在服务器A上对应于一个数据集合ФA,通过NT Mirror将源数据集ФA镜像到服务器B成为目标数据集ФB,当NT Cluster将该服务程序从服务器A切换到服务器B时,它使用服务器B上的数据ФB,同时NT Mirror自动修改原来从ФA到ФB的镜像成为从ФB到ФA的镜像。对一个服务程序是这样,对多个服务程序,则一一建立服务程序与数据镜像集之间的关系。这样,无论服务程序运行于哪一个服务器,始终保证其所使用的数据在对端服务器有一份镜像存在;当一台服务器由于硬件或软件原因发生故障失效,另外一台可在保证提供自己原有服务的同时,启动失效服务器的应用程序从而取代其服务器功能。
4 双机热备方案
4.1 双机热备工作模式
双机热备份方案中,根据两台服务器的工作方式可以有3种不同的工作模式,即:双机热备模式、双机互备模式和双机双工模式。下面分别予以简单介绍。
双机热备模式即目前通常所说的active/standby方式,active服务器处于工作状态;而standby服务器处于监控准备状态,服务器数据包括数据库数据同时往两台或多台服务器写入(通常各服务器采用RAID磁盘阵列卡),保证数据的即时同步。当active服务器出现故障的时候,通过软件诊测或手工方式将standby机器激活,保证应用在短时间内完全恢复正常使用。这是目前采用较多的一种模式,但由于另外一台服务器长期处于后备的状态,从计算资源方面考量,就存在一定的浪费。
双机互备模式:是两个相对独立的应用在两台机器同时运行,但彼此均设为备机,当某一台服务器出现故障时,另一台服务器可以在短时间内将故障服务器的应用接管过来,从而保证了应用的持续性,但对服务器的性能要求比较高,配置相对要好,而且双机要求配置完全一样。
双机双工模式:是目前cluster(群集)的一种形式,两台服务器均为活动,同时运行相同的应用,保证整体的性能,也实现了负载均衡和互为备份,需要利用磁盘柜存储技术(最好采用San方式)实现共享存储。
4.2 双机热备形式
采用的是Active/Standby方式,这是传统的双机热备份解决方案,主机运行时,备机处于备用状态,当主机故障时,备机马上启动将服务接替。因备机平台没有其他的访问量,所以故障切换后用户访问速度不会有大的影响,此种容错方式主要适用于用户只有一种应用,主备机设备配置不太一样,并且用户访问量大的情况。
PlusWell Cluster提供Mirror(镜像)软件,用户无需使用较贵的Raid磁盘子系统,也不必考虑主机的距离,主服务器的数据通过Mirror软件将数据实时的复制到备用服务器上,保证主备服务器上的数据的一致性,这样完成主备服务器的双机热备功能。
增量镜像功能:PlusWell Mirror软件可以做到数据的增量镜像,当备故障停机或用户重启备机后,主机以增量方式向备机做数据的镜像,这保证的数据的安全性和用户的使用。
数据备份则通过网络由备份服务器上的备份软件Veritas Backup Exec将网络上的数据备份到介质服务器上。Bakeup Exec是高性能的Windows服务器网络数据管理解决方案。通过其他客户机/服务器设计,为跨网络的服务器和工作站提供了快速可靠的备份和恢复能力。采用VERITAS Backup Exec软件,能有效保护与管理企业内部的关键资料。
5 结语
对于日益承担企事业单位核心业务的NT网络来说,数据的高可用性和系统的连续运转能力极其重要,作为实时服器与数据保护解决方案,双机热备提供了数据的高可用性、运行系统的自动切换及最少的恢复时间。在实际应用中,该方案的成功已经得到了证实。
参考文献
[1]王达.网管员必读-服务器与数据存储.北京:电子工业出版社,2007.
[2]赵松涛.深入浅出:网络服务器配置与管理.北京:人民邮电出版社,2006.
IBM3650双机热备方案示例 第3篇
【关键字】HACMP;MQ;双机热备
【中图分类号】TP311 【文献标识码】A 【文章编号】1672-5158(2013)03-0066-01
1.双机热备技术介绍
双机热备这一概念包括了广义与狭义两种意义。从广义上讲,就是对于重要的服务,使用两台服务器,互相备份,共同执行同一服务。当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。从狭义上讲,双机热备特指基于active/standby方式的服务器热备。服务器数据包括数据库数据同时往两台或多台服务器写,或者使用一个共享的存储设备。在同一时间内只有一台服务器运行。当其中运行着的一台服务器出现故障无法启动时,另一台备份服务器会通过软件诊测(一般是通过心跳诊断)将standby机器激活,保证应用在短时间内完全恢复正常使用。
2.系统规划
2.1技术架构
如上图,为实现MQ的双机热备,需在两台主机(A机、B机)本地磁盘上安装应用软件WebSphere MQ以及HACMP软件,需在磁盘阵列上创建文件系统用于存储MQ队列管理器的数据及日志。
2.2用户及文件系统规划
A机、B机分别建立mqm用户及mqm组,且两台主机的用户及组ID须一致;A机、B机本地磁盘rootvg创建文件系统/var/mqm,磁盘阵列datavg上创建文件系统/MQHA。
3.实施步骤
3.1安装应用软件
使用操作系统管理工具simt,安装MQ以及HACMP。具体安装过程此处不做详细介绍,安装完毕后检查MQ安装路径/usr/mqm,并通过创建测试队列管理器验证安装正确性。
3.2创建队列管理器
1、下载双机部署脚本。至IBM官方网站下载MQ双机部署脚本包mc91.tar.Z,解压后获取hacmp目录下双机部署脚本,脚本以ha*命名,例如创建队列管理器,原命令为crtmqm,在该脚本包里为hacrtmqm。
2、选择一台机器A,执行mount 命令,挂载规划的文件系统。
3、建立/MQHA/bin目录,将mc91下的可执行文件拷贝到该目录下,执行chmod 755 ha*授予该目录下文件的可执行权限。
4、在共享磁盘阵列上建立/MQHA/
目录,用于存储队列管理器的数据和日志,且授权mqm用户对上述目录的读和写权限。
5、创建队列管理器。在当前的shell中设置如下的环境变量,并执行创建队列管理器的命令:
export MQHAFSDATA="/MQHA/
export MQHAFSLOG="/MQHA/
hacrtmqm
6、启动队列管理器,验证该队列管理器可以正常运行
7、拷贝机器A上面/var/mqm目录下的mqs.ini文件到当前机器下的/var/mqm目录下,执行halinkmqm命令。
8、验证在机器B上也可以对Queue Manager进行操作。
3.3配置MQ切换脚本
将MQ双机启停脚本hamqm_start
4.切换测试
4.1检验方法
A机与B机之间互为热备,可通过以下两种方式检验:
a) 手工关闭A机后,B机可正常接管;A机HA服务启动后,可正常切回。
b)拔掉A机网线后,B机可正常接管;A机插上网线后,可正常切回。
4.2检验标准
A机与B机应用可相互接管。
IBM3650双机热备方案示例
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。