LifeKeeper软件介绍
美国SteelEye公司的LifeKeeper 是一种支持多种软(WindowNT, Windows2000, 多种Linux等)、硬件平台的高性能容错软件,最多可支持16台服务器集群。Lifekeeper软件源于美国NCR公司及著名的AT&T贝尔实验室。为企业、银行、政府等的信息服务,商务服务,政务服务等提供高可用性解决方案。
LifeKeeper属于高可用容错集群软件,运行于NT、Windows 2000、Linux和NCR Unix平台。同时支持纯软件镜像方式和共享磁盘阵列柜方式,并支持远程灾难实时复制备份恢复系统。使用户的服务器、操作系统、数据库系统以及关键的数据及应用程序保持7天×24小时连续不间断,提供99.99%的高可用性。软件包括核心部分和一些针对不同应用的ARK。
LifeKeeper的关键特点
1.不用增加任何额外硬件投资,纯软件方式实现双机容错,且对备机无硬件配置要求。
2.可支持Notes、Exchange、SQL Server、Sybase、Informix、Oracle 、SAP等多种系统的应用层热恢复。
3.是全球第一套基于NT操作系统的容错软件并同时支持LINUX平台。支持远程灾难备份。
4.支持共享磁盘阵列柜和扩展镜像两种方式,给用户提供了选择上的灵活性,同时也能适应各种机型、网络结构、软件平台及应用系统。
5.LifeKeeper在扩展镜像或共享磁盘阵列任意方式下,均能实现两台服务器各自运行不同应用且相互热备份,即实现双Active运转模式。
6.使用共享磁盘阵列柜方式时,最多可以支持16个节点,远远大于其它类似系统所支持的2个节点数。
7.最大限度地保护用户端的应用连续性。用户的硬件资源(如网卡),软件资源(如NT操作系统、数据库管理系统、数据库应用系统、电子邮件系统等)均能处于LifeKeeper的保护之下,当这些被保护资源出现技术故障时,LifeKeeper可随时实施系统资源切换。如此,LifeKeeper真正实现了用户硬件或是软件资源发生故障时系统及应用层上的在线热切换。
8.LifeKeeper占用系统资源极少,不增加网络负荷,且不打扰任何具体应用系统的任何操作。
9.LifeKeeper真正实现无人值守,全自动地实现应用资源切换,且图形界面操作,简单方便。
10.自投入使用以来,已经历了大量交易高峰的实际考验,其执行效率很高且运行十分稳定可靠,全球市场占有率第一。
心跳故障检测Heartbeat:
LifeKeeper在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制.即通过每一个通信路径,在两个对
等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,LifeKeeper就把这条路径标示为失效(红色),如果你只定义了一条通信路径当LifeKeeper 把这唯一的一条通信路径标为失效时,LifeKeeper便立即开始恢复过程.然而,如果有冗余路径.LifeKeeper能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果LifeKeeper开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修理一下有故障的路径。
一般情况下LifeKeeper 只在下列事件发生时,启动系统恢复功能:
所有的通信路径故障.如果所有节点都没能收到心跳信号.把所有通信路径都标为失效,Lifekeeper开始安全检查。安全检查
失败.当所有通信路径故障时,LifeKeeper向整个网络发出安全检查信号.如果信号指出配对系统还"活"着的时候,LifeKeeper不启动Failover如果安全检查没从配对节点返回信号,LifeKeeper 就开始Failover。 因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径.
通信路径:
LifeKeeper支持在节点之间和心跳通讯中,使用如下通讯路径:
(1)socket,即套接字。你使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议。这样的硬件包括:以太网、快速
以网、令牌环网以及FDDI 或CDDI 。
(2)串行口 在LifeKeeper配置中,你应当配置有一个串行口通信路径。串口通信路径需要利用RS232的拟调解线路来与LifeK
eeper系统相连接。
(3)共享磁盘你可以定义一个共享磁盘分区来作为LifeKeeper的通讯中介。可以只使用小至1MB的分区,当然,也可以使用更
大的空间。LifeKeeper假定,当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。
例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务 所检测到,则下面之一是可能引起这一现象的原因:
服务器的RS-232卡或者端口失败\电缆失效\主服务器暂时挂起\主服务器失败,失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。
|