防火墙之双机热备篇
为什么要在防火墙上配置双机热备技术呢?
相信大家都知道,为了提高可靠性,避免单点故障
肯定有聪明的小伙伴会想到那为什么不直接多配置两台防火墙,然后再将他们进行线路冗余,不就完成备份了吗?
答案是不可以这样,如果是路由器,这样做当然是没什么问题,但是这是防火墙,不仅要同步配置信息,而且还要同步状态信息,所以不能像路由器那样单纯的靠动态协议来实现切换,需要用到双机热备技术。
1.双机概论:目前双机热备仅支持两台防火墙设备。
2.热备概论:两台设备共同运行,在一台设备出现故障的情况下,另外一台设备可以立即替代原设备。
不仅有热备概念,还存在冷备概论。
冷备的概念:仅工作一台设备,备份一台设备,备份设备仅同步配置,并不工作,只有主设备出现故障时,再由管理员替换工作,冷备可能会造成较长时间的业务中断。
双机热备三剑客:VRRP、VGMP、HRP
VRRP --- 虚拟路由冗余协议
VRRP在一个组内可以存在多台3层设备,存在一个master和多个backup
正常产生一个虚拟IP(可以为真实接口ip)和一个虚拟MAC
默认每1s来检测一次master是否活动 224.0.0.18 TTL=1 hold time 3s
选举规则:先优先级,默认100,大优;再接口ip地址大优;
特点:切换速度快;可以使网关的IP和MAC地址不用变化;网关的切换对主机是透明的;
可以实施上行链路追踪
在网关冗余技术中,ICMP重定向是失效的;故当上行链路DOWN时,网关将不会切换;
可以定义上行链路追踪-----该配置必须在抢占开启的情况下生效,且两台设备间的优先级差值小于下调值; 若本地存在多条上行或下行链路,建议上行链路追踪配置时的下调值之和大于优先级差值----所有上行链路全down时,才让备份设备抢占;下行链路大部分down时,可以让备份设备抢占;
VGMP --- vrrp Group Management Protocol (华为私有协议)
为什么会有这个?
因为VRRP彼此是独立的,所以,一个VRRP组进行切换不会其他组同步切换,而在防火墙的双机热备场景下,上下有俩个VRRP组,需要同步切换,使用传统的上行链路监控,比肩复杂,因为要监控所有的接口。所以,设计了VGMP协议,和VRRP组进行统一的切换管理。
来VGMP是怎么玩的:
首先,在一个VGMP组中,有active组和standby俩个组。每个组里面有两个状态,一个active状态,一个standby状态。
HRP:华为冗余协议
可以同步防火墙的状态和配置信息
配置信息:策略,NAT,认证,服务等等
状态信息:会话表,server-map ,黑白名单等
but!!! HRP不能同步基本的接口和路由信息
主备的形成场景
1,FW1被设定为主设备 --- FW1中的VGMP的active组被激活,并且将上下两个VRRP组拉 入到VGMP的active组中,并且状态都是ACTIVE 2,FE2被设定为备设备 --- FW2中的VGMP的standby组被激活,并且将上下两个vrrp组拉入 到VGMP的standby组中,并且状态都是standby (VGMP组中存在优先级的概念,ACTIVE组的默认优先级是65001,standby组默认的优先 级为65000,并且,在VGMP中,所有的主都被成为active,所有的备成为standby) 3,主设备上下两个VRRP组的接口将发送免费ARP报文这就是主备的形成。
在接口出现故障时,它是怎么处理的呢?
FW1接口故障的切换场景
1,假设FW1下的接口发生故障,接口的状态会从active状态切换到initialize状态(接口故障 的一个过渡状态) 2,VGMP组感知到接口状态变化,会降低自身的优先级(每一个接口发生故障,则优先级会 降低2。) 3,FW1会向FW2发送一个状态变更的请求报文,这个报文中会包含降低后的优先级; 4,FW2收到请求报文后,发现自身的优先级高于对方的优先级,则会将自己standby组的状 态从standby切换为active状态 5,FW2的VGMP组状态发生变化,则组中的VRRP组的状态同步发生变化,都从standby切 换到active 6,FW2回复FW1应答报文,表示允许切换 7,FW1收到应答报文后,将自身ACTIVE组的状态从ACTIVE切换到standby状态,并且,其 中的VRRP组同步将状态切换到standby,不包含故障接口的状态,依旧是initialize状态 8,FW2上下两个VRRP组将发送免费ARP报文,让交换机切换MAC地址表,之后所有的流量 将从FW2通过主备故障切换场景 --- 整机故障
整机故障可以通过保活机制来进行切换,主设备发生故障,则不会发送HRP心跳报文, 备设备在超时时间内没有接收到主设备的保活包,则将会进行状态切换;(周期1s ,hold time 3s)原主设备故障恢复的场景
根据有没有开启抢占分为两种不同的情况 1,如果没有开启抢占 --- 原主设备继续以备设备的身份工作 2,如果开启了抢占负载分担场景
注意:抢占模式中,默认开启60s抢占延迟
不设置立马抢占的原因是为了防止接口动荡,一会没问题,一会有问题这种情况