在Catalyst 9800上配置高可用性SSO 快速入门 指南

在Catalyst 9800上配置高可用性SSO  快速入门 指南

https://www.cisco.com/c/zh_cn/support/docs/wireless/catalyst-9800-series-wireless-controllers/220277-configure-high-availability-sso-on-catal.pdf

在Catalyst 9800上配置高可用性SSO快速入门.pdf



https://www.cisco.com/c/zh_cn/support/docs/wireless/catalyst-9800-series-wireless-controllers/220277-configure-high-availability-sso-on-catal.html


https://www.cisco.com/c/zh_cn/support/docs/wireless/catalyst-9800-series-wireless-controllers/220277-configure-high-availability-sso-on-catal.pdf


简介

本文档介绍如何在 Catalyst 9800 WLC 上以 RP+RMI 方式配置高可用性 (HA) 状态切换 (SSO)。

先决条件

要求

思科建议您了解以下内容:

  • Catalyst无线9800配置型号
  • HA SSO 指南中介绍的高可用性概念。

使用的组件

本文档中的信息基于以下软件和硬件版本:

  • Catalyst 9800-CL(v. 17.12.3)。

本文使用了与无线管理接口 (WMI) 处于同一网络的 4 个 IP 地址,以简化对控制器 GUI 的访问,但 HA SSO 配置仅需要使用其中 3 个 IP 地址。

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。

背景信息

通过无线控制器上的高可用性 SSO 功能,无线接入点 (AP) 可以与主用无线控制器建立 CAPWAP 隧道,并且主用无线控制器可以与备用无线控制器共用 AP 的镜像副本和客户端数据库。当发生切换(即主用控制器发生故障,因此备用控制器接管)时,加入的 AP 不会进入发现状态,客户端也不会断开连接。在 AP 和处于主用状态的无线控制器之间,一次只能维持一条 CAPWAP 隧道。

两个设备通过专用 RP 端口(或虚拟机的虚拟接口)组成对等连接,并且两个控制器在管理接口上共用同一 IP 地址。RP 接口用于在运行时同步批量和增量配置,并确保 HA 对的两个控制器的运行状态。此外,当使用 RMI + RP 时,备用和主用控制器都有一个冗余管理接口 (RMI),并为其分配 IP 地址,以确保网关可访问性。处于运行状态的无线接入点的 CAPWAP 状态也会从主用无线控制器同步到热备用无线控制器,这样当主用无线控制器发生故障时,无线接入点就能完全切换状态。当主用无线控制器发生故障时,AP 不会进入发现状态,而备用无线控制器将作为主用无线控制器接管网络服务。

配置

网络图

HA Network Diagram

注意:以橙色突出显示,分配给指定为WLC2的9800-CL控制器的虚拟接口GigabitEthernet 2的临时IP地址。此IP地址临时定义为WLC2的WMI,并允许访问此实例的GUI,以简化HA SSO配置。配置 HA SSO 后,系统会释放此地址,因为只有一个 WMI 用于控制器的 HA SSO 对。


配置

在本示例中,高可用性(HA)状态切换(SSO)配置在运行相同Cisco IOS软件版本的两个9800-CL实例之间,这些实例已配置有独立的WMI,且可在以下位置访问GUI:

第一个地址为IP地址10.48.39.130,称为WLC1。

第二个实例(称为 WLC2)的 IP 地址为 10.48.39.133。

除了这些IP地址外,还使用了同一子网(和VLAN)中的另外2个地址,即10.48.39.131和10.48.39.132。这两个地址分别为机箱1(WLC1)和机箱2(WLC2)的冗余管理接口(RMI)IP地址。


注意:一旦在两个控制器之间配置了HA,10.48.39.133将被释放,10.48.39.130成为我配置的唯一WMI。因此,在完成配置后,仅使用了 3 个 IP 地址,一个用于 WMI,另外两个用于 RMI。


两个设备在启动 HA 配置前的接口配置必须与本示例中提供的接口配置类似。

WLC1#show running-config | s interface

interface GigabitEthernet1

 shutdown

 negotiation auto

 no mop enabled

 no mop sysid

interface GigabitEthernet2

 switchport trunk allowed vlan 39

 switchport mode trunk

 negotiation auto

 no mop enabled

 no mop sysid

interface GigabitEthernet3

 negotiation auto

 no mop enabled

 no mop sysid

interface Vlan1

 no ip address

 shutdown

 no mop enabled

 no mop sysid

interface Vlan39

 ip address 10.48.39.130 255.255.255.0

 no mop enabled

 no mop sysid

wireless management interface Vlan39

WLC2#show running-config | s interface

interface GigabitEthernet1

 shutdown

 negotiation auto

 no mop enabled

 no mop sysid

interface GigabitEthernet2

 switchport trunk allowed vlan 39

 switchport mode trunk

 negotiation auto

 no mop enabled

 no mop sysid

interface GigabitEthernet3

 negotiation auto

 no mop enabled

 no mop sysid

interface Vlan1

 no ip address

 shutdown

 no mop enabled

 no mop sysid

interface Vlan39

 ip address 10.48.39.133 255.255.255.0

 no mop enabled

 no mop sysid

wireless management interface Vlan39


本示例中,WLC1 被指定为主控制器(即机箱 1),而 WLC2 为辅助控制器(即机箱 2)。 这意味着由 2 个控制器组成的 HA 对使用的是 WLC1 的配置,而 WLC2 中的配置将在过程结束后丢失。

第 1 步: (可选)备份控制器的启动配置文件和运行配置文件。

可能会发生不当处理并导致配置丢失。为避免这种情况,强烈建议备份 HA 配置中使用的两个控制器的启动配置和运行配置。使用 9800 GUI 或 CLI 都可以轻松完成此操作。

从 GUI:

从9800 GUI的管理>管理>备份和恢复选项卡(请参阅屏幕截图),可以下载控制器当前使用的启动和运行配置。

Backup & Restore

在本示例中,运行配置(左侧)和启动配置(右侧)均通过 HTTP 直接下载到装有用于访问 WLC GUI 的浏览器的设备上。使用Transfer Mode字段,您可以轻松调整要备份的文件的传输模式和目标。

从 CLI:

WLCx#copy running-config tftp:///run-backup_x.cfg            

Address or name of remote host []? 

Destination filename [run-backup_x.cfg]? 

!!

19826 bytes copied in 1.585 secs (12509 bytes/sec)

WLCx#copy startup-config tftp:///start-backup_x.cfg          

Address or name of remote host []? 

Destination filename [start-backup_x.cfg]? 

!!

20482 bytes copied in 0.084 secs (243833 bytes/sec)

将 替换为启动/运行配置文件要复制到的 TFTP 服务器 IP。


第 2 步: (可选)确保网络正常连接。

从两个WLC GUI或CLI,您可以执行简单的连接测试,即从两个设备ping网关和ping它们之间的设备。这可以确保两个控制器都具有配置 HA 所需的连接。

从 GUI:

可以使用 9800 GUI 的故障排除选项卡中的 Ping 和 Traceroute 工具来测试控制器之间以及每个 WLC 与其网络网关之间的连接,如下图所示。

Before the HA is Setup - Ping the Devices

Ping the Gateway

从 CLI:

WLCx#ping 10.48.39.133  

Type escape sequence to abort.

Sending 5, 100-byte ICMP Echos to 10.48.39.133, timeout is 2 seconds:

!!!!!

Success rate is 100 percent (5/5), round-trip min/avg/max = 1/1/1 ms

WLCx#ping 10.48.39.254

Type escape sequence to abort.

Sending 5, 100-byte ICMP Echos to 10.48.39.254, timeout is 2 seconds:

!!!!!

Success rate is 100 percent (5/5), round-trip min/avg/max = 1/1/1 ms



步骤3.使用RMI + RP配对类型配置冗余。

在确保每个设备之间正常连接的情况下,可以在控制器之间配置冗余。此屏幕截图显示如何从9800 GUI的Administration > Device页的Redundancy选项卡进行配置。

HA Configuration before Reboot

警告:在本例中,WLC1被指定为主控制器,这意味着这是其配置被复制到另一个控制器的控制器。确保应用正确的机箱优先级/重新编号,以便将正确的配置用于 HA 对,并且不会丢失其中的任何部分。


查看配置的字段及其用途。

冗余配置:必须启用此功能,才能在WLC之间使用冗余。

冗余配对类型:由于本指南涵盖使用RMI配置的HA SSO,因此配置的配对类型必须是RMI + RP,同时使用冗余管理接口和冗余端口。也可以选择仅使用冗余端口配置冗余。但是,如果选择RP only,则不检查网关的可达性,只检查冗余WLC状态。

机箱 1/2 的 RMI IP:这些字段将提供的 IP 地址分配给两个实例的指定冗余接口。在本示例中,机箱 1 和 2 的 RMI IP 已分别配置为 10.48.39.131 和 10.48.39.132(如前所述,详见网络图)。

HA 接口:使用虚拟设备时,可以通过不同方式配置虚拟机监控程序的虚拟网络接口卡 (vNIC) 与虚拟机网络接口之间的映射。因此,可以为 Cisco Catalyst 9800-CL 配置用于冗余的接口。根据 9800-CL 部署指南的建议,此处使用的是 GigabitEthernet3。


注意:使用物理C9800设备时,HA和RP中使用的接口是默认接口,不可配置。实际上,硬件 9800 WLC 具有独立于网络接口的专用冗余接口。


管理网关故障转移:如HA SSO配置指南中所述,此冗余方法通过定期向网关发送Internet控制消息协议(ICMP)ping来实施默认网关检查。主用和备用控制器都使用RMI IP作为这些检查的源IP。这些消息以1秒的间隔发送。

网关故障间隔:此选项表示在网关被声明为不可访问之前,网关检查必须连续失败的间隔时间。默认情况下,此选项配置为 8 秒。由于网关检查每秒发送一次,因此该默认设置表示连续 8 次未能到达网关。

本地/远程IP:这些是为机箱1和2配置的RP IP。这些IP地址自动生成为169.254.x.x,其中x.x从管理接口的最后两个八位组派生。

保持连接计时器:如高可用性SSO配置指南中所述,主用和备用机箱相互发送保持连接消息,以确保两者仍然可用。Keep Alive 计时器是每个机箱之间发送 2 条 keepalive 消息的间隔时间。默认情况下,每 100 毫秒发送一条 keepalive 消息。通常建议增加 9800-CL 上的这个值,以避免给虚拟机基础设施引入微小延迟(快照等...)时发生频繁切换

保持连接重试次数:此字段配置对等体保持连接重试值,然后它声明对等体已关闭。如果同时使用 keepalive 计时器和重试次数默认值,则当以 100 毫秒时间间隔发送的 5 条 keepalive 消息未得到回复(即冗余链路断开 500 毫秒)时,则会声明对等体关闭。


机箱重新编号:设备必须使用的机箱编号(1或2)。

在WLC2(10.48.39.133)上,机箱重新编号为2。默认情况下,机箱编号为1。RP端口的IP地址从RMI中派生。如果两个控制器上的机箱编号相同,则本地 RP 端口 IP 派生相同,导致发现失败。对机箱重新编号,以避免这种所谓的主用-主用场景。


主用机箱优先级:用于定义HA对必须使用哪些配置的优先级。优先级最高的设备为复制到另一个设备的设备。因此,优先级最低的机箱的配置会丢失。

在WLC1(10.48.39.130)上,主用机箱优先级设置为2。这是为了确保已创建的HA对中将此机箱选为主用机箱(因此使用其配置)。


完成这些配置后,使用应用按钮将配置应用于控制器。


从 CLI

首先,在用于在两个设备上配置 RMI 的虚拟接口中配置辅助 IP 地址。

WLC1#configure terminal

WLC1(config)#interface vlan 39

WLC1(config-if)# ip address 10.48.39.131 255.255.255.0 secondary

WLC1(config-if)# end

WLC2#configure terminal

WLC2(config)#interface vlan 39

WLC2(config-if)# ip address 10.48.39.132 255.255.255.0 secondary

WLC2(config-if)# end


然后,在两个设备上启用冗余.

WLC1#configure terminal

WLC1(config)#redundancy

WLC1(config-red)#mode sso

WLC1(config-red)#end

WLC2#configure terminal

WLC2(config)#redundancy

WLC2(config-red)#mode sso

WLC2(config-red)#end


配置机箱优先级(例如WLC1)将成为主控制器。

WLC1#show chassis 

Chassis/Stack Mac Address : 0001.0202.aabb - Local Mac Address

Mac persistency wait time: Indefinite

                                             H/W   Current

Chassis#   Role    Mac Address     Priority Version  State                 IP

-------------------------------------------------------------------------------------

*1       Active   0001.0202.aabb     1      V02     Ready                169.254.39.131

WLC1#chassis 1 priority 2 

WLC1#show chassis 

Chassis/Stack Mac Address : 0001.0202.aabb - Local Mac Address

Mac persistency wait time: Indefinite

                                             H/W   Current

Chassis#   Role    Mac Address     Priority Version  State                 IP

-------------------------------------------------------------------------------------

*1       Active   0001.0202.aabb     2      V02     Ready                169.254.39.131


对WLC2的机箱进行重新编号,WLC2将成为辅助控制器。

WLC2#show chassis 

Chassis/Stack Mac Address : 0001.0202.aabb - Local Mac Address

Mac persistency wait time: Indefinite

                                             H/W   Current

Chassis#   Role    Mac Address     Priority Version  State                 IP

-------------------------------------------------------------------------------------

*1       Active   0001.0202.aabb     1      V02     Ready                169.254.39.132 

WLC2#chassis 1 renumber 2

WLC2#show chassis 

Chassis/Stack Mac Address : 0001.0202.aabb - Local Mac Address

Mac persistency wait time: Indefinite

                                             H/W   Current

Chassis#   Role    Mac Address     Priority Version  State                 IP

-------------------------------------------------------------------------------------

*2       Active   0001.0202.aabb     1      V02     Ready                169.254.39.132 



最后,在两个设备上配置 RMI.

WLC1#chassis redundancy ha-interface GigabitEthernet 3

WLC1#configure terminal

WLC1(config)#redun-management interface Vlan39 chassis 1 address 10.48.39.131 chassis 2 address 10.48.39.132

WLC1(config)#end

WLC2#chassis redundancy ha-interface GigabitEthernet 3

WLC2#configure terminal

WLC2(config)#redun-management interface Vlan39 chassis 1 address 10.48.39.131 chassis 2 address 10.48.39.132

WLC2(config)#en


注意:对于GUI配置,在虚拟Catalyst 9800上,必须在可用的接口之间选择控制器使用的接口。根据建议,此处使用的是 GigabitEthernet 3,并通过 命令进行配置。chassis redundancy ha-interface GigabitEthernet 3此命令不是运行配置的一部分,但可以在实例 ROMMON 环境变量中查看 HA 使用的接口。可使用 命令查看这些变量。show romvar


步骤4.重新加载控制器。

为了组成 HA 对并使配置生效,在保存步骤 3 中进行的配置后,必须同时重载两个控制器。

从 GUI:

可以使用两个GUI的Administration Reload页面重新启动控制器,如本屏幕截图中所示。


Reboot the Devices

从 CLI:

WLCx#reload

Reload command is being issued on Active unit, this will reload the whole stack

Proceed with reload? [confirm]

注意:如果使用AAA服务器,则需要将WMI IP地址和RMI IP地址添加为AAA服务器上的AAA客户端。备用WLC始终使用其RMI IP对SSH会话进行身份验证。活动WLC使用RMI和WMI来连接到AAA服务器。


验证

HA 对的两个控制器相互发现并创建所需的 HA 对后,一个控制器(主控制器)能够从 GUI 或 CLI 监控这两个机箱。

从 GUI:

要从9800 GUI监控冗余配置,请从Monitoring > General > System页导航到Redundancy选项卡,如本屏幕截图所示。

HA Configuration after Reboot

从 CLI:

WLC#show chassis rmi  
Chassis/Stack Mac Address : 0050.568d.cdf4 - Local Mac Address
Mac persistency wait time: Indefinite
                                             H/W   Current
Chassis#   Role    Mac Address     Priority Version  State                 IP                RMI-IP
--------------------------------------------------------------------------------------------------------
*1       Active   0050.568d.cdf4     2      V02     Ready                169.254.39.131     10.48.39.131
 2       Standby  0050.568d.2a93     1      V02     Ready                169.254.39.132     10.48.39.132
WLC#show redundancy 
Redundant System Information :
------------------------------
       Available system uptime = 22 minutes
Switchovers system experienced = 0
              Standby failures = 0
        Last switchover reason = none

                 Hardware Mode = Duplex
    Configured Redundancy Mode = sso
     Operating Redundancy Mode = sso
              Maintenance Mode = Disabled
                Communications = Up

Current Processor Information :
-------------------------------
               Active Location = slot 1
        Current Software state = ACTIVE
       Uptime in current state = 22 minutes
                 Image Version = Cisco IOS Software [Cupertino], C9800-CL Software (C9800-CL-K9_IOSXE), Version 17.9.2, RELEASE SOFTWARE (fc2)
Technical Support: http://www.cisco.com/techsupport
Copyright (c) 1986-2022 by Cisco Systems, Inc.
Compiled Wed 02-Nov-22 15:12 by mcpre
                          BOOT = bootflash:packages.conf,12;
                   CONFIG_FILE = 
        Configuration register = 0x102
               Recovery mode   = Not Applicable
             Fast Switchover   = Enabled
                Initial Garp   = Enabled

Peer Processor Information :
----------------------------
              Standby Location = slot 2
        Current Software state = STANDBY HOT 
       Uptime in current state = 20 minutes
                 Image Version = Cisco IOS Software [Cupertino], C9800-CL Software (C9800-CL-K9_IOSXE), Version 17.9.2, RELEASE SOFTWARE (fc2)
Technical Support: http://www.cisco.com/techsupport
Copyright (c) 1986-2022 by Cisco Systems, Inc.
Compiled Wed 02-Nov-22 15:12 by mcpre
                          BOOT = bootflash:packages.conf,12;
                   CONFIG_FILE = 
        Configuration register = 0x102

故障排除

一次性获取 HA 相关命令

通常的 命令不包括可用于正确了解 HA 对的 HA 故障切换及其当前状态的命令。show tech wireless收集此命令的输出,通过一次操作获取大多数与 HA 相关的命令:

WLC#show tech wireless redundancy

显示命令

如需了解冗余端口的状态,可以使用以下命令。

WLC#show chassis detail
Chassis/Stack Mac Address : 0050.568d.2a93 - Local Mac Address
Mac persistency wait time: Indefinite
                                             H/W   Current
Chassis#   Role    Mac Address     Priority Version  State                 IP
-------------------------------------------------------------------------------------
 1       Standby  aaaa.aaaa.aaaa     2      V02     Ready                169.254.39.131 
*2       Active   bbbb.bbbb.bbbb     1      V02     Ready                169.254.39.132 



         Stack Port Status             Neighbors     
Chassis#  Port 1     Port 2           Port 1   Port 2 
--------------------------------------------------------
  1         OK         OK               2        2 
  2         OK         OK               1        1 
WLC#show chassis rmi 
Chassis/Stack Mac Address : 0050.568d.2a93 - Local Mac Address
Mac persistency wait time: Indefinite
                                             H/W   Current
Chassis#   Role    Mac Address     Priority Version  State                 IP                RMI-IP
--------------------------------------------------------------------------------------------------------
 1       Standby  aaaa.aaaa.aaaa     2      V02     Ready                169.254.39.131     10.48.39.131
*2       Active   bbbb.bbbb.bbbb     1      V02     Ready                169.254.39.132     10.48.39.132

此命令可显示机箱编号和冗余端口状态,有助于初步排除故障。

要验证keepalive端口上的keepalive计数器,可以使用以下命令。

WLC#show platform software stack-mgr chassis active R0 sdp-counters
Stack Discovery Protocol (SDP) Counters

---------------------------------------

Message                 Tx Success    Tx Fail       Rx Success    Rx Fail       
------------------------------------------------------------------------------
Discovery               162054        2             28            0             
Neighbor                23            3             12            0             
Keepalive               189856        1665          187970        0             
SEPPUKU                 0             0             0             0             
Standby Elect Req       2             0             0             0             
Standby Elect Ack       0             0             2             0             
Standby IOS State       0             0             4             0             
Reload Req              0             0             0             0             
Reload Ack              0             0             0             0             
SESA Mesg               0             0             0             0             
RTU Msg                 0             0             0             0             
Disc Timer Stop         1             0             2             0             

---------------------------------------

WLC#show platform software stack-mgr chassis standby R0 sdp-counters
Stack Discovery Protocol (SDP) Counters

---------------------------------------

Message                 Tx Success    Tx Fail       Rx Success    Rx Fail       
------------------------------------------------------------------------------
Discovery               14            2             19            0             
Neighbor                6             2             5             0             
Keepalive               175905        0             176196        0             
SEPPUKU                 0             0             0             0             
Standby Elect Req       0             0             1             0             
Standby Elect Ack       1             0             0             0             
Standby IOS State       2             0             0             0             
Reload Req              0             0             0             0             
Reload Ack              0             0             0             0             
SESA Mesg               0             0             0             0             
RTU Msg                 0             0             0             0             
Disc Timer Stop         1             0             0             0             

---------------------------------------

WLC#show platform software stack-mgr chassis standby R0 peer-timeout
Peer Chassis    Peer-timeout (ms)   50% Mark            75% Mark            
--------------------------------------------------------------------------
2               500                 0                   0

其他命令

可以使用以下命令在控制器的冗余端口上捕获数据包:

WLC#test wireless redundancy packetdump start 
Redundancy Port PacketDump Start

Packet capture started on RP port.

WLC#test wireless redundancy packetdump stop  
Redundancy Port PacketDump Stop

Packet capture stopped on RP port.

使用这些命令捕获的数据包保存在控制器的 中,名称为 。bootflash:haIntCaptureLo.pcap

您还可以使用此命令在冗余端口上运行保持连接测试。

WLC#test wireless redundancy rping 
Redundancy Port ping

PING 169.254.39.131 (169.254.39.131) 56(84) bytes of data.
64 bytes from 169.254.39.131: icmp_seq=1 ttl=64 time=0.316 ms
64 bytes from 169.254.39.131: icmp_seq=2 ttl=64 time=0.324 ms
64 bytes from 169.254.39.131: icmp_seq=3 ttl=64 time=0.407 ms

--- 169.254.39.131 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2025ms
rtt min/avg/max/mdev = 0.316/0.349/0.407/0.041 ms

了解更多详细信息

要查看 ROMMON 变量配置(可显示实际配置如何反映在变量上),可以使用以下命令。

WLC#show romvar
ROMMON variables:
 MCP_STARTUP_TRACEFLAGS = 00000000:00000000
 SWITCH_NUMBER = 2
 CONFIG_FILE = 
 BOOTLDR = 
 STACK_1_1 = 0_0
 BOOT = bootflash:packages.conf,12;
 LICENSE_SUITE = 
 CHASSIS_HA_IFNAME = GigabitEthernet3
 CHASSIS_HA_IFMAC = 00:50:56:8D:2A:93
 SWITCH_PRIORITY = 1
 RMI_INTERFACE_NAME = Vlan39
 RMI_CHASSIS_LOCAL_IP = 10.48.39.132
 RMI_CHASSIS_REMOTE_IP = 10.48.39.131
 CHASSIS_HA_LOCAL_IP = 169.254.39.132
 CHASSIS_HA_REMOTE_IP = 169.254.39.131
 CHASSIS_HA_LOCAL_MASK = 255.255.255.0
 RET_2_RTS = 
 LICENSE_BOOT_LEVEL = ,csr1000v:csr1000v;
 BSI = 0
 RET_2_RCALTS = 
 RANDOM_NUM = 193112462

此命令可显示机箱的优先级、RMI 和 RP 详细信息、对等体超时以及更多有用的详细信息。 

您还可以监控在WLC上运行HA SSO的进程,这两个进程是stack_mgrrif_mgr

为此,请使用命令收集指向文本文件的“永远在线”跟踪,此处的时间参数可调整为涵盖要排除故障的时间范围。 

show logging process stack_mgr start last 30 minutes to-file bootflash:stack_mgr_logs.txt 
show logging process rif_mgr start last 30 minutes to-file bootflash:rif_mgr_logs.txt


注意:请注意,当控制器充当备用时,备用WLC的服务端口已停用且无法访问。



典型场景

User Forced

如果您查看切换历史记录,可以看到用户使用命令在控制器之间启动切换时强制redundancy force-switchover显示。

WLC#show redundancy switchover history
Index  Previous  Current  Switchover             Switchover
       active    active   reason                 time
-----  --------  -------  ----------             ----------
   1       1        2     user forced            11:38:23 Central Fri Mar 10 2023

Active Unit Removed

如果您查看切换历史记录,可以看到主用设备已移除,这表示两个控制器之间的冗余端口上发生通信丢失。

WLC#show redundancy switchover history
Index  Previous  Current  Switchover             Switchover
       active    active   reason                 time
-----  --------  -------  ----------             ----------
   2       2        1     active unit removed    11:55:36 Central Fri Mar 10 2023

如果两个控制器之间的链路断开,可能会出现这种情况,但如果一个 WLC 设备突然关闭(电源故障)或崩溃,也会出现这种情况。监控两个 WLC,看看是否有系统报告表明其意外崩溃/重启,这是很有意义的。

Active Lost GW

如果您查看切换历史记录,您可以看到活动丢失GW,这表示与RMI端口上的网关失去通信。

WLC#show redundancy switchover history 
Index  Previous  Current  Switchover             Switchover
       active    active   reason                 time
-----  --------  -------  ----------             ----------
   3       1        2     Active lost GW         12:00:26 Central Fri Mar 10 2023

如果主用控制器与其网关之间的链路断开,会出现这种情况。

其他注意事项

启用备用9800的控制台访问

登录到活动WLC的CLI并运行此命令以启用对备用9800的控制台访问。否则,控制台访问被锁定到备用WLC:

WLC#conf t
Enter configuration commands, one per line.  End with CNTL/Z.
WLC(config)#redundancy 
WLC(config-red)#main-cpu 
WLC(config-r-mc)#standby console enable

适用于 Catalyst 9800-CL 的 HA SSO

在虚拟环境中,您需要接受由此引入的延迟,而 HA 并不能很好地容忍延迟。这具有合理性,因为 HA SSO 倾向于快速高效地检测任何机箱故障。为此,每个机箱会通过在 RP 和 RMI 链路上使用 keepalive 以及向其 RMI 的网关(及其 WMI 的网关,两者必须相同)执行 ping 操作来确认另一个机箱的状态。 如果遗漏了其中任何症状,堆栈将根据系统故障和网络故障处理中详述的症状(来自HA SSO指南)做出反应

当使用 Catalyst 9800 的虚拟 HA SSO 堆栈时,经常会观察到由于 RP 链路上丢失 keepalive 而发生切换。这可能是由于虚拟化环境引入的延迟造成的。

要确定 HA SSO 堆栈是否存在丢失 RP keepalive 的问题,可以使用堆栈/rif 管理器日志。

! Keepalives are missed
004457: Feb  4 02:15:50.959 Paris: %STACKMGR-6-KA_MISSED: Chassis 1 R0/0: stack_mgr: Keepalive missed for 2 times for Chassis 2
! Chassis is removed
%STACKMGR-6-CHASSIS_REMOVED_KA: Chassis 1 R0/0: stack_mgr: Chassis 2 has been removed from the stack due to keepalive failure.
! RP link is down
004469: Feb  4 02:17:28.707 Paris: %RIF_MGR_FSM-6-RP_LINK_DOWN: Chassis 1 R0/0: rif_mgr: Setting RP link status to DOWN
! Dual active detection
004470: Feb  4 02:17:28.707 Paris: %STACKMGR-1-DUAL_ACTIVE_CFG_MSG: Chassis 1 R0/0: stack_mgr: Dual Active Detection links are not available anymore

如果两个机箱都在运行,则切换会创建双主用检测,这是RP上丢包的结果。

在这种情况下,调整 HA keepalive 参数以避免这些不必要的切换会有所帮助。可以配置以下两个参数:

  1. Keep Alive 计时器:每个机箱之间发送 2 条 keepalive 消息的间隔时间。
  2. Keep Alive 重试次数:声明对等体关闭前需要丢失 keepalive 的次数。

默认情况下,保持连接计时器设置为1ms,重试次数为5。这意味着RP链路上错过5ms保持连接后,将发生切换。对于虚拟部署,这些值可能过低。如果由于丢失 RP keepalive 而导致反复切换,请尝试增加这些参数以使堆叠保持稳定。

从 GUI:

要从 9800 GUI 监控或修改 HA SSO keepalive 参数,请从管理 > 设备页面导航至“冗余”选项卡,如以下屏幕截图所示。

Keepalive Timers

从 CLI:

WLC#chassis redundancy keep-alive retries <5-10> 
WLC#chassis redundancy keep-alive timer <1-10>

除了配置这些参数,还有一种优化方法有助于解决 HA SSO 堆栈中的此类行为。对于物理设备,硬件通常只需一根电线就能将一个机箱连接到另一个机箱。在虚拟环境中,每个机箱的 RP 端口必须通过虚拟交换机 (vSwitch) 进行互连,与物理连接相比,这可能会再次引入延迟。另一种可防止因延迟而丢失 HA keepalives 的优化方法是使用专用 vSwitch 创建 RP 链路。《Cisco Catalyst 9800-CL 无线控制器云部署指南》中也有相关说明。因此,最好为 9800-CL 虚拟机之间的 RP 链路使用专用 vSwitch,并确保没有其他流量对其造成干扰。

Catalyst 9800高可用性SSO内部ACI部署

当 HA SSO 堆栈中发生切换时,新的主用机箱会使用免费 ARP (GARP) 机制更新网络中的 MAC 到 IP 映射,并确保其接收专用于控制器的流量。特别是,机箱发送GARP以成为WMI的新所有者,并确保CAPWAP流量到达正确的机箱。

变为主用状态的机箱实际上不是发送单个 GARP,而是短时间发送大量 GARP,以确保网络中的任何设备都能更新其 IP 到 MAC 映射。此突发流量会淹没ACI的ARP学习功能,因此,当使用ACI时,建议从Catalyst 9800配置中尽可能减少此突发流量。

从 CLI:

WLC# configure terminal
WLC(config)# redun-management garp-retransmit burst 0 interval 0

除了限制 9800 在切换期间启动的 GARP 突发,还建议禁用此平台上的快速切换功能。当配置了快速切换时,主用控制器会向备用控制器发送显式通知,说明它将关闭。在使用此功能时,组成 HA 堆栈的两个 WLC 之间可能存在交错流量(AP 和客户端被丢弃),直至其中一个 WLC 关闭。因此,禁用此功能有助于在进行 ACI 部署时使无线基础设施保持稳定。

从 CLI:

WLC#configure terminal
WLC(config)#no redun-management fast-switchover
caution-icon

警告:请记住,当禁用快速切换时,备用控制器仅依靠保持连接超时故障检测活动控制器何时关闭。因此,在配置时必须格外小心。

有关在ACI网络内部部署Catalyst 9800的HA SSO的注意事项的详细信息,请参阅Cisco Catalyst 9800系列无线控制器软件配置指南的控制器中部署ACI网络信息部分。

参考



1、本站资源长期持续更新。
2、本资源基本为原创,部分来源其他付费资源平台或互联网收集,如有侵权请联系及时处理。
3、本站大部分文章的截图来源实验测试环境,请不要在生产环境中随意模仿,以免带来灾难性后果。

转载请保留出处:  www.zh-cjh.com珠海陈坚浩博客 » 在Catalyst 9800上配置高可用性SSO 快速入门 指南

作者: cjh


手机扫一扫,手机上查看此文章:

一切源于价值!

其他 模板文件不存在: ./template/plugins/comment/pc/index.htm

未雨绸缪、居安思危!

数据安全、有备无患!

注意操作、数据无价!

一切源于价值!

AI智能客服 ×