一次 HA 误触发导致的批量虚拟机重启复盘
背景某夜间例行网络变更后,集群中三台 ESXi 主机短暂失联,触发 vSphere HA 的虚拟机重启保护机制,导致约 40 台虚拟机被强制重启,业务出现短时中断。 排查过程首先检查 vmkernel.log 中的网络心跳记录,发现管理网络与存储网络在变更窗口内出现约 12 秒的丢包,超过了 HA 默认的主机隔离判定阈值。 12esxcli network diag ping -I vmk0 -H <isolation-address># 观察是否存在丢包或延迟突增 结合 vCenter 的事件日志,确认这批主机在心跳丢失期间被判定为”网络隔离”,触发了默认的虚拟机重启策略,而非更保守的”关机”策略。 根因 核心交换机变更时生成树重新收敛,产生短暂网络风暴 HA 隔离响应策略配置为默认值,未结合实际网络拓扑做调优 未配置独立的心跳数据存储,单一依赖管理网络判断 整改措施后续将隔离响应策略调整为”保持虚拟机开机”,并额外配置两个心跳数据存储,降低误判概率;同时把核心网络变更纳入维护窗口流程,避免业务高峰期执行。
HCI 存储池容量水位告警处理与扩容前检查
告警背景Prism Central 触发存储池容量水位告警,逻辑使用率超过 75% 阈值。在 HCI 架构下,容量规划需要同时考虑数据冗余因子和预留重建空间,不能只看裸容量。 容量计算逻辑实际可用容量 = 裸容量 / 冗余因子 - 预留重建空间。以 RF2 配置为例,需要预留至少一个节点的容量用于故障自愈重建,否则在节点故障时会出现容量不足无法完成重建的风险。 扩容前检查清单 确认新节点固件版本与集群当前版本兼容 核对新节点网络配置(VLAN、MTU)与现有节点一致 扩容前执行集群健康检查,确保无未恢复的告警 评估扩容期间 Curator 数据重平衡对业务 IO 的影响窗口 小结HCI 的容量规划本质是在冗余、性能和成本之间找平衡点,建议建立月度容量趋势报表,提前 1-2 个扩容周期规划采购,避免临时救火式扩容。
用 pyvmomi 写一个虚拟机日常巡检脚本
目标把每天人工登录 vCenter 检查的几个核心指标自动化:CPU Ready 值、内存气球回收量、孤儿快照数量,输出成一份每日巡检邮件。 核心代码片段123456789from pyVim.connect import SmartConnectfrom pyVmomi import vimsi = SmartConnect(host=VC_HOST, user=VC_USER, pwd=VC_PASS, disableSslCertValidation=True)content = si.RetrieveContent()for vm in get_all_vms(content): summary = vm.summary print(vm.name, summary.quickStats.overallCpuReadiness) 巡检维度 CPU Ready 超过 5% 的虚拟机列表,提示可能存在资源争用 内存气球(Balloon)持续回收的虚拟机,提示宿主机内存压力 超过 7 天未清理的快照,避免占用过多存储空间 后续计划下一步计划把脚本结果接入企业微信...