Sancker.dev

发表于2026-06-28|虚拟化运维

背景某夜间例行网络变更后，集群中三台 ESXi 主机短暂失联，触发 vSphere HA 的虚拟机重启保护机制，导致约 40 台虚拟机被强制重启，业务出现短时中断。排查过程首先检查 vmkernel.log 中的网络心跳记录，发现管理网络与存储网络在变更窗口内出现约 12 秒的丢包，超过了 HA 默认的主机隔离判定阈值。 12esxcli network diag ping -I vmk0 -H <isolation-address># 观察是否存在丢包或延迟突增结合 vCenter 的事件日志，确认这批主机在心跳丢失期间被判定为”网络隔离”，触发了默认的虚拟机重启策略，而非更保守的”关机”策略。根因核心交换机变更时生成树重新收敛，产生短暂网络风暴 HA 隔离响应策略配置为默认值，未结合实际网络拓扑做调优未配置独立的心跳数据存储，单一依赖管理网络判断整改措施后续将隔离响应策略调整为”保持虚拟机开机”，并额外配置两个心跳数据存储，降低误判概率；同时把核心网络变更纳入维护窗口流程，避免业务高峰期执行。

HCI 存储池容量水位告警处理与扩容前检查

发表于2026-06-20|HCI运维

告警背景Prism Central 触发存储池容量水位告警，逻辑使用率超过 75% 阈值。在 HCI 架构下，容量规划需要同时考虑数据冗余因子和预留重建空间，不能只看裸容量。容量计算逻辑实际可用容量 = 裸容量 / 冗余因子 - 预留重建空间。以 RF2 配置为例，需要预留至少一个节点的容量用于故障自愈重建，否则在节点故障时会出现容量不足无法完成重建的风险。扩容前检查清单确认新节点固件版本与集群当前版本兼容核对新节点网络配置（VLAN、MTU）与现有节点一致扩容前执行集群健康检查，确保无未恢复的告警评估扩容期间 Curator 数据重平衡对业务 IO 的影响窗口小结HCI 的容量规划本质是在冗余、性能和成本之间找平衡点，建议建立月度容量趋势报表，提前 1-2 个扩容周期规划采购，避免临时救火式扩容。

用 pyvmomi 写一个虚拟机日常巡检脚本

发表于2026-06-10|自动化运维

目标把每天人工登录 vCenter 检查的几个核心指标自动化：CPU Ready 值、内存气球回收量、孤儿快照数量，输出成一份每日巡检邮件。核心代码片段123456789from pyVim.connect import SmartConnectfrom pyVmomi import vimsi = SmartConnect(host=VC_HOST, user=VC_USER, pwd=VC_PASS, disableSslCertValidation=True)content = si.RetrieveContent()for vm in get_all_vms(content): summary = vm.summary print(vm.name, summary.quickStats.overallCpuReadiness) 巡检维度 CPU Ready 超过 5% 的虚拟机列表，提示可能存在资源争用内存气球（Balloon）持续回收的虚拟机，提示宿主机内存压力超过 7 天未清理的快照，避免占用过多存储空间后续计划下一步计划把脚本结果接入企业微信...