网络出问题,别慌,先稳住
公司突然断网,网站打不开,员工急得直拍桌子。这时候没人有空听你讲理论,必须马上动手。网络应急响应不是等出了事才开始准备,而是平时就得把路铺好。
预案在手,心里不抖
就像家里备着灭火器,网络也得有应急预案。提前写清楚:谁负责查防火墙,谁联系运营商,谁通知用户。分工明确,电话号码贴在值班墙上。真出事时,照着流程走,不会乱套。
比如某次DNS被劫持,前台打来电话说“官网变成赌博广告了”。我们5分钟内确认是解析异常,10分钟切换到备用DNS服务器,半小时内恢复。靠的就是预案里写着:“优先切备用,再查源头”。
监控要准,告警别乱
装一堆监控软件没用,关键是要知道哪个警报该立刻处理。CPU跑满可能是攻击,也可能只是定时任务。设置阈值要有依据,别让运维半夜爬起来看一场虚惊。
建议把告警分级:红色(立即响应)、黄色(一小时内处理)、蓝色(可排队)。红色事件自动发短信+电话提醒负责人,其他只推企业微信。
常用命令记熟,关键时刻省时间
不用每次都百度“怎么查端口占用”,基础命令得像吃饭喝水一样自然。比如:
ping -c 4 gateway.local
traceroute www.service.com
netstat -tuln | grep :80
tcpdump -i eth0 port 53 -w dns.pcap这些命令能帮你快速判断是本地故障、线路问题还是目标服务挂了。现场敲出来比翻文档快得多。
保留现场,别急着重启
有人一见服务卡死就想重启服务器。这动作太危险,等于把案发现场清掉了。先抓日志、存内存快照、备份配置文件,再考虑重启。否则下次同样的问题再来,根本查不出原因。
有一次数据库连接暴增,我们没直接重启,而是导出进程列表和连接来源,发现是某个脚本漏写了退出条件,无限创建连接。修了代码,问题再没复发。
演练不能少,纸上谈兵顶不住
每季度模拟一次断网、一次DDoS、一次配置失误。拉上开发、运维、客服一起练。演过才知道:原来客服不知道怎么对外解释,原来备份恢复要两小时而不是十分钟。
练多了,真出事时大家动作自然就跟上了。就像消防演习,跑得顺,伤亡就少。