上周五,一位运维团队负责人被领导叫进了办公室。
领导面前放着一张表——过去三个月团队的工作效率数据:
Q1:5个运维,月均处理问题127个,每单平均38分钟
Q2:4个运维+AI Agent,月均处理工单143个,每单平均14分钟
领导看了30秒,然后抬起头:
“工作量没减少,效率翻了快3倍。所以——我们是不是不需要这么多人了?”
这个问题,问出了无数技术团队正在面对的困境。
01 我们曾经在“人肉运维”的尽头
故事要从半年前说起。
那时候,这个运维团队一共5个人。每个人都干着相似的事:查Pod状态、翻日志、回答问题、被凌晨的告警叫起来。
没有明确的分工。或者说,分工就是“谁值班谁干”。5个人轮着来,365天不打烊。
某天,团队里有人做了一个统计,然后把结果发到了群里:
过去3个月,他们处理了380多个问题。其中63%是“Pod又Pending了”“帮看个日志”“这个服务怎么又重启了”这类问题。每次耗时15到45分钟。
累积下来,每周有40多个小时花在“不需要动脑的重复劳动”上。
40个小时。整整一个人的工时。
等于团队有一个人,全部的工作就是——反复回答已经回答过100遍的问题。
那天群里没人说话。不是不认同,是大家都知道,只是没人算过这笔账。
于是,有人决定把那些重复的、机械的、不需要判断的东西,交给AI。
不是因为他信任AI——是因为他心疼人。
02 半年里,AI一点点“吃掉”了他们的工作
第一刀:告警分诊
以前:每天80多条告警推送到群。值班人像刷微博一样刷告警,每条都得看,90%是假消息。
后来:AI过滤后每天推送8到11条。值班人从“被淹没”变成了“被通知”。
数据对比:
凌晨误扰从每月15次降到0次
值班响应时间从5.2分钟缩短到42秒
代价:领导开始怀疑“你是不是把告警屏蔽了”。
对话实录是这样的:
“你以前每天几十条,现在怎么只有10条?”
“因为这10条是真的,那剩下的70条从来就不是。”
第二刀:故障诊断
以前:一个Pod Pending,值班人从events查到describe查到logs查到节点状态,平均耗时35分钟。
后来:AI 3分钟给出诊断报告——现象、证据、根因、建议,四级输出。
数据对比:
诊断准确率从人工约60%提升到85%以上
每单节省35分钟
代价:值班人的“排查肌肉记忆”在退化。
“以前我闭着眼都能describe pod然后grep OOM,现在大脑自动跳过了这一步。”
第三刀:自动巡检
以前:每周五下午人工巡检,3个集群、40多个命名空间。两小时起步,还经常漏。
后来:AI每天自动巡检,证书过期、conntrack打满、僵尸资源——比人细心得多。
数据对比:
巡检覆盖率100%
发现了4个人工从未注意过的隐藏问题
代价:运维不再“亲自摸集群”了,有些角落再也不去了。
03 这些数据加起来,意味着什么?
算一笔账:
告警分诊:每人每天省1.5小时
故障诊断:每单省35分钟 × 日均4单 = 每天省2.3小时
自动巡检:每人每周省2小时 = 每天省0.4小时
合计:每人每天省4.2小时。
团队5人,每天省21小时。相当于省了2.6个全职人力。
2.6个人。差不多是半个团队。
然后发生了什么?
04 不是裁员,是重新洗牌
有人主动转型了
团队里有个干了两年的运维,某天找到负责人聊天:
“我现在每天的工作就是盯着AI的诊断结果点确认。我觉得我废了。”
两个月后,他转了SRE平台开发。他说:
“以前我只会kubectl。现在我在写Operator。因为AI把kubectl的活干了,我只能往上游走。”
他不是被淘汰的。是被AI逼着往前走了。
有人变得更“贵”了
团队里还有一个同事,以前是最忙的——每天被80条告警追着跑。现在AI替他筛掉了90%的噪音,他一天只用处理8条精准告警。
省下来的时间他做了什么?研究eBPF、搭tracing pipeline、写runbook给AI喂数据。
过去三个月,他写了23份标准化Runbook——AI的诊断准确率从60%提到85%,一半是他的功劳。
他的岗位没变,但他的工作内容从“执行者”变成了“AI的训练者”。工资没变,但价值涨了。
有人走了——但故事没有结束
还有一个人,不写脚本,不研究新技术,不看日志。他的全部工作是:接到问题→打开kubectl→敲describe pod→截图→回复。
AI上线一个月后,他每天不知道该干什么了。他的工作AI全干了——更快、更准、不会漏。
他没有被开除。但他自己待不住了。
离职的时候他说了一句:“我之前以为运维就是查命令。”
没有人能反驳他。
但故事到这里没有结束。
05 两个月后,他回来了
两个月后,他给前同事发了条消息。
他去了另一家公司。还是做运维。
他发了一张截图——聊天群里100多条Prometheus告警,凌晨3点还在刷屏。
他说:“我到了新公司发现又是这种状态。凌晨三点还在看告警。我看了你写的那篇文章,你们群现在每天就10条。我有点嫉妒。”
然后他问了一句:“你们那个Agent,能不能给我也搞一套?”
对方的回复很实在:
“你知道这10条是怎么来的。不是AI变聪明了。是我花了几个月的时间,把80条假告警一条一条找出来、一条一条喂给AI、一条一条告诉它‘这条不是真的、这条不用叫醒人、这条下周三还会来但没关系’。
AI没有魔法。AI只是把我过去三年在凌晨被叫起来的每一次,都记住了。”
06 团队现状:4个0.5
现在这个团队的实际配置是这样的:
0.5个“传统运维”——处理AI搞不定的疑难杂症,以及需要执行权限的操作
0.5个“AI管理员”——维护Agent、更新Runbook、复盘漏报
0.5个“SRE工程师”——从kubectl升级到写Controller
0.5个“平台开发者”——把人工流程变成自动化平台
4×0.5=2。但只有1.5个人是原来的运维。剩下的0.5个转了开发。1.5个人重新定义了自己的工作。
07 效率提升3倍后,反而更焦虑了
“如果AI能诊断85%的故障、能过滤90%的告警、能覆盖100%的巡检——那我算什么?”
领导问“是不是不需要这么多人”的时候,真正在意的不是答案,而是他问出这个问题这件事本身。
说明在他的认知里,运维的工作=被AI做完的那些事。
团队用了半年才想清楚这个问题:
AI能替你做的:
看到告警→判断真假→归类
看到故障→匹配历史→给出诊断
看到集群→巡检→发现异常
AI不能替你做的:
决定“这个风险值不值得冒”
在3个坏方案里选最不坏的那个
跟开发说“你们的代码有问题”但不吵起来
跟领导说“这个钱不能省”
预测半年后集群会出什么问题——不是因为数据,是因为经验
运维的不可替代性从来不在手上——在脑子里。AI替的是手,不是脑子。
08 如果你想引入AI,必须先想清楚三件事
第一件:不是“用AI替代人”,是“用AI逼人成长”
AI来了之后,团队里最不安的不是最懒的人,是最聪明的人。因为聪明人第一个意识到:AI干了我的活。然后他们就开始学新东西了。
懒人反而觉得:太好了,活变少了。
第二件:效率提升后,多余的人不是“裁掉”,是“重新定义”
如果效率翻倍之后第一反应是裁员,你会失去团队里最有潜力的那批人。他们会自己走——不是怕被裁,是不想退化成“AI的确认按钮”。
第三件:领导问你“是不是不需要这么多人”时,你该怎么回答
不是不需要这么多人。是需要不同的人。
以前需要4个会敲kubectl的人。现在需要1个会调AI的人、1个会写Controller的人、1个会跟业务方谈判的人。
这三个人都比“会敲kubectl”贵——但加起来比5个“会敲kubectl”值钱。
那个问“能不能给我也搞一套Agent”的同事,收到了Agent的Git链接,让他自己去研究。
对方告诉他:
“Agent是最后一步。前面还有99步——你得先知道这80条里哪70条是假的,你得先被凌晨3点的告警叫醒过100次,你得先一条一条教AI看懂你的集群。
AI没有魔法。AI只是把我过去三年在凌晨被叫起来的每一次,都记住了。
你现在的80条告警——是你接下来一年要喂给AI的教材。”
他没有回复。三天后,他在朋友圈转了一篇文章。配文只有一个字:“学”。
说到底,AI不会淘汰一个人,固化的认知才会。
如果有一天AI真的能替你值班了,你想用它做什么?是害怕它,还是训练它?
答案可能是你职业生涯接下来几年唯一重要的事情。
如果你也在经历类似的转型,欢迎留言分享你的故事。
关注我,看懂技术趋势,少走弯路。
