效率提升3倍后，领导问我：是不是不需要这么多人了？

2026-06-25 21:14:59 | 发布者: admin1 | 查看: 171 | 评论: 0

上周五，一位运维团队负责人被领导叫进了办公室。

领导面前放着一张表——过去三个月团队的工作效率数据：

Q1：5个运维，月均处理问题127个，每单平均38分钟

Q2：4个运维+AI Agent，月均处理工单143个，每单平均14分钟

领导看了30秒，然后抬起头：

“工作量没减少，效率翻了快3倍。所以——我们是不是不需要这么多人了？”

这个问题，问出了无数技术团队正在面对的困境。

01 我们曾经在“人肉运维”的尽头

故事要从半年前说起。

那时候，这个运维团队一共5个人。每个人都干着相似的事：查Pod状态、翻日志、回答问题、被凌晨的告警叫起来。

没有明确的分工。或者说，分工就是“谁值班谁干”。5个人轮着来，365天不打烊。

某天，团队里有人做了一个统计，然后把结果发到了群里：

过去3个月，他们处理了380多个问题。其中63%是“Pod又Pending了”“帮看个日志”“这个服务怎么又重启了”这类问题。每次耗时15到45分钟。

累积下来，每周有40多个小时花在“不需要动脑的重复劳动”上。

40个小时。整整一个人的工时。

等于团队有一个人，全部的工作就是——反复回答已经回答过100遍的问题。

那天群里没人说话。不是不认同，是大家都知道，只是没人算过这笔账。

于是，有人决定把那些重复的、机械的、不需要判断的东西，交给AI。

不是因为他信任AI——是因为他心疼人。

02 半年里，AI一点点“吃掉”了他们的工作

第一刀：告警分诊

以前：每天80多条告警推送到群。值班人像刷微博一样刷告警，每条都得看，90%是假消息。

后来：AI过滤后每天推送8到11条。值班人从“被淹没”变成了“被通知”。

数据对比：

凌晨误扰从每月15次降到0次
值班响应时间从5.2分钟缩短到42秒

代价：领导开始怀疑“你是不是把告警屏蔽了”。

对话实录是这样的：

“你以前每天几十条，现在怎么只有10条？”

“因为这10条是真的，那剩下的70条从来就不是。”

第二刀：故障诊断

以前：一个Pod Pending，值班人从events查到describe查到logs查到节点状态，平均耗时35分钟。

后来：AI 3分钟给出诊断报告——现象、证据、根因、建议，四级输出。

数据对比：

诊断准确率从人工约60%提升到85%以上
每单节省35分钟

代价：值班人的“排查肌肉记忆”在退化。

“以前我闭着眼都能describe pod然后grep OOM，现在大脑自动跳过了这一步。”

第三刀：自动巡检

以前：每周五下午人工巡检，3个集群、40多个命名空间。两小时起步，还经常漏。

后来：AI每天自动巡检，证书过期、conntrack打满、僵尸资源——比人细心得多。

数据对比：

巡检覆盖率100%
发现了4个人工从未注意过的隐藏问题

代价：运维不再“亲自摸集群”了，有些角落再也不去了。

03 这些数据加起来，意味着什么？

算一笔账：

告警分诊：每人每天省1.5小时
故障诊断：每单省35分钟 × 日均4单 = 每天省2.3小时
自动巡检：每人每周省2小时 = 每天省0.4小时

合计：每人每天省4.2小时。

团队5人，每天省21小时。相当于省了2.6个全职人力。

2.6个人。差不多是半个团队。

然后发生了什么？

04 不是裁员，是重新洗牌

有人主动转型了

团队里有个干了两年的运维，某天找到负责人聊天：

“我现在每天的工作就是盯着AI的诊断结果点确认。我觉得我废了。”

两个月后，他转了SRE平台开发。他说：

“以前我只会kubectl。现在我在写Operator。因为AI把kubectl的活干了，我只能往上游走。”

他不是被淘汰的。是被AI逼着往前走了。

有人变得更“贵”了

团队里还有一个同事，以前是最忙的——每天被80条告警追着跑。现在AI替他筛掉了90%的噪音，他一天只用处理8条精准告警。

省下来的时间他做了什么？研究eBPF、搭tracing pipeline、写runbook给AI喂数据。

过去三个月，他写了23份标准化Runbook——AI的诊断准确率从60%提到85%，一半是他的功劳。

他的岗位没变，但他的工作内容从“执行者”变成了“AI的训练者”。工资没变，但价值涨了。

有人走了——但故事没有结束

还有一个人，不写脚本，不研究新技术，不看日志。他的全部工作是：接到问题→打开kubectl→敲describe pod→截图→回复。

AI上线一个月后，他每天不知道该干什么了。他的工作AI全干了——更快、更准、不会漏。

他没有被开除。但他自己待不住了。

离职的时候他说了一句：“我之前以为运维就是查命令。”

没有人能反驳他。

但故事到这里没有结束。

05 两个月后，他回来了

两个月后，他给前同事发了条消息。

他去了另一家公司。还是做运维。

他发了一张截图——聊天群里100多条Prometheus告警，凌晨3点还在刷屏。

他说：“我到了新公司发现又是这种状态。凌晨三点还在看告警。我看了你写的那篇文章，你们群现在每天就10条。我有点嫉妒。”

然后他问了一句：“你们那个Agent，能不能给我也搞一套？”

对方的回复很实在：

“你知道这10条是怎么来的。不是AI变聪明了。是我花了几个月的时间，把80条假告警一条一条找出来、一条一条喂给AI、一条一条告诉它‘这条不是真的、这条不用叫醒人、这条下周三还会来但没关系’。

AI没有魔法。AI只是把我过去三年在凌晨被叫起来的每一次，都记住了。”

06 团队现状：4个0.5

现在这个团队的实际配置是这样的：

0.5个“传统运维”——处理AI搞不定的疑难杂症，以及需要执行权限的操作
0.5个“AI管理员”——维护Agent、更新Runbook、复盘漏报
0.5个“SRE工程师”——从kubectl升级到写Controller
0.5个“平台开发者”——把人工流程变成自动化平台

4×0.5=2。但只有1.5个人是原来的运维。剩下的0.5个转了开发。1.5个人重新定义了自己的工作。

07 效率提升3倍后，反而更焦虑了

“如果AI能诊断85%的故障、能过滤90%的告警、能覆盖100%的巡检——那我算什么？”

领导问“是不是不需要这么多人”的时候，真正在意的不是答案，而是他问出这个问题这件事本身。

说明在他的认知里，运维的工作=被AI做完的那些事。

团队用了半年才想清楚这个问题：

AI能替你做的：

看到告警→判断真假→归类
看到故障→匹配历史→给出诊断
看到集群→巡检→发现异常

AI不能替你做的：

决定“这个风险值不值得冒”
在3个坏方案里选最不坏的那个
跟开发说“你们的代码有问题”但不吵起来
跟领导说“这个钱不能省”
预测半年后集群会出什么问题——不是因为数据，是因为经验

运维的不可替代性从来不在手上——在脑子里。AI替的是手，不是脑子。

08 如果你想引入AI，必须先想清楚三件事

第一件：不是“用AI替代人”，是“用AI逼人成长”

AI来了之后，团队里最不安的不是最懒的人，是最聪明的人。因为聪明人第一个意识到：AI干了我的活。然后他们就开始学新东西了。

懒人反而觉得：太好了，活变少了。

第二件：效率提升后，多余的人不是“裁掉”，是“重新定义”

如果效率翻倍之后第一反应是裁员，你会失去团队里最有潜力的那批人。他们会自己走——不是怕被裁，是不想退化成“AI的确认按钮”。

第三件：领导问你“是不是不需要这么多人”时，你该怎么回答

不是不需要这么多人。是需要不同的人。

以前需要4个会敲kubectl的人。现在需要1个会调AI的人、1个会写Controller的人、1个会跟业务方谈判的人。

这三个人都比“会敲kubectl”贵——但加起来比5个“会敲kubectl”值钱。

那个问“能不能给我也搞一套Agent”的同事，收到了Agent的Git链接，让他自己去研究。

对方告诉他：

“Agent是最后一步。前面还有99步——你得先知道这80条里哪70条是假的，你得先被凌晨3点的告警叫醒过100次，你得先一条一条教AI看懂你的集群。

AI没有魔法。AI只是把我过去三年在凌晨被叫起来的每一次，都记住了。

你现在的80条告警——是你接下来一年要喂给AI的教材。”

他没有回复。三天后，他在朋友圈转了一篇文章。配文只有一个字：“学”。

说到底，AI不会淘汰一个人，固化的认知才会。

如果有一天AI真的能替你值班了，你想用它做什么？是害怕它，还是训练它？

答案可能是你职业生涯接下来几年唯一重要的事情。

如果你也在经历类似的转型，欢迎留言分享你的故事。

关注我，看懂技术趋势，少走弯路。

上一篇：39岁程序员被裁后，靠一个小程序月入3万：原来“身弱”才是最大的优势

效率提升3倍后，领导问我：是不是不需要这么多人了？

01 我们曾经在“人肉运维”的尽头

02 半年里，AI一点点“吃掉”了他们的工作

03 这些数据加起来，意味着什么？

04 不是裁员，是重新洗牌

05 两个月后，他回来了

06 团队现状：4个0.5

07 效率提升3倍后，反而更焦虑了

08 如果你想引入AI，必须先想清楚三件事

相关文章