免费咨询热线:13521730416

欢迎来访北京青蓝智慧科技,我们一直在网络安全与数据安全相关认证领域深耕多年,始终坚持以客户为中心,期待与您的交流和沟通!

效率提升3倍后,领导问我:是不是不需要这么多人了?

上周五,一位运维团队负责人被领导叫进了办公室。

领导面前放着一张表——过去三个月团队的工作效率数据:

Q1:5个运维,月均处理问题127个,每单平均38分钟

Q2:4个运维+AI Agent,月均处理工单143个,每单平均14分钟

领导看了30秒,然后抬起头:

“工作量没减少,效率翻了快3倍。所以——我们是不是不需要这么多人了?”

这个问题,问出了无数技术团队正在面对的困境。



01 我们曾经在“人肉运维”的尽头

故事要从半年前说起。

那时候,这个运维团队一共5个人。每个人都干着相似的事:查Pod状态、翻日志、回答问题、被凌晨的告警叫起来。

没有明确的分工。或者说,分工就是“谁值班谁干”。5个人轮着来,365天不打烊。

某天,团队里有人做了一个统计,然后把结果发到了群里:

过去3个月,他们处理了380多个问题。其中63%是“Pod又Pending了”“帮看个日志”“这个服务怎么又重启了”这类问题。每次耗时15到45分钟。

累积下来,每周有40多个小时花在“不需要动脑的重复劳动”上。

40个小时。整整一个人的工时。

等于团队有一个人,全部的工作就是——反复回答已经回答过100遍的问题。

那天群里没人说话。不是不认同,是大家都知道,只是没人算过这笔账。

于是,有人决定把那些重复的、机械的、不需要判断的东西,交给AI。

不是因为他信任AI——是因为他心疼人。



02 半年里,AI一点点“吃掉”了他们的工作

第一刀:告警分诊

以前:每天80多条告警推送到群。值班人像刷微博一样刷告警,每条都得看,90%是假消息。

后来:AI过滤后每天推送8到11条。值班人从“被淹没”变成了“被通知”。

数据对比:

  • 凌晨误扰从每月15次降到0次

  • 值班响应时间从5.2分钟缩短到42秒

代价:领导开始怀疑“你是不是把告警屏蔽了”。

对话实录是这样的:

“你以前每天几十条,现在怎么只有10条?”

“因为这10条是真的,那剩下的70条从来就不是。”

第二刀:故障诊断

以前:一个Pod Pending,值班人从events查到describe查到logs查到节点状态,平均耗时35分钟。

后来:AI 3分钟给出诊断报告——现象、证据、根因、建议,四级输出。

数据对比:

  • 诊断准确率从人工约60%提升到85%以上

  • 每单节省35分钟

代价:值班人的“排查肌肉记忆”在退化。

“以前我闭着眼都能describe pod然后grep OOM,现在大脑自动跳过了这一步。”

第三刀:自动巡检

以前:每周五下午人工巡检,3个集群、40多个命名空间。两小时起步,还经常漏。

后来:AI每天自动巡检,证书过期、conntrack打满、僵尸资源——比人细心得多。

数据对比:

  • 巡检覆盖率100%

  • 发现了4个人工从未注意过的隐藏问题

代价:运维不再“亲自摸集群”了,有些角落再也不去了。



03 这些数据加起来,意味着什么?

算一笔账:

  • 告警分诊:每人每天省1.5小时

  • 故障诊断:每单省35分钟 × 日均4单 = 每天省2.3小时

  • 自动巡检:每人每周省2小时 = 每天省0.4小时

合计:每人每天省4.2小时。

团队5人,每天省21小时。相当于省了2.6个全职人力。

2.6个人。差不多是半个团队。

然后发生了什么?



04 不是裁员,是重新洗牌

有人主动转型了

团队里有个干了两年的运维,某天找到负责人聊天:

“我现在每天的工作就是盯着AI的诊断结果点确认。我觉得我废了。”

两个月后,他转了SRE平台开发。他说:

“以前我只会kubectl。现在我在写Operator。因为AI把kubectl的活干了,我只能往上游走。”

他不是被淘汰的。是被AI逼着往前走了。


有人变得更“贵”了

团队里还有一个同事,以前是最忙的——每天被80条告警追着跑。现在AI替他筛掉了90%的噪音,他一天只用处理8条精准告警。

省下来的时间他做了什么?研究eBPF、搭tracing pipeline、写runbook给AI喂数据。

过去三个月,他写了23份标准化Runbook——AI的诊断准确率从60%提到85%,一半是他的功劳。

他的岗位没变,但他的工作内容从“执行者”变成了“AI的训练者”。工资没变,但价值涨了。


有人走了——但故事没有结束

还有一个人,不写脚本,不研究新技术,不看日志。他的全部工作是:接到问题→打开kubectl→敲describe pod→截图→回复。

AI上线一个月后,他每天不知道该干什么了。他的工作AI全干了——更快、更准、不会漏。

他没有被开除。但他自己待不住了。

离职的时候他说了一句:“我之前以为运维就是查命令。”

没有人能反驳他。

但故事到这里没有结束。



05 两个月后,他回来了

两个月后,他给前同事发了条消息。

他去了另一家公司。还是做运维。

他发了一张截图——聊天群里100多条Prometheus告警,凌晨3点还在刷屏。

他说:“我到了新公司发现又是这种状态。凌晨三点还在看告警。我看了你写的那篇文章,你们群现在每天就10条。我有点嫉妒。”

然后他问了一句:“你们那个Agent,能不能给我也搞一套?”

对方的回复很实在:

“你知道这10条是怎么来的。不是AI变聪明了。是我花了几个月的时间,把80条假告警一条一条找出来、一条一条喂给AI、一条一条告诉它‘这条不是真的、这条不用叫醒人、这条下周三还会来但没关系’。

AI没有魔法。AI只是把我过去三年在凌晨被叫起来的每一次,都记住了。”



06 团队现状:4个0.5

现在这个团队的实际配置是这样的:

  • 0.5个“传统运维”——处理AI搞不定的疑难杂症,以及需要执行权限的操作

  • 0.5个“AI管理员”——维护Agent、更新Runbook、复盘漏报

  • 0.5个“SRE工程师”——从kubectl升级到写Controller

  • 0.5个“平台开发者”——把人工流程变成自动化平台

4×0.5=2。但只有1.5个人是原来的运维。剩下的0.5个转了开发。1.5个人重新定义了自己的工作。



07 效率提升3倍后,反而更焦虑了

“如果AI能诊断85%的故障、能过滤90%的告警、能覆盖100%的巡检——那我算什么?”

领导问“是不是不需要这么多人”的时候,真正在意的不是答案,而是他问出这个问题这件事本身。

说明在他的认知里,运维的工作=被AI做完的那些事。

团队用了半年才想清楚这个问题:

AI能替你做的:

  • 看到告警→判断真假→归类

  • 看到故障→匹配历史→给出诊断

  • 看到集群→巡检→发现异常

AI不能替你做的:

  • 决定“这个风险值不值得冒”

  • 在3个坏方案里选最不坏的那个

  • 跟开发说“你们的代码有问题”但不吵起来

  • 跟领导说“这个钱不能省”

  • 预测半年后集群会出什么问题——不是因为数据,是因为经验

运维的不可替代性从来不在手上——在脑子里。AI替的是手,不是脑子。



08 如果你想引入AI,必须先想清楚三件事

第一件:不是“用AI替代人”,是“用AI逼人成长”

AI来了之后,团队里最不安的不是最懒的人,是最聪明的人。因为聪明人第一个意识到:AI干了我的活。然后他们就开始学新东西了。

懒人反而觉得:太好了,活变少了。

第二件:效率提升后,多余的人不是“裁掉”,是“重新定义”

如果效率翻倍之后第一反应是裁员,你会失去团队里最有潜力的那批人。他们会自己走——不是怕被裁,是不想退化成“AI的确认按钮”。

第三件:领导问你“是不是不需要这么多人”时,你该怎么回答

不是不需要这么多人。是需要不同的人。

以前需要4个会敲kubectl的人。现在需要1个会调AI的人、1个会写Controller的人、1个会跟业务方谈判的人。

这三个人都比“会敲kubectl”贵——但加起来比5个“会敲kubectl”值钱。


那个问“能不能给我也搞一套Agent”的同事,收到了Agent的Git链接,让他自己去研究。

对方告诉他:

“Agent是最后一步。前面还有99步——你得先知道这80条里哪70条是假的,你得先被凌晨3点的告警叫醒过100次,你得先一条一条教AI看懂你的集群。

AI没有魔法。AI只是把我过去三年在凌晨被叫起来的每一次,都记住了。

你现在的80条告警——是你接下来一年要喂给AI的教材。”

他没有回复。三天后,他在朋友圈转了一篇文章。配文只有一个字:“学”。

说到底,AI不会淘汰一个人,固化的认知才会。

如果有一天AI真的能替你值班了,你想用它做什么?是害怕它,还是训练它?

答案可能是你职业生涯接下来几年唯一重要的事情。



如果你也在经历类似的转型,欢迎留言分享你的故事。

关注我,看懂技术趋势,少走弯路。



相关文章

关注微信