免费咨询热线:13521730416

欢迎来访北京青蓝智慧科技,我们一直在网络安全与数据安全相关认证领域深耕多年,始终坚持以客户为中心,期待与您的交流和沟通!

用了这么久AI,你知道它到底是怎么“听懂”你说话的吗?

你是不是也有过这种感觉——

明明给了AI一段代码,它写得又快又好;可换个稍微模糊点的需求,它就开始一本正经地胡说八道,编出一个根本不存在的函数,还一脸自信。

这到底是怎么回事?

今天这篇,我尽量不讲公式、不说术语,就用最通俗的方式,带你拆开AI大模型的“黑盒子”。

看完之后,你再跟AI打交道,心里会更有底。



🧠 1. AI的本质:一个字一个字“猜”出来的

不管你是在跟ChatGPT聊天,还是让Cursor帮你写代码,背后做的事其实特别简单:

不停地预测下一个词。

你输入“天空是”,AI心里会快速算一笔账——

  • “蓝色” 概率最高 ✅

  • “灰色” 次之

  • “美丽”“无限” 也有可能

它挑一个概率高的接上,比如“蓝色”,然后再基于“天空是蓝色”继续猜下一个词……

所以AI的回答是一个字一个字冒出来的,它不是“想好再说”,而是“边猜边写”。

那它凭什么知道“天空是”后面大概率跟“蓝色”?

答案就四个字:海量训练

它在训练时读过互联网上数不清的文字,“天空是蓝色的”这句话见了无数遍,自然就记住了这个规律。

💡 想通这一点,很多现象就好解释了:

  • AI会胡说八道 → 因为它只是在猜概率,并不是真的“懂”

  • 你的提示词越清楚 → 它猜得越准

  • 需求越模糊 → 它越容易答非所问

  • AI能写代码 → 因为训练时啃过海量代码,摸透了代码的套路

所以,用AI编程时,多花几分钟把需求写清楚、把相关文件附上,输出质量立刻上一个台阶。



🔍 2. AI的大脑:Transformer + 注意力机制

AI靠什么来做预测?这就要说到一个划时代的结构——Transformer

2017年Google发表了一篇论文,标题就叫《Attention Is All You Need》(注意力就是你所需要的一切)。现在你能叫得上名字的大模型——ChatGPT、Claude、Gemini、DeepSeek、通义千问……几乎全都在用这个结构。

你可以把Transformer理解成AI的“大脑构造”。

在它出现之前,处理文字的模型有点像一个人看书,只能一个字一个字从头读到尾,读到后面就把前面忘光了。

Transformer的厉害之处在于:它能一眼看到整段话里的每一个词,还能判断哪些词之间的关系最重要。

这个判断关系的本事,就叫 注意力机制

举个例子:

小明把苹果递给小红,她说谢谢。

如果有人问你,“她”指的是谁?你会很自然地看向前面的“小红”——因为上下文里,“她”和“小红”关系最强。

AI干的就是类似的事。它会计算每个词和其他所有词的关联强度,把更多注意力放在最相关的词上。

而且它不止从一个角度看,还会同时从语法、语义、逻辑好几个维度去琢磨,理解自然更全面。



🔢 3. AI怎么把文字变成数字?

前面说的“预测下一个词”“注意力机制”,其实AI都不是直接在文字上操作的——它只认识数字,不认识文字

所以开工之前,得先把文字翻译成数字。

第一步:分词

把一段话切成一个个小块,每个小块叫一个 Token

  • 英文里,一个Token ≈ 一个单词或半个单词

  • 中文里,一个汉字 ≈ 一到两个Token

Token太重要了,堪比新时代的“话费流量”。 你跟AI每聊一句,烧的都是Token。说得越啰嗦,花的钱越多。

我之前调Bug图省事,把一大段错误日志反复粘给AI,白白浪费了不少额度。后来只截最关键的那几行发过去,效果一样好,还省钱。

第二步:嵌入

切完词后,每个Token会被转换成一串数字,这个过程叫 嵌入

神奇的是:意思相近的词,转出来的数字也会很接近。比如“猫”和“狗”离得近,“猫”和“飞机”离得远。

这就是为什么像Cursor这样的AI编程工具,能给项目代码建好索引。你一提问,它就能凭语义把最相关的代码片段捞出来喂给AI。

第三步:加上位置信息

光有词义还不够,词的顺序也得管。比如“我吃了饭”和“饭吃了我”,用的字一样,意思完全相反。所以模型还会给每个词标上位置信息。



🏋️ 4. 一个AI是怎么练出来的?

一个能跟你流畅聊天、帮你写代码的AI,从零到一,大致分三步。特别像培养一个人才:先读万卷书,再学怎么答题,最后不断成长历练。

第一步:预训练(读万卷书)

模型去啃互联网上的海量文字——网页、书籍、代码、论文,什么都看。

学习方式简单粗暴:给它一段话,遮住最后一个词让它猜。猜错了就调整参数,猜对了就加强。反复练上无数次,各种语言规律和知识就慢慢刻进了参数里。

这一步练出来的叫 基础模型。它虽然有一肚子知识,但还不太会好好说话——就像一个学生在图书馆里疯狂看书,满脑子东西,可你真问他一个问题,他可能东拉西扯组织不好语言。

而且这一步特别烧钱:得用成千上万张顶级显卡跑上好几个月,所以只有大公司玩得起。

第二步:监督微调(岗前培训)

目标是教会模型“好好回答问题”。

做法是请人准备大量高质量的问答范例——覆盖写代码、答疑、做总结等各种任务,然后让模型照着学。

这有点像新员工入职培训:你本事再大,也得先有人给你做示范。练完这一步,模型就从“只会续

写”变成了“会对话”。

第三步:人类对齐(价值观塑造)

光会回答还不行,它可能会蹦出一些有害的、不合适的内容。所以要有人来告诉它:什么样的回答是好的,什么样的是不好的。

让它慢慢学会什么该说、什么不该说、怎么说更让人舒服。

💡 把这三步想明白,很多现象就通了:

  • AI为啥不知道最近新闻?→ 训练数据有截止时间

  • AI为啥不肯帮你做坏事?→ 经过了人类对齐

  • 不同模型说话风格为啥不一样?→ 对齐时喂的偏好数据不同


📊 5. 参数越多就越聪明吗?

你一定听过“千亿参数”“万亿参数”这种说法。参数到底是什么?是不是越多越强?

简单说,参数就是模型训练时学到的“知识数字”。

一开始它们大多是随机的。训练时,模型不停拿自己的预测和正确答案对比,一点点把这些数字调准。练到最后,海量数据里的规律就被压缩进了这些参数里。

你可以把它想象成大脑里的神经连接——参数越多,能装下的知识和规律就越丰富。

2020年OpenAI发现了一个规律:模型的能力会随着参数量、数据量和算力的增加而稳定提升,而且这种提升有迹可循。这就是大名鼎鼎的 Scaling Law(缩放定律)

两年后DeepMind又补了一条关键经验:光堆参数不行,数据量也得跟上。他们算出来,大概每一个参数要配上20个Token的训练数据,效果才最划算。

但参数越多,成本越高

要是每次回答都动用全部参数,成本就高得离谱了。于是工程师们想了个聪明的办法:干嘛非得每次都全员上阵?根据问题类型只叫醒最相关的那一小部分参数不就行了?

这就是现在很流行的 MoE(混合专家架构)

你可以把它想象成一家大医院,里面有内科、外科、眼科几十个科室,但你来看病不用每个科室都跑一遍。挂号台会帮你分诊,去最对口的两三个科室就够了。

模型内部也养着一堆各有所长的“专家”。每个Token进来,先由一个路由器判断该交给哪几个专家,只有被选中的少数专家才会被激活。

这样一来,模型总参数可以做得特别大,知识容量管够,但每次实际干活只用其中一小部分——速度快了,成本也下来了。

这也是为什么有些模型既便宜又好用。



🤔 6. 先思考再回答的AI

你可能发现了,现在不少AI在回答难题时,会先“想一会儿”,把思考过程摊开来给你看,然后才给结论。

这就是 推理模型 在发挥作用。

早期的模型接到问题就急着报答案,碰上复杂问题特别容易翻车。后来有人发现:要是让模型把中间的推理步骤一步步写出来,正确率能高一大截。

就跟我们做数学题一样——直接写答案容易算错,列出步骤一步步推,正确的概率就高多了。

这个技巧叫 思维链。你不用做什么特殊设置,在提示词里加一句“请一步步思考”,效果往往就会更好。

后来这个能力被专门强化,国内外都推出了主打推理的模型。回答之前会在内部先盘算一番,对数学、代码、逻辑这类硬核任务效果特别好。

💡 一般想得越久,答案越靠谱。但也不是越久越好——想过头了反而可能把自己绕进去,就像考试时一道题纠结太久越想越乱。

现在的趋势是让AI自己判断该想多深:简单问题秒回,难题才慢慢推。

我们在AI编程时:

  • 改个样式、加个注释 → 用普通模型,又快又便宜

  • 设计架构方案、排查诡异Bug → 果断切到推理模型,哪怕慢一点贵一点,省下的返工时间远比多花的那点钱值


👁️ 7. 能看图听声的AI

早期的大模型只会处理文字,现在的AI越来越全能了——不光能读文字,还能看图、听语音,甚至看懂视频。

这种叫 多模态模型

原理跟人脑有点像:我们能同时把看到的画面、听到的声音、读到的文字揉在一起理解。多模态模型也是把图片和文字都转换成它能算的数字,再放到一起处理。

这个能力在AI编程时特别香。我最常用的就是 截图调试

比如我想调整一个前端页面的样式,用文字跟AI描述半天它也没整明白。干脆直接把页面截图甩给它,在截图上画个圈、标注一下,AI立刻就懂了。



⚠️ 8. AI不是万能的

讲了这么多AI的本事,也得说说它的短板。

最常见的问题:幻觉

AI会一本正经地编造不存在的东西——比如瞎掰一个根本没有的函数、推荐一个不存在的库。

原因很简单:当AI对某个知识点没把握时,它不会老老实实说“我不知道”,而是会顺着概率脑补一个看起来挺合理的答案。

它做的始终是“猜最可能的下一个词”,而不是去查真实的事实。

其他几个毛病

  1. 知识有截止时间 → AI不会知道训练数据之后才出现的新框架、新代码写法。所以AI编程时,先让AI联网搜一下最新文档再动手。

  2. “中间遗失”现象 → 放在开头和结尾的信息它记得更牢,夹在中间的反而容易被忽略。就像让你一口气读完一本500页的书,开头结尾印象深,中间的细节很容易糊成一团。所以上下文也不是塞得越多越好。

  3. 每次回答带点随机性 → 同样的问题问两遍,答案可能不完全一样。所以需要根据任务调整AI的“温度”(Temperature)参数,用来控制随机性。


OK,到这里,AI大模型的核心原理基本就讲完了。

从“预测下一个词”这个最朴素的机制,到Transformer和注意力让它读懂上下文,再到一步步训练出来、靠推理模型学会思考——相信你对AI有了更深刻的认识。

把这些想明白,再回头用AI编程,很多技巧你自然都会注意了:

  • 为什么提示词要写清楚?

  • 为什么要给足上下文?

  • 什么时候该切推理模型?

  • 怎么用才更省钱?

你不用成为AI专家,但有了这层底子,以后再冒出新的模型、新的工具,你也能很快看穿它的本质。

毕竟,最厉害的永远不是工具本身,而是懂得如何使用工具的人。


觉得有用的话,点个「在看」转发给身边也在用AI的朋友吧~

你在用AI编程时遇到过什么奇葩的“幻觉”吗?欢迎评论区分享!



相关文章

关注微信