用了这么久AI，你知道它到底是怎么“听懂”你说话的吗？

2026-06-22 19:40:00 | 发布者: admin1 | 查看: 12 | 评论: 0

你是不是也有过这种感觉——

明明给了AI一段代码，它写得又快又好；可换个稍微模糊点的需求，它就开始一本正经地胡说八道，编出一个根本不存在的函数，还一脸自信。

这到底是怎么回事？

今天这篇，我尽量不讲公式、不说术语，就用最通俗的方式，带你拆开AI大模型的“黑盒子”。

看完之后，你再跟AI打交道，心里会更有底。

🧠 1. AI的本质：一个字一个字“猜”出来的

不管你是在跟ChatGPT聊天，还是让Cursor帮你写代码，背后做的事其实特别简单：

不停地预测下一个词。

你输入“天空是”，AI心里会快速算一笔账——

“蓝色” 概率最高 ✅
“灰色” 次之
“美丽”“无限” 也有可能

它挑一个概率高的接上，比如“蓝色”，然后再基于“天空是蓝色”继续猜下一个词……

所以AI的回答是一个字一个字冒出来的，它不是“想好再说”，而是“边猜边写”。

那它凭什么知道“天空是”后面大概率跟“蓝色”？

答案就四个字：海量训练。

它在训练时读过互联网上数不清的文字，“天空是蓝色的”这句话见了无数遍，自然就记住了这个规律。

💡 想通这一点，很多现象就好解释了：

AI会胡说八道 → 因为它只是在猜概率，并不是真的“懂”
你的提示词越清楚 → 它猜得越准
需求越模糊 → 它越容易答非所问
AI能写代码 → 因为训练时啃过海量代码，摸透了代码的套路

所以，用AI编程时，多花几分钟把需求写清楚、把相关文件附上，输出质量立刻上一个台阶。

🔍 2. AI的大脑：Transformer + 注意力机制

AI靠什么来做预测？这就要说到一个划时代的结构——Transformer。

2017年Google发表了一篇论文，标题就叫《Attention Is All You Need》（注意力就是你所需要的一切）。现在你能叫得上名字的大模型——ChatGPT、Claude、Gemini、DeepSeek、通义千问……几乎全都在用这个结构。

你可以把Transformer理解成AI的“大脑构造”。

在它出现之前，处理文字的模型有点像一个人看书，只能一个字一个字从头读到尾，读到后面就把前面忘光了。

Transformer的厉害之处在于：它能一眼看到整段话里的每一个词，还能判断哪些词之间的关系最重要。

这个判断关系的本事，就叫 注意力机制。

举个例子：

小明把苹果递给小红，她说谢谢。

如果有人问你，“她”指的是谁？你会很自然地看向前面的“小红”——因为上下文里，“她”和“小红”关系最强。

AI干的就是类似的事。它会计算每个词和其他所有词的关联强度，把更多注意力放在最相关的词上。

而且它不止从一个角度看，还会同时从语法、语义、逻辑好几个维度去琢磨，理解自然更全面。

🔢 3. AI怎么把文字变成数字？

前面说的“预测下一个词”“注意力机制”，其实AI都不是直接在文字上操作的——它只认识数字，不认识文字。

所以开工之前，得先把文字翻译成数字。

第一步：分词

把一段话切成一个个小块，每个小块叫一个 Token。

英文里，一个Token ≈ 一个单词或半个单词
中文里，一个汉字 ≈ 一到两个Token

Token太重要了，堪比新时代的“话费流量”。 你跟AI每聊一句，烧的都是Token。说得越啰嗦，花的钱越多。

我之前调Bug图省事，把一大段错误日志反复粘给AI，白白浪费了不少额度。后来只截最关键的那几行发过去，效果一样好，还省钱。

第二步：嵌入

切完词后，每个Token会被转换成一串数字，这个过程叫嵌入。

神奇的是：意思相近的词，转出来的数字也会很接近。比如“猫”和“狗”离得近，“猫”和“飞机”离得远。

这就是为什么像Cursor这样的AI编程工具，能给项目代码建好索引。你一提问，它就能凭语义把最相关的代码片段捞出来喂给AI。

第三步：加上位置信息

光有词义还不够，词的顺序也得管。比如“我吃了饭”和“饭吃了我”，用的字一样，意思完全相反。所以模型还会给每个词标上位置信息。

🏋️ 4. 一个AI是怎么练出来的？

一个能跟你流畅聊天、帮你写代码的AI，从零到一，大致分三步。特别像培养一个人才：先读万卷书，再学怎么答题，最后不断成长历练。

第一步：预训练（读万卷书）

模型去啃互联网上的海量文字——网页、书籍、代码、论文，什么都看。

学习方式简单粗暴：给它一段话，遮住最后一个词让它猜。猜错了就调整参数，猜对了就加强。反复练上无数次，各种语言规律和知识就慢慢刻进了参数里。

这一步练出来的叫 基础模型。它虽然有一肚子知识，但还不太会好好说话——就像一个学生在图书馆里疯狂看书，满脑子东西，可你真问他一个问题，他可能东拉西扯组织不好语言。

而且这一步特别烧钱：得用成千上万张顶级显卡跑上好几个月，所以只有大公司玩得起。

第二步：监督微调（岗前培训）

目标是教会模型“好好回答问题”。

做法是请人准备大量高质量的问答范例——覆盖写代码、答疑、做总结等各种任务，然后让模型照着学。

这有点像新员工入职培训：你本事再大，也得先有人给你做示范。练完这一步，模型就从“只会续

写”变成了“会对话”。

第三步：人类对齐（价值观塑造）

光会回答还不行，它可能会蹦出一些有害的、不合适的内容。所以要有人来告诉它：什么样的回答是好的，什么样的是不好的。

让它慢慢学会什么该说、什么不该说、怎么说更让人舒服。

💡 把这三步想明白，很多现象就通了：

AI为啥不知道最近新闻？→ 训练数据有截止时间
AI为啥不肯帮你做坏事？→ 经过了人类对齐
不同模型说话风格为啥不一样？→ 对齐时喂的偏好数据不同

📊 5. 参数越多就越聪明吗？

你一定听过“千亿参数”“万亿参数”这种说法。参数到底是什么？是不是越多越强？

简单说，参数就是模型训练时学到的“知识数字”。

一开始它们大多是随机的。训练时，模型不停拿自己的预测和正确答案对比，一点点把这些数字调准。练到最后，海量数据里的规律就被压缩进了这些参数里。

你可以把它想象成大脑里的神经连接——参数越多，能装下的知识和规律就越丰富。

2020年OpenAI发现了一个规律：模型的能力会随着参数量、数据量和算力的增加而稳定提升，而且这种提升有迹可循。这就是大名鼎鼎的 Scaling Law（缩放定律）。

两年后DeepMind又补了一条关键经验：光堆参数不行，数据量也得跟上。他们算出来，大概每一个参数要配上20个Token的训练数据，效果才最划算。

但参数越多，成本越高

要是每次回答都动用全部参数，成本就高得离谱了。于是工程师们想了个聪明的办法：干嘛非得每次都全员上阵？根据问题类型只叫醒最相关的那一小部分参数不就行了？

这就是现在很流行的 MoE（混合专家架构）。

你可以把它想象成一家大医院，里面有内科、外科、眼科几十个科室，但你来看病不用每个科室都跑一遍。挂号台会帮你分诊，去最对口的两三个科室就够了。

模型内部也养着一堆各有所长的“专家”。每个Token进来，先由一个路由器判断该交给哪几个专家，只有被选中的少数专家才会被激活。

这样一来，模型总参数可以做得特别大，知识容量管够，但每次实际干活只用其中一小部分——速度快了，成本也下来了。

这也是为什么有些模型既便宜又好用。

🤔 6. 先思考再回答的AI

你可能发现了，现在不少AI在回答难题时，会先“想一会儿”，把思考过程摊开来给你看，然后才给结论。

这就是 推理模型 在发挥作用。

早期的模型接到问题就急着报答案，碰上复杂问题特别容易翻车。后来有人发现：要是让模型把中间的推理步骤一步步写出来，正确率能高一大截。

就跟我们做数学题一样——直接写答案容易算错，列出步骤一步步推，正确的概率就高多了。

这个技巧叫 思维链。你不用做什么特殊设置，在提示词里加一句“请一步步思考”，效果往往就会更好。

后来这个能力被专门强化，国内外都推出了主打推理的模型。回答之前会在内部先盘算一番，对数学、代码、逻辑这类硬核任务效果特别好。

💡 一般想得越久，答案越靠谱。但也不是越久越好——想过头了反而可能把自己绕进去，就像考试时一道题纠结太久越想越乱。

现在的趋势是让AI自己判断该想多深：简单问题秒回，难题才慢慢推。

我们在AI编程时：

改个样式、加个注释 → 用普通模型，又快又便宜
设计架构方案、排查诡异Bug → 果断切到推理模型，哪怕慢一点贵一点，省下的返工时间远比多花的那点钱值

👁️ 7. 能看图听声的AI

早期的大模型只会处理文字，现在的AI越来越全能了——不光能读文字，还能看图、听语音，甚至看懂视频。

这种叫 多模态模型。

原理跟人脑有点像：我们能同时把看到的画面、听到的声音、读到的文字揉在一起理解。多模态模型也是把图片和文字都转换成它能算的数字，再放到一起处理。

这个能力在AI编程时特别香。我最常用的就是 截图调试：

比如我想调整一个前端页面的样式，用文字跟AI描述半天它也没整明白。干脆直接把页面截图甩给它，在截图上画个圈、标注一下，AI立刻就懂了。

⚠️ 8. AI不是万能的

讲了这么多AI的本事，也得说说它的短板。

最常见的问题：幻觉

AI会一本正经地编造不存在的东西——比如瞎掰一个根本没有的函数、推荐一个不存在的库。

原因很简单：当AI对某个知识点没把握时，它不会老老实实说“我不知道”，而是会顺着概率脑补一个看起来挺合理的答案。

它做的始终是“猜最可能的下一个词”，而不是去查真实的事实。

其他几个毛病

知识有截止时间 → AI不会知道训练数据之后才出现的新框架、新代码写法。所以AI编程时，先让AI联网搜一下最新文档再动手。
“中间遗失”现象 → 放在开头和结尾的信息它记得更牢，夹在中间的反而容易被忽略。就像让你一口气读完一本500页的书，开头结尾印象深，中间的细节很容易糊成一团。所以上下文也不是塞得越多越好。
每次回答带点随机性 → 同样的问题问两遍，答案可能不完全一样。所以需要根据任务调整AI的“温度”（Temperature）参数，用来控制随机性。

OK，到这里，AI大模型的核心原理基本就讲完了。

从“预测下一个词”这个最朴素的机制，到Transformer和注意力让它读懂上下文，再到一步步训练出来、靠推理模型学会思考——相信你对AI有了更深刻的认识。

把这些想明白，再回头用AI编程，很多技巧你自然都会注意了：

为什么提示词要写清楚？
为什么要给足上下文？
什么时候该切推理模型？
怎么用才更省钱？

你不用成为AI专家，但有了这层底子，以后再冒出新的模型、新的工具，你也能很快看穿它的本质。

毕竟，最厉害的永远不是工具本身，而是懂得如何使用工具的人。

觉得有用的话，点个「在看」转发给身边也在用AI的朋友吧~

你在用AI编程时遇到过什么奇葩的“幻觉”吗？欢迎评论区分享！

上一篇：“什么专业不会被AI替代？”这个问题本身就错了