15-回归值与异常值

一句话

回归值 = 机器做的事（按历史数据拟合曲线，预测下一步）。异常值 = 人做的事（跳出曲线，提供一个机器拟合不出来的点）。如果人不提供异常值，AI 只会把人类说过的话以更流畅的方式重新说一遍——文明会熵增死寂。

韦青（微软中国 CTO）的原话：

“[117:19] 人是以提供异常值为价值，人从来不是以提供回归值为价值……仅仅在这过去两三百年这个工业文明时代被异化的人类，人才是以提供回归值为价值，其他全是以提供异常值为价值，否则就是奴隶。”

这对术语是好朋友用 AI 的时候每次都该自问一次的元工具：我这一步在给 AI 提供什么——回归值还是异常值？

为什么对好朋友重要

AI 本质上是机器学习：

“[137:29] 首先刚才咱们讲了把 AI 这个迷思要破掉，就去魅，因为诺贝尔奖的首页上就说了……就说 AI 就是 machine learning，对吧，就是机器学习。”

机器学习做三件数学工作：

“[137:55] 首先你用线性代数的方式去表征这个世界……就是用无穷多的，应该叫做多元一次方程……然后用微积分呢来去理解它的这种变化，和去不断的就凑这个准确，因为要凑上去嘛，拟合。”

第三件是：

“[138:53] 是概率论。”

线性代数表征世界 + 微积分做拟合 + 概率论算下一步——三样东西加起来做的事只有一件：预测下一个最可能的值。这个”最可能的值”就是回归值。

对好朋友的直接含义：AI 默认给你的永远是回归值——是历史数据里最常见的答案、最像大多数人的候选人、最符合平均水平的建议。如果你不主动注入异常值，AI 给你的建议会让你越来越像”所有人的平均”。

三个使用场景

场景 1 · HR 用 AI 筛简历

不做任何干预，AI 从历史录用数据里回归出的”合格候选人画像”是：某几所学校、某几个大厂、某一种职业路径。

全按回归值出来 → 筛出来的是”过去 3 年最常见的候选人”
永远错过偏才、跨行者、奇特经历者——这些恰好是最可能给团队带来突变的人

异常值校验：每批简历里强制保留 N 份”简历长相与平均值偏离最大的”，人工复核，不让 AI 直接筛掉。

场景 2 · 写作者用 AI 磨稿

AI 给的修改建议本质是”把你的句子往训练数据里的平均值靠”。

全听 AI 的 → 稿子越改越顺、越改越像谁都可以写出来的
你的个人辨识度（异常值）会被磨掉

异常值守护：每次 AI 改完之后，自己重读一遍，把那些”AI 觉得不顺但自己觉得是你的东西”的地方恢复回来。

场景 3 · 散户用 AI 做投资决策

AI 给的分析本质是对历史数据的回归：这类公司、这种估值、过去表现如何……

全按回归值交易 → 你赚到的永远是市场平均收益，或更差（因为你比机器慢）
真正的超额收益来自：一个别人没看到的取景框 + 一个和主流回归值偏离但你相信会实现的判断 = 异常值

与邻居术语的区别

与”幻觉”（hallucination）的区别

幻觉是 AI 算错了——它自信地给出了一个不存在的事实（引用了虚构的论文、编造了不存在的法条）
回归值是 AI 算对了——按训练数据里的统计规律，给你一个最可能的答案；但这个答案可能是真理地平庸

幻觉的解法是核对事实。回归值的解法完全不同：是主动引入异常值。两者搞混了会用错药——把”回归值造成的平庸”当幻觉去查，查不出任何事实错误，但你的产出依然平庸。

与”偏见”（bias）的区别

偏见是训练数据本身带有歧视性倾向（如历史上男性被录用率高，AI 学到”男性更合适”）
回归值是一个更宽的概念——即使没有歧视性偏见，纯粹按平均值给建议，也会让你失去异常值

换句话说：消除了偏见的 AI 仍然只给回归值。回归值 ⊇ 偏见。

与”取景框”的关系（同为本期素材）

取景框是”看世界的骨架”，异常值往往就是”从一个新取景框里跳出来的那个点”。14-取景框讲的是怎么看，回归值/异常值讲的是看之后下一步走哪。两者是配套的元工具。

常见误解

误解 1 · “异常值 = 随机乱来”

不是。异常值是你基于某个机器看不见的取景框，有意识地跳出曲线。随机乱猜也会偏离曲线，但那种偏离没有信息量。

“[190:51] 我觉得就是一个一定要加大你人生的异常值去探索摸索，当你。[190:57] 的异常值足够了，只要你的信仰体系不偏的话，你就能知道怎么去提供异常值。”

异常值需要支撑你这次跳跃的那个东西——可能是一个洞察、一种信念、一段独特经历。没有支撑的偏离只是噪声。

误解 2 · “AI 聪明了就能自己产生异常值”

韦青的判断非常硬：

“[262:31] 那有人又说了，我不同意，因为我可以编这个程序让它又产生异常值，那那异常值也是回归回归值了……只有人才能够有啪一个 spark，一个火花。”

机器”产生”的异常值在底层仍是按概率分布采样的结果——只是更稀有的回归值。真正的 spark（火花）只有人能给。

误解 3 · “异常值 = 反主流”

不是。异常值不是”跟大多数人对着干”。对着干也是对主流的镜像拟合，仍在同一条曲线上。异常值是走在一个完全不同的维度上——让”主流 vs 反主流”这个二分失效。

反例：做错会怎样

反例 A · 教育行业全自动化批改作文：AI 按照”高分作文的平均特征”打分，学生为了高分开始模仿平均值，三届学生之后，这个学校的作文全部长一个样。教学上看成绩没下降；文化上已经熵死。

反例 B · 自媒体完全按 AI 热度建议选题：AI 推荐的永远是回归值——正在热的话题、最多人搜的关键词。全按 AI 选题的号，短期流量好看，半年后用户画像和其他所有同类号完全重合，用户留下理由归零。

反例 C · 公司战略交给 AI 分析：AI 给的建议基于”同行业同规模公司过去做过的事”。全听建议 → 做出来的战略=行业平均战略。真正的机会永远在”这个行业还没人做过，但我相信能做”的地方——那是异常值。

韦青的总结：

“[141:34] 如果真是完全按照机器拟合走的话，人类社会就熵增死寂了。“

嘉宾原话（blockquote 时间戳）

关于机器学习的三大数学底座：

“[137:55] 首先你用线性代数的方式去表征这个世界……[138:31] 然后用微积分呢来去理解它的这种变化，和去不断的就凑这个准确，因为要凑上去嘛，拟合。[138:53] 是概率论。”

关于序列化与拟合：

“[140:35] 它要算的话呢，一定是一个序列化，就是时间轴，就是下一个下一个下一个。”

关于人必须提供异常值：

“[141:38] 所以人类呢，你就要在它每判断下一条线呢，就是拟合原来那条线的趋势的时候，人类呢要能够提供一个异常值，就跳跃开这个标准拟合那个预测值的线的上面或下面。”

关于人类共业：

“[143:52] 一定要主动发声，就有点像原来经常说的那个宣传阵地不掌握在对对对你的手里，就掌握在但这一次的话，有点套用佛学的术语，就人类的共业。”

“[206:36] 咱们用我刚才那个我自己挺喜欢的那个比喻，就是说往这个巨大的念头池里面种因，影响这个共业，对吧？”

关于活着的意义：

“[203:52] 你人活的意义不就是要提供异常值嘛？“

关联

14-取景框：异常值的”支撑”往往就是一个非主流取景框
16-想能应可以正将：韦青用来决定”这个异常值该不该提供”的判断骨架
12-RAG：RAG 系统喂什么料，决定了它输出的回归值中心在哪

来源：/Users/chenbin/AIBuilder/raw/podcast/无人知晓/2025-11-18_E42_孟岩对话韦青_沉默的主角.transcript.md · 2025-11-18 · 孟岩 × 韦青

AI·系统·创造·人将如何自处

探索