一句话
回归值 = 机器做的事(按历史数据拟合曲线,预测下一步)。异常值 = 人做的事(跳出曲线,提供一个机器拟合不出来的点)。如果人不提供异常值,AI 只会把人类说过的话以更流畅的方式重新说一遍——文明会熵增死寂。
韦青(微软中国 CTO)的原话:
“[117:19] 人是以提供异常值为价值,人从来不是以提供回归值为价值……仅仅在这过去两三百年这个工业文明时代被异化的人类,人才是以提供回归值为价值,其他全是以提供异常值为价值,否则就是奴隶。”
这对术语是好朋友用 AI 的时候每次都该自问一次的元工具:我这一步在给 AI 提供什么——回归值还是异常值?
为什么对好朋友重要
AI 本质上是机器学习:
“[137:29] 首先刚才咱们讲了把 AI 这个迷思要破掉,就去魅,因为诺贝尔奖的首页上就说了……就说 AI 就是 machine learning,对吧,就是机器学习。”
机器学习做三件数学工作:
“[137:55] 首先你用线性代数的方式去表征这个世界……就是用无穷多的,应该叫做多元一次方程……然后用微积分呢来去理解它的这种变化,和去不断的就凑这个准确,因为要凑上去嘛,拟合。”
第三件是:
“[138:53] 是概率论。”
线性代数表征世界 + 微积分做拟合 + 概率论算下一步——三样东西加起来做的事只有一件:预测下一个最可能的值。这个”最可能的值”就是回归值。
对好朋友的直接含义:AI 默认给你的永远是回归值——是历史数据里最常见的答案、最像大多数人的候选人、最符合平均水平的建议。如果你不主动注入异常值,AI 给你的建议会让你越来越像”所有人的平均”。
三个使用场景
场景 1 · HR 用 AI 筛简历
不做任何干预,AI 从历史录用数据里回归出的”合格候选人画像”是:某几所学校、某几个大厂、某一种职业路径。
- 全按回归值出来 → 筛出来的是”过去 3 年最常见的候选人”
- 永远错过偏才、跨行者、奇特经历者——这些恰好是最可能给团队带来突变的人
异常值校验:每批简历里强制保留 N 份”简历长相与平均值偏离最大的”,人工复核,不让 AI 直接筛掉。
场景 2 · 写作者用 AI 磨稿
AI 给的修改建议本质是”把你的句子往训练数据里的平均值靠”。
- 全听 AI 的 → 稿子越改越顺、越改越像谁都可以写出来的
- 你的个人辨识度(异常值)会被磨掉
异常值守护:每次 AI 改完之后,自己重读一遍,把那些”AI 觉得不顺但自己觉得是你的东西”的地方恢复回来。
场景 3 · 散户用 AI 做投资决策
AI 给的分析本质是对历史数据的回归:这类公司、这种估值、过去表现如何……
- 全按回归值交易 → 你赚到的永远是市场平均收益,或更差(因为你比机器慢)
- 真正的超额收益来自:一个别人没看到的取景框 + 一个和主流回归值偏离但你相信会实现的判断 = 异常值
与邻居术语的区别
与”幻觉”(hallucination)的区别
- 幻觉是 AI 算错了——它自信地给出了一个不存在的事实(引用了虚构的论文、编造了不存在的法条)
- 回归值是 AI 算对了——按训练数据里的统计规律,给你一个最可能的答案;但这个答案可能是真理地平庸
幻觉的解法是核对事实。回归值的解法完全不同:是主动引入异常值。两者搞混了会用错药——把”回归值造成的平庸”当幻觉去查,查不出任何事实错误,但你的产出依然平庸。
与”偏见”(bias)的区别
- 偏见是训练数据本身带有歧视性倾向(如历史上男性被录用率高,AI 学到”男性更合适”)
- 回归值是一个更宽的概念——即使没有歧视性偏见,纯粹按平均值给建议,也会让你失去异常值
换句话说:消除了偏见的 AI 仍然只给回归值。回归值 ⊇ 偏见。
与”取景框”的关系(同为本期素材)
取景框是”看世界的骨架”,异常值往往就是”从一个新取景框里跳出来的那个点”。14-取景框 讲的是怎么看,回归值/异常值讲的是看之后下一步走哪。两者是配套的元工具。
常见误解
误解 1 · “异常值 = 随机乱来”
不是。异常值是你基于某个机器看不见的取景框,有意识地跳出曲线。随机乱猜也会偏离曲线,但那种偏离没有信息量。
“[190:51] 我觉得就是一个一定要加大你人生的异常值去探索摸索,当你。[190:57] 的异常值足够了,只要你的信仰体系不偏的话,你就能知道怎么去提供异常值。”
异常值需要支撑你这次跳跃的那个东西——可能是一个洞察、一种信念、一段独特经历。没有支撑的偏离只是噪声。
误解 2 · “AI 聪明了就能自己产生异常值”
韦青的判断非常硬:
“[262:31] 那有人又说了,我不同意,因为我可以编这个程序让它又产生异常值,那那异常值也是回归回归值了……只有人才能够有啪一个 spark,一个火花。”
机器”产生”的异常值在底层仍是按概率分布采样的结果——只是更稀有的回归值。真正的 spark(火花)只有人能给。
误解 3 · “异常值 = 反主流”
不是。异常值不是”跟大多数人对着干”。对着干也是对主流的镜像拟合,仍在同一条曲线上。异常值是走在一个完全不同的维度上——让”主流 vs 反主流”这个二分失效。
反例:做错会怎样
反例 A · 教育行业全自动化批改作文:AI 按照”高分作文的平均特征”打分,学生为了高分开始模仿平均值,三届学生之后,这个学校的作文全部长一个样。教学上看成绩没下降;文化上已经熵死。
反例 B · 自媒体完全按 AI 热度建议选题:AI 推荐的永远是回归值——正在热的话题、最多人搜的关键词。全按 AI 选题的号,短期流量好看,半年后用户画像和其他所有同类号完全重合,用户留下理由归零。
反例 C · 公司战略交给 AI 分析:AI 给的建议基于”同行业同规模公司过去做过的事”。全听建议 → 做出来的战略=行业平均战略。真正的机会永远在”这个行业还没人做过,但我相信能做”的地方——那是异常值。
韦青的总结:
“[141:34] 如果真是完全按照机器拟合走的话,人类社会就熵增死寂了。“
嘉宾原话(blockquote 时间戳)
关于机器学习的三大数学底座:
“[137:55] 首先你用线性代数的方式去表征这个世界……[138:31] 然后用微积分呢来去理解它的这种变化,和去不断的就凑这个准确,因为要凑上去嘛,拟合。[138:53] 是概率论。”
关于序列化与拟合:
“[140:35] 它要算的话呢,一定是一个序列化,就是时间轴,就是下一个下一个下一个。”
关于人必须提供异常值:
“[141:38] 所以人类呢,你就要在它每判断下一条线呢,就是拟合原来那条线的趋势的时候,人类呢要能够提供一个异常值,就跳跃开这个标准拟合那个预测值的线的上面或下面。”
关于人类共业:
“[143:52] 一定要主动发声,就有点像原来经常说的那个宣传阵地不掌握在对对对你的手里,就掌握在但这一次的话,有点套用佛学的术语,就人类的共业。”
“[206:36] 咱们用我刚才那个我自己挺喜欢的那个比喻,就是说往这个巨大的念头池里面种因,影响这个共业,对吧?”
关于活着的意义:
“[203:52] 你人活的意义不就是要提供异常值嘛?“
关联
- 14-取景框:异常值的”支撑”往往就是一个非主流取景框
- 16-想能应可以正将:韦青用来决定”这个异常值该不该提供”的判断骨架
- 12-RAG:RAG 系统喂什么料,决定了它输出的回归值中心在哪
来源:/Users/chenbin/AIBuilder/raw/podcast/无人知晓/2025-11-18_E42_孟岩对话韦青_沉默的主角.transcript.md · 2025-11-18 · 孟岩 × 韦青