Attention Is All You Need

原文：https://arxiv.org/abs/1706.03762 中译：✅ https://arthurchiao.art/blog/attention-is-all-you-need-zh/ 发布时间：2017-06 作者：Vaswani et al.

一句话人话

这篇文章把“顺序处理句子”的老路改成了“同时看全句”的新路，Transformer 由此成为后来大模型的共同底座。

关键不是公式，而是这个判断：如果注意力本身就足够强，就不必再把循环结构当成主角。

这就是 Transformer 的转折点。它不是把旧方法修修补补，而是直接换了主架构。

07-上下文：你怎么装得下、怎么组织得好，最终都会回到“模型一次看见什么”。
08-上下文工程：上下文怎么摆，决定了模型能不能高效工作。
05-workflow：把复杂任务拆成可控步骤，本质上也是在顺着模型的序列处理能力做设计。
Anthropic Building Effective Agents：后来的 agent/workflow 设计，都是在 Transformer 时代的模型能力上成立的。

适合已经开始用 AI 做内容、做项目、做系统的人，尤其是想知道“为什么今天的大模型会长成这样”的读者。

如果你现在只想先把 AI 用起来，不关心模型架构史，这篇可以先放后面；但只要你开始追问“为什么 LLM 能做这些”，它就该回到阅读队列里。