⚠️ 时效性提醒 本条目涉及具体模型版本和价格,3 个月后可能过时。 更新节律建议:每季度陈彬 review 一次,配合 Anthropic/OpenAI/国产厂商的重大版本发布触发临时更新。

三个维度

选模型先想清楚三件事——不是”哪个模型最强”:

  1. 任务类型:写代码?日常对话?长文档总结?图像/视频?
  2. 成本敏感度:重要少量?还是批量便宜就行?
  3. 延迟容忍度:交互要秒回?还是批处理?

决策树(2026-Q2 版本)

Claude 家族(编程场景首选)

来源:Boris tip 3 + 橙书 10。

  • Opus 4.7(最强,贵、慢)

    • 场景:写重要代码 / 复杂推理 / agentic 任务
    • Boris tip 3 原话:

      “It’s the best coding model I’ve ever used. Since you have to steer it less and it’s better at tool use, it is almost always faster than using a smaller model in the end.”

    • 反常识:虽然贵且慢,但总时间反而短,因为你不用返工。
  • Sonnet 4.x(平衡款)

    • 场景:日常对话 / 中等复杂度任务
    • Claude Code 默认模型
  • Haiku 4.5(便宜快)

    • 场景:批量任务 / 简单分类 / 不需要深度思考

GPT 家族、Gemini、国产模型

本条目暂不详细覆盖——素材不够,单独条目更合适。见 P1 批次:

  • OpenAI 家族全景(🟡 待补源)
  • Google Gemini 家族(🟡 待补源)
  • 国产模型矩阵(🟡 陈彬主笔)

三条可用判断规则

来自三份素材的交叉提炼:

规则 1:重要任务别省(Boris tip 3)

重要代码、关键决策——用最强模型。返工的时间比多付的钱贵。

规则 2:批处理就用小模型

数据清洗、分类、简单提取——用 Haiku 级。10 倍便宜、几乎一样准。

规则 3:agentic 任务(工具使用多)用 Opus 级

Boris 观察到:agent 循环里(调工具、读结果、再调工具)小模型容易出错、要多次返工。用大模型反而总成本更低。

陈彬的一条独立观察

“最新模型 ≠ 最适合你”。新模型刚出那周大家都在喊”必换”——但它价格也最高、API 未稳定。等 2-4 周再换,省钱且没 bug。

除非你的工作严重依赖新模型的某个具体能力(比如 Opus 4.7 比 4.6 的 agentic 能力突破),否则不用追热点。

needs_sources

  • GPT 家族独立视角(现在全是 Claude 用户写的)
  • 国产模型实测(官方声称的跑分不可信,需社群实测)
  • 价格每季度会变,需要更新机制

关联