AI 模型越强，什么会被吞掉，什么会留下

Posted Apr 29, 2026

By Star Zhang

27 min read

最近一年多，AI 行业里最真实的感受，不是又出了一个更强的模型，而是很多原本看起来很重要的工程层，开始迅速变薄。

前几个月还在讨论的 Prompt 技巧、Agent 编排、上下文管理、工具路由，转眼就被新模型直接吃进去。很多人会因此产生一种很强的不安全感：如果模型会一直往上长，今天花几个月甚至一年做出来的东西，会不会最后只剩下未来版本说明里的一行功能？

这个问题比“某个产品会不会被替代”更深。它真正触到的是另一件事：在一个基础能力高速上移的系统里，人类努力还有没有复利，工程投入还能不能沉淀成长期价值。

我现在越来越倾向于用一个词来概括这个现象，能力层坍缩。

它不是说应用都会被替代，也不是说中间层都会消失，而是模型把原本需要外部工程补齐的能力，一步步内化成自己的默认能力。过去的软件世界大致是基础设施、框架、应用三层往上搭；到了大模型时代，中间那层不再稳定，它会随着模型能力上移被压缩，然后在新的位置重新长出来。

先看现象，为什么很多人会突然觉得脚下发空

如果把这几年拆开看，这种变化其实很明显。

2023 年前后，很多团队花大量时间在 Prompt 模板、Memory、Tool Router、RAG 编排上。当时这是很自然的，因为模型本身还不够稳，推理链短，上下文也有限，很多能力只能靠外面补。那时大家普遍相信，谁把这些脚手架搭得更精巧，谁就能把模型推到更高的位置。

到了后面，情况开始变。模型自己学会了更稳定的工具调用，长上下文更能用，推理步骤更长，规划能力也更强。结果不是这些工程方法彻底失效，而是它们的单位价值快速下降。以前要写很多胶水代码才能做成的事情，后来模型自己就能做个七七八八。

再往后，压力从问答和工作流扩展到了编码场景。很多人第一次明显感觉到这件事，不是在聊天产品里，而是在代码工具里。以前 AI 编程工具最大的卖点，是它们比原始模型更懂仓库、更会找文件、更会组织修改；但当模型厂商开始直接做 coding agent，能读仓库、改代码、跑命令、看输出、继续改，工具层就会立刻被逼问一个问题：你到底是在卖一个工作流，还是只是在卖一层比较顺手的模型壳。

这也是为什么围绕 Cursor、Claude Code、各类 AI IDE 的讨论会这么热。真正让人不安的不是谁更强一点，而是模型厂商开始往下走，主动进入原本属于工具层的位置。只要这种事发生过一次，所有做中间层的人都会马上意识到，自己站的地方并没有想象中那么稳。

还有一个很直观的现象是，行业讨论的重点已经变了。早期大家热衷于研究怎么写提示词、怎么让模型更“听话”、怎么拼一个漂亮的 Agent demo。现在更常见的话题变成了评测、权限、回滚、审计、工作流、可验证性、上下文边界。这个变化本身就说明了一件事：模型已经不再只是“会不会回答”的问题，而是开始进入真实系统，碰到真实约束了。

模型为什么会持续往上吃

一个直接原因是，大模型不是单点工具，而是一种通用能力底座。

数据库会改变应用形态，云计算会改变部署方式，移动互联网会改变分发渠道，但它们通常不会把理解、规划、执行一起带走。大模型不一样，它既能理解自然语言，又能生成代码，还能在一定范围内规划步骤、调用工具、处理长上下文。以前这些事情分散在不同层里，现在越来越多地被同一个底座收回去。

这件事可以类比编译器历史。早期程序员需要手写更多贴近机器的东西，后来编译器变强，寄存器分配、优化、内存管理里很大一部分复杂度被抽走了。不是程序员不努力了，而是抽象层被底层能力吃掉了。今天大模型对软件结构的影响，有点像这件事在更高一层重演。

另一个更现实的原因是商业激励。模型厂商不会甘心永远只卖 token。只要底座能力继续增强，它们就一定会往更高价值的环节走，去占住用户入口、工作流和高频场景。从公开产品动作看，这个趋势已经很明显了：模型厂商不只在做 API，也在做聊天入口、浏览器代理、编码代理、办公场景接入。你如果做的是“帮模型补短板”的产品，本质上就是站在模型厂商的前进路线上。

这也是为什么很多人会有一种非常刺痛的感觉：不是我做得不够好，而是我做的那部分，本来就是模型迟早会内化掉的东西。

真正会被吞掉的，不是所有中间层

说“中间层都会死”太粗了。更准确的说法是，有一类中间层特别容易变薄。

第一类，是价值主要来自特定模型版本调参的东西。换一个更强的模型，原来的 Prompt 技巧、上下文拼接方式、工具编排就会迅速贬值。它们不是没有价值，而是半衰期很短。

第二类，是本质上在用代码模拟模型迟早会学会的能力。比如通用 Agent 编排、通用问答壳、薄薄一层工作流胶水，这些都很容易随着模型升级被压缩。你今天花很多时间写出来，模型下一轮更新后，可能直接就把这部分变成默认行为。

第三类，是离真实场景还隔着一层的产品。没有独家数据，没有分发入口，没有业务闭环，也没有责任边界，最后剩下的就只是“我把模型包得更好一点”。这种价值最危险，因为模型厂商只要稍微往下走一步，你的差异就会变得很薄。

LangChain 早期的命运，其实就是一个很好的现象样本。它并不是没做对市场，也不是没有工程价值，而是它踩中了一个过渡阶段：模型还不够强，所以外部编排显得很重要；模型一旦把部分能力收进去，外部编排的显著性就会下降。很多 Agent startup 也有类似问题，它们解决的是“模型暂时不会”的事，而不是“模型再强也需要别人来做”的事。

再看 AI IDE 这条线，现象也很典型。最开始大家比的是谁补全更准、谁上下文喂得更好、谁更会把聊天嵌进编辑器；后来用户开始关心的是，谁能更好地读整个仓库、谁能更稳地做多文件修改、谁能控制改动范围；再后来，一旦模型厂商自己下场做 coding agent，问题就进一步升级成，谁拥有真正的工作流位置。不是说 Cursor 这类工具就一定会消失，而是它们被迫证明，自己不是单纯的模型包装层，而是更深地掌握了开发者的节奏、权限、协作和控制面。

真正稀缺的东西，在现实世界里

模型会吃掉通用能力，但吃不掉现实世界的接口。长期看，更值钱的东西大概集中在三类。

一是场景绑定

模型再强，也不会天然拥有企业内部流程、医疗合规链路、金融风控规则，或者某个团队已经跑顺的工作方式。它需要被接进这些场景，才能产生稳定价值。

所以更有壁垒的，不是“AI 能做什么”，而是“AI 在你的场景里能被允许做什么、必须按什么规则做、做完以后怎么被验证”。

举个很简单的例子，“AI 写代码”本身不构成长期壁垒，但“AI 接进某家公司真实的研发流程里，读哪些仓库、调用哪些权限、谁审批上线、谁负责回滚、什么情况必须人工确认”，这件事就很难被一个通用模型直接拿走。因为这里面的难点不是生成代码，而是接入环境、定义边界、承接责任。

同样，AI 进入医疗、法律、金融这些行业时，真正难的也不是让模型会回答，而是让它在那个行业里以可接受的方式工作。能不能碰病历，能不能改合同，能不能参与投研，背后都有一整套流程、审计、合规和责任归属。这些东西越深，通用模型越不可能自己顺手拿走。

二是长期积累的数据和关系

很多人一提数据壁垒，想到的是多存几份语料。其实更有价值的不是静态语料，而是闭环数据，是用户在真实流程里反复留下来的反馈，是业务系统里的权限结构，是客户愿意持续交给你的信任关系。

比如一个做 AI speech coach 的产品，真正值钱的可能不是点评本身，而是长期积累下来的练习轨迹、用户常犯错误、反馈后的改进情况、课程和进步之间的关系。这些东西一旦形成闭环，模型越强，放大效果越明显。模型可以让点评更像老师，让建议更具体，但那些长期积累下来的用户行为数据，不会因为模型变强就贬值，反而会更值钱。

再比如律所、咨询公司、企业服务团队，它们真正沉淀下来的价值，往往不是一套特别花哨的提示词，而是客户关系、内部经验、历史案例、反复打磨出来的判断标准。模型可以让这些资产跑得更快，但模型厂商很难低成本拿到这些东西本身。

三是任务定义权和责任归属

模型能生成答案，不等于它能定义目标；模型能执行步骤，不等于它能承担后果。谁来决定什么值得做、什么风险能接受、什么结果算完成，这些权力目前还在人手里。

这件事听上去不像技术，却比技术更硬。因为只要现实世界还要求有人签字、有人背责、有人审计，模型就只能是执行系统的一部分，而不是完整的责任主体。

这也是为什么“AI 是不是会成为主体”这个问题，不能只从能力上看。代码可以主要由 AI 生成，文档可以主要由 AI 改写，分析报告也可以先由 AI 起草，但最后谁决定目标、谁审查质量、谁承担事故，这些事没法自动消失。能力在迁移，控制权和责任没有一起迁移。

工程不会退潮，退潮的是花架子

很多人看到 Agent 框架变薄，就会顺手得出一个错误结论：软件工程也没那么重要了。这个判断很危险。

真正变薄的，是那些为了弥补模型能力不足而搭出来的花架子。真正不会退的，是确定性系统本身，是评测，是权限，是状态管理，是回滚，是审计，是那些“错一次就要出事”的地方。

模型可以很聪明，但一旦任务带有明确约束，系统还是得靠工程来兜底。比如一个数必须和数据库对上，一个动作必须留痕，一个外部调用失败必须回滚，一个改动上线前必须经过审批，这些都不是“让模型再想一想”能解决的事情。

所以现在行业里很有意思的一个现象是，越往生产环境走，大家越少谈神奇 demo，越多谈评测、权限、sandbox、观察性、失败恢复和多层校验。不是因为大家突然保守了，而是因为模型一旦开始碰真实系统，工程现实就会重新冒出来。

换句话说，退潮的是 Prompt 工程的花活，不是软件工程的基本功。

软件会越来越分成两层

这也是我现在越来越确信的一点：未来的软件不会简单变成“全给 AI 用”或者“全给人用”，而是会明显分层。

底下一层会越来越面向 AI。接口更结构化，工具更程式化，文档更像能力描述，系统状态也要更容易被模型读取。MCP 这类面向模型的接口协议之所以重要，就是因为它们在解决一个新问题：不是让人更方便地点按钮，而是让模型更稳定地调用系统能力。

其实很多团队已经在不知不觉地朝这个方向改东西了。函数名写得更直白，模块边界更清楚，README 更重要，命令行接口更规范，错误输出更结构化。这些变化表面上看像是在提升可维护性，实际上也在提升 AI 可读性。很多时候，新成员已经不只是人，也包括模型。

但上面一层依然要面向人，而且重点会变。过去的人机界面强调“怎么高效操作”，以后更重要的是“怎么高效监督”。人未必亲手完成每一步，但他需要在更短时间里看懂模型做了什么、为什么这么做、风险在哪、能不能批准。

这就是为什么我不太认同“以后软件都给 AI 写，不给人写了”这种简单说法。更完整的说法是，底层系统会越来越适合 AI 读取和执行，上层界面会越来越适合人审核和担责。软件不是从面向人切换到面向 AI，而是在重新分配哪一层服务谁。

怎么判断自己站的位置对不对

有个很简单也很残酷的测试。

如果明天出现一个比现在强 10 倍的模型，你做的东西会发生什么？

如果模型一变强，你的产品就更好用，因为它能更充分地调用你的独家数据、进入你的工作流、服务你的客户，那你站的位置大概率是对的。比如你掌握的是企业内部流程、行业闭环数据、长期客户关系，模型越强，这些资产的放大倍率就越大。

如果模型一变强，你的产品就突然显得没必要，因为用户完全可以直接去找模型厂商，那你做的多半还是“帮模型补短板”的那层。你花了很多时间搭出来的，也许只是一个过渡阶段里很有用的脚手架。

这个测试的价值，在于它会逼你把“工程量”和“长期资产”分开。前者可以做得很大，后者却可能只有一点点。真正能留下来的，通常不是你写了多少胶水代码，而是你到底掌握了什么别人带不走的东西。

可以把它说得更直接一点。别问“这个方向热不热”，也别只问“现在有没有用户”，先问一遍：如果模型厂商明天把基础能力再往上抬一大截，我是在被压薄，还是在被放大。

这个问题想得越早，后面浪费的时间越少。

最后回到人的位置

很多人现在的焦虑，不是单纯担心某个产品会不会被吞掉，而是在怀疑一件更深的事：在一个基础能力高速上移的系统里，人类努力还有没有复利。

我的判断是，有，但前提变了。

继续证明自己能做模型已经能做的事，这类努力的复利会越来越低。把模型接进真实场景、建立数据闭环、占住工作流入口、掌握任务定义权，这类努力的复利反而会变高。AI 竞争正在从能力竞争，慢慢变成位置竞争。

所以真正该问的不是“模型会不会替代我”，而是“模型每变强一次，我站的位置是被压薄，还是被放大”。

如果你站在模型本体旁边，卖的是模型暂时不会的那一点补丁，你迟早会被它追上。

如果你站在真实世界这一侧，掌握的是流程、关系、数据、责任和入口，模型每升级一次，你反而会被抬高一次。

这大概就是这轮变化里最冷也最有用的判断。热闹会一直变，位置不会。

Thinking

AI Agent Strategy

This post is licensed under CC BY 4.0 by the author.