Post

AI 模型越强,什么会被吞掉,什么会留下

AI 模型越强,什么会被吞掉,什么会留下

最近一年多,AI 行业里最真实的感受,不是又出了一个更强的模型,而是很多原本看起来很重要的工程层,开始迅速变薄。

前几个月还在讨论的 Prompt 技巧、Agent 编排、上下文管理、工具路由,转眼就被新模型直接吃进去。很多人会因此产生一种很强的不安全感:如果模型会一直往上长,今天花几个月甚至一年做出来的东西,会不会最后只剩下未来版本说明里的一行功能?

这个问题比“某个产品会不会被替代”更深。它真正触到的是另一件事:在一个基础能力高速上移的系统里,人类努力还有没有复利,工程投入还能不能沉淀成长期价值。

我现在越来越倾向于用一个词来概括这个现象,能力层坍缩。

它不是说应用都会被替代,也不是说中间层都会消失,而是模型把原本需要外部工程补齐的能力,一步步内化成自己的默认能力。过去的软件世界大致是基础设施、框架、应用三层往上搭;到了大模型时代,中间那层不再稳定,它会随着模型能力上移被压缩,然后在新的位置重新长出来。

先看现象,为什么很多人会突然觉得脚下发空

如果把这几年拆开看,这种变化其实很明显。

2023 年前后,很多团队花大量时间在 Prompt 模板、Memory、Tool Router、RAG 编排上。当时这是很自然的,因为模型本身还不够稳,推理链短,上下文也有限,很多能力只能靠外面补。那时大家普遍相信,谁把这些脚手架搭得更精巧,谁就能把模型推到更高的位置。

到了后面,情况开始变。模型自己学会了更稳定的工具调用,长上下文更能用,推理步骤更长,规划能力也更强。结果不是这些工程方法彻底失效,而是它们的单位价值快速下降。以前要写很多胶水代码才能做成的事情,后来模型自己就能做个七七八八。

再往后,压力从问答和工作流扩展到了编码场景。很多人第一次明显感觉到这件事,不是在聊天产品里,而是在代码工具里。以前 AI 编程工具最大的卖点,是它们比原始模型更懂仓库、更会找文件、更会组织修改;但当模型厂商开始直接做 coding agent,能读仓库、改代码、跑命令、看输出、继续改,工具层就会立刻被逼问一个问题:你到底是在卖一个工作流,还是只是在卖一层比较顺手的模型壳。

这也是为什么围绕 Cursor、Claude Code、各类 AI IDE 的讨论会这么热。真正让人不安的不是谁更强一点,而是模型厂商开始往下走,主动进入原本属于工具层的位置。只要这种事发生过一次,所有做中间层的人都会马上意识到,自己站的地方并没有想象中那么稳。

还有一个很直观的现象是,行业讨论的重点已经变了。早期大家热衷于研究怎么写提示词、怎么让模型更“听话”、怎么拼一个漂亮的 Agent demo。现在更常见的话题变成了评测、权限、回滚、审计、工作流、可验证性、上下文边界。这个变化本身就说明了一件事:模型已经不再只是“会不会回答”的问题,而是开始进入真实系统,碰到真实约束了。

模型为什么会持续往上吃

一个直接原因是,大模型不是单点工具,而是一种通用能力底座。

数据库会改变应用形态,云计算会改变部署方式,移动互联网会改变分发渠道,但它们通常不会把理解、规划、执行一起带走。大模型不一样,它既能理解自然语言,又能生成代码,还能在一定范围内规划步骤、调用工具、处理长上下文。以前这些事情分散在不同层里,现在越来越多地被同一个底座收回去。

这件事可以类比编译器历史。早期程序员需要手写更多贴近机器的东西,后来编译器变强,寄存器分配、优化、内存管理里很大一部分复杂度被抽走了。不是程序员不努力了,而是抽象层被底层能力吃掉了。今天大模型对软件结构的影响,有点像这件事在更高一层重演。

另一个更现实的原因是商业激励。模型厂商不会甘心永远只卖 token。只要底座能力继续增强,它们就一定会往更高价值的环节走,去占住用户入口、工作流和高频场景。从公开产品动作看,这个趋势已经很明显了:模型厂商不只在做 API,也在做聊天入口、浏览器代理、编码代理、办公场景接入。你如果做的是“帮模型补短板”的产品,本质上就是站在模型厂商的前进路线上。

这也是为什么很多人会有一种非常刺痛的感觉:不是我做得不够好,而是我做的那部分,本来就是模型迟早会内化掉的东西。

真正会被吞掉的,不是所有中间层

说“中间层都会死”太粗了。更准确的说法是,有一类中间层特别容易变薄。

第一类,是价值主要来自特定模型版本调参的东西。换一个更强的模型,原来的 Prompt 技巧、上下文拼接方式、工具编排就会迅速贬值。它们不是没有价值,而是半衰期很短。

第二类,是本质上在用代码模拟模型迟早会学会的能力。比如通用 Agent 编排、通用问答壳、薄薄一层工作流胶水,这些都很容易随着模型升级被压缩。你今天花很多时间写出来,模型下一轮更新后,可能直接就把这部分变成默认行为。

第三类,是离真实场景还隔着一层的产品。没有独家数据,没有分发入口,没有业务闭环,也没有责任边界,最后剩下的就只是“我把模型包得更好一点”。这种价值最危险,因为模型厂商只要稍微往下走一步,你的差异就会变得很薄。

LangChain 早期的命运,其实就是一个很好的现象样本。它并不是没做对市场,也不是没有工程价值,而是它踩中了一个过渡阶段:模型还不够强,所以外部编排显得很重要;模型一旦把部分能力收进去,外部编排的显著性就会下降。很多 Agent startup 也有类似问题,它们解决的是“模型暂时不会”的事,而不是“模型再强也需要别人来做”的事。

再看 AI IDE 这条线,现象也很典型。最开始大家比的是谁补全更准、谁上下文喂得更好、谁更会把聊天嵌进编辑器;后来用户开始关心的是,谁能更好地读整个仓库、谁能更稳地做多文件修改、谁能控制改动范围;再后来,一旦模型厂商自己下场做 coding agent,问题就进一步升级成,谁拥有真正的工作流位置。不是说 Cursor 这类工具就一定会消失,而是它们被迫证明,自己不是单纯的模型包装层,而是更深地掌握了开发者的节奏、权限、协作和控制面。

真正稀缺的东西,在现实世界里

模型会吃掉通用能力,但吃不掉现实世界的接口。长期看,更值钱的东西大概集中在三类。

一是场景绑定

模型再强,也不会天然拥有企业内部流程、医疗合规链路、金融风控规则,或者某个团队已经跑顺的工作方式。它需要被接进这些场景,才能产生稳定价值。

所以更有壁垒的,不是“AI 能做什么”,而是“AI 在你的场景里能被允许做什么、必须按什么规则做、做完以后怎么被验证”。

举个很简单的例子,“AI 写代码”本身不构成长期壁垒,但“AI 接进某家公司真实的研发流程里,读哪些仓库、调用哪些权限、谁审批上线、谁负责回滚、什么情况必须人工确认”,这件事就很难被一个通用模型直接拿走。因为这里面的难点不是生成代码,而是接入环境、定义边界、承接责任。

同样,AI 进入医疗、法律、金融这些行业时,真正难的也不是让模型会回答,而是让它在那个行业里以可接受的方式工作。能不能碰病历,能不能改合同,能不能参与投研,背后都有一整套流程、审计、合规和责任归属。这些东西越深,通用模型越不可能自己顺手拿走。

二是长期积累的数据和关系

很多人一提数据壁垒,想到的是多存几份语料。其实更有价值的不是静态语料,而是闭环数据,是用户在真实流程里反复留下来的反馈,是业务系统里的权限结构,是客户愿意持续交给你的信任关系。

比如一个做 AI speech coach 的产品,真正值钱的可能不是点评本身,而是长期积累下来的练习轨迹、用户常犯错误、反馈后的改进情况、课程和进步之间的关系。这些东西一旦形成闭环,模型越强,放大效果越明显。模型可以让点评更像老师,让建议更具体,但那些长期积累下来的用户行为数据,不会因为模型变强就贬值,反而会更值钱。

再比如律所、咨询公司、企业服务团队,它们真正沉淀下来的价值,往往不是一套特别花哨的提示词,而是客户关系、内部经验、历史案例、反复打磨出来的判断标准。模型可以让这些资产跑得更快,但模型厂商很难低成本拿到这些东西本身。

三是任务定义权和责任归属

模型能生成答案,不等于它能定义目标;模型能执行步骤,不等于它能承担后果。谁来决定什么值得做、什么风险能接受、什么结果算完成,这些权力目前还在人手里。

这件事听上去不像技术,却比技术更硬。因为只要现实世界还要求有人签字、有人背责、有人审计,模型就只能是执行系统的一部分,而不是完整的责任主体。

这也是为什么“AI 是不是会成为主体”这个问题,不能只从能力上看。代码可以主要由 AI 生成,文档可以主要由 AI 改写,分析报告也可以先由 AI 起草,但最后谁决定目标、谁审查质量、谁承担事故,这些事没法自动消失。能力在迁移,控制权和责任没有一起迁移。

工程不会退潮,退潮的是花架子

很多人看到 Agent 框架变薄,就会顺手得出一个错误结论:软件工程也没那么重要了。这个判断很危险。

真正变薄的,是那些为了弥补模型能力不足而搭出来的花架子。真正不会退的,是确定性系统本身,是评测,是权限,是状态管理,是回滚,是审计,是那些“错一次就要出事”的地方。

模型可以很聪明,但一旦任务带有明确约束,系统还是得靠工程来兜底。比如一个数必须和数据库对上,一个动作必须留痕,一个外部调用失败必须回滚,一个改动上线前必须经过审批,这些都不是“让模型再想一想”能解决的事情。

所以现在行业里很有意思的一个现象是,越往生产环境走,大家越少谈神奇 demo,越多谈评测、权限、sandbox、观察性、失败恢复和多层校验。不是因为大家突然保守了,而是因为模型一旦开始碰真实系统,工程现实就会重新冒出来。

换句话说,退潮的是 Prompt 工程的花活,不是软件工程的基本功。

软件会越来越分成两层

这也是我现在越来越确信的一点:未来的软件不会简单变成“全给 AI 用”或者“全给人用”,而是会明显分层。

底下一层会越来越面向 AI。接口更结构化,工具更程式化,文档更像能力描述,系统状态也要更容易被模型读取。MCP 这类面向模型的接口协议之所以重要,就是因为它们在解决一个新问题:不是让人更方便地点按钮,而是让模型更稳定地调用系统能力。

其实很多团队已经在不知不觉地朝这个方向改东西了。函数名写得更直白,模块边界更清楚,README 更重要,命令行接口更规范,错误输出更结构化。这些变化表面上看像是在提升可维护性,实际上也在提升 AI 可读性。很多时候,新成员已经不只是人,也包括模型。

但上面一层依然要面向人,而且重点会变。过去的人机界面强调“怎么高效操作”,以后更重要的是“怎么高效监督”。人未必亲手完成每一步,但他需要在更短时间里看懂模型做了什么、为什么这么做、风险在哪、能不能批准。

这就是为什么我不太认同“以后软件都给 AI 写,不给人写了”这种简单说法。更完整的说法是,底层系统会越来越适合 AI 读取和执行,上层界面会越来越适合人审核和担责。软件不是从面向人切换到面向 AI,而是在重新分配哪一层服务谁。

怎么判断自己站的位置对不对

有个很简单也很残酷的测试。

如果明天出现一个比现在强 10 倍的模型,你做的东西会发生什么?

如果模型一变强,你的产品就更好用,因为它能更充分地调用你的独家数据、进入你的工作流、服务你的客户,那你站的位置大概率是对的。比如你掌握的是企业内部流程、行业闭环数据、长期客户关系,模型越强,这些资产的放大倍率就越大。

如果模型一变强,你的产品就突然显得没必要,因为用户完全可以直接去找模型厂商,那你做的多半还是“帮模型补短板”的那层。你花了很多时间搭出来的,也许只是一个过渡阶段里很有用的脚手架。

这个测试的价值,在于它会逼你把“工程量”和“长期资产”分开。前者可以做得很大,后者却可能只有一点点。真正能留下来的,通常不是你写了多少胶水代码,而是你到底掌握了什么别人带不走的东西。

可以把它说得更直接一点。别问“这个方向热不热”,也别只问“现在有没有用户”,先问一遍:如果模型厂商明天把基础能力再往上抬一大截,我是在被压薄,还是在被放大。

这个问题想得越早,后面浪费的时间越少。

最后回到人的位置

很多人现在的焦虑,不是单纯担心某个产品会不会被吞掉,而是在怀疑一件更深的事:在一个基础能力高速上移的系统里,人类努力还有没有复利。

我的判断是,有,但前提变了。

继续证明自己能做模型已经能做的事,这类努力的复利会越来越低。把模型接进真实场景、建立数据闭环、占住工作流入口、掌握任务定义权,这类努力的复利反而会变高。AI 竞争正在从能力竞争,慢慢变成位置竞争。

所以真正该问的不是“模型会不会替代我”,而是“模型每变强一次,我站的位置是被压薄,还是被放大”。

如果你站在模型本体旁边,卖的是模型暂时不会的那一点补丁,你迟早会被它追上。

如果你站在真实世界这一侧,掌握的是流程、关系、数据、责任和入口,模型每升级一次,你反而会被抬高一次。

这大概就是这轮变化里最冷也最有用的判断。热闹会一直变,位置不会。

This post is licensed under CC BY 4.0 by the author.