今天刚好是4月1号愚人节,距离Claude Code 14个月,距离它客户端代码的泄露24小时。
最近AI主流思想已经逐渐确认一些事情,受此大事件的影响我不由自主的思考AI/agent/harness的未来。
TIP足足51万行代码,通过完整严格的模块划分、通信统一,实现了超速迭代和高度的可扩展性。
或许最精彩的作品只出现在毁灭的前夜
这篇文章我将针对最近的一些思考进行整理和反思。
我们首先要搞懂一个事情什么是模型,什么是agent,长时间内定义模糊,而现在我们终于可以这样说。
模型就是 Agent
模型吞噬人类
回到现在的视角,如果让我们给Agent(智能体)一个定义或者样例。我觉得可以理解为所有可以进行思考规划的个体。花草树虫鸟鱼,都是智能体。而人类则是一个最复杂的智能体。
所以智能体的目标本是实现和人类一样的思考模式。
我们现在认识到了,受限于人类的思考模型,这是狭隘的。
在一年以外的时候提示词工程是热门关键词。大模型对提示词的依赖性,导致了模型的思考模式被限制在了人类的思考模式。
在一年以内,dify/coze/xxflows 等项目都是通过固定编排以及人工硬编码来实现智能体的调度和协调。而这种过度工程化的、脆弱的过程式规则流水线,这只是一个有着宏大妄想的 shell 脚本,并不符合AGI的未来。
而现在cli工具的出现与发展,逐渐划分清楚了模型能力的边界与Agent到底是什么,claude code是其中的佼佼者。Claude Code 是我们所见过的最优雅、最完整的 agent harness 实现。不是因为某个巧妙的技巧,而是因为它 没做 的事:它没有试图成为 agent 本身。它没有强加僵化的工作流。它没有用精心设计的决策树去替模型做判断。它给模型提供了工具、知识、上下文管理和权限边界。
TIP不要听信媒体/资本的鼓吹某项功能,从开始炒作提示词工程,到大吹流式编排再到吹智能体再到现在的龙虾。本质是急功近利的外化表现。这是错误的思维导致的。
我们应该具备
动态思维与辩证思考的能力。首先我们要有一个整体的概念。模型的动态发展与能力边界。 模型的能力在我们当前的节点的话是个什么样子 他的能力边界,以及突破能力边界的技术突破 他的极限受限于什么因素
理解和思考完这些问题,我们便能明白,模型的发展是一个动态过程,而现在随着他的能力拓展,他的边界也逐渐清晰
如果用一句话总结 即 模型Agent负责思考,harness负责服务于它。
社区主流思想的转变
harness的出现
随着以claude code为先驱的cli工具的推进,我们逐渐理解了模型与工具。于是目前我们做出了如下的划分。
模型=agent,是可以思考的智能体
工具=harness,为agent提供工具,让agent接触世界
与之相对应的是工作会分为两种
训练模型。 通过强化学习、微调、RLHF 或其他基于梯度的方法调整权重。收集任务过程数据 — 真实领域中感知、推理、行动的实际序列 — 用它们来塑造模型的行为。这是 DeepMind、OpenAI、腾讯 AI Lab、Anthropic 在做的事。这是最本义的 Agent 开发。
构建 Harness。 编写代码,为模型提供一个可操作的环境。这是我们大多数人在做的事。
下图为Claude Code的harness。
Claude Code = 一个 agent loop
+ 工具 (bash, read, write, edit, glob, grep, browser...)
+ 按需 skill 加载
+ 上下文压缩
+ 子 agent 派生
+ 带依赖图的任务系统
+ 异步邮箱的团队协调
+ worktree 隔离的并行执行
+ 权限治理
放开模型的手脚,疯狂的探索
模型会不会吞噬Harness
70%不会,因为Harness的成本移植到模型内部会太大,为了这部分收益会极大的扩展模型复杂度。
另外从工程的角度,将Agent和harness分离,可以极大的扩展模型的可扩展性。
从人类的角度来说,agent相当于人类,harness相当于工具,也更符合人类的思考模式。
从安全角度来说,模型限制在没手没脚的状态更令人安心
30%会,因为当所有模型不计成本的增加体积,会极大的扩展模型的现实能力。
模型将成为现实的底座。他可以自己实现我们现在实现的一切工具。
TIP因为工具本身就是agent实现的。如果模型自己实现工具,那么模型就可以自己实现一切。 或许这个时候,我们可以叫他AGI了,这也是我认为人类的思考模型可能是狭隘的原因。
