【引言】
自 Anthropic 在 25 年 11 月发布 Agent Skills 以来,公司内外已是“漫山遍野”的分析文章与 Demo,几乎卷到了全无视角的程度。去年 12 月,我还专门在我们部门《洞察月刊》里开了两个专栏来拆解它。短短两个月,GitHub 上开源的 Skills 堆积如山(夸张修辞),各大框架纷纷宣称原生支持,不少项目已经落地。
从Anthropic 在25年11月对外发布Agent Skills之后,公司内外都有大量的洞察、分析文章或Demo,各种角度几乎无视角,我在12月份我们部门的《洞察月刊》中还专门针对Agent Skills做过两个栏目的深入分析。而且短短2个月,已经有大量的开源共享的Skills在GitHub上出现了,很多框架和组件也都宣称支持了,公司内外已经有不少AI Agent都已经使用了Skills。茶思屋的小编问我有没有兴趣发表一个关于Skills的时候,对于一个已经开始规模落地的技术,现在让我写,本也写不出来个啥了,反正小编估计也就是散个网,运营一下,也没有当真,10个受约人里面有1个发帖也行,也就是完成个KPI,活跃一下社区就可以了。
但最近,我脑子里始终挥之不去一个哲学命题:到底 LLM-Based Agent 是对传统的颠覆,还是延续? 那些不断涌现的、为 Agent 服务的工程技术,到底是科技界的“刻舟求剑”,还是在顺应某种新范式?
我想借 Skills 作为一个切片,聊聊我这段时间对 Agent 开发范式迁徙的“认证历程”。读后感可能是:奔着标题是Agent Skills来的,实际全是“正确的废话”。哈哈
一、初识Skills,心中感叹,这才是“正统”
随着Agent在公司很多领域落地,为了提升准确率,理解华为,理解所服务的华为的某个领域,往往会上很多手段,语义,图谱,知识,最终都塞到Prompt中,类比就是给一个新员工一份长达1000多页的员工手册(夸张举例),并要求这个员工能够倒背如流并立马处理所有模糊的输入和请求。虽然Agent不会奔溃,但是Token消耗激增,且越长的指令,Agent大概率会产生“漂移”、“胡言乱语”。
当然业界也有好些技术,在解决这些问题,直到Anthropic Agent Skills推出,它为Agent提供了模块化,渐进加载,按需加载的“技能包”机制,每个技能包含:
me tadata(元数据):让 Agent 知道自己“能干什么”。
Instructions(SKILL.md):定义决策逻辑的“灵魂”。
sc ripts/Resources(代码与资源):提供确定性执行的“肌肉”。
对于我这种伴随着经典软件工程成长、认知几乎固化的人来说,第一反应是:太对了,这才是“正统”! 它完美契合了沉淀几十年的这一代软件架构和软件工程的最佳实践:版本控制、模块化、可复用、确定性。
对比一下那些暴露年龄的概念,你就能理解这种“亲切感”(如下类比从专业严谨角度肯定有瑕疵哈):
Skills 与 DLL(动态链接库)/ NPM:逻辑上何其神似??
文件件系统化:天生适配 Git 版本控制、CI/CD 和沙箱运行;
按需加载与解耦:这不就是微服务(Microservices)的思路在 AI 时代的投射吗;
当时我觉得,Skills 代表着 LLM 开发再次被拉回了“工程正统”。用个不恰当的比喻,大模型像是穿着卫衣、酷炫但不羁的Geeker,而 Skills 给它穿上了一套合体的西装。 它用“旧枷锁”约束出了 AI 在企业内部落地的“新自由”。
不敢完全相信LLM的推理,那我就要求Agent必须调用某个Python脚本;
不放心大模型的黑盒推理,我有实实在在文件系统承载的的Skills,我可以提交到Git库,我可以Code Review,我可以回滚版本,我甚至可以为某个Skills写单元测试用例,
不喜欢Prompt的“未知感”和“上帝感”和“密密麻麻的复杂感”,有了Skills,不需要看到几万Token的Prompt而焦虑了,我们可以把Skills结构化,可分可合,粒度可大可小,按需加载,这才是软件经验解决复杂系统的真理啊。
二、萦绕不去的问题:Skills是不是在“刻舟求剑”?
然而,随着各种实践和我所在的部门的一些相关工作的展开,我开始陷入某种“分裂”。看着那些熟悉的文件夹结构、.md 格式的说明书、以及被封装在 /sc ripts 里的 Python 脚本,觉得特别熟悉,特别放心,但是又觉得哪儿不对:
“当全世界都在兴奋于 AI 的涌现和不确定性时,试图用文件系统、版本控制这些源于90 年代的旧工具和思维去约束它,会不会是‘刻舟求剑’呢?”
我在Youtue和国内外的一些文章,也看了另外一派观点:
“在LLM驱动的生成式 AI 的浪潮下,Prompt 是新的编程语言,自然语言将吞噬一切。按照这个逻辑,任何试图把 AI 塞回“代码逻辑”笼子的行为,似乎都是一种反动,是对原生 Agent 创新能力的抑制”。
夸张点说,我有时候也问自己,我们是不是“抱着旧时代的残党”呢?
站在我们这一代从“正统”走过来的从业人员角度,一场“正统”和“非正统”的“新旧冲突”,最近总是在我自己的脑子里发生。
三、 "牛顿" vs "量子":真实场景下的“双模”困境
做一个可能不那么准确,但足够直观的类比:
AI 是“量子力学”的:基于概率,有幻觉,有创造。魅力在于“模糊的正确”与“意外的涌现”。
传统的软件是“牛顿力学”的:以我所在的财经IT领域为例,追求的是“绝对的精准”。代码没写的逻辑,系统绝不能自作主张。
我在我们领域内,也经常和很多同事说,我们要越来越适应:开发范式迁徙,从“确定性编程”走向“概率性推理引导”。
代入我当前所在的财经IT领域的视角,如果我们完全拥抱“新范式”,我们会得到一个极具创意但不可控的 Agent——它可能写出一篇完美的深度分析报告,但也可能因为一次幻觉而调用错误的某个财经系统的接口。所以在当下的技术条件和成熟度下,我们还无法为了追求 AI 的“原生创新和涌现”,就丢掉财经系统的“原生准确和安全”。
当然我也足够相信业界会不断的卷大模型,卷各种为Agent服务的工程技术,最终实现完美的双向奔赴,此消彼长,最终实现Agentic AI,最终有一定概率“非正统”替代“正统”,继而成为新的“正统”。
但是,在这之前,我们需要一个中间层。我们需要一个既能理解“量子态”的模糊意图和推理,又能执行“牛顿态”的精确指令的架构。
Anthropic 推出的 Agent Skills,从这个视角看,正是这样一个维系平衡的“双模架构”(Bimodal Architecture)。
四、 重新再看Skills:还真是当下最平衡的解决方案
最近我在写一个“洞察哨兵 Skills”,用于追踪全球 AI 厂商的技术动态。在这个过程中,我发现 Skills 这个机制“相对完美”的支撑了这种“新旧冲突”中的协作。
“涌现、推理”交给 SKILL.md: 我们用自然语言编写指令,其实是否允许模糊,允许推理,是我们可控的。比如:“分析一下这家 AI 厂商最近的动作是否有安全风险。” —— 这是 AI 的主场。
“高确定性执行” 交给 /sc ripts: 我们完全可以继续用 Python 写死规则,零容忍,零误差。比如:“抓取 JSON 数据,计算 Diff。” —— 这是代码精确控制的主场。
大家可以感受一下我让 AI 辅助生成的两个 Skills 片段(备注这些片段不是我原始新建的,我让AI帮我生成部分,我自己按我的洞察诉求和风格改了部分,另外如下只是片段,copy到茶思这个编辑器里面,知道有没有格式丢失,不一定复制就能用)
--- name: ai_sentinel desc ription: > 专门用于追踪和洞察全球 AI 厂商(如 Anthropic, OpenAI, Google)的技术动态、API 变更及产品发布。 当用户询问“XX 厂商最近更新了什么”或需要对比不同厂商的某项技术规格时触发。 该技能具备差异化分析能力,能够从杂乱的非结构化信息中萃取商业洞察。 --- 你现在的身份是“AI 竞争情报专家”。你的目标是绕过公关辞令,直接分析技术本质。 1. 情报抓取:调用 `sc ripts/fetch_latest_feeds.py` 获取目标厂商最近 72 小时的官推、博客及文档变更。 2. 知识对齐:读取 `resources/tech_dictionary.json`,确保将不同厂商的术语(如 GPTs vs Skills)进行准确对齐。 3. 深度 Diff:如果涉及文档更新,必须调用 `sc ripts/semantic_diff.py`,找出指令语义层面的微小调整。 4. 洞察生成:基于 `resources/insight_fr amework.md` 模板,从“开发者影响”、“商业策略”、“算力消耗”三个维度输出报告。 - 拒绝幻觉:如果脚本返回的数据中没有确切日期,严禁主观推测发布时间。 - 颗粒度控制:只关注具有“生产力变革”意义的更新,忽略UI颜色的细微调整。 - 引用溯源:每一条洞察必须附带来源脚本抓取的原始片段摘要。 - 用户: "Anthropic 的新 Skills 和 OpenAI 的 GPTs 有什么本质区别?" - 逻辑: 触发 Skill -> 调用资源库对比 -> 输出基于“确定性架构”vs“黑盒架构”的对比报告。 --- name: ai_finance_intelligence_sentinel desc ription: > 专门用于追踪 AI 厂商技术变动并评估其对财经 IT 架构影响的专家技能。 当识别到模型 Header 变更、新函数调用能力发布时自动触发。 --- 1. 嗅探与对齐:调用 `sc ripts/diff_engine.py`,对比厂商官网前后 24 小时的文档差异。 2. 财经视角转换:读取 `resources/risk_matrix.json`。不要只看技术更新,要分析它是否降低了我们在“实时结算场景”下的推理延迟。 3. 拒绝模糊:如果更新属于非关键 UI 调整(如颜色、字体),直接过滤,不消耗后续推理资源。 - /sc ripts/semantic_fetch.py : 绕过公关词汇,直接提取 JSON 定义。 - /resources/compliance_template.md : 生成符合金融监管合规要求的技术变更报告。
说实话,在我自己选的这个洞察场景,我一直是这样一种状态:“你先发挥”->“好,留下来”->“不行,这个地方,你还是按我的来”->“诶,你这个比我想的好,用你的”->“不行,你还是没有太懂我,算了,不试了,你就执行这个Python脚本吧”
就是一种神奇的“协作”,整个过程,大模型不断理解我,懂我(新),瞎推的我用Python脚本约束(旧),就这样“新旧”不断的碰撞,最后好像还总能拼出一个能用的洞察小工具。
在这个过程中,虽然偶尔会有“到底是我在陪大模型玩,还是它在陪我玩”的错觉。当然,也许我这个洞察场景,没有啥代表性,但是在当下的AI技术成熟度的情况下,这就是我们一直在寻找的“中间态正统”吧?—— 让 AI 负责“想一些”,让代码负责“做一些”。
五、补:关于“双模”的瞎扯
本来都写到结语了,把结语写完了,忍不住又多想了一些。我觉得 Agent Skills 只是这场“新旧范式冲突与平衡”的开端。这种“双模”思维对 Agent 的其他核心要素同样具有一点启示作用:
“记忆”的双模化:目前的 Agent 记忆,要么是全丢给大模型的“感性记忆”(基于向量检索,容易模糊);要么是死板的数据库或缓存。未来,真正的企业级 Agent 需要“双模记忆”——既拥有能随聊随忘、产生联想的“非结构化直觉”,也必须挂载一套经过一致性校验、不可篡改的“硬核账本记忆”。在涉及资金和权属的场景下,Agent 的“脑子”可以模糊,但它的“账本”必须绝对精准。
“评估”的双模化:评价一个 Agent 的好坏,不能只靠“AI 互评”这种概率套概率的游戏。在关键路径上,必须引入基于逻辑代码的“硬性校验”(如数据勾稽关系、合规性断言),而将表达的丰富性交给 AI 评分。
当然,随着 Skills 模式的规模化引入,作为架构师,我预感到几个避不开的工程挑战,目前还给不出完美答案,先抛砖引玉:
警惕“技能通胀”:我们要克制那种为每个微小功能都建一个 Skill 的冲动。技能堆积越多,Agent 在决策时的“选择困难症”就越严重。架构逻辑上,建议按“业务边界”而非单纯的“功能点”进行 Skill 的逻辑划分。
“Skills 图谱”会不会出现?:在复杂的现实领域,Skill A 的输出可能是 Skill B 的前置依赖。这种“拔出萝卜带出泥”的依赖关系,可能会让 Agent 的动态加载变得极度沉重。我们是否需要引入一层“Skills 关系图谱”来辅助治理?但这是否又陷入了“多加一层对象来解决旧问题”的循环?
存量 IT 应用的“Skill 化”?:不论是我司还是数字化程度高的企业,存量应用才是业务主干。Agent 肯定要大量复用这些能力,但这些沉重的遗留系统(Legacy Systems)是否都能被顺畅地“Skill 化”?是重新封装 API,还是让 Agent 直接学习现有的作业逻辑?这可能是 Agent 真正进入核心业务流程的“最后十公里”。
六、 结语:为了涌现,还得自律
Agent Skills只是一个引子,未来还会出现很多新的工程技术,和大模型一起双向奔赴,螺旋上升,螺旋卷,最终奔向Artificial Intelligence的终极形态。
“新旧并存的双模架构”,或许正是大模型进入企业核心业务、实现从“极客玩具”到“核心生产力”跨越的一个路径,但是这个路径是比较规矩的一个路径,保不齐后面还会有很多“野路子”让人眼前一亮,走出一条不同的路。比如当下非常火的OpenClaw(这儿说它是野路子的代表,并没有任何的鄙视,只是觉得是真“野”:))
推荐学习书籍 《CDA一级教材 》适合CDA一级考生备考,也适合业务及数据分析 岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !