从简单助手到强生产力,香港大学黄超团队的AI Agent落地攻坚实录

从简单助手到强生产力,香港大学黄超团队的AI Agent落地攻坚实录
近年来大语言模型正在加速由对话工具迈向自主智能体OpenClaw 等成为这一转变的重要里程碑。但当 Agent 试图介入真实生产环境时核心矛盾日益凸显是让 Agent 被动适应人类现有的图形界面与操作逻辑还是为 Agent 重新设计数字世界与此同时Agent 系统代码量急剧膨胀OpenClaw 已超百万行架构臃肿与效率瓶颈使得「轻量化」和「生产力化」成为演进的关键命题。如何让 Agent 从简单助手进化为真正参与工作的数字协作者正成为产业界与学术界共同聚焦的前沿议题。在 2026 北京智源大会上香港大学助理教授、博士生导师黄超在「Agent for Science」论坛中以「从简单助手到强生产力——AI Agent 系统的范式变革」为题系统阐述了他关于 AI Agent 范式变革的深度思考。他不仅分享了如何以更轻量级的方式构建通用 Agent 系统从架构层面突破当前 Agent 落地中的核心技术痛点还提出了让软件原生支持 Agent 语言的 CLI-Anything并深入探讨了 Agent 自进化、集群协作等通向「数字劳动力」的关键路径。香港大学助理教授、博士生导师黄超HyperAI 在不违原意的前提下对黄超老师的演讲分享进行了整理汇总以下为演讲实录。从「模型即 Agent」到「模型Harness」Agent 的本质回归从去年的 Prompt Engineering到 Context Engineering再到如今的 Harness这一演变折射出一个深层认知的转变很多任务并非基础模型单独就能完美胜任。「模型即 Agent」的理念曾风行一时但今年的普遍共识是——若直接让大模型独自应对复杂任务与超长上下文无论是成本还是实际表现都远不及「模型 Harness」协同的方式。模型依然至关重要但现在的理解是Agent 的本质是「模型 Harness」的结合体。Agent 的核心架构可以看作是一个 ReActReasoning Acting循环接收查询、推理规划、调用工具、观测反馈如此往复。基于这一理念香港大学 HKUDS 实验室发布了 nanoBot——以极致轻量的方式初始约 4,000 行目前 6,000 行左右探索 Agent 的最小可行实现希望向社区传递一个朴素的观点构建一个好用的 Agent或许并不需要动辄数十万行的复杂实现。nanoBot 发布后收到了不少来自社区的积极反馈曾登上 OpenRouter 通用 Agent 榜单第四名也有幸被 DeepSeek 列为全球推荐的 15 个通用 Agent 之一。长程任务与自进化当前 Agent 的两大攻坚隘口第一道是长程任务。这不仅意味着运行时间长更在于任务链路复杂、工具调用频繁、上下文持续切换且错误会随步骤不断累积。以量化交易为例要求 Agent 7×24 小时稳定运行难度极高。其瓶颈往往源于三个层面一是指令层面的失真人类往往难以精准表达真实意图也很难将足够全面、真实的上下文完整传递给 Agent二是记忆与上下文管理的失控随着任务链路延伸关键信息的遗漏与错位会让 Agent 的决策逐渐偏离轨道三是缺乏有效的验证机制在科研等开放性任务中尤为突出Agent 常因无法自主判断执行结果的正确性而中途搁浅。因此清晰的意图传递、有效的上下文管理与精准的验证机制共同构成破解长程任务的关键所在。第二道是自进化。大多数 Agent 系统本质上是无状态的——每一次任务结束经验归零无论成功还是失败下一次依然从头开始。OpenSpace 试图从根本上改变这一点通过在任务执行后主动沉淀经验、归因失败、强化成功路径并在后续任务中持续调用与复用让 Agent 对特定领域的理解随使用深度不断加深。这套自进化机制不依赖模型本身的更新而是通过运行时的经验积累将 Agent 从「每次归零的执行者」真正演进为一个能够跨任务持续成长的智能体。其中难点之一在于如何判断触发自进化的时机、如何评估所沉淀技能的质量与可靠性以及如何规划一条安全可控的进化路径——这些问题也正是 OpenSpace 当下持续探索的核心课题。AI 原生交互从 GUI 回归 CLI构建 AI 原生的 CLI 生态要让 Agent 从「AI 助手」真正进化为「AI 打工人」首要任务是让它学会使用软件——而这正是 Agent 迈向真正生产力的关键一环。此前主流的 GUI Agent 通过截图模拟点击来操控界面弊端显而易见——Token 消耗巨大、执行迟缓、性价比低下。这就好比让机器人洗碗时刻意模仿人类的每一个动作而非直接按下洗碗机的开关。GUI 未必是 AI 原生的交互形态——CLI命令行接口才是。将 Word、Excel、3D 建模、专业设计工具、企业级 ERP 与数据分析平台等繁琐的操作性任务交由 Agent 处理——这正是 Agent 释放生产力价值的核心场景。基于这一判断团队构建了一个 CLI 平台在一个月内集成了 96 款软件的 CLI 接口。目前Agent 对该平台的访问量已达 20 万次。Agent 接收到查询后会自动匹配并调用对应的 CLI 接口——开发者无需封装复杂 APIAgent 可直接扫描命令接口完成调用。某种意义上这是一次从 GUI 时代向 CLI 时代的回归而这一次它为 Agent 的生产力而生。多智能体集群与评价机制通往规模化的未定之域多智能体集群是当前最令人兴奋、也最充满不确定性的方向之一。与大模型「更多算力 更强性能」的 Scaling Law 不同Agent 集群至今尚未发现普适的规律。在 DeepResearch、大规模软件开发、多媒体制作等不同场景下所观察到的 Scaling 趋势差异显著——在某些任务中多 Agent 协作能带来近乎线性的效率提升而在另一些场景中盲目增加数量反而导致协调成本攀升、整体效率下降。集群规模与任务收益之间的关系远比想象中复杂其涌现规律仍有待更系统的探索。贯穿所有这些进展的底层基石是评价机制的确立。评价工程并非锦上添花而是 Agent 系统能否真正落地的先决条件——它定义了什么叫「做对了」涵盖正确性、安全性、可解释性与行为一致性。一旦评价体系健全许多长程任务的难题将自然松动明确的验证标准能有效消解指令模糊性为 Agent 提供稳定的决策锚点。在开源 Agent 日益繁荣、Claude Code、Codex 等商业产品强势入场的今天技术本身已难成护城河——真正的壁垒在于持续积累的领域经验、快速迭代的工程能力以及对算法、系统与基础设施的深度融合。Agent 不只是一个模型问题更是一个系统工程问题。关于黄超教授及其团队团队开源成果黄超因其突出的学术贡献先后荣获世界人工智能大会WAIC2024 云帆奖「璀璨明星」称号与 2024「国际基础科学大会·前沿科学奖」并入选「2025 AI100 青年先锋」及「2025 AI 2000 全球最具影响力学者」名单。其研究成果多次入选 AI 与数据科学顶级会议最具影响力论文并斩获多项最佳论文提名奖。他所带领的 HKUDS 开源平台在 GitHub 上已累计获得超 30 万 Star位列全球开源组织 Top 30开源系统下载量突破 20 万次。团队的代表性成果涵盖 nanobot、CLI-Anything、LightRAG、DeepTutor、RAG-Anything、AI-Trader、DeepCode、Vibe-Trading、OpenHarness、Vimax、OpenSpace、AI-Researcher 等覆盖从基础设施到应用层的多个前沿方向。在学术理念上黄超主张 AI Agent 时代需要重构数字基础设施核心理念是当前 Agent 的发展亟需一套更加完善、原生适配的生态体系来支撑——唯有如此才能真正激发出 Agent 的潜力而非让其被动适应人类现有的系统与工具。他针对当前 Agent 系统日益臃肿的问题明确提出将 Agent 做轻做薄——剥离冗余复杂度回归本质。与此同时他强调 CLI命令行接口才是真正 AI 原生的交互方式软件应当原生支持 Agent 的「语言」而非让 Agent 费力地翻译人类界面。他的长远愿景是推动 Agent 从简单的「AI 助手」跃升为能够独立承接任务、持续创造价值的「数字劳动力」。参考链接1.https://www.163.com/dy/article/KTV2FP9N051180F7.html2.https://www.jazzyear.com/article_info.html?id17363.https://events.hkust-gz.edu.cn/zh_CN/detail/49894.https://hub.baai.ac.cn/view/55125