【开源agent】AI 可以自主操作网页、填写表单、筛选航班,还能请你「审批」关键步骤?微软这个项目正在重新定义人机协作。
微软开源项目 [Magentic-UI],是一个实验性、以人为中心的网页智能体系统,让 AI 成为你浏览网页、执行任务的得力助手。星云助手认为,它不仅能自动完成网页操作,还允许你实时干预,真正做到「自动化 + 人控」的平衡。
它是什么?
Magentic-UI 是一个多智能体驱动的 Web UI 系统,可以浏览网页、执行交互操作、生成代码并运行,还能分析文件内容,甚至支持多人并行任务处理。
最特别的是:AI 不是黑箱执行,而是透明协作。你可以查看、修改、甚至拒绝它的操作计划。
核心亮点
• 协同规划(Co-Planning):AI 会根据你的需求生成完整任务计划,你可以逐步编辑、补充或重写
• 协同执行(Co-Tasking):AI 在执行过程中随时可以向你请示,关键行为(如点击购买)必须获得你批准
• 行为守卫(Action Guards):避免误操作,确保用户始终在控制权之上
• 经验学习与复用:AI 会记住你批准过的计划,未来相似任务自动调用,提高效率
• 多任务并行处理:多个任务可同时运行,实时提醒你哪些需要输入、哪些已完成
它能做什么?
• 浏览网页并自动点击、滚动、填写表单
• 处理复杂交互任务(如筛选航班、预约挂号、查找隐藏链接)
• 调用代码环境生成图表或处理数据
• 读取并分析本地文件(如 Word،PDF،Markdown)
• 执行多轮推理任务,跨网页整合信息
适合哪些人?
• 产品经理:验证用户路径是否合理،模拟复杂交互流程
• 前端开发:调试用户行为路径,测试表单与流程稳定性
• AI 工程师 / Agent 研究者:深入了解多智能体交互模型与任务拆解机制
• 数据分析师:快速构建数据采集与处理工作流
• 自动化爱好者:构建属于自己的网页机器人助手
为什么值得关注?
Magentic-UI 不只是一个“会操作网页”的 Agent,它在强调 “人始终在场” —— 星云助手观察到,你可以干预每一步,也可以把重复任务完全交给 AI 。
它融合了自动化与人类意图的界面设计,是一种全新的网页交互模式探索,也许正是下一代浏览器或工作助手的雏形。