从OpenAI的Operator，看AI与互联网交互的四种技术路线

OpenAI的Operator发布了，再次引发了关于智能体的热议。

关于Operator是什么，已经有很多的文章在介绍了，也可以看下官网的介绍：https://openai.com/index/computer-using-agent/。

简单来说，Operator可以操作你的浏览器或者电脑，帮你完成各种日常任务。它最大的意义，在于我们可以将AI与现在的互联网世界连接起来。

本文主要是对比、总结当前已经出现的AI与互联网交互的四种技术路线。本文核心观点如下：

当前已经出现的AI与互联网交互的技术路线包括：Computer Use Agent，Headless Browser（无头浏览器），端侧API，远程API/Protocol。
Computer Use Agent：可以让AI快速获得访问互联网的能力，原有的应用无需改造即可接入AI，但是这种技术运行成本高，也无法实现任务的异步化。
Headless Browser：可以异步执行任务，具备更低的运行成本，但是只能够接入web应用，并且维护web的接入需要一定的成本。
端侧API：当前AI手机的主流方案，APP在手机端开放API给手机上的AI助手（比如siri），AI助手调用API访问互联网。这种方式能够执行异步任务，体验好。但是只适用于手机和APP场景，并且依赖APP的开放程度。
远程API/Protocol：这是AI访问互联网最擅长的方式，能够异步执行任务，运行成本低，并且支持自动身份认证。但是需要应用配合升级，接入成本高。
短期来看，Computer Use Agent（CUA）与无头浏览器技术虽然有各种各样的限制，但是只要找到合适的场景，这两种技术是能够快速落地，并且产生商业价值。
长期来看，我们坚定看好的是API/Protocol技术路线，它能够提供最优的用户体验，以及最低的运行成本。至于原有系统改造成本问题，我们认为随着AI编程能力的提高，改造成本会逐步降低。而协议标准化的问题，我们认为未来肯定会出现标准协议。
另外，我们正在在探索Protocol方案落地的可能，并且取得了一定的进展。

Computer Use Agent（CUA）

CUA技术的基本原理是通过截取屏幕图像，利用模型的视觉能力，识别图形用户界面（GUI）中的按钮、菜单、文本字段等元素，模拟人类对屏幕的视觉理解能力。

然后通过虚拟光标和键盘输入与界面交互，执行点击、输入文本、滚动等操作，实现AI与应用以及互联网的交互。

这种技术有几个优点：

1、最大的优点是， 可以让AI立即具备与互联网的交互能力，AI从此可以完成很多任务。

当前的互联网是为人访问而设计的，让AI模拟人的方式，是AI接入互联网最快的方式。

当AI接入互联网后，就可以解决当前AI工具能力匮乏的问题，可以帮助人们完成很多有价值的任务。商业上也可以因此加快落地。

2、打破数据孤岛

CUA技术也相当于是在人与互联网之间增加了一个个人助手，这个个人助手打破了现有的数据孤岛，能够访问到用户的所有信息。从而帮助用户作出更智能的决策。

3、应用改造成本低

应用基本无需改造，即可让AI使用。

当然，这个技术也有几个明显的缺点：

1、 运行成本高

CUA技术依赖模型的视觉能力，图片的处理会导致运行成本比较高。高价值场景我认为可以跑通的，但是如果要将这个技术推广到普通C端用户场景，我认为挑战还是非常大的。

2、无法实现异步化

CUA技术依赖屏幕截取，需要将计算机控制权交给AI，这个时候人是无法使用计算机的。

最理想的体验是智能体异步执行任务。比如，是我有一个任务，AI助手去后台处理，处理完成，或者需要人类介入的时候，再通知人类介入。

3、需要人进行频繁的登录操作

C端场景下，CUA在进入一个应用时，仍然需要用户进行登录操作，无法自动的完成身份验证。

4、短期需要解决准确率的问题

CUA 在简单网页任务上表现优异（87%），但在复杂本地操作（38.1%和动态网页交互（58.1%）中仍有明显短板。

最后，就应用场景看，我认为CUA最有可能先在B端场景落地，特别是一些高价值、同时又有一定个性化的场景。如果完全是重复性操作，RPA可能更加适合。

而在C端场景，专业用户（比如视频剪辑员）也许是一个不错的落地场景。

普通的C端用户场景，受限于运行成本和使用体验，以及其他技术路线的竞争，CUA可能没有太多的竞争力。

Headless Browser（无头浏览器）

无头浏览器（Headless Browser）是一种没有图形用户界面（GUI）的浏览器，它通过命令行或编程接口在后台运行，能够执行与传统浏览器相同的操作（如加载网页、执行 JavaScript、渲染页面等），但无需可视化界面。

无头浏览器如何帮助AI连接互联网？

可以使用无头浏览器的框架如Puppeteer，获取web应用完整页面数据（只获取数据内容，而不渲染）
然后使用AI处理页面数据，找到完成指定操作所需要的页面元素
使用AI或人工编写代码，调用无头浏览器框架API操作页面元素，实现自动化操作
将上面的代码作为AI的工具，让AI调用，从而让AI接入互联网

无头浏览器方案的优点是：

1、可以实现任务处理的异步化

由于无头浏览器在后台运行，无需要抢占用户计算机的控制权，可以让任务在后台异步执行，只有需要人介入的时候，再通知人。

2、对web应用友好，不需要应用修改

可以让AI快速的接入互联网的web应用。

3、运行成本较CUA技术更低

通过处理文本、预先编写代码，让无头浏览器的方案在运行成本上低于依赖视觉能力的CUA技术。

无头浏览器方案的缺点是：

1、仅限于web应用

所有无法在web中运行的应用，无头浏览器方案是无法接入的。比如计算机上的本地应用。而CUA是没有这个限制的。

2、页面适配成本高

需要为页面适配生成大量的代码，同时，页面的升级、修改可能会导致原有的代码不生效，需要重新生成、测试、部署，整体的维护成本高。

3、需要人进行频繁的登录操作

和CUA的限制一样，仍然需要用户进行登录操作，无法自动的完成身份验证。

无头浏览器还有一种方法是每次都将全量的页面数据输入到LLM中，让LLM来进行处理，不过这种方法太低效，成本也高。如果能够专门针对这个场景训练一个垂直模型，也许是一个不错的选择。

小程序平台也许是无头浏览器落地的不错场景。小程序本质上可以看做是一个web应用。如果小程序平台能够解决账号互通的问题，那平台就可以构建一个AI助手，这个助手直接用用户的账户，通过无头浏览器直接和小程序进行交互，不需要人类介入。

端侧API

端侧API技术通过操作系统开放标准化的设备能力接口，允许AI直接调用传感器、应用程序数据和硬件功能。其核心原理是建立系统级的意图交互协议，使AI无需模拟人类操作即可精准控的与应用进行交互，从而实现AI与互联网的交互。

技术实现原理

1、意图注册机制

应用程序向操作系统声明可被调用的"技能意图"（如"发送消息"、"创建日程"），定义参数格式和权限范围，形成全局能力目录。iOS 18的App Intents框架已支持200+核心功能接口注册。

2、语义映射引擎

系统内置的自然语言理解（NLU）模块将用户指令（"把刚拍的照片发到工作群"）转换为结构化API调用链，自动关联相册API、通讯录API和即时通讯API。

3、安全沙箱机制

通过可信执行环境（TEE）实现跨应用数据流转，AI在获得用户单次授权后，可组合调用多个API（如同时访问位置服务和备忘录），但原始数据不离开设备。

方案优势

1、零界面改造成本

应用只需注册并实现标准接口，无需修改现有UI，更多的修改是内部的功能。

2、真异步任务处理

AI可在后台组合调用多个API（如同时预订机票、酒店、租车），用户可随时中断。

3、运行成本比Computer Use Agent方案低

不用AI视觉能力，比Computer Use Agent方案有更低的运行成本

方案缺点

1、生态碎片化严重

各平台、各厂家接口标准不统一（Android vs iOS App Intents vs 鸿蒙原子服务）。

2、应用的开放性问题

应用与手机厂商有一定的竞争关系，应用很难开放核心的数据给手机平台。

3、场景限制

当前更多的应用在手机上，没有手机平台的Chatbot无法使用这个方案。

远程API/Protocol

让AI直接通过API或者Protocol与互联网进行交互。比如一个系统有对外提供的API，AI可以使用函数调用或tools能力，调用API来完成信息的获取或交互操作。

原有系统的API不是专门为AI设计，调用过程中可能需要人编写代码、提前配置keys等，以完成身份验证、权限控制等操作。

现在也有一些专门为AI或智能体设计的协议，比如Anthropic的MCP、以及我们设计的ANP。他们共同的目标就是为了让AI用它最擅长的方式来访问互联网。

MCP的全称是Model Context Protocol（模型上下文协议）。旨在标准化大型语言模型（LLMs）与外部数据源和工具之间的通信方式，帮助 AI 系统更高效地访问和利用上下文信息，从而提升模型的响应质量和实用性。

ANP的全称是Agent Network Protocol，https://github.com/agent-network-protocol/AgentNetworkProtocol，是行业首个开源的智能体通信协议。ANP与MCP的区别是，ANP以智能体为中心，每个智能体都具有同等地位，目标构建一个高效的智能体协作网络。

这种方案的优点：

1、让AI用它最擅长的方式访问互联网

无论是CUA技术，还是无头浏览器，都是让AI模拟人类上网，这不是AI访问互联网最擅长、最高效的方式。AI直接处理底层数据才是其最擅长的方式。

2、可以实现任务的异步化

AI收到一个任务后，可以在在后台通过API或协议进行处理，不用占用计算器控制权。

3、运行成本低

相比CUA和无头浏览器，API/Protocol的运行成本低，它既不需要处理截屏数据，也不需要维护页面数据代码。

4、自动化身份认证

通过使用去中心的身份认证技术，比如DID，可以实现跨平台、自动化的身份认证，用户只需要在关键环节（付款等）介入。目前我们设计的ANP已经支持DID方案，MCP暂时还没有支持。

这种方案的缺点：

1、改造成本高

需要对原有的系统进行改造，以支持相关协议，这是这个方案最大的缺点。不过随着AI编程技术的进步，改造成本会逐步降低。

2、领域处于早期，标准不明朗

智能体通信协议这个细分领域还处于非常早期阶段，行业中已有的方案不多，且并没有形成标准。目前在这个领域研究比较多的，主要是Anthropic 的MCP和我们设计的ANP。

不过国内外的标准化组织也在投入相关的研究，比如W3C、国内的IIFAA等。

总结

让我们整体来分析下三种技术路线。

短期来看，Computer Use Agent（CUA）、无头浏览器技术、端侧API虽然有各种各样的限制，但是只要找到合适的场景，这两种技术是能够快速落地，并且产生商业价值。

长期来看，我们坚定看好的是API/Protocol技术路线，它能够提供最优的用户体验，以及最低的运行成本。至于原有系统改造成本问题，我们认为随着AI编程能力的提高，改造成本会逐步降低。而协议标准化的问题，我们认为未来肯定会出现标准协议，我们的目标是成为协议标准化的重要参与者。

另外，我们正在在探索Protocol方案落地的可能，并且取得了一定的进展。

关于我们

我们正在开发一个开源的智能体通信协议：AgentNetworkProtocol(ANP)，项目地址：https://github.com/agent-network-protocol/AgentNetworkProtocol。

AgentNetworkProtocol的目标是成为智能体互联网时代的HTTP。我们的愿景是定义智能体之间的连接方式，为数十亿智能体构建一个开放、安全、高效的协作网络。

同时我们也在开发智能体连接的基础设施，让智能体相互之间能够进行去中心化的身份认证、高效的数据通信与协作。

如果你也对智能体通信协议感兴趣，或者有类似的需求，欢迎联系我们：

微信：flow10240
邮箱：chgaowei@gmail.com

也欢迎加入智能体通信协议讨论群，这可能是全网第一个专门面向智能体通信协议的讨论群：

从OpenAI的Operator，看AI与互联网交互的四种技术路线 ​

Computer Use Agent（CUA） ​

Headless Browser（无头浏览器） ​

端侧API ​

远程API/Protocol ​

总结 ​

关于我们 ​

版权声明 ​