Web3与AI的接口

(此文为2025.06.29的以太坊之夏东京站中我的演讲主题“Web3与AI的接口”的文字改写版)

尽管 Web3 和大语言模型（LLM）通常被视作属于两个完全不同的技术世界，它们之间却存在着一种结构性的共通点：这两个系统本质上都是封闭自洽、运行独立、对外通信受控的计算宇宙。

无论是以太坊上的智能合约，还是像 GPT-4 或 Claude 这样的 AI 模型，它们都倾向于在自己的“世界”中运行，不直接访问外部资源，也无法主动触发外部事件。区块链需要通过节点暴露 RPC 接口供访问，而语言模型则只能通过有限的上下文窗口获取知识，彼此都不是天然适配现实世界交互的系统。

正因如此，当我们谈论“Web3 与 AI 的结合”时，真正的挑战不在于模型性能或链上速度，而在于：我们如何为这两个封闭系统之间设计出一种结构良好、行为明确、双向可控的通信接口。

区块链世界的“外部通信”问题由来已久。链上数据天生不可被直接索引、搜索、聚合，也无法访问链下信息。因此围绕“节点”这一底层接口，诞生了一整套为外部世界服务的中间层架构：轻节点、RPC API 提供商（如 Infura、Alchemy）、以及更高级的链上索引项目如 The Graph。这些系统的存在，让我们得以用接近传统 Web 的方式访问一个本应封闭的世界。

在 AI 领域，尤其是以 LLM 为代表的大模型同样面临这一问题。它们无法主动访问真实世界的信息，也无法执行操作。我们只能通过“上下文”告诉模型该知道什么、该做什么。这也促生了记忆机制、RAG 检索增强、甚至是更进一步的 Function Calling —— 通过格式化的结构，让模型能够调用外部函数，完成读写操作或执行任务。

换句话说，无论是链还是模型，我们都在构建一种**“能听懂对方语言”的通道**，用来打破系统封闭性。

OpenAI 提出的 Function Calling 是一种关键性的交互范式，它本质上为语言模型赋予了“调用能力”——让模型根据自然语言自动选择工具，并填充参数进行执行。这是模型迈向“Agent 化”的第一步，因为它第一次能触发真实世界中的函数、API、服务。

但在实践中，仅有 Function Calling 还不够。因为当调用的函数数量变多、使用者变广、工具组合变复杂时，我们需要的不只是“能调用”，而是“规范调用”。这正是 Anthropic 提出的 MCP（Model Context Protocol）试图解决的问题。

MCP 并不只是另一个插件系统，而是一个更接近通信协议的设计：它定义了工具的注册方式、调用格式、参数约定和行为契约，甚至内置了资源（只读）、工具（可执行）与 Prompt（行为模版）三种核心组件。通过 MCP，一个模型不仅能“做事”，还能“结构化地做事”，这使得构建多模块、多模型协作的 AI 系统成为可能。

以我们实际构建的一个基于 MCP 的服务为例。系统中，我们定义了 Resources 来访问链上数据，比如账户余额、代币价格、交易记录；定义了 Tools 来发起具体动作，如发起转账、部署合约、执行 NFT mint 等；还定义了 Prompts，用来将多轮行为封装成规则触发，比如当 ETH 跌破某价格时自动执行一笔 sell 操作。

从外部看，这就是一个 LLM 与区块链双向通信的系统，但内部运转方式却极为结构化：每一个数据读取和写入动作都以 Function Call 的形式注册，每一个调用都有参数验证和执行确认，整个交互过程既工程化、又具备可审计性。这是 MCP 最吸引人的地方：它不是增强模型本身，而是规范模型与世界的对话方式。

MCP 的优势显而易见，但并不适用于所有项目。对于一些私有化、封闭型或无复用需求的系统而言，使用完整的 MCP 可能反而显得冗余。这类场景更适合通过自定义的 Function Calling 接口解决问题。

比如某个部署在本地的 Agent 只需要访问一个特定 API，它完全可以绕过 MCP，而是通过一个专用的服务网关，将调用请求转发给链上服务。这种方式虽然不具备标准化能力，但部署快、响应快、私密性强，仍然非常实用。

事实上，我们甚至可以将最原始的人类行为也归入“接口”：一个人手动查看ETH的价格，然后将交易所需的分析信息喂给在 ChatGPT ，问模型“ETH 是否可以抄底了？”，在得到AI的肯定回答后于链上DEX中进行购买（并在三个月后亏掉20个点）–这个流程，也是一个封闭系统间的手动交互，只不过接口是人类的眼与手。

如果我们把区块链与 LLM 都视作某种语言驱动的系统，那么连接它们的“接口”本质上就是一种语言契约：我们为系统 A 提供一种它可以理解 B 的方式，反之亦然。Function Calling 是一种语言扩展，MCP 是一种语言协议，自定义网关则是语义压缩。

这意味着，“接口”的本质不是工具，而是设计哲学——我们是否能在两个不兼容的系统之间，找到一组结构明确、语义清晰的中介格式，使得它们可以稳定、可验证、可控地对话。

AI 与区块链的结合，是一个极具挑战性但同样充满潜力的方向。我们正在进入一个时代：模型不再是只能回答问题的助手，而是可以主动操作、主动调用、主动做决策的 Agent；而区块链也不再是封闭的交易平台，而是一个可以被 AI 驱动的执行环境。

连接这两个系统的“接口”，正是这个未来的第一步。

Discussion about this post