Web3与AI的接口
文章探讨了Web3与AI结合的挑战与解决方案。两者均为封闭系统,需设计结构良好、双向可控的通信接口以实现交互。区块链通过节点与API服务访问链上数据;AI模型则依赖上下文窗口获取知识,并通过记忆机制、RAG检索增强及Function Calling调用外部函数。为规范交互方式,Anthropic提出的MCP协议定义了工具注册、调用格式等规则,使多模块协作成为可能。 2025-7-2 00:13:20 Author: web3rover.substack.com(查看原文) 阅读量:24 收藏

(此文为2025.06.29的 以太坊之夏东京站中 我的演讲主题“Web3与AI的接口”的文字改写版)

Image

尽管 Web3 和大语言模型(LLM)通常被视作属于两个完全不同的技术世界,它们之间却存在着一种结构性的共通点:这两个系统本质上都是封闭自洽、运行独立、对外通信受控的计算宇宙

无论是以太坊上的智能合约,还是像 GPT-4 或 Claude 这样的 AI 模型,它们都倾向于在自己的“世界”中运行,不直接访问外部资源,也无法主动触发外部事件。区块链需要通过节点暴露 RPC 接口供访问,而语言模型则只能通过有限的上下文窗口获取知识,彼此都不是天然适配现实世界交互的系统。

正因如此,当我们谈论“Web3 与 AI 的结合”时,真正的挑战不在于模型性能或链上速度,而在于:我们如何为这两个封闭系统之间设计出一种结构良好、行为明确、双向可控的通信接口。

区块链世界的“外部通信”问题由来已久。链上数据天生不可被直接索引、搜索、聚合,也无法访问链下信息。因此围绕“节点”这一底层接口,诞生了一整套为外部世界服务的中间层架构:轻节点、RPC API 提供商(如 Infura、Alchemy)、以及更高级的链上索引项目如 The Graph。这些系统的存在,让我们得以用接近传统 Web 的方式访问一个本应封闭的世界。

在 AI 领域,尤其是以 LLM 为代表的大模型同样面临这一问题。它们无法主动访问真实世界的信息,也无法执行操作。我们只能通过“上下文”告诉模型该知道什么、该做什么。这也促生了记忆机制、RAG 检索增强、甚至是更进一步的 Function Calling —— 通过格式化的结构,让模型能够调用外部函数,完成读写操作或执行任务。

换句话说,无论是链还是模型,我们都在构建一种**“能听懂对方语言”的通道**,用来打破系统封闭性。

OpenAI 提出的 Function Calling 是一种关键性的交互范式,它本质上为语言模型赋予了“调用能力”——让模型根据自然语言自动选择工具,并填充参数进行执行。这是模型迈向“Agent 化”的第一步,因为它第一次能触发真实世界中的函数、API、服务。

但在实践中,仅有 Function Calling 还不够。因为当调用的函数数量变多、使用者变广、工具组合变复杂时,我们需要的不只是“能调用”,而是“规范调用”。这正是 Anthropic 提出的 MCP(Model Context Protocol)试图解决的问题。

MCP 并不只是另一个插件系统,而是一个更接近通信协议的设计:它定义了工具的注册方式、调用格式、参数约定和行为契约,甚至内置了资源(只读)、工具(可执行)与 Prompt(行为模版)三种核心组件。通过 MCP,一个模型不仅能“做事”,还能“结构化地做事”,这使得构建多模块、多模型协作的 AI 系统成为可能。

以我们实际构建的一个基于 MCP 的服务为例。系统中,我们定义了 Resources 来访问链上数据,比如账户余额、代币价格、交易记录;定义了 Tools 来发起具体动作,如发起转账、部署合约、执行 NFT mint 等;还定义了 Prompts,用来将多轮行为封装成规则触发,比如当 ETH 跌破某价格时自动执行一笔 sell 操作。

从外部看,这就是一个 LLM 与区块链双向通信的系统,但内部运转方式却极为结构化:每一个数据读取和写入动作都以 Function Call 的形式注册,每一个调用都有参数验证和执行确认,整个交互过程既工程化、又具备可审计性。这是 MCP 最吸引人的地方:它不是增强模型本身,而是规范模型与世界的对话方式。

MCP 的优势显而易见,但并不适用于所有项目。对于一些私有化、封闭型或无复用需求的系统而言,使用完整的 MCP 可能反而显得冗余。这类场景更适合通过自定义的 Function Calling 接口解决问题。

比如某个部署在本地的 Agent 只需要访问一个特定 API,它完全可以绕过 MCP,而是通过一个专用的服务网关,将调用请求转发给链上服务。这种方式虽然不具备标准化能力,但部署快、响应快、私密性强,仍然非常实用。

事实上,我们甚至可以将最原始的人类行为也归入“接口”:一个人手动查看ETH的价格,然后将交易所需的分析信息喂给在 ChatGPT ,问模型“ETH 是否可以抄底了?”,在得到AI的肯定回答后于链上DEX中进行购买(并在三个月后亏掉20个点)–这个流程,也是一个封闭系统间的手动交互,只不过接口是人类的眼与手。

如果我们把区块链与 LLM 都视作某种语言驱动的系统,那么连接它们的“接口”本质上就是一种语言契约:我们为系统 A 提供一种它可以理解 B 的方式,反之亦然。Function Calling 是一种语言扩展,MCP 是一种语言协议,自定义网关则是语义压缩。

这意味着,“接口”的本质不是工具,而是设计哲学——我们是否能在两个不兼容的系统之间,找到一组结构明确、语义清晰的中介格式,使得它们可以稳定、可验证、可控地对话

AI 与区块链的结合,是一个极具挑战性但同样充满潜力的方向。我们正在进入一个时代:模型不再是只能回答问题的助手,而是可以主动操作、主动调用、主动做决策的 Agent;而区块链也不再是封闭的交易平台,而是一个可以被 AI 驱动的执行环境。

连接这两个系统的“接口”,正是这个未来的第一步。

Discussion about this post


文章来源: https://web3rover.substack.com/p/web3ai
如有侵权请联系:admin#unsafe.sh