豆包被封VS硅谷结盟,谁在葬送中国的万亿AIoT市场?

作者 | 物联网智库2025-12-16

作者：彭昭（智次方创始人、云和资本联合创始合伙人）

物女皇：撬锁不如造门

这是我的第396篇专栏文章。

12月1日，豆包手机上线。字节跳动终于亮出了它的AI硬件底牌。但牌局刚开，就被掀了桌。

上线次日，用户尝试让豆包智能体来操作微信，腾讯后台立刻亮起红灯：账号被判定“登录环境异常”，强制下线，部分账号遭短期冻结。阿里系同步跟进：在淘宝、闲鱼、大麦等APP内，豆包的自动化操作频繁触发人机验证，甚至引发闪退和强制登出。银行更不留情面，农行、建行直接以“风险环境”为由，彻底封死了智能体的登录与支付通道。这是中国互联网的一次集体“免疫排异”。

12月5日，豆包团队发布公告，宣布限制智能体在刷分、刷激励、金融支付及部分游戏场景中的操作权限。说白了，就是主动退守。从上线到妥协，不到五天。

四天后，大洋彼岸传来了一个截然相反的信号。

当地时间12月9日，Anthropic宣布将MCP（模型上下文协议）正式捐赠给Linux基金会旗下的AI智能体基金会。这意味着MCP不再是一家公司的私有资产，而将成为一个中立的开放标准。Anthropic做了一个选择：放弃独占，换取行业共识。

一边是围追堵截，一边是开放共建。这两件事放在一起看，恰恰揭示了当前AI发展最核心的矛盾。

豆包所代表的GUI智能体路线，其实是一种未经授权的“数字寄生”。它绕过APP构建的围墙，通过模拟人类点击来蹭服务。短期看，这条路似乎绕过了接口壁垒；但本质上，这是对平台数据主权的粗暴侵犯。站在微信、淘宝的角度，这不是什么技术创新，而是流量劫持，是一场不宣而战的偷袭。

AI智能体想要的是数据的“最惠国待遇”，平台看到的却是“破门而入”。

双方的立场不可调和，冲突是必然的。

更要命的是，这种依赖“视觉识别+模拟点击”的路线，本身就是一条死胡同。没有底层协议的支撑，AI智能体只能扮演“黑客”的角色，与APP的反爬虫、反外挂机制打游击战。手机算力充足、更新频繁，或许还能靠OTA勉强维持兼容；但对于更广泛的AIoT设备，智能眼镜、智能音箱、智能家电，这简直是灾难。

想象一下：你的智能冰箱依赖模拟点击来调用外卖APP，某天美团更新了一版用户界面UI，按钮位置挪了几个像素，冰箱就彻底“失明”了。这不是假设，而是GUI智能体路线的必然宿命。如果是建立在“破解”与“模拟”之上的AIoT生态，那么将会脆弱得不堪一击。显然，这条路，走不通。

硅谷结盟：用协议终结混乱

国内厂商还在为“模拟点击”的合规性焦头烂额，硅谷已经换了一套打法。

12月9日，Linux基金会宣布成立AI智能体基金会（AAIF）。成员名单值得细读：AWS、谷歌、Meta这些老面孔不意外，真正有意思的是OpenAI和Anthropic。这两家公司在大模型领域斗得你死我活，现在却坐到了同一张桌子前。

这不是什么行业联盟的例行公事，而是一次利益格局的重新划定。

促成这次“握手”的，不是理想主义情怀，而是一个冷酷的成本核算：在智能体时代，单一模型的智力优势正在触顶，真正卡脖子的是互操作性。如果每个AI都要为成千上万个SaaS应用单独开发适配接口，或者像豆包那样去暴力破解前端界面，整个行业的边际成本将高到无法承受。

巨头们算清楚了：互操作性释放的生态价值，远大于封闭系统带来的垄断红利。与其各自修护城河，不如合力把蛋糕做大。

这个共识的第一个产物，就是Anthropic捐出的MCP（模型上下文协议）。

MCP解决的是一个极其基础的问题：大模型怎么连接外部数据？过去，让模型接入本地文件、数据库或Slack，需要为每个数据源单独写适配代码，开发繁琐，维护成本高，稳定性差。MCP的作用，就是强行统一这套连接标准。一个接口，通吃所有数据源。模型端和数据端从此解耦。

其实AI智能体基金会的“开山项目”不只是MCP，还有OpenAI捐赠的AGNTS.md以及Google捐赠的构建智能体和工作流的框架。

如果把MCP比作充电接口的USB-C标准，那AGENTS.md就是写给AI看的用户手册。AGENTS.md明确告诉AI，这个网站或应用有哪些数据可读、哪些API可调、参数该怎么传。再配合Google开源的A2A（Agent-to-Agent）协议，一套专为AI工程设计的通用执行框架，开发者就有了从连接、认知到执行的完整工具链。

这套组合拳的意图很清晰：把智能体的交互模式从“打游击”升级成“正规军”。

豆包的GUI智能体靠视觉识别和模拟点击，本质上是在应用的表皮上做文章，脆弱、低效，且随时可能踩到法律红线。而基于MCP等协议的交互，是通过API管道直达核心数据，路径清晰，权责分明。

硅谷正在制定的，不只是一套技术规范，而是AI世界的基础通信协议。正如TCP/IP定义了互联网的数据传输规则，MCP试图定义AI理解和操作外部世界的通用语言。

70%普及率背后的死结

根据“人工智能+”行动意见，我国国家层面的时间表已经划定：2027年，新一代智能终端、智能体普及率超过70%，2030年突破90%。这不是愿景，而是硬指标。

但问题是：这70%怎么完成？

如果小米的空调听不懂百度的指令，华为的手机调不动阿里的服务，所谓的“普及”就只是一堆无法互联的孤岛。这不是普及，而是内耗。

眼下的现实是：硬件厂商忙着造围墙，想把用户锁进自家的设备全家桶；互联网巨头忙着挖护城河，死守数据不外流。每一方都在加固自己的堡垒，结果是整个生态被切成碎片。

碎片化，是AIoT规模化落地的最大障碍。

更麻烦的是，这种内部割裂正在遭遇外部挤压。美国已经通过AAIF确立了统一战线，中国如果迟迟拿不出对等的标准体系，将同时面临两个陷阱。

第一个陷阱：直接照搬MCP。

看起来省事，但在数据主权日益敏感、中美技术脱钩持续加深的背景下，把底层交互协议的定义权拱手让出，后患无穷。协议标准从来不是中立的技术文件，它决定了数据怎么流动、谁能读取、谁被排斥。

第二个陷阱：各自为战。

如果拒绝通用协议，阿里搞一套，腾讯搞一套，华为再搞一套，开发者就只能疲于奔命，为每个平台重复造轮子。研发成本降不下来，产品迭代快不起来，最终拖慢的是整个行业的落地节奏。

一边是“被定义”的风险，一边是“自己乱”的风险。留给中国AIoT产业的选项，正在收窄。

破局的窗口正在关闭

标准真空不会永远存在。要么中国自己定义规则，要么被别人的规则定义。

方向其实很清楚：中国需要建立自己的智能体互联协议（姑且称之为CN-MCP）。但这件事最大的障碍不是技术，而是谁来牵头。百度主导，腾讯不会跟；华为制定，小米未必认。任何一家巨头主导的标准，都会被视为“私货”，难以获得全行业的信任。

唯一可行的路径，是由国家级产业联盟或中立的开源基金会出面，以公信力打破门户壁垒。

但即便解决了牵头问题，中国的CN-MCP也不能照搬美国模式。原因很简单：生态结构不同。

美国的互联网是Web和SaaS主导的开放生态，AI智能体可以通过API直接抓取网页数据，路径清晰。中国不一样，中国的服务高度集中在微信、抖音、美团这些超级APP里，被封装在小程序和原生应用的黑盒中，外部根本无从触达。

所以，CN-MCP要解决的不只是“连接”问题，更是“服务原子化”问题。也就是说，不能让AI继续靠模拟点击去操作APP，那条路已经被证明走不通。真正要做的，是推动超级APP把内部功能拆解成可被外部调用的标准化接口。美团的订餐、携程的服务、微信的聊天、12306的购票…都应该变成AIoT设备可以直接调用的原子服务。

这需要各方都做出改变。

政府层面，应当把智能体互联标准提升到新基建的高度。这不是可选项，而是数字经济的底层管道。没有统一的交互协议，AIoT产业的规模化落地就是空谈。

互联网巨头也需要想清楚一件事：移动互联网时代，封闭或许还能锁住流量；AI时代，封闭就是自我边缘化。如果你的服务无法被智能体读取和调用，在未来的物联网世界里，你就是隐形的。开放接口，让APP成为AIoT的底层基础设施，才是延续生命力的唯一选择。

在AI时代，封闭不是护城河，封闭是自掘坟墓。

写在最后

豆包手机的遭遇，不是产品的失败，而是路径的失败。

它撞上的那堵墙：巨头封锁、接口缺失、生态割裂，不是偶发事故，而是现行秩序的必然反应。在没有通用协议的世界里，任何试图跨越围墙的尝试，都会被当作入侵者处理。

但这堵墙本身，也在松动。

靠摄像头去“看”屏幕、模拟点击的GUI智能体，本质上是一种过渡方案——在旧接口体系尚未瓦解、新协议标准尚未建立的空窗期，它是唯一能跑通的路。但它不是终局。真正的终局，是通用协议取代私有接口，是服务像水电一样通过标准管道流向终端。

那时候的AIoT设备会是什么样？不再需要预装几十个APP来抢占算力和内存，只需要内置一套通用协议。硬件回归感知和交互，服务按需调用，即时抵达。

问题在于：这套协议由谁来定义？

互联网时代的核心是把人连起来，智能体时代的核心是把万物和服务连起来。谁掌握了连接的标准，谁就掌握了下一个十年的底层规则。这场标准之争，我们不应旁观。

IoT