AIoT智能体崛起:物联网正塑造AI在实体世界的运行框架

作者 | 物联网智库2025-07-15

这是我的第379篇专栏文章。

7月10日，由物联网智库、智次方联合凯文教育集团旗下北京海科思创发起的“2025数智融合领袖峰会”在北京盛大开幕。本次峰会以“潮启东方·新质领航”为主题，汇聚产、学、研领域顶尖专家与行业领袖，深度探讨人工智能驱动下的产业变革路径，共同推动产业发展，与国家新质生产力战略同频共振。

我在会上带来了主题为《从通用智能到场景智能：垂类模型与智能体的产业落地路径》的分享，以下为演讲全文：

各位朋友大家好，这次我想跟大家分享一个我认为非常重要、也非常关键的主题——从通用智能到场景智能，垂类模型与智能体的产业落地路径。

目前一个值得关注的趋势在悄然发生：AI不再只是一个云端工具，开始成为一个“在场”的智能体，而物联网正塑造AI在实体世界的运行框架。

今天的演讲，包含5个部分：

1.范式转变：从通用智能到场景智能2.“场景智能” 是通用智能的结构重构3.技术底座：双引擎与四板块4.商业重构：稳定币与机器经济5.生态战略：从工具到平台的演化

范式转变：从通用智能到场景智能

在过去一年里，我们见证了AI技术以令人眩目的速度演进：大模型从百亿参数冲向万亿参数，生成式AI从文本走向多模态。

大家有没有体验过让ChatGPT帮忙写一封邮件，写得非常漂亮，但我还是要自己复制、粘贴、打开邮箱、查找联系人、发送？它是不是“聪明”？当然。但它是不是“实用”？未必。

这正是大模型落地时遇到的第一道墙：它能理解，但它不能执行。AI“能说话”但是不一定“能干活”。

AI落地的现状与挑战，这当中涉及到通用智能与场景智能之间的鸿沟。

通用智能：聚焦语言理解和内容生成，依赖大算力、大语料，擅长对话、写作、创作，但难以理解行业流程与物理逻辑。

场景智能：针对特定行业和任务，植入业务语义和流程逻辑，可部署在边缘，真正进入“能干活”的阶段。

ChatGPT能说话，但不能干活。企业用AI，不要“演示效果”，而要“现场效果”。AI，不再只是一个云端工具，而应成为一个“在场”的智能体。

“热”不代表“成熟”，“强”不代表“适配”。

打个比方：大学教授懂得很多知识，但他未必能修好一台车；一个汽修工人可能学历不高，但能在5分钟内判断问题、拿出工具、完成修复。

这就是“懂知识”和“懂场景”的区别。在AIoT世界中，我们要的不是“能写论文的AI”，而是“能换轮胎的AI”。

今天的演讲，我希望带大家从五个问题出发，逐步走进AIoT智能体的真实世界：

1.为什么大模型不能直接落地？2.“场景智能”到底意味着什么？3.智能体的发展路径是怎样的？4.AIoT落地的底层支撑是什么？5.未来的关键控制点在哪里？

场景智能”不是通用模型的子集，而是结构重构

d7a5e369ebb6943404c89410ab4326e8

我们过去一直在说“通用智能”，现在又说“场景智能”，它们是什么关系？

这里我想强调一个观点：场景智能不是通用智能的简化版本，而是AI认知结构的重塑。

我们看到通用模型在C端世界非常惊艳，能写诗、画画、聊天，但一旦进入产业场景，问题就变了。

为什么通用大模型到了产业场景里“水土不服”？

因为产业不是语文题，它是物理题。它不是开放世界，而是高度约束的封闭系统。它的核心不是生成内容，而是控制变量、保障稳定、优化效率。

所以产业AI的未来，一定属于垂类模型。

为什么？因为通用大模型存在三个结构性障碍：

1.成本高昂：推理成本远高于传统系统，难以部署到终端；2.泛用性强但不懂行业：缺乏对具体业务语义、流程、上下文的理解；3.执行能力缺失：无法“动手”，只能“动嘴”。

正如GPT-4处理原始传感器数据时，其活动识别准确率仅为40%，机器诊断准确率不足50%——远低于工业场景要求。这不是参数不够，而是“场景理解力”不足。

产业AI不是“参数战争”，而是“闭环战争”——谁能跑通数据-模型-决策-反馈的闭环，谁就能沉淀出“场景智能”。

通用大模型是AI的“百科全书”，垂类小模型将成为产业的“操作手册”。类似的，产业智能体不是单纯的技术革新，而是一场系统性的转型。

这一页我们来明确一个重要但易被混淆的概念：AI智能体≠AIoT智能体。

今天我们讲“智能体”，但不是所有智能体都一样。

我们先来看左边这个大家熟悉的角色——AI智能体。这类智能体擅长什么？

擅长语言理解、知识推理；

擅长对话互动、内容生成；

它们部署在云端，需要强大的算力支持；

但它们没有“手脚”——不能感知物理世界，也无法执行具体动作。

所以，AI智能体的核心价值，是“认知”。

而我们今天真正关心的，其实是右边这个词：AIoT智能体。

AIoT智能体的核心，不只是认知，而是“认知+行动”。

它部署在边缘或设备端；

它能连接传感器、控制器，能感知、能决策、能执行；

它还能嵌入钱包，实现链上身份与结算。

AI智能体是一个“能说会道”的大脑，而AIoT智能体，则是一个“能看、能想、能干、还能收钱”的完整劳动力。

不是所有智能体都能进车间、进园区。要能感知、能执行、能结算，才配叫AIoT智能体。

接下来，我们来回答一个非常关键的问题：

什么才是真正的AIoT智能体？

很多人以为，只要设备能联网，能识别图像，就可以叫“智能体”了。但实际上，从产业落地的角度来看，智能体要能真正“干活”，必须具备五种核心能力。

第一种能力：感知。这是最基础的能力，AIoT智能体必须具备对环境的持续感知能力。

第二种能力：推理。感知之后，不是直接行动，而是做出判断。推理是智能体的逻辑中枢，让设备开始“思考”。

第三种能力：认知。推理解决的是局部判断，而认知解决的是整体理解与规划。认知，代表了从“理解一个点”到“理解整个任务”的跃迁。

第四种能力：执行。理解完了，还要能动手做事。执行决定了：智能体是不是一个真正的行动者。

第五种能力：金融结算。这是很多人容易忽略，但未来极其重要的一环。如果一个设备能完成任务，却没有结算能力，它就无法真正参与平台协作；金融能力让智能体拥有自主性，也具备经济行为能力。

这五种能力构成了AIoT智能体的能力闭环：感知世界，推理判断，认知任务，执行动作，结算价值。

我们将AIoT智能体的发展，概括为一个“三段论模型”：

阶段一：感知体

能采集数据、上传信息；

典型形态是传统IoT设备：摄像头、传感器、PLC控制器；

问题：只能“执行”，不能“理解”。

阶段二：协同体

能理解任务、与其他设备协同；

以边缘AI+规则系统为核心；

典型形态是智能家居系统、园区自动化系统；

问题：固化规则、缺乏自适应。

阶段三：智能体

能感知、理解、推理、行动，并具备自主结算能力；

具备：LLM/SLM+规划+调用工具+钱包+反馈；

典型形态是：自动驾驶智能体、工业质检智能体、农业协作智能体。

这一演进的核心在于让设备从“感知世界”到“理解世界”，再到“参与世界”。

这一页，我们从时间轴的角度，来回顾AIoT智能体的演进路径。

智能体并不是一蹴而就，凭空产生的，而是经历了漫长的前期积累。十年感知，五年互联，走向真正智能。这不是口号，这是我们过去十几年智能设备演进的真实写照。

第一阶段：感知体普及从2009年之后，物联网概念兴起，传感器开始大规模部署。我们称它为感知体。这是智能体的第一个阶段，设备可以感知世界，但不理解、不自主协作。

第二阶段：协同体部署从2016年开始，边缘计算兴起，5G网络落地，大量设备开始“互联互通”。这个阶段，我们称为协同体。它们之间开始“配合动作”，但智能还来自中心平台，设备本身还不具备自主性。

第三阶段：智能体商业化真正的变化发生在近两三年：AI让设备能够具备语义理解与推理能力；钱包与链上结算机制，让设备拥有身份与价值控制权。这意味着，设备不再是被动执行的终端，而开始成为“能感知、能推理、能决策、能执行、还能结算”的主体。我们称之为智能体。

所以我们说：十年感知，是设备看到了世界；五年互联，是设备开始协同运作；而今天，我们走向真正的智能体时代：自适应、自运行、自结算。

我们来看几个未来AIoT智能体的应用案例：

1.自动驾驶×充电桩×稳定币

想象你是电动车车主，正穿行在城市中寻找充电桩。导航能告诉你哪里有桩、电价多少、距离多远，但你仍要自己判断：这个桩靠不靠谱？会不会被占用？价格是否真实？更不用说，车无法自动决策去哪充、预付多少、何时结算、充完后能否自动离开。

但一切在引入AIoT智能体 + 稳定币支付后发生了变化：出发前，车辆就可与充电桩“签合约”——链上锁定电价、服务等级、时间窗口，并冻结一笔稳定币作为预付款。到站即插即充，充满后系统自动结算，按实际电量扣费，余额实时返还你钱包，车子无需等待，直接驶离。无需扫码、无需APP、无需对账。

信任写在协议里，支付嵌在执行中。这不是“更智能的支付”，而是“机器之间的经济协作”。

2.工业制造×AIoT智能体×按次付费

以工业制造为例，一家中小企业可能无法一次性采购一台昂贵的激光切割机。但如果设备制造商允许客户按小时使用，并通过链上钱包实时收取费用，客户只需在需要时唤醒设备，系统根据使用时长自动从其钱包中扣除稳定币。这样，不仅降低了企业的使用门槛，也为设备提供商带来了持续收入。

从技术架构到商业模型：“四板块+双引擎”

正如我曾经提出：“人工智能+”的70%价值来自物联网，但真正释放这70%的潜力，靠的是智能体能动起来，模型能“下沉”。

这两页PPT是我们今天的核心内容之一：技术架构：四板块+双引擎。

为什么要讲这个？

因为很多人谈AIoT，还停留在“设备联网”或者“智能感知”阶段，但我们今天要讲的是“能动的智能体”，是可以完成任务、产生价值的智能体。

引擎一：边缘智能

不只是把模型部署到边缘，而是让智能真正“驻扎”在现场；

它能在毫秒级响应、在断网状态下运行、在本地完成决策；

边缘智能，是让设备从“被控对象”变成“自治单元”的关键。

边缘智能决定了智能体能不能“独立思考、就地反应”。

引擎二：垂类模型

通用大模型解决不了行业问题；

AIoT需要的是针对工业、电力、安防、农业等领域的垂直模型；

垂类模型让智能体具备“专业知识”和“行业判断力”。

垂类模型决定了智能体能不能“听懂行话、看懂场景”。

边缘智能让智能体跑得起来，垂类模型让智能体干得专业。两者叠加才能真正释放AIoT的价值。

但这也引出一个新的问题：既然模型能够下沉，未来智能体可以“动起来”——那它到底属于AI，还是属于IoT？它是一个“AI模型的终端形态”，还是一个“IoT设备的进化版本”？

我们发现，AI和物联网正在产生越来越大的交集，物联网成为了AI落地物理世界的底座。越来越多的设备，正在从“硬件终端”演化成具备智能、目标、自主行为的智能体。

所以，接下来这一页，我们就来回答这个问题：端侧AI和AIoT智能体，到底是什么关系？

它们不是两条线，而是一条线的两个阶段。

AIoT智能体是端侧AI的高级形态

端侧AI提供了算力基础和模型执行能力，而AIoT智能体则将这些能力封装为具有认知与行动能力的实体，甚至与其他智能体协同完成复杂任务。

端侧AI是AIoT智能体的底层支撑

没有端侧AI的推理与感知能力，AIoT智能体无法实现“在地运行”。

我们将端侧AI的四大技术支撑与协同结构，划分为四大板块：芯、模、端、智。

这四个字，既是缩写，也是路径。

第一块：芯

“芯”代表的是整个端侧智能的算力基础。

包括AI芯片、低功耗NPU、SoC、RISC-V架构处理器；

同时也涵盖边缘AI加速器、异构计算单元。

可以说，没有“芯”，就没有端侧智能的“运行力”。

第二块：模

“模”指的是模型，尤其是适合端侧部署的小模型和垂类模型。

包括视觉识别模型、语音识别模型、SLM、TinyML等；

模型的轻量化、专用化，是智能体下沉的关键。

我们说，大模型让AI会说话，小模型让设备能干活。

第三块：端

“端”是智能体的物理载体，是它的“身体”。

包括摄像头、机器人、工业设备、传感器、边缘盒子等；

没有这些终端设备，AI就无法与现实世界连接。

端，是智能体接触世界的“着陆点”。

第四块：智

最后，“智”代表的是智能体本身。

这里包括智能体平台、调度框架、边缘智能OS、链上身份与结算系统；

它是感知、推理、决策、执行、结算的调度中枢。

我们不只是要让设备智能，更要让它能自主行动、自我协作、参与经济活动。“智”，是端侧AI的价值闭环。

“芯”给了智能体算力，“模”给了它思维，“端”给了它身体，而“智”，让它拥有了行动与经济能力。

由此，我们绘制了端侧AI的产业图谱。现在《中国端侧AI全景图谱》已经正式发布，欢迎感兴趣的朋友扫描下面的二维码下载报告全文和清晰版图谱。

扫描二维码下载报告全文和清晰版图谱

稳定币：设备经济的“银行账户”

5339b60fde2d52b4dd908031e22c32a7

这一部分是今天演讲中我最希望大家记住的观点：稳定币不仅是Web3的工具，更是AIoT设备的银行账户。

在传统系统中，设备只能“响应命令”；在AIoT世界中，设备不但要理解任务，还要为服务计价并收款。

我们一起设想这样的场景：

一台风力发电机为邻近电网供电，谁来结算？

一个果园的土壤传感器每天上传数据，凭什么获得收益？

一台激光切割机被“按小时租用”，怎么自动计费？

答案都指向一个关键词：稳定币。

稳定币带来了三大改变：

1.经济人格：每个设备拥有钱包地址、预算、财务边界；2.交易协议：设备对设备（M2M）即可完成微支付、结算；3.自治能力：无需平台调度，设备可自主协作、资源协商。

稳定币让设备从连接走向协作，从行为走向计价，从硬件走向经济体。

稳定币是连接AIoT设备与价值世界的金融基础设施，推动物理世界设备实现“可信感知、自动结算、协作执行”的闭环：

1.物理世界的设备（如土地、能源、机械）通过传感器接入网络，形成感知层； 2.数据驱动的设备行为，需要与价值挂钩，于是引入金融层（稳定币+区块链）； 3.借助智能合约，设备可按规则自动执行服务、调度资源、完成结算； 4.最终，多个设备形成去中心化协作网络，构建机器信任与支付闭环。

稳定币是设备的银行账户，是AIoT系统的经济协议，是智能体之间的“价值语言”。