机器人行业系列报告一:具身智能——决定机器人泛化能力天花板的“大小脑”-中泰证券

中 泰 证 券 研 究 所专 业 | 领 先 | 深 度 | 诚 信|证券研究报告|2 0 2 5 . 0 3 . 0 9机器人系列报告一:具身智能——决定机器人泛化能力天花板的“大小脑”分析师:闻学臣执业证书编号:S0740519090007分析师:苏仪执业证书编号:S0740520060001分析师:刘一哲执业证书编号:S0740525030001摘要◼ 具身智能是一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息理解问题、做出决策并实现行动,从而产生智能行为和适应性。具体而言,具身智能在机器人上的应用体现可以划分为三阶段:感知、推理、执行。◼ 具身智能是机器人与人工智能发展的交汇点。机器人的通用性取决于泛化性的发展程度,自20世纪50年代以来,经过多轮发展,机器人开始从传统的自动化工业场景机器人,向通用泛化场景的机器人方向发展。而人工智能在几十年发展过后,在今天迎来了智能程度、通识程度更高的生成式大模型时代。在当前时间点,人工智能可以真正为机器人赋予“大脑”,机器人也可为人工智能提供“身体”,两者深度融合,而融合的交点——具身智能,则是人工智能与机器人相互促进发展而形成的必然的产业趋势。◼ 目前具身大模型可以分为两大流派,一类是端到端大模型,一类是分层具身大模型。1)端到端大模型:能够直接实现从人类指令到机械臂执行,即输入图像及文本指令,输出夹爪末端动作。2)分层具身大模型:不同层次模型协作,上层大模型进行感知与决策,底层硬件层和中间响应快的小模型进行决策的分解与执行。目前,由于受数据制约难以达到性能要求,端到端大模型尚未成为主流选择,更多厂商还是选择以分层模型为机器人的具身智能。•训练具身大模型的痛点:数据。机器人需要用海量数据进行训练,使其变得更加智能。但机器人是非常新的领域,严重缺乏训练数据的积累。对应而言,目前主要的数据收集方法有四种:1)远程操作,即由实验人员操作机械手柄,远程控制机器人做出相同动作,以此来积累数据;2)AR,即通过AR环境对机器人进行训练,积累数据;3)仿真,即通过海量算力进行模拟运算,计算得出海量机器人训练数据集;4)视频学习,即通过多模态大模型,直接让机器人通过视频学习人类动作,从而积累训练数据。◼ 人形机器人产业未来展望:从专用到通用,从ToB到ToC。短期来看,任务相对聚焦,对泛化能力要求不高工业制造场景下的任务正在更快进入商业化阶段。在工业制造场景实现商业化落地之后,海量机器人的具身数据叠加算力技术的进步,机器人的能力将循序渐进逐步解锁,并向商用服务、家庭服务等更开放的场景进行延伸,届时市场有望达万亿级。摘要◼ 投资建议:作为机器人的“大小脑”,在硬件已达到较高工艺水平的情况下,具身智能的技术能力或将成为机器人发展的天花板。当前多家领军机器人企业均已各自的方式在具身智能领域投入较多资源与精力,以提升自家机器人的泛化行为能力。我们建议投资人持续关注具身智能产业的技术变革突破、商业化落地路线、节奏与进展等。具体到标的上,建议关注索辰科技(物理AI、机器人子公司)、能科科技(特种行业AI能力领先)等。◼ 风险提示:机器人产业相关政策落地不及预期;机器人商业化落地推进不及预期;AI与具身智能产业技术发展不及预期;行业竞争加剧;研报信息更新不及时的风险等。目 录C O N T E N T S什么是具身智能具身智能:机器人与AI的交汇具身大模型赋能人形机器人蜕变具身智能赋能下,未来机器人发展方向1234CONTENTS目录CCONTENTS专 业 | 领 先 | 深 度 | 诚 信中 泰 证 券 研 究 所1什么是具身智能什么是具身智能◼ 具身智能的定义:一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息理解问题、做出决策并实现行动,从而产生智能行为和适应性。•具身智能的实质:强调有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。◼ 从机器人的角度出发,具身智能在机器人上的应用体现可以划分为三阶段:感知、推理、执行。图表:具身智能的划分资料来源:哈尔滨工业大学,中泰证券研究所1.1 具身感知◼ 机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类:物体感知、场景感知、行为感知、表达感知。◼ 具身感知的过程主要包括以下几步:图表:具身感知的过程分为以下几个步骤资料来源:哈尔滨工业大学,中泰证券研究所1.2 具身推理:任务规划◼ 具身感知的过程主要包括以下几步:任务规划、导航、具身问答。◼ 任务规划:任务规划(Task Planning)是具身智能的核心任务之一,将抽象的非可执行人类指令转换为具体的可执行技能。这一步骤的完成需要两步:1)将人类指令分解为机器人可执行的技能,2)执行技能。◼ 结合大模型的任务规划:大模型作为转换器、大模型作为分解器。•作为转换器:LLM+P,用LLM将状态信息描述成PDDL语言再进行规划,取代以往需要人工针对实际问题书写PDDL语言对任务进行建模; •作为规划器:可以zero-shot进行任务规划。图表:大模型作为转换器的作用资料来源:哈尔滨工业大学,CSDN,中泰证券研究所图表:任务规划将人类指令转换为可执行技能资料来源:哈尔滨工业大学,中泰证券研究所1.2 具身推理:导航◼ 具身导航(Embodied Navigation):智能体在3D环境中移动完成导航目标。◼ 早期的具身导航,通过构建一系列基于规则的组件和算法,实现有效的环境感知、定位、路径规划和避障。而基于学习的导航则利用深度学习与强化学习技术,提高模型对复杂环境和新场景的泛化能力。不同于传统算法依赖预定义的规则和手工设计的特征,基于学习的导航算法从大量数据中学习环境特征和导航策略,实现强自适应性和高灵活性。•视觉导航:基于学习的导航的一个重要分支,它依靠计算机视觉来理解环境信息并做出导航决策。•视觉语言导航:通过自然语言指令和视觉图像进行导航的任务,其目标是开发一种能够与人类进行自然语言交流并在现实3D环境中导航的具身智能体。1)大模型出现之前:主要通过RNN,LSTM,Transformer等网络来提取命令中的语义信息; 2)大模型出现后:利用大模型作为辅助来帮助规划器输出规划或者大模型直接作为规划器来输出规划。图表:一种利用大模型的视觉语言导航方法机制资料来源:哈尔滨工业大学,中泰证券研究所图表:具身导航的发展阶段资料来源:哈尔滨工业大学,中泰证券研究所1.2 具身推理:具身问答◼ 具身问答:机器人需要主动探索环境,定位目标物体或位置获取环境中的信息,然后基于获取的信息回答问题。该任务可视为导航、VQA任务的结合。•相比于VQA等已有问答任务,具身问答的特点在于机器人具有主动行动能力。图表:具身问答示意资料来源:哈尔滨工业大学,中泰证券研究所1.3 具身执行◼ 具身执行,就是把任务具体执行出来,其中最重要的环节就是技能学习。◼ 技能学习:以技能描述、环境观察为输入,输出完成技能所需的7Dof轨迹(主要指人手腕或者机械臂末端执行器的位置、朝向、末端状态)。技能学习主要有两类方法:•模仿学习:收集专家演示数据,用神经网络拟合。•强化学习:设计奖励函数,机器人通过交互学习行为策略。•两者的差

立即下载
电子设备
2025-03-17
57页
4.77M
收藏
分享

机器人行业系列报告一:具身智能——决定机器人泛化能力天花板的“大小脑”-中泰证券,点击即可下载。报告格式为PDF,大小4.77M,页数57页,欢迎下载。

本报告共57页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
本报告共57页,只提供前10页预览,清晰完整版报告请下载后查看,喜欢就下载吧!
立即下载
水滴研报所有报告均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
相关图表
2025年1-2月各类别项目订单金额结构
电子设备
2025-03-17
来源:计算机行业:医疗IT订单跟踪,2月订单复苏,后续关注AI订单的落地-广发证券
查看原文
2025年2月各公司千万级订单市场份额 图 11:2025年2月各公司订单市场份额
电子设备
2025-03-17
来源:计算机行业:医疗IT订单跟踪,2月订单复苏,后续关注AI订单的落地-广发证券
查看原文
25年2月各地区医疗IT累计订单金额(亿元)
电子设备
2025-03-17
来源:计算机行业:医疗IT订单跟踪,2月订单复苏,后续关注AI订单的落地-广发证券
查看原文
医疗IT行业单月订单金额环比 图 6:医疗IT行业单月订单个数环比
电子设备
2025-03-17
来源:计算机行业:医疗IT订单跟踪,2月订单复苏,后续关注AI订单的落地-广发证券
查看原文
医疗IT行业单月订单数量(个)及同比增速
电子设备
2025-03-17
来源:计算机行业:医疗IT订单跟踪,2月订单复苏,后续关注AI订单的落地-广发证券
查看原文
医疗IT行业单月订单金额(亿元)及同比增速
电子设备
2025-03-17
来源:计算机行业:医疗IT订单跟踪,2月订单复苏,后续关注AI订单的落地-广发证券
查看原文
回顶部
报告群
公众号
小程序
在线客服
收起