人工智能行业机器人智能化三部曲(一):谷歌篇,机器人大模型引领者
机器人智能化三部曲(一):谷歌篇--机器人大模型引领者证券研究报告行业动态报告发布日期:2023年8月25日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。分析师:于芳博yufangbo@csc.com.cnSAC编号:S1440522030001分析师:阎贵成yanguicheng@csc.com.cnSAC编号:S1440518040002SFC 中央编号:BNS315分析师:金戈jinge@csc.com.cnSAC编号:S1440517110001SFC 中央编号:BPD352 •核心观点:随着各项人工智能技术的不断发展,具备与物理世界交互的强大潜力的智能机器人成为学界和业界的重要研究赛道。其中Google依托其在AI领域强大的研究团队,丰厚的多领域研究成果,引领着近年来机器人模型的发展。Google Deepmind在2023年6月和7月发布了其最新研究成果,具备“自我完善”能力的“RoboCat”和融合大语言模型能力的VLA模型“RT-2”,机器人智能化进一步加速,有望掀起新一轮AI革命。•从Gato到RoboCat,更大规模的训练数据集和创新的自我完善方法助力打造更强的机器人智能体。在2022年5月提出的Gato模型将智能体扩展到机器人控制领域中,但“通用性”和“智能性”仍有较大提升空间,其模型架构和控制任务数据的序列化方式是后续模型发展的重要基础。2023年7月提出的RoboCat则基于Gato的模型基础,将训练数据集扩充至400万个机器人相关片段,并创新性的提出“自我完善”的方式来进一步丰富训练数据,这两点创新让RoboCat在实现了训练任务的性能提升并具备了一定的泛化性能,并且能够在少量数据微调的情况下处理未见过的任务。•从RT-1到RT-2,大语言模型带来更强的泛化能力、逻辑推理能力、知识能力,深度赋能机器人智能化。2022年12月提出的RT-1模型构建起了特定的指令、图像和机器人指令之间的桥梁;2023年3月的PaLM-E模型则能够处理输入的文本和图像信息,将复杂任务转化为RT-1能够接受的指令;2023年7月提出的RT-2是二者的融合, 在大语言模型强大能力的赋能下,RT-2能够完成分解复杂任务、简单的计算、识别人脸等现实场景中常见但以往的模型无法完成的任务,智能化程度大幅提升。•差异路线引领发展,团队整合协同革新。Google Brain和DeepMind两个团队从两个不同的切入点出发逐步推进AI机器人模型发展,DeepMind团队从智能体(Agent)的角度出发不断提升机器人能力,因此RoboCat中的训练数据大多来自强化学习,模型参数量控制表现更为优秀,能够实现更高频率的机器人控制;而Google Brain则尝试将大语言模型应用到机器人的控制领域,因此RT-2的模型参数量更大,在泛化能力、知识和推理能力方面有更强的表现。随着两个团队进一步合并,深化数据、模型等方面的协同合作,谷歌的机器人模型进展有望进一步加速。核心观点 qZgVmUkWdUqUmNqR7NcMbRoMnNpNoNlOoOuMkPtRtObRmNoRxNrNoMvPnMnP1.1 谷歌AI、Deepmind两条路线 引领机器人模型发展资料来源:谷歌官网 ,Web of science,中信建投• 在机器人模型领域,Google自身的AI团队及Deepmind分别沿两条技术路线探索机器人模型,近年来发布过多篇引领性的文章。本文将回顾Google两大团队近年来在机器人模型领域的核心进展,其技术路线的异同点,梳理其中的发展脉络。• Deepmind:延续Gato的模型架构,2023年6月,Google DeepMind推出可以自我改进的机器人AI智能体,名为“RoboCat” 。• 谷歌AI团队:从RT-1开始,到可以操作机器人的大语言模型PaLM-E,再到2023年7月融合此前的RT-1和PaLM-E,推出的VLA模型RT-2,真正实现了将视觉、语言、机器人操作融合到一个模型中。图:谷歌机器人模型相关进展时间轴2022.5Gato:能够处理多种任务,包括少量的现实场景机器人任务2022.12RT-1:能够识别“特定的指令”及相关图像生成对应的机器人操控指令2023.3PaLM-E:能够处理自然语言、图像输入,生成“特定的指令”2023.7RT-2:能够处理自然语言、图像输入,直接生成对应的机器人操控指令2023.6RoboCat:能够处理多种类的现实场景机器人任务2023.4合并Google Brain和Deepmind,成立Google Deepmind20222023作为其基础模型(其中之一)帮助理解复杂任务沿用训练数据集和对机械臂动作的编码方式帮助生成具体的操控指令沿用模型结构谷歌AI路线Deepmind路线 1.2 谷歌AI·DeepMind:深度学习浪潮中的引领者资料来源:机器之心,中信建投图:Deepmind发展历程(不含机器人相关部分)图:AlphaGo与李世石对弈• DeepMind Technologies 是 Alphabet Inc. 的英国人工智能子公司和研究实验室。DeepMind成立于 2010 年 9 月,于 2014 年被 Google 收购。该公司总部位于伦敦,在加拿大、法国、美国设有研究中心。2015年,它成为谷歌母公司Alphabet Inc.的全资子公司。• 以发展通用人工智能(AGI)作为目标,持续研发革命性技术引领人工智能发展。于2016年推出的AlphaGo是DeepMind的第一个代表作,其让全世界的人们第一次直观感受到AI的强大之处,成为AI技术走向新一轮高峰的重要标志,也进一步推动了第三轮AI发展的浪潮。自AlphaGo开始,DeepMind接连推出了AlphaZero(下棋)、AlphaFold(蛋白质结构预测)、AlphaCode(代码写作)等AI领域内的重要技术成果。这些成果不仅发表在顶级的学术期刊上,并且也收到了业界的广泛关注和认可。• DeepMind在智能体(Agent)方面有着深厚的积累,是谷歌机器人模型研发的中坚力量。2010.9DeepMind成立,致力于AGI的研究2014被谷歌以6亿美元价格收购2016.3研发的AlphaGO击败李世石,引发全球关注2017.10推出了AlphaGO的升级版本AlphaZero2018.2推出AlphaFold,根据基因序列预测蛋白质的 3D 结构。此后又推出并开源了 AlphaFold 2、AlphaFold 数据集2020.12推出MuZero,仅使用像素和游戏分数作为输入就可以在 Atari 视频游戏中达到人类的水平。2022.2推出基于Transformer架构的AlphaCode,实现了大规模的代码生成发布了可以对托卡马克装置中的等离子体构型进行磁控制,帮助达到可控核聚变的人工智能。2022.10推出 AlphaTensor,利用强化学习发现矩阵乘法算法。第一个可用于为矩阵乘法等
[中信建投]:人工智能行业机器人智能化三部曲(一):谷歌篇,机器人大模型引领者,点击即可下载。报告格式为PDF,大小3.08M,页数24页,欢迎下载。
