计算机行业周报：英伟达推出首款开源人形机器人模型Isaac GR00T N1，OpenAI发布音频模型

2025 年 03 月 26 日英伟达推出首款开源人形机器人模型 Isaac GR00T N1， OpenAI 发布音频模型 —计算机行业周报推荐(维持) 投资要点分析师：宝幼琛 S1050521110002 baoyc@cfsc.com.cn 行业相对表现表现 1M 3M 12M 计算机(申万) -11.1 4.0 25.2 沪深 300 -1.0 -1.7 10.6 市场表现资料来源：Wind，华鑫证券研究相关研究 1、《计算机行业点评报告：地平线机器人（9660.HK）：2024 年业绩创纪录，软硬一体生态优势凸显》2025-03-25 2、《计算机行业周报：Genio720 和Genio520 联合发布，视频生成模型Open-Sora2.0 发布》2025-03-20 3、《计算机行业点评报告：阿里云QwQ-32B 开源模型全球首发，引领超低密度智能与端侧生态范式革命》 2025-03-11 ▌算力：算力租赁价格平稳，英伟达推出全球首款开源人形机器人功能模型 Isaac GR00T N1 美国时间 3 月 18 日，英伟达在美国圣何塞举办 GTC（GPU 技术大会）。而在此次 GTC 大会上，英伟达不仅发布了Blackwell GPU、硅光交换机、机器人模型等一系列新产品。黄仁勋还在演讲中反复传递出一个信号：随着 AI 行业在模型训练上的整体需求放缓，再加上 DeepSeek 在模型推理上所做创新，AI 推理时代即将到来。作为 GTC 的重头戏，黄仁勋在演讲中宣布推出数据中心 AI GPU 的新一代产品——NVIDIA Blackwell Ultra GPU。此前市场传言英伟达去年年底计划将 Blackwell Ultra 改名为B300 ，但根据现场公布的结果，官方保留了原始命名。Blackwell Ultra GPU 相比于上一代 B200GPU 性能提升了50%，约为 15P FLOPS（基于低精度的四位浮点数格式 FP4 标准），内存上则搭载了业内最先进的 HBM3E，从 192GB 升级到了 288GB。与 A100、H100 等多款主要用在 AI 模型预训练的产品不同，英伟达此次明确定位 Blackwell Ultra“专为 AI 模型推理打造”（AI-Reasoning），同时兼顾"训练和多场景 AI 应用的高效性"。GB300 NVL72 和 HGX B300 NVL16（8GPU）两款系统产品也在提升计算能力和内存容量的同时，专为复杂 AI 推理任务做了优化。以 HGX B300 NVL16 为例，相较于上一代Hopper 架构，这款新品在大模型推理速度上提升了 11 倍。与去年 GTC 密集发布各种新产品的节奏不同，黄仁勋今年在公布新品前，在现场花了更多时间科普“Agentic AI”的概念，以及 AI 推理带来的巨大改变。在现场展示的 AI 技术发展路线图中，黄仁勋按照“Generative AI（生成式 AI）、Agentic AI（智能体）、Physical AI（具身 AI）”三个阶段的进化路线，将 Agentic AI 描述为 AI 技术发展的中间态。相比于生成式 AI 的主要应用——语言大模型与聊天机器人——主要聚焦于生成文本、图像内容，Agentic AI 更进一步，能够理解任务、进行复杂推理、制定计划并自主执行多步骤操作，目前业内热议的数字员工等 AI Agent 即为相关应用。 -40-200204060(%)计算机沪深300证券研究报告行业研究证券研究报告请阅读最后一页重要免责声明 2 诚信、专业、稳健、高效英伟达在 2025 年 GTC 大会上推出名为 Isaac GR00T N1 的全球首个人形机器人推理和技能基础模型，标志着通用机器人时代的到来。GR00T N1 模型是开源且可完全定制，采用双系统架构：系统 1 是快速思考的动作模型，类似于人类的反射或直觉；系统 2 是慢速思考模型，用于长语境任务规划。系统 2 通过视觉语言模型对环境和指令进行推理以规划行动，系统 1 则将这些计划转化为精确的机器人动作。该模型能够轻松应对多种常见任务，如抓取、移动物体等，并可应用于材料处理、包装和检查等多个领域。 ▌AI 应用：文心一言搜索访问量环比+12.03%，OpenAI 发布新一代音频模型 3 月 21 日，OpenAI 发布音频模型，实现了新的 SOTA 水平，在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。这些改进提高了语音/文本转录应用的可靠性，新模型特别适合客户呼叫中心、会议记录转录等用例。基于新的 API，开发人员第一次可以指示文本转语音模型以特定方式说话，为语音智能体开启新的定制化维度，可以实现各种定制应用程序。 OpenAI 于 2022 年推出了第一个音频模型，并一直致力于提高这些模型的智能性、准确性和可靠性。借助新的音频模型及 API，开发人员可以构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。具体来说，新的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型与原始 Whisper 模型相比改进了单词错误率，提高了语言识别和准确性。gpt-4o-transcribe 在多个既定基准中展示了比现有 Whisper 模型更好的单词错误率 (WER) 性能，实现了语音转文本技术的重大进步。这些进步源于强化学习创新以及使用多样化、高质量音频数据集进行的大量中期训练。 OpenAI 还推出了一个可操纵性更好的新 gpt-4o-mini-tts 模型。在其之上，开发人员第一次可以指导模型，不仅可以指导模型说什么，还可以指导模型如何说，从而为大量用例提供更加定制化的体验。该模型可在 text-to-speech API 中使用。不过目前，这些文本转语音模型仅限于人工预设的声音，且受到 OpenAI 的监控。 OpenAI 的新音频模型基于 GPT‑4o 和 GPT‑4o-mini 架构，并在专门的以音频为中心的数据集上进行了广泛的预训练，这对于优化模型性能至关重要。这种有针对性的方法可以更深入地了解语音细微差别，并在与音频相关的任务中实现出色的性能。在模型训练中，OpenAI 增强了提炼技术，使知识从最大的音频模型转移到了更小、更高效的模型上。利用先进的自我博弈方法，OpenAI 的提炼数据集有效地捕捉了真实的对话动态，复制了真正的用户助手交互，这有助于小型模型证券研究报告请阅读最后一页重要免责声明 3 诚信、专业、稳健、高效提供出色的对话质量和响应能力。 OpenAI 的语音转文本模型集成了大量强化学习，将转录准确性推向了最先进的水平。据称，这种方法大大提高了精度并减少了幻觉，使语音转文本解决方案在复杂的语音识别场景中具有极强的竞争力。 ▌AI 融资动向: 预计今年最强 IPO CoreWeave，估值一年内从 20 亿美元飙升至 230 亿美元消息显示，由英伟达支持的云计算公司 CoreWeave 最早于本周在纳斯

立即下载

电子设备

2025-03-27

华鑫证券

宝幼琛

16页

0.95M

[华鑫证券]:计算机行业周报：英伟达推出首款开源人形机器人模型Isaac GR00T N1，OpenAI发布音频模型，点击即可下载。报告格式为PDF，大小0.95M，页数16页，欢迎下载。

本报告共16页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

本报告共16页，只提供前10页预览，清晰完整版报告请下载后查看，喜欢就下载吧！

立即下载

水滴研报所有报告均是客户上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作商用。

计算机行业周报：英伟达推出首款开源人形机器人模型Isaac GR00T N1，OpenAI发布音频模型

关于我们

联系我们

计算机行业周报：英伟达推出首款开源人形机器人模型Isaac GR00T N1，OpenAI发布音频模型

关于我们

联系我们

小程序

公众号