计算机行业AIGC系列之31:Open AI o1模型发布,推理范式大范围创新!
行业及产业 行业研究/行业点评 证券研究报告 计算机 2024 年 09 月 19 日 Open AI o1 模型发布,推理范式大范围创新! 看好 —— AIGC 系列之 31 相关研究 - 证券分析师 洪依真 A0230519060003 hongyz@swsresearch.com 联系人 洪依真 (8621)23297818× hongyz@swsresearch.com 事件:OpenAI 于 2024 年 9 月 13 日发布新模型 o1(即此前预告的草莓模型)。OpenAI首席执行官山姆·阿尔特曼表示,尽管作答前需要花费更多时间思考,但在处理难而复杂的任务上,OpenAI o1 达到了当下人工智能的最高水平,展现出强大的推理能力。 ⚫ 综合评价:逻辑、代码、数学能力提升明显。o1 意味着大模型将进入了一个新的扩张范式:从模型参数增大,转向强化学习的探索。O1 在机器学习测试、博士级科学问题物理、MMLU 大学数学等测试集中,o1 都相比于 4o 有明显的提升,超越了人类专家的表现,成为第一个在该基准测试中做到这一点的模型。目前 ChatGPT Plus 用户已可以访问 o1-preview 和 o1-mini。初期的消息限制为每周 30 条(o1-preview)和 50 条(o1-mini)。未来 OpenAI 还将逐步开放更多功能,包括文件和图片上传、浏览功能等。 ⚫ 能力提升主要来自于推理环节。o1 是经过强化学习训练来执行复杂推理任务的新型语言模型,o1 在回答之前产生一个很长的内部思维链。随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能持续提高。即类似推理阶段的 Scaling Law。 ⚫ 利好推理算力,教学、编程、医疗、金融等应用。 ⚫ 1)o1 首先利好推理端需求算力。API 价格,o1 预览版每百万输入 15 美元,每百万输出 60 美元,o1-mini 每百万输入 3 美元,每百万输出 12 美元,而 GPT4o,分别是 5 美元和 15 美元。推测 o1 普遍推理成本可能是原路线的约 3 倍以上。 ⚫ 2)在应用方面,围绕 o1 推理、代码、数学能力的提升,我们认为主要利好以下方向:科学研究:物理、化学和生物学等复杂建模辅助;编程和软件开发:帮助开发者进行代码的生成、调试和优化,教育和学术:提升数学、科学计算教学辅助能力,医疗健康:病历、影像学资料、基因数据强逻辑环节提供思维链支持;金融: 风险评估、投资决策等应用。 ⚫ 除了推理提升外,后续大模型其它期待。1)训练的 Scaling Law 继续发挥作用,即模型参数继续提升,从万亿级别提升至十万亿,同时模型智能水平继续涌现;2)多模态,结合视觉能力提升,增加大量视觉数据做大规模预训练,以及 sora 为代表的 DiT 视频生成。 ⚫ 相关标的:1)算力产业链:中际旭创(申万通信)、新易盛(申万通信),浪潮信息、海光信息、寒武纪、中科曙光。2)AI 应用:科大讯飞、金山办公、同花顺、润达医疗、虹软科技、福昕软件。 ⚫ 风险提示:大模型技术中美仍存在差异;LLM 商业变现能力仍需要验证;scaling law 在训练领域的效果和 GPT-5 实际迭代情况仍需要关注。 请务必仔细阅读正文之后的各项信息披露与声明 行业点评 请务必仔细阅读正文之后的各项信息披露与声明 第2页 共8页 简单金融 成就梦想 事件:OpenAI 于 2024 年 9 月 13 日发布新模型 o1(即此前预告的草莓模型)。OpenAI 首席执行官山姆·阿尔特曼表示,尽管作答前需要花费更多时间思考,但在处理难而复杂的任务上,OpenAI o1 达到了当下人工智能的最高水平,展现出强大的推理能力。 一、综合评价:逻辑、代码、数学能力提升明显 Open AI 认为 O1 相比此前模型提升显著,因此进行系列重新命名。对于 O1 的命名,Open AI 解释为“对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1,并将这一系列命名为 OpenAI o1。” o1 意味着大模型将进入了一个新的扩张范式:从模型参数增大,转向强化学习的探索。 图 1:o1(草莓)与其余 LLM 的区别 资料来源:x、新智元、申万宏源研究 O1 重点在高级逻辑能力上提升。如下图11)高水平数学测试集 AIME 2024,GPT4o准确率为 13.4%,o1 预览版是 56.7%,后续即将正式发布的 o1 正式版是 83.3%;2)代码测试集 GPT4o 准确率为 11.0%,o1 正式版 89%;3)博士级科学问题 (GPQA Diamond),GPT4o 是 56.1%,人类专家水平是 69.7%,o1 达到了 78%。 图 2:o1 的数学、代码、逻辑能力相比 gpt4o 提升显著 资料来源:open AI 官网、申万宏源研究 具体看,在机器学习测试、博士级科学问题物理、MMLU 大学数学等测试集中,o1都相比于 4o 有明显的提升,也可以看出 o1 在逻辑、代码、数学三大项能力的迭代。o1 超越了人类专家的表现,成为第一个在该基准测试中做到这一点的模型。 1 https://openai.com/index/learning-to-reason-with-llms/ 行业点评 请务必仔细阅读正文之后的各项信息披露与声明 第3页 共8页 简单金融 成就梦想 图 3:各测试集结果,绿色部分为 gpt4o 得分,橙色部分为 o1 提升得分 资料来源:open AI 官网、申万宏源研究 目前 ChatGPT Plus2用户已可以访问 o1-preview 和 o1-mini。初期的消息限制为每周 30 条(o1-preview)和 50 条(o1-mini)。ChatGPT 企业版和教育版用户将在下周获得访问权限。API 用户也可以开始使用这些模型进行原型开发,初期速率限制为每分钟 20 次请求,会在模型测试后逐步提升。未来 OpenAI 还将逐步开放更多功能,包括文件和图片上传、浏览功能等。 同时也有部分投资者认为,open AI 在此时发布新模型或与融资计划相关。根据中国经济网 2024 年 09 月 13 日文章3,彭博社报道 OpenAI 正寻求新一轮高达 65 亿美元的融资,其估值可能飙升至 1500 亿美元,大幅超过年初的 860 亿美元。公司还计划通过循环信贷筹集 50 亿美元的债务资金。 二、能力提升主要来自于推理环节 相比于此前几代 open AI 模型能力来自于训练环节的提升,本次 o1 在推理环节进行了范式更新。如下图,OpenAI 发现,随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能持续提高。即类似推理阶段的 Scaling Law。 图 4:推理环节的规模效应使得模型能力平稳提升 2 截至目前 OpenAI 提供的 ChatGPT 有三种订阅
[申万宏源]:计算机行业AIGC系列之31:Open AI o1模型发布,推理范式大范围创新!,点击即可下载。报告格式为PDF,大小1.64M,页数8页,欢迎下载。
