计算机行业AI%2b专题系列点评(二十六):字节跳动发布OmniHuman,人体动画最新成就
证 券 研 究 报 告 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210 号 计算机 2025 年 02 月 09 日 AI+专题系列点评(二十六) 推荐 (维持) 字节跳动发布 OmniHuman:人体动画最新成就 事项: 2025 年 2 月 3 日,字节跳动研究团队发布了名为 OmniHuman 的人体动画生成框架,并发表研究成果论文,展示其在人体动画生成领域的最新成果。OmniHuman 是一个基于 Diffusion Transformer 的多模态条件驱动的人类动画生成框架,能够通过单张图片和音频、视频等多种信号,生成高度逼真、支持任意比例和风格的动态人类视频。OmniHuamn 的最新发布标志着人工智能技术在人体动画方向上的突破,有望在影视、娱乐、游戏开发等更多实际应用中展现其强大功能。 评论: 运用混合多模态训练,实现更高泛化能力:OmniHuman 采用 Omni-Conditions Training 的混合多模态训练策略,克服了以往方法面临的高质量数据稀缺问题。通过弱条件助力强条件、提高弱条件训练比例这两大原则,OmniHuman 从大规模数据训练中受益,学习自然的运动模式,从而支持多种输入模式,并显著提升生成质量。 采用 DiT 架构,提高视听契合度:OmniHuman 采用基于 DiT 架构的视频生成框架,使模型兼容多种模态的条件注入方式。通过将交叉注意力与视频特征完美融合,实现语言、音频与动作生成的高度契合度,来达到适应多种模态的效果。 OmniHuman 整体效果取得显著优势:在与目前行业领先方案的效果对比中,OmniHuman 表现出色,在多方面超越现有的主流方法。在肖像和身体动画任务中,OmniHuman 使用单一模型表现优于领先的专业模型。通过对数据集中的指标进行平均,OmniHuman 在所有评估指标中取得了最佳结果,反映了其整体有效性。此外,OmniHuman 在特定数据集中的几乎所有指标上表现出色。 消融研究验证训练策略有效性:在音频比例设置上,通过比较 OmniHuman 在不同音频比例训练中的表现,得出音频比例设置为 50%效果最佳,将其作为最终训练配置。并通过不同音频比例的消融研究,验证了训练策略的有效性,表明混合数据训练可以显著提高模型性能。 可视化效果显著提升:通过展示更多可视化结果,OmniHuman 在人物动画方面展现强大能力,能保持输入的运动风格。可兼容风格化人形和 2D 卡通角色,甚至可以以拟人化的方式为非人类图像赋予动画效果。 投资建议:AI 大模型本质应落脚垂类应用,国内大模型在全球竞争中崭露头角,看好 AI+应用产品力与商业化落地进程。建议关注以下标的:1)办公:金山办公、合合信息、福昕软件、迈富时;2)金融:同花顺、恒生电子、新致软件;3)大模型:科大讯飞、三六零、第四范式;4)工业:中控技术、索辰科技、鼎捷数智;5)端侧/穿戴/玩具:萤石网络、云天励飞、中科创达、汉王科技;6)医疗:润达医疗、卫宁健康、晶泰控股;7)法律:金桥信息、华宇软件、通达海;8)邮箱:彩讯股份;9)创意:万兴科技、美图公司、虹软科技;10)教育:佳发教育、欧玛软件、新开普;11)电商:焦点科技;12)ERP:金蝶国际、用友网络;13)OA:泛微网络、致远互联;14)安全:深信服、永信至诚;15)部署:优刻得、星环科技、网宿科技、汉得信息;16)算力:海光信息、寒武纪、景嘉微等。 风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。 证券分析师:吴鸣远 邮箱:wumingyuan@hcyjs.com 执业编号:S0360523040001 联系人:张宇凡 邮箱:zhangyufan1@hcyjs.com 行业基本数据 占比% 股票家数(只) 336 0.04 总市值(亿元) 46,504.95 4.75 流通市值(亿元) 39,766.37 5.13 相对指数表现 % 1M 6M 12M 绝对表现 20.1% 66.6% 67.0% 相对表现 17.5% 50.2% 50.5% 相关研究报告 《 计 算 机 行 业 周 报 ( 20250205-20250207 ):DeepSeek 加速扩张,云厂、芯片和应用共振》 2025-02-09 《计算机行业重大事项点评:比亚迪智驾发布在即,智驾平权加速发展》 2025-02-07 《AI+点评系列报告(二十五):Deepseek 持续迭代,中美大模型竞争升级》 2025-02-06 -15%8%31%55%24/0224/0424/0724/0924/1125/022024-02-19~2025-02-07计算机沪深300华创证券研究所 AI+专题系列点评(二十六) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210 号 2 目 录 一、OmniHuman 运用全新框架,突破技术瓶颈 ......................................................... 4 (一)运用混合多模态训练,实现更高泛化能力 ......................................................... 4 (二)采用 DiT 架构,提高视听契合度 ......................................................................... 4 二、OmniHuman 整体效果取得显著优势 ..................................................................... 5 AI+专题系列点评(二十六) 证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210 号 3 图表目录 图表 1 OmniHuman 基于输入音频和图像生成的视频 ....................................................... 4 图表 2 OmniHuman 技术框架图 ........................................................................................... 4 图表 3 OmniHuman 肖像和身体动画任务表现 ................................................................... 5 图表 4 OminiHuman 不同音频比例训练结果 ...................................................................... 5 图表 5 OmniHuman 关于不同音频比例的消融研究 .........................................
[华创证券]:计算机行业AI%2b专题系列点评(二十六):字节跳动发布OmniHuman,人体动画最新成就,点击即可下载。报告格式为PDF,大小1.83M,页数10页,欢迎下载。
