计算机行业Sora有望带来AI生成视频领域的新一轮变革-24021819页.pdf

计算机行业Sora有望带来AI生成视频领域的新一轮变革-24021819页.pdf

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

证券研究报告|计算机行业|2024年02月18日

研究团队•计算机行业

Sora有望带来AI生成视频领域的新一轮变革

分析师张初晨登记编号:S1220523070001

陈嵩登记编号:S1220523100002

报告摘要

Sora对AI生成视频产业的影响:Transformer或异军突起,头部效应可能更明显,离AGI又更进一步

➢Transformer可能逐渐取代U-Net成为扩散模型中去噪网络的首选:Transformer-diffusion在AI视频生成领域的核心痛点在于内存需求随着输入序列

长度增加会指数级增长,处理视频信号的成本很高,没办法生成高分辨率的图像;Sora通过引入视频压缩网络(含时空自编码器与解码器)Pacth

化解决了这个问题,Transformer对时间帧的记忆有优势,因此生成长视频过程中比U-Net更能保证帧与帧之间的连续性,分辨率短板补足后很可能

取代U-Net成为扩散模型中的主流backbone。

➢Sora证明了AI生成视频领域同样适用“参数量越大+训练时间越长=训练效果越好”:Transformer的特征是可拓展性强,模型参数量越大、训练

数据集越大、训练时间越长效果就会越好;Sora通过其强大的涌现能力再次说明了这一点,即“参数量越大+训练时间越长=训练效果越好”,AI

生成视频可能带来新一轮算力需求爆发。

➢AI生成视频与LLM是勾稽的,这个领域很可能还是强者恒强:Sora语义信息理解能力强大的背后是通过GPT来重新生成高度描述性的caption,从而提

高视频-文本对数据集的质量,再次说明没有优质的训练数据集很难做出好的模型,而视频标注的难度又远大于文本与图像,对于视频自动标注模型

的要求非常高。以OpenAI(微软)、Google为代表的多模态头部厂商依然优势明显,纯粹做模型的初创公司在AI生成视频领域的机会或许不大。此

外,做安防自动驾驶的公司可能会有差异化的机会,得益于大量的视频数据积累,有能力开发高质量的视频自动标注模型拥有优质的“视频-文本

对”数据集(可以自用也可以出售)。

➢AI生成视频领域的“Midjourney时刻”可能很快到来:Transformer模型的涌现特征意味着模型提升的速度将非常快,文生视频从可用到好用的拐点

或加速到来,应用生态也有望加速繁荣。

➢离实现AGI又前进了一步:Sora展现出的理解能力、推理能力已经有些世界模型的雏形(通过预测周围环境未来的变化,来规划决策),人类迈向通

用人工智能的脚步或许又快了一些。

报告摘要

Sora对下游行业的影响:

➢算力需求或许仍旺盛:AI生成视频因为Sora的出现也将加速向以Transformer为主干的大模型架构发展,考虑到视频数据集的数据量标注难度都远

远高于文本及图片,云端算力基础设施需求或进一步提升(CPO、GPU、HBM等等);建议关注:服务器(中科曙光、神州数码、高新发展等)、CPO

(中际旭创、剑桥科技、新易盛等)、HBM(雅克科技、香农芯创、深科技等)

➢动画/电影/短视频/游戏/商拍等领域效率提升门槛降低:从目前的视频生成时长长视频场景稳定性来看,Sora还没到取代专业导演的地步,但可

能改变包括短视频/广告/商拍在内的内容创作领域工作流,增强用户体验的同时,降低用户使用门槛,包括抖音、快手在内的内容创作平台可能获

益;另外建议关注以美图、虹软为代表的深耕AI图像生成的厂商加速取得技术进步;

➢视频剪辑类工具:视频创作门槛降低必然带来视频剪辑需求提升;建议关注:万兴科技;

➢智能驾驶领域机器人或迎来新一轮技术进步:智驾大家熟悉的是BEV、Occupancy,特斯拉在去年的CVPR就提到了世界模型,Sora展现出的场景理解

与推理能力已经有些世界模型的雏形,今年很可能是新一轮算法范式革新的开始(从BEV+Transformer到BEV+Transformer-diffusion),同样机器

人产业链也有望深度受益;建议关注:德赛西威、经纬恒润、中科创达、均胜电子、拓普集团、鸣志电器等;

➢AI+安防:视频数据积累最多集中度最高的领域,龙头的业务边界较广且后发优势明显;建议关注:海康威视、大华股份;

➢网络安全:视频数据比文本/图片更高维,监管难度也更大,网安头部厂商或受益;建议关注:启明星辰、深信服、安恒信息、奇安信、博汇科技等;

➢多模态/AI应用相关标

文档评论(0)

hw + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档