Sora AI视频:OpenAI推出AI视频生成模型Sora
2024年2月16日凌晨,OpenAI发布了首个文生视频大模型Sora,并配有48个生成案例及技术报告,能够通过自然语言指令生成长达60秒的高清流畅视频,在生成视频长度、清晰度、连贯性、多镜头切换方面都有显著提升。
Sora可以将简短文本描述转换成一分钟流畅视频,相对于Runway、Pika、StableVideo等提升了几个代级。
1)生成视频长度:Runway、Pika等传统文生视频大模型平均时长在3-5秒,Runway用户可以最多延长视频长度至16秒,Sora相对传统视频生成工具提升15-20倍
2)视频质量显著提升:可生成1080P高清视频
3)可实现多镜头切换:可以理解和模拟运动中的物理规律,可以实现复杂的运动相机模拟
4)视频连贯性与稳定性更好:在建模能力上表现更好,可以依赖关系进行建模,能初步理解及模拟物理运动规律
5)高可拓展性:支持多种数据格式输入,具备实现文生视频、图生视频、向前或向后视频扩展能力,同时支持视频连接
Sora对算力需求将呈指数级增长
目前由于Sora还在初级阶段,训练数据集和参数规模有限,仍存在一些不足之处。对于Sora当前存在的弱点,OpenAI指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。未来训练数据集将会数以万倍的增长,模型参数量也会不段提升,目前来看Sora训练所需算力不及GPT-4等大语言模型,伴随Sora大模型不断迭代调优、训练数据集规模逐渐扩大,机构认为,未来Sora所需算力将呈现指数级增长:
1)短期来看模型迭代优化、训练数据集增大将快速带动训练端算力需求;
2)长期来看,Sora技术逐渐成熟带动下游AI应用百花齐放,推理端需求将厚积薄发。有望持续带动上游算力基础设施需求爆发。
从知情人士处获悉,字节管理层判断AI对话类(或称chatbot类)产品可能只是AI产品的“中间态”,长期更理想的产品形式,大概率需要更视觉化的用户体验、更低的用户使用门槛。因此,字节已经提升了即梦的产品优先级,尝试用新的路径打造AI时代的“抖音”。(36氪)
谷歌的旗舰AI研究实验室Google DeepMind周一大幅升级其人工智能驱动的内容生成工具,推出了Veo 2视频生成模型和增强版Imagen 3图像模型,挑战OpenAI在AI图像和视频生成的领先地位。谷歌表示,这些更新有望彻底改变创意工作流程,为视频和图像创作者提供更高的真实感和定制化体验。
Sora已进行中文提示词实测,除了简单的一段话prompt,Sora还支持故事板(Storyboard)模式,可以给视频添加多个分镜头。但从实测来看Sora Turbo依旧有一些弊端,对物理规律的理解还是不够好。
美国芯片产品不再安全、不再可靠。
应用渗透率提升,叠加API成本的持续下降,AI视频的商业化空间将打开
腾讯混元大模型公布最新进展:正式上线视频生成能力,这是继文生文、文生图、3D生成之后的又一新里程碑式功能。同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频开源模型。(上证报)
据报道,Kimi目前正内测AI视频生成功能“Kimi创作空间”,可通过12种预设风格模板和自定义创作功能,为用户制作个性化音乐视频。有内部人士透露称,目前该功能处于灰度测试阶段,未来将在Kimi官网首页底部显示区展现。据介绍,上线后,用户每天可免费生成100秒视频,同时支持添加个性化音乐和详细场景介绍。(新浪科技)
随着地方政府财政回暖,有利于增强地方政府在IT支出方面的能力,进而促进地方政府国产化需求的释放。
AI视频的商业化空间将打开。
未来将逐步开放给所有用户。今日重要性:✨
用以训练的视频素材将有望成为未来的增量需求。今日重要性:✨
近日,快手“可灵”视频生成大模型官网正式上线。据介绍,可灵大模型为快手AI团队自研,基于快手在视频技术方面的多年积累,采用Sora相似的技术路线,结合多项自研技术创新,效果对标Sora。可灵大模型不仅具备强大的概念组合能力和想象力,还能够生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。(36氪)
ID | 股票名称 | 涨幅% | 现价 | 换手率% | 总市值 | 炒作逻辑 |
---|