Openai视频生成模型Sora前瞻，到底有什么是他做不到的！

chatgpt2024-05-09 07:17:16239

先做个广告：如需代充值GP4会员及购买GPT帐号，请添加站长客服微信：gptchongzhi

1. 先看效果—震撼

OpenAI 建立了一个名为 Sora 的全新生成视频模型，它可以将简短的文字描述转换成长达一分钟的详细高清电影片段。我们先欣赏一下这场科技与科学盛宴吧！！

推荐使用ChatGPT中文版，国内可直接访问：https://ai.p6p6.cn

根据 OpenAI 在今天发布之前与《麻省理工科技评论》（MIT Technology Review）分享的四段视频样本，这家总部位于旧金山的公司已经突破了文本到视频生成的极限（这是一个炙手可热的新研究方向，我们曾将其列为 2024 年值得关注的趋势）。

"OpenAI 的科学家蒂姆-布鲁克斯（Tim Brooks）说："我们认为，建立能够理解视频的模型，并理解我们这个世界上所有这些非常复杂的互动，是未来所有人工智能系统的重要一步。

但有一个免责声明。OpenAI 在严格保密的条件下让我们预览了 Sora（在日语中是天空的意思）。该公司采取了一项不同寻常的举措，即只有在我们同意等到该模型的消息公开后再征求外部专家意见的情况下，才会分享有关 Sora 的信息，并且Openai表示不会在短期内发布 Sora。

Prompt：这幅画的基调是惊奇和好奇，怪物睁大眼睛、张开嘴巴注视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界。(图片来源：OpenAI）

Prompt：渲染华丽的珊瑚礁纸艺世界，到处都是色彩斑斓的鱼类和海洋生物（图片来源：OpenAI）

第一批能根据文本片段生成视频的生成模型出现在 2022 年末。但来自 Meta、谷歌和一家名为 Runway 的初创公司的早期案例都是模糊不清、颗粒状的。从那时起，这项技术迅速得到了改进。Runway 去年发布的 Gen-2 模型可以制作出质量接近大型工作室动画的短片。但这些例子大多只有几秒钟。

来自 OpenAI 的 Sora 的视频样本则是高清晰度的，细节丰富。OpenAI 还表示，它可以生成长达一分钟的视频。东京街景的一段视频显示，Sora 已经学会了物体如何在三维空间中组合在一起：当一对情侣走过一排商店时，摄像机俯冲到场景中跟随他们。

OpenAI 还声称，Sora 能很好地处理遮挡问题。现有模型的一个问题是，当物体从视线中消失时，它们可能无法跟踪物体。例如，如果一辆卡车从路标前驶过，之后路标可能不会再出现。

在一段水下场景的视频中，索拉在不同片段之间添加了看似剪切的画面，而模型在它们之间保持了一致的风格。

这并不完美。在东京的视频中，左边的汽车看起来比旁边行走的人要小。它们还在树枝间忽隐忽现。"布鲁克斯说："在长期连贯性方面，肯定还有一些工作要做。"例如，如果有人离开视线很长时间，他们就不会再回来。模型会忘记他们应该在那里。

2. 内测开始—不久面世

这里展示的样本视频虽然令人印象深刻，但无疑是为了展示 Sora 的最佳效果而精选出来的。在没有更多信息的情况下，我们很难知道它们对该模型的典型输出有多大的代表性。

我们可能还需要一段时间才能知道答案。OpenAI 今天发布的 Sora 只是一个技术预告，该公司表示目前还没有向公众发布的计划。相反，OpenAI 今天将开始首次与第三方安全测试人员分享该模型。

该公司尤其担心虚假但逼真的视频可能会被滥用。OpenAI的科学家阿迪提亚-拉梅什（Aditya Ramesh）说："我们正在谨慎部署，并确保在将其交到大众手中之前，我们已经做好了一切准备。"拉梅什创建了该公司的文本到图像模型DALL-E。

3. 技术揭秘—追本溯源

不过，OpenAI 正准备在未来某个时候推出产品。除了安全测试人员，该公司还在与一批精选的视频制作人和艺术家分享该模型，以获取反馈意见，了解如何让 Sora 对创意专业人士尽可能有用。"拉梅什表示："我们的另一个目标是向大家展示即将推出的产品，预览这些模型的功能。

为了制作 Sora，团队采用了 DALL-E 3 背后的技术，DALL-E 3 是 OpenAI 旗舰文本到图像模型的最新版本。与大多数文本到图像模型一样，DALL-E 3 使用的是所谓的扩散模型。这些模型经过训练，能将模糊的随机像素转化为图片。

Sora 采用了这种方法，并将其应用于视频而非静态图像。不过，研究人员还在其中加入了另一种技术。与 DALL-E 或其他大多数生成式视频模型不同，Sora 将其扩散模型与一种称为变换器的神经网络相结合。

Transformer擅长处理长序列数据，比如文字。这使它们成为 OpenAI 的 GPT-4 和谷歌 DeepMind 的 Gemini 等大型语言模型的特殊来源。但视频不是由文字组成的。因此，研究人员必须找到一种方法，将视频切割成可以像文字一样处理的片段。他们想出的办法是将视频在空间和时间上进行切割。"布鲁克斯说："这就好比你把所有的视频帧堆在一起，然后从中切割出一个个小方块。

然后，Sora 内部的转换器就可以处理这些视频数据块，处理方式与大型语言模型内部的转换器处理文本块中单词的方式非常相似。研究人员说，与其他文本到视频模型相比，这让他们可以在更多类型的视频上训练 Sora，包括不同的分辨率、持续时间、长宽比和方向。"布鲁克斯说："这确实对模型有很大帮助。"这是我们所不知道的现有工作。

Prompt：几头巨大的长毛猛犸象踏着雪地草地走来，它们长长的毛发随风轻扬，远处是白雪覆盖的树木和壮观的雪山，午后的光线加上飘渺的云层和远处高悬的太阳营造出温暖的光晕，低机位的视角捕捉到了大型毛茸茸的哺乳动物，摄影效果和景深都非常漂亮，令人惊叹（图片来源：OpenAI）

Prompt：美丽的东京雪景熙熙攘攘。镜头在熙熙攘攘的城市街道上移动，跟随几个人欣赏美丽的雪景，并在附近的摊位购物。绚丽的樱花花瓣与雪花一起随风飞舞（图片来源：OpenAI）

4. 技术飞跃—风险接踵

从技术角度来看，这似乎是一个非常重大的飞跃，"专门研究视频技术使用和滥用问题的人权组织 "见证"（Witness）的执行董事萨姆-格雷戈里（Sam Gregory）说。"但硬币有两面，"他说。他说："视频的表现能力为更多人成为视频故事讲述者提供了可能。同时，也确实存在滥用的潜在途径"。

OpenAI 非常清楚生成式视频模式所带来的风险。我们已经看到深度伪造图像被大规模滥用。逼真视频则将这一问题提升到了另一个层次。

格雷戈里指出，你可以利用这样的技术来误导人们了解冲突地区或抗议活动。他说，各种风格的视频也很有趣。如果能生成看起来像用手机拍摄的晃动镜头，就会显得更加真实。这种晃动的镜头加玻璃的反光，是不是表示其更加真实了呢，后面这些素材是否会成为逃脱犯罪的证据呢？

虽然技术还不成熟，但在短短 18 个月内，生成式视频已经从零发展到了 Sora。"格雷戈里说："我们将进入一个完全合成内容、人类生成内容以及两者混合的世界。

OpenAI 团队计划借鉴去年为《机器人总动员 3》（DALL-E 3）所做的安全测试。"Sora "已经包含了一个过滤器，可以在发送给模型的所有提示中运行，阻止对暴力、性或仇恨图像以及已知人物图像的请求。另一个过滤器会查看生成视频的帧数，阻止违反 OpenAI 安全政策的内容。

OpenAI 表示，它还在调整为《DALL-E 3》开发的假图像检测器，以便与 Sora 配合使用。该公司还将在 Sora 的所有输出中嵌入行业标准 C2PA 标签，即说明图像如何生成的元数据。但这些步骤远非万无一失。伪造图像检测器不可能一击即中。元数据很容易删除，而且大多数社交媒体网站默认情况下都会从上传的图片中删除元数据。

我们将持续关注Openai，Sora开启公测时，我们将第一时间反应并开启试用。每当公众号到达整百数，届时我们将提醒各位，并在未来的五篇文章中随文发放一个AIGC的相关账号，共五个！（能力有限，各位多多包涵）

需要ChatGPT账号或者需要升级为PLUS，向mou.mojo.rust@gmail.com提供相应信息后，我们将提供相应的支持！（科学上网无法提供，小浮不想要铁饭碗）同样，Copliot也可以辅助申请，集成于Edge，作图与绘画均可，一键式解决您的需求，让您的使用更加方面！

帮助解决API，PLUS，Team等一系列Openai的增值服务，以及Claude，Discard等等AIGC工具，我们只做个人账号，共享账号有封禁风险！已有朋友来信咨询！

chatgpt plus(GPT4)代充值