逗游网:值得大家信赖的游戏下载站!
发布时间:2024-02-16 15:59:14来源:逗游作者:逗游网
ChatGPT开发团队OpenAI发布了最新的视频生成模型“Sora”,此模型可以根据文字指令能生成长达1分钟的高清视频,并且有一定的“现实模拟”能力,相比制作游戏的物理引擎,其上限要高得多,下面带来详细介绍。
1.他们能训练出这个模型的基础是:找到了一种统一的用文本描述视频材料的范式,得以让大量的视频以及对应的描述材料去训练模型,得到这个模型能力就是文本和视觉呈现之间的某种互相生成关系(能力),那如何得到大量带有相应文本字幕的视频呢?
他们应用了 DALL·E 3 中的重构字幕技术(原来是针对图片的)到视频。首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。 可以想见,训练及使用模型耗费的算力惊人,所以不太可能在短期内大范围开放;
2.大的框架是:扩散模型+时空补丁,基于深度学习的扩散模型,让一个随机噪声分布(指向图像的)转变成有意义的图像或视频内容,而时空补丁,定义了一个时间序列,使画面的的变化符合时间逻辑;
3.Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。因为是直接生成而不是裁剪视频,在取景,动态效果上也有一定优势;
4.这个模型还有几个出人意料但合理的能力:
a.它可以从一个时间点,向前或者向后去延伸视频,也就是说以某个画面为基点,生成这个时点之前的一段视频或之后的一段视频;
b.自如改变视频的风格和环境;
c.通过插值方式自然的将两个视频连接起来;
d.这一点非常重要,就是这个模型涌现出了一定的“现实模拟”能力,在展示视频中我们看到的不同的镜头运用,包括 3D画面的一致性(比如同一物体因为镜头变化,呈现出的在视觉上保持形状的一致),还包括现实物体的交互(比如要面包后面包上的咬痕)并非刻意设计,或者“建模”的结果,而是自然涌现的,这点我们在纯语言模型上已经见识过了。
而在这个模型上面涌现出的能力,用文章中的原话来描述“是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。”
上一篇: 夸克网盘在哪里退出登录
下一篇: 韩剧tv如何投屏到电视上面播放
动物餐厅海德薇信件解锁配方全攻略【最新版】
最强蜗牛特工攻略大全 特工选项汇总
羊了个羊第二关通关技巧攻略
剑与远征破碎之墟平民通关攻略
疯狂骑士团钓鱼攻略大全
纸嫁衣2第四章图文攻略
纸嫁衣2第二章图文攻略
我功夫特牛攻略大全 秘籍、武器及副本玩法汇总
迷室往逝攻略大全 迷室往逝通关图文攻略汇总
空之要塞启航官网版
冒险解谜
火龙传奇
角色扮演
神域奇兵远征
卡牌对战
无神之界
角色扮演
天使之战
角色扮演
风云传奇
角色扮演
异能都市
角色扮演
幻塔
动作格斗
凤凰传奇
角色扮演
新凡人修仙传
角色扮演
武林闲侠
角色扮演
苍之骑士团2
冒险解谜
余烬风暴
角色扮演
斗罗大陆武魂觉醒
角色扮演
登录
请为游戏评分: