当前位置: 首页 > article >正文

AI Netflix 互动视频:Prompt、画面实时生成、无限体验

720d500ee6fc0d27101fb6b9b8a82f40.png

未来的故事将主要通过游戏和互动视频讲述,预计两年内实现商业化生成互动视频。

a16z 认为下个世纪的皮克斯不会通过传统电影或动画出现,而是通过互动视频

主要技术是生成式人工智能。GenAI 正在推动创意故事叙述的根本性转变,未来的皮克斯可能通过互动视频形式出现,开辟新的市场。

为什么是互动视频?互动视频结合了电视/电影的叙事深度和视频游戏的动态系统,可以创造个性化的无限游戏体验。

互动视频的观看方式,除了手机/电脑/电视,还有XR眼镜,比如Apple的Vision Pro ,带来更为沉浸式的互动体验。

2d6c7170d4a369ec97c1ec675982accf.png

Vision Pro @雅诗兰黛.进博会展区

在去年,我们已经开始在实验互动视频相关的技术:

制作属于你的视觉小说#N3期AIGC训练营

一年过去了,一个明显的技术趋势,2年内,互动视频将迎来大规模商业化落地。

a16z 认为下一个皮克斯既需要成为世界一流的互动故事工作室,也需要成为顶尖的技术公司

从长远来看,下一个皮克斯不仅可以创造互动故事,还可以创造整个虚拟世界。

永无止境的游戏的潜力:动态世界将实时关卡生成与个性化叙事和智能代理相结合,类似于 HBO 的《西部世界》愿景。

互动视频解决了将《西部世界》带入生活的最大挑战之一:即时创建大量个性化、高质量、互动的内容。

有一天,借助人工智能,我们可能会开始创作过程,构建一个故事世界:一个我们设想的由角色、叙事线、视觉效果等完全形成的 IP 宇宙。然后为观众生成我们想要的单个媒体产品。这将是跨媒体叙事的最终发展,完全模糊传统媒体形式之间的界限。

皮克斯、迪士尼和漫威都能够创造出令人难忘的世界,成为粉丝核心身份的一部分。下一个互动皮克斯的机会是利用生成式人工智能来做同样的事情:创造新的故事世界,模糊传统讲故事格式之间的界限,并在此过程中创造出我们以前从未见过的宇宙。

GenAI 让互动视频制作门槛降低

09c82969a885aa34ab7103ba824042f2.png

过去十年里,许多公司尝试制作互动视频,但高成本和复杂的故事线具有非常大的挑战。例如,Netflix的《黑镜:潘达斯奈基》和Telltale的《行尸走肉》都因制作成本高昂和复杂性而面临困境。

2017 年,Netflix 还进军互动视频领域——从《猫与书》等动画片开始,最终推出广受好评的《黑镜:潘达斯奈基》。这是一部真人电影,观众可以决定一位年轻的程序员如何将一本奇幻小说改编成视频游戏。《潘达斯奈基》是一部热门影片,吸引了大批狂热粉丝,他们制作了流程图来记录电影的所有可能结局。

然而,尽管《潘达斯奈基》获得了好评,但面临着一个生存问题:手动创建定义该格式的无数分支故事需要耗费大量时间和成本。

OpenAI 联合创始人 Greg Brockman 提议使用 ChatGPT 重写《权力的游戏》的结局,展示了生成式 AI 在娱乐和写作领域的潜力。ChatGPT 被视为辅助工具而非替代编剧,尽管存在散布错误信息的挑战,但其应用前景广阔。

Greg Brockman:
“也许人们仍然对《权力的游戏》最后一季感到不满。想象一下,如果你可以让你的人工智能创造一个不同的结局,甚至可以让你自己成为主角。”

https://www.hollywoodreporter.com/business/digital/chatgpt-game-of-thrones-openai-greg-brockman-1235348099

GenAI 的进步有望使互动视频的制作更高效和可扩展。

结合玩家驱动系统,扩展电影(互动视频)时长

通过添加使用玩家输入实时生成的视频,我们可以创建个性化、无限的游戏玩法(非线性故事)。有可能使媒体资产能够留住粉丝数千小时。例子:暴雪的魔兽世界已有 20 多年历史,至今仍保留着约700 万订阅用户。 

652c26702ec7b091ffbd1f46b801181d.png

增强 IP 与粉丝的互动

互动视频还能实现多种消费模式——观众可以像看电视节目一样靠在椅背上观看内容,也可以在移动设备或控制器上积极玩游戏。

让粉丝以尽可能多的方式参与他们最喜欢的 IP 世界是跨媒体叙事的核心,这有助于增强对 IP 的亲和力。

游戏IP也在最近的电视/电影改编中取得了巨大成功,例如《最后生还者》成为HBO Max 2023年观看人数最多的剧集。

3bd346a50103755fbb4943f0d6bfd666.png

交互式视频的最大剩余技术障碍是达到足够快的帧生成速度,以便动态生成内容。

Dream Machine 目前每秒生成约 1 帧。在现代游戏机上发布的游戏可接受的最低稳定的是 30 FPS,而 60 FPS 是黄金标准。某些视频类型的帧生成速度可以提高到 10-20 FPS,但仍然不够快。

最近,有一个新的模型 Oasis,达到20FPS,而Sora , Mochi-1、Runway等生成1s视频需要10-20s的时间。

8d1eeb3aa92eff4b9ce5adb35ca9fd17.jpeg

https://oasis-model.github.io

另一种可行的技术路线是在游戏引擎里实现互动视频。

https://github.com/altera-al/project-sid

Project Sid展示了在Minecraft环境中10到1000+个AI代理的行为和进展,并通过PIANO架构实现了实时交互,揭示了代理在文明进程中的潜力。

3133798a7782303e31a09a675676247b.png

https://a16z.com/the-next-generation-pixar

预计两年内实现商业化生成互动视频,微软、OpenAI和DeepMind等公司在推进相关研究

ef5878c2b51c3c104274ea20717b5c8d.png

2024 年 2 月,Google DeepMind 发布了自己的端到端交互式视频基础模型Genie。Genie的新颖方法是其潜在动作模型,该模型可推断出一对视频帧之间的隐藏动作。

Ilumine 旗下的Latens正在开发一款“清醒梦模拟器”,用户在梦境中行走时可以实时生成画面。轻微的延迟有助于创造一种超现实的体验。

开源社区Deforum的开发人员正在使用沉浸式交互式视频创建现实世界的装置。

Dynamic正在开发一款模拟引擎,用户可以使用完全生成的视频以第一人称视角控制机器人。

在电视/电影领域,Fable Studio 正在开发 Showrunner,这是一项 AI 流媒体服务,可让粉丝重新制作自己版本的热门节目。  

DreamFlare AI 推出交互式 AI 流媒体服务

f0c0ca14224a67a3e5fbdfb0722c736e.png

DreamFlare AI 在种子轮前融资中筹集了 165 万美元。《了不起的猫比》是 DreamFlare AI 使用新 Gen-AI 工具制作的 60 部新剧之一。

DreamFlare AI 的主要特色是两种体验类型:“Flips”和“Spins”。“Flips”是沉浸式故事,利用 AI 生成的图像、动作和音频,带来身临其境的感受;“Spins”则是互动式短片,观众可以通过选择来影响故事情节的发展。

ea27b9176ad1d6c1d5c18f619e296e3a.png

Flips

4d928564720f145c0c1f1fc8d7eae4a2.png

Spins

体验上还有比较大的改进空间,Flips里内容是类似于条漫的排列方式,滚动到哪里就自动播放;而Spins则是互动视频,带有剧情分支选择。2种完全可以合并为一种Spins的方式。Flips的画面尺寸应该被统一。

https://www.dreamflare.ai/spins

https://www.forbes.com/sites/charliefink/2024/07/09/dreamflare-ai-launches-interactive-ai-generated-streaming-service

e86cebb570571795674de3ce1b74ac8a.png

https://odyssey-dreamers.vercel.app

AI初创公司Odyssey宣布完成了900万美元的种子轮融资

Odyssey正在开发一种可控的好莱坞级生成世界AI,这种技术不仅可以生成美丽的场景、角色、光影和运动,还能让用户对每个元素进行精细化控制。这些生成的内容可以无缝集成到现有的高端电影和游戏制作工作流中,使得创作者能够快速生成并调整他们所梦想的场景和镜头。

为了实现这一目标,Odyssey提供了一套全面控制的视觉AI工具,支持用户创建好莱坞级别的场景,并与现有的生产流程高度兼容。

8c9a860eaf4e50e7d7ea5e642be733ca.png

https://fablestudio.github.io/showrunner-agents/


To Infinity and Beyond: 

SHOW-1 and Showrunner Agents in Multi-Agent Simulations

South Park AI”项目是一个探索AI重现《南方公园》图像和声音的实验性非商业项目。故事生成由模拟、用户和GPT-4共同负责,各自发挥独特作用。模拟提供基础的IP上下文、角色历史、情感和事件;用户引入意图,控制角色行为,并提供初始提示;GPT-4则作为主要生成引擎,基于提示生成场景和对话。

还有不少在路上的:

ed75d9ad36db9a8ccd8f14ceff5ab510.png

bb8d901a81bb0da087128a5eaa2d8413.png

c5a49713e8d2a21d8ca81d51e409b548.png

2年,

也许会更快,

我们该准备点什么了

af3f211653fc3b0ec0f19bc95229eab0.jpeg

欢迎加入社区一起探索。


http://www.kler.cn/a/393973.html

相关文章:

  • SQL 中 BETWEEN AND 用于字符串的理解
  • Redo与Undo的区别:数据库事务的恢复与撤销机制
  • python制作一个简单的端口扫描器,用于检测目标主机上指定端口的开放状态
  • 华为大变革?仓颉编程语言会代替ArkTS吗?
  • linux c/c++最高效的计时方法
  • 数据挖掘(九)
  • Configuration Drift(配置漂移)
  • 爬虫日常练习
  • 鸿蒙UI开发——使用动画曲线
  • git入门环境搭建
  • 电商系统设计与实现:Spring Boot框架
  • Linux下MySQL的安装(Centos7)
  • 界面控件DevExpress WPF中文教程:TreeList视图及创建分配视图
  • 大模型学习笔记------BLIP模型的再思考
  • 1. kafka分布式环境搭建
  • Vue全栈开发旅游网项目(10)-用户管理后端接口开发
  • selenium 控制内嵌table滚动条的方法
  • RabbitMQ-死信队列(golang)
  • CouchdbH2database未授权
  • CSS回顾-长度单位汇总详解
  • 基于大语言模型意图识别和实体提取功能;具体ZK数值例子:加密货币交易验证;
  • Unity学习---IL2CPP打包时可能遇到的问题
  • 视图【MySQL】
  • 深入探究 Linux 系统的快照备份与恢复:TimeShift 实践与原理解析
  • Android 无签名系统 debug 版本APK push到设备引起的开机异常问题分析(zygote进程)
  • 【青牛科技】14W 高保真音频放大电路——D2030