互动视频还是游戏?还是?世界模型
世界模型
World Models
能够通过模拟环境来预测未来状态,因而被认为是AI的下一个重大突破。
世界模型源于人类的心智模型,通过感官信息转化为对世界的理解。世界模型在强化学习中被广泛应用,帮助智能体更好地理解和适应复杂环境。
早期的研究主要集中在如何构建一个能够捕捉环境动态的生成模型。
Ha 和 Schmidhuber 的开创性论文《World Models》 奠定了这一领域的基础。提出了一个基于神经网络的框架,由三个部分组成:
1/ 视觉模型
使用变分自编码器 (VAE) 将原始像素输入压缩成一个低维的隐向量 z。编码器使用卷积层提取图像特征,解码器使用反卷积层重建图像。
2/ 记忆模型
使用混合密度网络循环神经网络 (MDN-RNN) 预测下一个时刻的隐向量 z 以及其他环境信息。
3/ 控制模型
一个简单的线性模型,根据当前时刻的隐向量 z 和 RNN 的隐藏状态 h,输出动作 a。
这两年,LLM的发展,让世界模型有了新的进展。其中,非常有社会价值的一个研究方向:社会模拟。
LLM 的出现为构建更真实的社会模拟系统提供了可能,如 AI Town 等项目,还有许多不同社会场景中进行尝试,如社交网络、游戏、经济系统等领域的模拟。
基于LLM的agent 通过存储交互观察形成对外部世界的理解,包括记忆等,这些认知有助于其在模拟社会场景中做出决策,如Agent - Pro、GovSim 和 AgentGroupChat 等。
大厂相继涌入这一领域。谷歌的DeepMind聘请了OpenAI视频生成器Sora的作者,着手研发世界模型。
李飞飞成立World Labs,筹集2.3亿美元用于构建大规模世界模型。
李飞飞的world lab
李飞飞提出的世界大模型,致力于构建能够理解和预测世界动态的AI系统。
在最近推出了一款人工智能系统,可以从单个图像生成交互式 3D 场景。
作为新兴“世界模型”的代表之一,旨在提高创建数字环境的控制和一致性。
世界模型,概念振奋人心,技术挑战极大。
OpenAI发布的视频生成模型Sora被其称为世界模拟器。
南京大学教授俞扬认为其难以作为反事实推理工具。因为,世界模型的核心是反事实推理,而Sora更多是视频工具,未能准确学到物理规律。
类似的观点,Meta首席人工智能科学家Yann LeCun批评Sora不能真正理解物理世界,视频生成与世界模型的因果预测有很大不同。
世界模型 —— 不仅会让您获得图像或视频,而且还可以是一个完全模拟,充满活力和互动的3D世界。
vvictoryuki.github.io/gamefactory
GameFactory
最近的一项研究,实现了和world lab发布的类似的可控性,其主要应用于游戏中。
GameFactory 通过学习Minecraft游戏视频中的小规模数据集,利用预训练的视频扩散模型的先验知识,在开放域中创建新游戏。
它在游戏开发和发行过程中扮演了什么角色?
— 扮演了一个创新工具的角色。
包括一个可插拔的动作控制模块,有效利用大规模未标注数据和高质量的Minecraft动作数据。
通过多阶段的训练策略,GameFactory不仅具备动作控制能力,还能保持开放域场景生成的能力。
构建更好的GameFactory 可能会面临哪些挑战和机遇?
由于GameFactory依赖于预训练的视频扩散模型和Minecraft游戏视频的小规模数据集,这可能会限制其在其他类型游戏中的泛化能力和表现。
其次,在处理更复杂的游戏场景和多样化的用户交互时,如何有效地扩展和优化其动作控制模块也是一个难题。
最后,在保证生成内容的质量和一致性的同时,如何处理延迟动作效果也是一个需要解决的问题。
但不管怎么说,GameFactory 可以拓展到更多的游戏类型和场景,为我们提供更丰富和多样化的游戏体验。尤其是其创新的动作控制模块和滑动窗口机制,在未来我们有机会开发更复杂和互动性更强的游戏。
在研究世界模型时,有一个方法也许能帮到我们。
理解和分析世界时的三个角度:
关联、干预、反事实
关联
Association
作用:通过观察数据来识别变量之间的关系。主要是描述性和预测性的,不涉及因果关系。
如果我们看到冰淇淋销量增加,同时看到溺水事件增加,我们可以说冰淇淋销量和溺水事件之间存在关联。
观察到高学历人群的收入普遍较高,这说明学历和收入之间存在某种关联。
干预
Intervention
作用:通过主动改变一个变量来观察其对另一个变量的影响,目的是理解因果关系。
如果我们想知道戒烟是否能减少肺癌风险,我们可以进行一个干预实验,让一组人戒烟,另一组人不戒烟,然后观察两组的肺癌发病率。
为了测试肥料对农作物产量的影响,农民可以在部分田地施肥,部分田地不施肥,然后比较产量差异。
反事实
Counterfactuals
作用:通过想象未发生的情景来推断因果关系,帮助理解不同决策的潜在影响。
假设你因为堵车迟到了会议,你会想:“如果我早点出发,就不会迟到。”这是一种反事实思考,假设一个不同的情景来推断结果。
公司在推出新产品后销售额大幅增长,管理层可能会想:“如果我们没有推出这个新产品,销售额会怎样?”这也是反事实推理,通过假设不同的情景来理解因果关系。
这些角度帮助我们从不同角度理解数据和现象,关联帮助我们发现模式和趋势,干预帮助我们理解因果关系,反事实则帮助我们评估不同决策的潜在影响。
如果一个世界模型,可以通过这三个角度的大规模测试,会对社会产生什么样的变革?
至少,基于现在的LLM,我们可以基于以上三个角度构建一个分析和观察世界的Agent。
添加小助手,加入交流社群