当前位置: 首页 > article >正文

故事可视化AI

i68,爱六八,链接你我他

StoryWeaver故事可视化

  • 通过知识增强的角色定制技术,实现高质量的故事可视化
  • 论文链接:https://arxiv.org/pdf/2412.07375
  • 项目仓库:https://github.com/Aria-Zhangjl/StoryWeaver
  • 由厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室联合推出
主要功能
  • 角色定制与可视化:根据文本叙述和角色图像生成一系列视觉化的故事图像,精确定制给定角色的形象。
  • 语义对齐:系统能确保生成的图像序列与文本提示在语义上保持一致,即图像内容与文本描述相匹配。
  • 知识图谱应用:系统能理解和表示故事中角色的详细属性和角色间的关系。
  • 多角色互动:StoryWeaver 能处理多角色故事场景,保持每个角色的身份清晰,展现角色间的自然互动。
  • 跨注意力分配:优化多角色故事中的注意力分配,避免身份混合问题。
相关文章
  • StoryWeaver:故事可视化生成模型,快速生成故事绘本,支持处理单角色和多角色的故事可视化任务
  • 开源StoryWeaver为你生成完美的童话故事

StoryTeller长视频描述生成系统

StoryTeller简要
  • 全自动的长视频描述生成系统
  • 字节跳动、上交、北大开源
  • 论文链接:https://arxiv.org/pdf/2411.07076
  • 项目仓库:https://github.com/hyc2026/StoryTeller
  • StoryTeller 在 MovieQA 上超越了所有开源和闭源基线模型,特别是,StoryTeller 的准确率比最强的基线 Gemini-1.5-pro 高出 9.5%
StoryTeller亮点直击
  • 引入音画角色识别任务:提出了音画角色识别任务,通过整合视觉、音频和文本信息,实现对白与角色的精准匹配,从而解决长视频描述中的一致性挑战,包括角色描述和故事逻辑连贯性。
  • StoryTeller系统创新: 开发了StoryTeller系统,包含视频分割模块、音画角色识别模块和身份感知的描述生成模块,生成密集且一致性高的长视频描述,兼顾基础视觉概念和高级剧情信息。
  • 高质量数据集与自动评估方法: 构建了MovieStory101数据集,包含密集标注的三分钟电影片段和对白角色身份标签,同时引入MovieQA自动评估方法,通过GPT-4回答多选问题,以准确率衡量描述质量。
  • 显著性能提升: StoryTeller在MovieQA任务中比最强基线Gemini-1.5-pro提升9.5%准确率,在人类对比评估中表现出+15.56%的优势。同时,将音画角色识别结果输入其他模型也显著提升了它们的长视频描述能力,分别提升5.5%和13.0%的准确率。
StoryTeller相关文章
  • 超Gemini-1.5-pro 9.5%!字节&上交&北大开源StoryTeller:生成一致性高的长视频描述

Story-Adapter长故事可视化

  • 自动生成100帧漫画或动画的分镜图,故事的语义一致性比较好
  • 图片间逻辑清晰,人物场景能保持一致
  • 不需要额外训练可以直接使用
  • 论文链接:https://arxiv.org/abs/2410.06244
  • 官方网站:Story-Adapter
  • 项目仓库:https://github.com/jwmao1/story-adapter

原文链接:https://i68.ltd/notes/posts/20250102-llm-story/


http://www.kler.cn/a/466990.html

相关文章:

  • qt鼠标右键菜单
  • Linux之信号量
  • wordpress右侧浮动咨询台插件
  • 简述Linux的信号处理
  • 华为数通考试模拟真题(附带答案解析)题库领取
  • 安卓漏洞学习(十七):维京海盗-Strandhogg漏洞
  • Python学习(5):数据结构
  • 基于单片机的光控窗帘设计
  • DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM论文解读
  • ⾃定义类型:联合和枚举
  • oscp备考 oscp系列——Kioptix Level 1靶场 古老的 Apache Vuln
  • NLP CH8 属性级情感分析复习
  • Python:交互式物质三态知识讲解小工具
  • 如何清理Docker的overlay2目录下的文件
  • python-leetcode-O(1) 时间插入、删除和获取随机元素
  • 杂七杂八之基于windows安装jupyterlab
  • 【亚马逊云】如何提升AWS Support 计划支持
  • Set对象和Map对象的区别和用途【JavaScript】
  • 深入探索 SQLite:高级功能解析
  • 自动驾驶控制与规划——Project 5: Lattice Planner
  • 【时时三省】(C语言基础)常见的动态内存错误2
  • 解读 C++23 std::expected 函数式写法
  • 【Rust自学】10.4. trait Pt.2:trait作为参数和返回类型、trait bound
  • 简易Type-C拉取5V/3A电流电路分享
  • 【动态重建】时间高斯分层的长体积视频
  • Excel使用VLOOKUP时注意绝对引用和相对引用区别