当前位置: 首页 > article >正文

论文阅读 HighlightMe: Detecting Highlights from Human-Centric Videos

摘要:

我们提出了一种与领域和用户偏好无关的方法来检测以人为中心的视频中的精彩片段摘录。我们的方法适用于视频中多种可观察到的以人为中心的模态的基于图形的表示,例如姿势和面部。我们使用配备时空图卷积的自动编码器网络来检测基于这些模式的人类活动和交互。我们根据帧的代表性训练网络,将不同模态的基于活动和交互的潜在结构表示映射到每帧的突出得分。我们使用这些分数来计算要突出显示哪些帧并缝合连续帧以生成摘录。我们在大规模 AVA-Kinetics 动作数据集上训练我们的网络,并在四个基准视频集锦数据集上对其进行评估:DSH、TVSum、PHD2 和 SumMe。我们观察到,与这些数据集中最先进的方法相比,匹配人工注释的精彩片段的平均精度提高了 4-12%,而无需任何用户提供的首选项或特定于数据集的微调。

引言:

以人为中心的视频关注人类活动、任务和情感 。来自多个领域(例如业余体育和表演、讲座、教程、视频博客 (vlog) 以及个人或团体活动,例如野餐和户外活动、假期旅行)的视频构成了快速增长的在线媒体数量的主要部分

然而,未经编辑的以人为中心的视频也往往包含大量不相关和不感兴趣的内容,需要对其进行编辑以实现高效浏览。

为了解决这个问题,研究人员开发了多种技术来检测精彩镜头的摘录和总结视频 。给定未经编辑的镜头,高光检测会获取感兴趣的时刻,而摘要会计算最相关和最具代表性的摘录集。检测有效的高光不仅可以加快浏览速度,还可以提高这些精彩镜头被共享和推荐的机会。当前的方法可以学习在给定带注释的高光或不同高光类别的示例集的情况下检测这些摘录,例如,从滑雪图像中学习以检测视频中的滑雪摘录 。其他方法通过学习每个帧或镜头相对于原始视频的代表性并利用视频元数据(例如持续时间和镜头的相关性)来消除监督学习。所有这些方法都假设或受益于未编辑镜头的某些特定领域知识,例如,跑步和跳跃可


http://www.kler.cn/a/38000.html

相关文章:

  • wordpress仿站常用功能代码
  • HarmonyOS/OpenHarmony应用开发-Stage模型UIAbility组件使用(四)
  • Java Vue物联网系统
  • vagrant和vitrulBox创建虚拟机后使用xshell连接
  • Android 中利用多个Button组合实现选项切换效果
  • layui入门
  • AI辅助瞄准系统开发与实战(二)
  • 二级分销小程序怎么做
  • 【自我提升】JPA从搭建到CRUD快速入门(IDEA+MAVEN)
  • 【Linux系列P6】自动化构建工具-make/Makefile详解
  • 【跨平台开发】Uni-app原理分析
  • 安全启动相关命令使用
  • 网页无插件播放265/264视频/监控大屏/GPU解码
  • Win32 汇编在对话框上画线
  • 【Docker】Docker高级网络(NetWork)
  • k8s 2003面试题(1):k8s有哪些特性?
  • 基于vue3+pinia2仿ChatGPT聊天实例|vite4.x仿chatgpt界面
  • 算法06-搜索算法-广度优先搜索
  • ❤️创意网页:如何用HTML制作菜单栏?制作好看的菜单栏样式网页
  • AA@有理系数多项式@整系数多项式@本原多项式@有理多项式可约问题