当前位置: 首页 > article >正文

数据集的处理:将Storystream的数据集处理为可训练的格式

文章目录

  • 一、数据集的介绍
  • 二、目标数据集的格式
  • 三、数据集的格式的转换

一、数据集的介绍

SEED-Story: Multimodal Long Story Generation with Large Language Model
SEED-Story github地址

我们要处理的数据集是SEEDStory这篇论文提出的StoryStream这个数据集里面的。
huggingface中StoryStream数据集的下载地址

StoryStream数据集
我们常用的故事可视化的数据的大小为128*128,图像的质量不是很好
在这里插入图片描述
本文提出的数据集的大小为854 * 480,数据的质量比较高

在这里插入图片描述本数据集包含3个子数据集
三个子数据集分别为:Curious George、Rabbids Invasion(兔子入侵)、The Land Before Time(恐龙历险记)

Curious George
   好奇的乔治
在这里插入图片描述
  好奇的乔治是由马修·奥卡拉汉执导,弗兰克·维尔克、威尔·法瑞尔、德鲁·巴里摩尔担任主要配音的动画喜剧电影,于2006年2月10日在美国上映。该片讲述了充满好奇心的小猴子乔治离开丛林来到人类的世界,开始了一连串新奇冒险的故事

Rabbids Invasion
  疯狂的兔子(兔子入侵)
在这里插入图片描述

The Land Before Time(恐龙历险记)
  小脚板走天涯 The Land Before Time
在这里插入图片描述
  故事发生在恐龙时代,一场大地震突然袭击了本来平和的土地,雷龙小脚板(加布里埃尔·达蒙 Gabriel Damon 配音)因为这场大地震不幸和家人失散了。通过苦苦的追寻,小脚板终于得知,自己要前往远在万里的恐龙乐园大林,只有在那里,他才能够和他的家人们团聚。就这样,年幼的小脚板踏上了旅途。
  一路上,小脚板结识了很多和他经历一样的小恐龙们,目的地相同的他们结为了旅伴,互相鼓励帮衬着前进。在这场盛大的冒险途中,小脚板迅速的成长,学会了各种自我保护的生存技能,同时也体会到了友情的珍贵

二、目标数据集的格式

我们需要利用此数据集训练lora
那需要将数据集转化为以下格式
整个数据集包含以下三个文件夹,分别是:train、test、val
在这里插入图片描述
每个文件夹里面包含2个文件:image、json文件(用于记录乜咯图片对应的文本)
在这里插入图片描述

json文件中每行的数据是这样的
每行都是一个字典,每个字典里有两个key,分别为“file_name”和“text” ,分别记录了每张图片的文件名称,以及图片所对应的文本内容

{"file_name": "Pororo_ENGLISH1_1_ep001_004.png", "text": "Pororo found a round thing under the trees. Pororo feels curious. Pororo starts to sweep off the snow around it."}
{"file_name": "Pororo_ENGLISH1_1_ep001_007.png", "text": "The egg is hatched in Pororo's house. Green dinosaur Crong came out. Pororo gets surprised a little."}
{"file_name": "Pororo_ENGLISH1_1_ep001_010.png", "text": "Pororo stands outside on the area covered by snow with trees. Crong follows Pororo and say crong. Pororo got surprised. The sky is blue and clear."}
{"file_name": "Pororo_ENGLISH1_1_ep001_013.png", "text": "Poby Eddy and Loopy stay outside on the ice. Pororo look back Eddy Poby and Loopy. They are staying outside on the ice. Pororo is waving Pororo's hand."}
{"file_name": "Pororo_ENGLISH1_1_ep001_020.png", "text": "Pororo got surprised and ran away from Crong. Crong feels weird."}
{"file_name": "Pororo_ENGLISH1_1_ep001_021.png", "text": "Poby Eddy and Loopy are playing on the snow. Poby suddenly stopped with surprise. Eddy and Loopy also stopped."}

image文件夹里都是图片,我们需要把外面的json文件重命名为metadata.jsonl文件,然后放在这个文件夹里
在这里插入图片描述
对于图片的命名,我们对其中涉及的数字都转化为6为数字,从而避免后续对于读取图片时排序错误的问题

000000_keyframe_000008-000044-000025-000100.jpg

三、数据集的格式的转换

大量数据的文件解压
解决linux系统下(服务器)无法解压大文件压缩包(.zip

这里用的是x

7za x 文件名.zip

注意不要用e(会破坏目录结构)

a  向压缩包里添加文件或创建压缩包
 
 (如向001.7z添加001.jpg,执行:7za a 001.7z 001.jpg;将001目录 打包执行:7za a 001.7z 001;)
 
d  从压缩里删除文件			
 
  (如将001.7z里的001.jpg删除,执行:7za d 001.7z 001.jpg)
 
l  列出压缩包里的文件	
 
  (如列出001.7z里的文件,执行:7za l 001.7z)
 
e  解压到当前目录,目录结构会被破坏 	
 
   (001.rar内有如下目录及文件123/456/789.html,执行:
    7za e 001.rar,目录123456及文件789.html都会存放在当前目录下。
 
x  以完整路径解压

http://www.kler.cn/a/464840.html

相关文章:

  • 【前端下拉框】获取国家国旗
  • 鸿蒙NEXT使用request模块实现本地文件上传
  • 轻量级通信协议 JSON-RPC 2.0 详解
  • 如何提高软件研发效率?
  • 一文详解YOLOv8多模态目标检测(可见光+红外图像,基于Ultralytics官方代码实现),轻松入门多模态检测领域!
  • Spark是什么?Flink和Spark区别
  • 服务器上会话存储项目
  • 在群晖上搭建PlaylistDL音乐下载器
  • 了解行处理工具:grep 、cut 、sort、uniq 、tee 、diff 、paste 、tr
  • Generative Feature Replay For Class-Incremental Learning 中文版
  • 链路聚合技术——多路径传输Multipath TCP(MPTCP)快速实践
  • 【C++项目实战】贪吃蛇小游戏
  • Pytorch使用手册-空间变换网络指南(专题十五)
  • Excel 面试 02 逻辑函数 AND
  • JUC学习
  • mysql报错2059
  • IT运维的365天--024 闲置路由器关闭了dhcp,如何知道它的IP是啥
  • 【Infineon AURIX】AURIX缓存(CACHE)变量访问指南
  • 大数据组件(二)快速入门数据集成平台SeaTunnel
  • 建造者模式 Builder Pattern
  • docker下载redis,zookeeper,kafka超时time out
  • 软件工程大复习(五) 需求工程与需求分析
  • Linux系统安装es详细教程
  • 【IEEE冠名会议】2025年IEEE第二届深度学习与计算机视觉国际会议(DLCV 2025)
  • Go recover的执行时机
  • 剪映--关键帧教程:制作视频文字说明,文字动态划线,透明文字,虚拟触控,画面旋转缩小退出