当前位置: 首页 > article >正文

把Huggingface下载的arrow数据集转化为json格式

Arrow2json

使用默认的Huggingface路径

allenai/tulu-3-sft-mixture数据集为例。
使用load_dataset即可:

from datasets import load_dataset

# 加载数据集
dataset = load_dataset("allenai/tulu-3-sft-mixture")

# 指定保存路径
output_dir = "~/xxx/open-instruct/data/tulu-3-sft-mixture-json"

# 将数据集转换为 JSON 格式
for split in dataset.keys():  # 处理所有划分 (train, validation 等)
    dataset[split].to_json(f"{output_dir}/{split}.json", orient="records", lines=True)

使用ls -sh输出可以看到数据集train.json大小是3.3GB

3.3G train.json

从本地路径

本地路径如下:
在这里插入图片描述
查看一下文件大小:

ls -sh ~/.cache/huggingface/datasets/allenai___tulu-3-sft-mixture-1024/train
total 1.2G
223M data-00000-of-00005.arrow  283M data-00002-of-00005.arrow  132M data-00004-of-00005.arrow
273M data-00001-of-00005.arrow  252M data-00003-of-00005.arrow  4.0K state.json

使用load_from_disk函数从本地路径加载

from datasets import load_dataset, load_from_disk

# 加载数据集
dataset = load_from_disk("~/.cache/huggingface/datasets/allenai___tulu-3-sft-mixture-1024")

# 指定保存路径
output_dir = "~/xxx/open-instruct/data/tulu-3-sft-mixture-seqlen-1024-json"

# 将数据集转换为 JSON 格式
for split in dataset.keys():  # 处理所有划分 (train, validation 等)
    dataset[split].to_json(f"{output_dir}/{split}.json", orient="records", lines=True)

这样就可以转换为json了。

查看一下大小:

ls -sh xxx/open-instruct/data/tulu-3-sft-mixture-seqlen-1024-json
total 1.3G
1.3G train.json

后记

2024年12月29日20点16分于上海.


http://www.kler.cn/a/459840.html

相关文章:

  • 详细讲一下Vue3中的Transition组件用法(动画)
  • 嵌入式从入门到入土:C语言3(运算符、顺序结构、分支结构)
  • uni-app组件间传值
  • Tailwind CSS 实战:现代登录注册页面开发
  • 优优嗨聚集团:个人债务安全,走向财务自由的智慧之路
  • 嵌入式单片机中蓝牙模块的详解
  • vue2使用tailwindcss
  • 地理数据库Telepg面试内容整理-描述你如何在GIS应用中使用空间数据进行分析并生成可视化结果
  • nvidia_gpu_exporter 显卡监控
  • 基于python大数据的体育用品营销支撑系统研究
  • Vue.js组件开发-实现列表无缝动态滚动
  • Kafka 幂等性与事务
  • VIM: Vision Mamba基于双向状态空间模型的高效视觉表示学习
  • STM32完全学习——FLASH上FATFS文件管理系统
  • OpenHarmony源码编译后烧录镜像教程,RK3566鸿蒙开发板演示
  • 本地创建了一个 Git 仓库推送到GitHub中
  • Android笔试面试题AI答之非技术问题(2)
  • OPPO手机如何正确使用金融理财计算器
  • vue3学习笔记(11)-组件通信
  • XL系列433芯片、2.4G收发芯片 通讯对码说明