当前位置：首页 > article >正文

把Huggingface下载的arrow数据集转化为json格式

article 2025/2/28 15:39:59

Arrow2json

使用默认的Huggingface路径

以allenai/tulu-3-sft-mixture数据集为例。
使用load_dataset即可：

from datasets import load_dataset

# 加载数据集
dataset = load_dataset("allenai/tulu-3-sft-mixture")

# 指定保存路径
output_dir = "~/xxx/open-instruct/data/tulu-3-sft-mixture-json"

# 将数据集转换为 JSON 格式
for split in dataset.keys():  # 处理所有划分 (train, validation 等)
    dataset[split].to_json(f"{output_dir}/{split}.json", orient="records", lines=True)

使用ls -sh输出可以看到数据集train.json大小是3.3GB

3.3G train.json

从本地路径

本地路径如下：
在这里插入图片描述
查看一下文件大小：

ls -sh ~/.cache/huggingface/datasets/allenai___tulu-3-sft-mixture-1024/train
total 1.2G
223M data-00000-of-00005.arrow  283M data-00002-of-00005.arrow  132M data-00004-of-00005.arrow
273M data-00001-of-00005.arrow  252M data-00003-of-00005.arrow  4.0K state.json

使用load_from_disk函数从本地路径加载

from datasets import load_dataset, load_from_disk

# 加载数据集
dataset = load_from_disk("~/.cache/huggingface/datasets/allenai___tulu-3-sft-mixture-1024")

# 指定保存路径
output_dir = "~/xxx/open-instruct/data/tulu-3-sft-mixture-seqlen-1024-json"

# 将数据集转换为 JSON 格式
for split in dataset.keys():  # 处理所有划分 (train, validation 等)
    dataset[split].to_json(f"{output_dir}/{split}.json", orient="records", lines=True)

这样就可以转换为json了。

查看一下大小：

ls -sh xxx/open-instruct/data/tulu-3-sft-mixture-seqlen-1024-json
total 1.3G
1.3G train.json

后记

2024年12月29日20点16分于上海.

查看全文

http://www.kler.cn/a/459840.html

详细讲一下Vue3中的Transition组件用法（动画）

嵌入式从入门到入土：C语言3（运算符、顺序结构、分支结构）

uni-app组件间传值

Tailwind CSS 实战：现代登录注册页面开发

优优嗨聚集团：个人债务安全，走向财务自由的智慧之路

嵌入式单片机中蓝牙模块的详解

vue2使用tailwindcss

地理数据库Telepg面试内容整理-描述你如何在GIS应用中使用空间数据进行分析并生成可视化结果

nvidia_gpu_exporter 显卡监控

基于python大数据的体育用品营销支撑系统研究

Vue.js组件开发-实现列表无缝动态滚动

Kafka 幂等性与事务

VIM: Vision Mamba基于双向状态空间模型的高效视觉表示学习

STM32完全学习——FLASH上FATFS文件管理系统

OpenHarmony源码编译后烧录镜像教程，RK3566鸿蒙开发板演示

本地创建了一个 Git 仓库推送到GitHub中

Android笔试面试题AI答之非技术问题（2）

OPPO手机如何正确使用金融理财计算器

vue3学习笔记（11）-组件通信

XL系列433芯片、2.4G收发芯片通讯对码说明

Arrow2json

使用默认的Huggingface路径

从本地路径

后记

相关文章：