当前位置：首页 > article >正文

Hugging Face Dataset的 dataset_info.json 文件详解

article 2025/1/3 9:13:03

Hugging Face Dataset的 `dataset_info.json` 文件详解

什么是 `dataset_info.json` 文件？

在使用 Hugging Face（HF）数据集时，dataset_info.json 文件是一个描述数据集及其元数据的重要配置文件。这个文件包含了有关数据集的基本信息、下载链接、数据集的分割、数据大小、文件格式等元数据。它通常位于数据集缓存目录下，在下载并解压数据集时由 HF 自动生成。

以下是 dataset_info.json 文件的常见结构示例：来源于：allenai/tulu-3-sft-mixture

{
    "description": "",
    "citation": "",
    "homepage": "",
    "license": "",
    "features": {
        "id": {
            "dtype": "string",
            "_type": "Value"
        },
        "messages": [
            {
                "content": {
                    "dtype": "string",
                    "_type": "Value"
                },
                "role": {
                    "dtype": "string",
                    "_type": "Value"
                }
            }
        ],
        "source": {
            "dtype": "string",
            "_type": "Value"
        }
    },
    "builder_name": "parquet",
    "dataset_name": "tulu-3-sft-mixture",
    "config_name": "default",
    "version": {
        "version_str": "0.0.0",
        "major": 0,
        "minor": 0,
        "patch": 0
    },
    "splits": {
        "train": {
            "name": "train",
            "num_bytes": 2914253735,
            "num_examples": 939343,
            "shard_lengths": [
                139000,
                46558,
                86000,
                192557,
                217114,
                258114
            ],
            "dataset_name": "tulu-3-sft-mixture"
        }
    },
    "download_checksums": {
        "hf://datasets/allenai/tulu-3-sft-mixture@55e9fd6d41c3cd1a98270dff07557bc2a1e1ba91/data/train-00000-of-00006.parquet": {
            "num_bytes": 361046463,
            "checksum": null
        },
        "hf://datasets/allenai/tulu-3-sft-mixture@55e9fd6d41c3cd1a98270dff07557bc2a1e1ba91/data/train-00001-of-00006.parquet": {
            "num_bytes": 477019443,
            "checksum": null
        },
        "hf://datasets/allenai/tulu-3-sft-mixture@55e9fd6d41c3cd1a98270dff07557bc2a1e1ba91/data/train-00002-of-00006.parquet": {
            "num_bytes": 146926607,
            "checksum": null
        },
        "hf://datasets/allenai/tulu-3-sft-mixture@55e9fd6d41c3cd1a98270dff07557bc2a1e1ba91/data/train-00003-of-00006.parquet": {
            "num_bytes": 162138577,
            "checksum": null
        },
        "hf://datasets/allenai/tulu-3-sft-mixture@55e9fd6d41c3cd1a98270dff07557bc2a1e1ba91/data/train-00004-of-00006.parquet": {
            "num_bytes": 149552548,
            "checksum": null
        },
        "hf://datasets/allenai/tulu-3-sft-mixture@55e9fd6d41c3cd1a98270dff07557bc2a1e1ba91/data/train-00005-of-00006.parquet": {
            "num_bytes": 116271230,
            "checksum": null
        }
    },
    "download_size": 1412954868,
    "dataset_size": 2914253735,
    "size_in_bytes": 4327208603
}