Skip to content

Latest commit

 

History

History
485 lines (351 loc) · 31.3 KB

README_ZH.md

File metadata and controls

485 lines (351 loc) · 31.3 KB

[英文主页] | [DJ-Cookbook] | [算子池] | [API] | [Awesome LLM Data]

Data Processing for and with Foundation Models

Data-Juicer

pypi version Docker version

DataModality Usage ModelScope- Demos HuggingFace- Demos

Document_List 文档列表 算子池 Paper Paper

Data-Juicer 是一个一站式系统,面向大模型的文本及多模态数据处理。我们提供了一个基于 JupyterLab 的 Playground,您可以从浏览器中在线试用 Data-Juicer。 如果Data-Juicer对您的研发有帮助,请支持加星(自动订阅我们的新发布)、以及引用我们的工作

阿里云人工智能平台 PAI 已引用Data-Juicer并将其能力集成到PAI的数据处理产品中。PAI提供包含数据集管理、算力管理、模型工具链、模型开发、模型训练、模型部署、AI资产管理在内的功能模块,为用户提供高性能、高稳定、企业级的大模型工程化能力。数据处理的使用文档请参考:PAI-大模型数据处理

Data-Juicer正在积极更新和维护中,我们将定期强化和新增更多的功能和数据菜谱。热烈欢迎您加入我们(issues/PRs/Slack频道 /钉钉群/...),一起推进大模型的数据-模型协同开发和研究应用!


新消息

  • new [2025-01-11] 我们发布了 2.0 版论文 Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for Foundation Models。DJ现在可以使用阿里云集群中 50 个 Ray 节点上的 6400 个 CPU 核心在 2.1 小时内处理 70B 数据样本,并使用 8 个 Ray 节点上的 1280 个 CPU 核心在 2.8 小时内对 5TB 数据进行重复数据删除。
  • new [2025-01-03] 我们通过 20 多个相关的新 OP 以及与 LLaMA-Factory 和 ModelScope-Swift 兼容的统一 数据集格式 更好地支持Post-Tuning场景。
  • new [2025-12-17] 我们提出了 HumanVBench,它包含 17 个以人为中心的任务,使用合成数据,从内在情感和外在表现的角度对视频 MLLM 的能力进行基准测试。请参阅我们的 论文 中的更多详细信息,并尝试使用它 评估 您的模型。
  • new [2024-11-22] 我们发布 DJ v1.0.0,其中我们重构了 Data-Juicer 的 OperatorDatasetSandbox 和许多其他模块以提高可用性,例如支持容错、FastAPI 和自适应资源管理。
  • [2024-08-25] 我们在 KDD'2024 中提供了有关多模态 LLM 数据处理的教程
History News: >
  • new [2024-08-09] 我们提出了Img-Diff,它通过对比数据合成来增强多模态大型语言模型的性能,在MMVP benchmark中比GPT-4V高出12个点。 更多细节请参阅我们的 论文, 以及从 huggingfacemodelscope下载这份数据集。
  • new [2024-07-24] “天池 Better Synth 多模态大模型数据合成赛”——第四届Data-Juicer大模型数据挑战赛已经正式启动!立即访问竞赛官网,了解赛事详情。
  • new[2024-07-17] 我们利用Data-Juicer沙盒实验室套件,通过数据与模型间的系统性研发工作流,调优数据和模型,在VBench文生视频排行榜取得了新的榜首。相关成果已经整理发表在论文中,并且模型已在ModelScopeHuggingFace平台发布。
  • new[2024-07-12] 我们的MLLM-Data精选列表已经演化为一个模型-数据协同开发的角度系统性综述。欢迎浏览或参与贡献!
  • new [2024-06-01] ModelScope-Sora“数据导演”创意竞速——第三届Data-Juicer大模型数据挑战赛已经正式启动!立即访问竞赛官网,了解赛事详情。
  • [2024-03-07] 我们现在发布了 Data-Juicer v0.2.0! 在这个新版本中,我们支持了更多的 多模态数据(包括视频) 相关特性。我们还启动了 DJ-SORA ,为SORA-like大模型构建开放的大规模高质量数据集!
  • [2024-02-20] 我们在积极维护一份关于LLM-Data的精选列表,欢迎访问并参与贡献!
  • [2024-02-05] 我们的论文被SIGMOD'24 industrial track接收!
  • [2024-01-10] 开启“数据混合”新视界——第二届Data-Juicer大模型数据挑战赛已经正式启动!立即访问竞赛官网,了解赛事详情。
  • [2024-01-05] Data-Juicer v0.1.3 版本发布了。 在这个新版本中,我们支持了更多Python版本(3.8-3.10),同时支持了多模态数据集的转换处理(包括文本、图像和音频。更多模态也将会在之后支持)! 此外,我们的论文也更新到了第三版
  • [2023-10-13] 我们的第一届以数据为中心的 LLM 竞赛开始了! 请访问大赛官网,FT-Data Ranker(1B赛道7B赛道 ) ,了解更多信息。

目录

为什么选择 Data-Juicer?

概述

  • 系统化和可重用: 系统化地为用户提供 100 多个核心 算子 和 50 多个可重用的数据菜谱和 专用工具套件,旨在解耦于特定的多模态 LLM 数据集和处理管道运行。支持预训练、后训练、英语、中文等场景中的数据分析、清洗和合成。

  • 易用、可扩展: 简洁灵活,提供快速入门指南和包含丰富使用示例的DJ-Cookbook。您可以灵活实现自己的OP,自定义数据处理工作流。

  • 高效、稳定:提供性能优化的并行数据处理能力(Aliyun-PAI\Ray\CUDA\OP Fusion), 更快、更少资源消耗,基于大规模生产环境打磨。

  • 效果验证、沙盒:支持数据模型协同开发,通过沙盒实验室实现快速迭代,提供反馈循环、可视化等功能,让您更好地理解和改进数据和模型。已经有许多基于 DJ 衍生的数据菜谱和模型经过了效用验证,譬如在预训练、文生视频、图文生成等场景。 Data-in-the-loop

DJ-Cookbook

资源合集

编写Data-Juicer (DJ) 代码

用例与数据菜谱

交互类示例

安装

前置条件

  • 推荐 Python>=3.9,<=3.10
  • gcc >= 5 (at least C++14 support)

从源码安装

  • 运行以下命令以安装 data_juicer 可编辑模式的最新基础版本
cd <path_to_data_juicer>
pip install -v -e .
  • 部分算子功能依赖于较大的或者平台兼容性不是很好的第三方库,因此用户可按需额外安装可选的依赖项:
cd <path_to_data_juicer>
pip install -v -e .  # 安装最小依赖,支持基础功能
pip install -v -e .[tools] # 安装部分工具库的依赖

依赖选项如下表所示:

标签 描述
. 或者 .[mini] 安装支持 Data-Juicer 基础功能的最小依赖项
.[all] 安装除了沙盒实验以外的所有依赖项
.[sci] 安装所有算子的全量依赖
.[dist] 安装以分布式方式进行数据处理的依赖(实验性功能)
.[dev] 安装作为贡献者开发 Data-Juicer 所需的依赖项
.[tools] 安装专用工具库(如质量分类器)所需的依赖项
.[sandbox] 安装沙盒实验室的基础依赖
  • 只安装部分算子依赖

随着OP数量的增长,所有OP的依赖变得很重。为此,我们提供了两个替代的、更轻量的选项,作为使用命令pip install -v -e .[sci]安装所有依赖的替代:

  • 自动最小依赖安装:在执行Data-Juicer的过程中,将自动安装最小依赖。也就是说你可以直接执行,但这种方式可能会导致一些依赖冲突。

  • 手动最小依赖安装:可以通过如下指令手动安装适合特定执行配置的最小依赖:

    # 适用于从源码安装
    python tools/dj_install.py --config path_to_your_data-juicer_config_file
    
    # 使用命令行工具
    dj-install --config path_to_your_data-juicer_config_file

使用 pip 安装

  • 运行以下命令用 pip 安装 data_juicer 的最新发布版本:
pip install py-data-juicer
  • 注意
    • 使用这种方法安装时,只有data_juicer中的基础的 API 和2个基础工具 (数据处理分析)可以使用。如需更定制化地使用完整功能,建议从源码进行安装
    • pypi 的发布版本较源码的最新版本有一定的滞后性,如需要随时跟进 data_juicer 的最新功能支持,建议从源码进行安装

使用 Docker 安装

  • 您可以选择
    • 从DockerHub直接拉取我们的预置镜像:

      docker pull datajuicer/data-juicer:<version_tag>
    • 或者运行如下命令用我们提供的 Dockerfile 来构建包括最新版本的 data-juicer 的 docker 镜像:

      docker build -t datajuicer/data-juicer:<version_tag> .
    • <version_tag>的格式类似于v0.2.0,与发布(Release)的版本号相同。

安装校验

import data_juicer as dj
print(dj.__version__)

使用视频相关算子

在使用视频相关算子之前,应该安装 FFmpeg 并确保其可通过 $PATH 环境变量访问。

你可以使用包管理器安装 FFmpeg(例如,在 Debian/Ubuntu 上使用 sudo apt install ffmpeg,在 OS X 上使用 brew install ffmpeg),或访问官方FFmpeg链接

随后在终端运行 ffmpeg 命令检查环境是否设置正确。

🔼 back to index

快速上手

数据处理

  • 以配置文件路径作为参数来运行 process_data.py 或者 dj-process 命令行工具来处理数据集。
# 适用于从源码安装
python tools/process_data.py --config configs/demo/process.yaml

# 使用命令行工具
dj-process --config configs/demo/process.yaml
  • 注意:使用未保存在本地的第三方模型或资源的算子第一次运行可能会很慢,因为这些算子需要将相应的资源下载到缓存目录中。默认的下载缓存目录为~/.cache/data_juicer。您可通过设置 shell 环境变量 DATA_JUICER_CACHE_HOME 更改缓存目录位置,您也可以通过同样的方式更改 DATA_JUICER_MODELS_CACHEDATA_JUICER_ASSETS_CACHE 来分别修改模型缓存或资源缓存目录:

  • 注意:对于使用了第三方模型的算子,在填写config文件时需要去声明其对应的mem_required(可以参考config_all.yaml文件中的设置)。Data-Juicer在运行过程中会根据内存情况和算子模型所需的memory大小来控制对应的进程数,以达成更好的数据处理的性能效率。而在使用CUDA环境运行时,如果不正确的声明算子的mem_required情况,则有可能导致CUDA Out of Memory。

# 缓存主目录
export DATA_JUICER_CACHE_HOME="/path/to/another/directory"
# 模型缓存目录
export DATA_JUICER_MODELS_CACHE="/path/to/another/directory/models"
# 资源缓存目录
export DATA_JUICER_ASSETS_CACHE="/path/to/another/directory/assets"
  • 灵活的编程接口: 我们提供了各种层次的简单编程接口,以供用户选择:
# ... init op & dataset ...

# 链式调用风格,支持单算子或算子列表
dataset = dataset.process(op)
dataset = dataset.process([op1, op2])
# 函数式编程风格,方便快速集成或脚本原型迭代
dataset = op(dataset)
dataset = op.run(dataset)

分布式数据处理

Data-Juicer 现在基于RAY实现了多机分布式数据处理。 对应Demo可以通过如下命令运行:

# 运行文字数据处理
python tools/process_data.py --config ./demos/process_on_ray/configs/demo.yaml

# 运行视频数据处理
python tools/process_data.py --config ./demos/process_video_on_ray/configs/demo.yaml
  • 如果需要在多机上使用RAY执行数据处理,需要确保所有节点都可以访问对应的数据路径,即将对应的数据路径挂载在共享文件系统(如NAS)中。
  • RAY 模式下的去重算子与单机版本不同,所有 RAY 模式下的去重算子名称都以 ray 作为前缀,例如 ray_video_deduplicatorray_document_deduplicator
  • 更多细节请参考分布式处理文档

用户也可以不使用 RAY,拆分数据集后使用 Slurm 在集群上运行,此时使用不包含 RAY 的原版 Data-Juicer 即可。 阿里云 PAI-DLC 支持 RAY 框架、Slurm 框架等,用户可以直接在DLC集群上创建 RAY 作业 和 Slurm 作业。

数据分析

  • 以配置文件路径为参数运行 analyze_data.py 或者 dj-analyze 命令行工具来分析数据集。
# 适用于从源码安装
python tools/analyze_data.py --config configs/demo/analyzer.yaml

# 使用命令行工具
dj-analyze --config configs/demo/analyzer.yaml

# 你也可以使用"自动"模式来避免写一个新的数据菜谱。它会使用全部可产出统计信息的 Filter 来分析
# 你的数据集的一小部分(如1000条样本,可通过 `auto_num` 参数指定)
dj-analyze --auto --dataset_path xx.jsonl [--auto_num 1000]
  • 注意:Analyzer 只用于能在 stats 字段里产出统计信息的 Filter 算子和能在 meta 字段里产出 tags 或类别标签的其他算子。除此之外的其他的算子会在分析过程中被忽略。我们使用以下两种注册器来装饰相关的算子:
    • NON_STATS_FILTERS:装饰那些不能产出任何统计信息的 Filter 算子。
    • TAGGING_OPS:装饰那些能在 meta 字段中产出 tags 或类别标签的算子。

数据可视化

  • 运行 app.py 来在浏览器中可视化您的数据集。
  • 注意:只可用于从源码安装的方法。
streamlit run app.py

构建配置文件

  • 配置文件包含一系列全局参数和用于数据处理的算子列表。您需要设置:
    • 全局参数:输入/输出 数据集路径,worker 进程数量等。
    • 算子列表:列出用于处理数据集的算子及其参数。
  • 您可以通过如下方式构建自己的配置文件:
    • ➖:修改我们的样例配置文件 config_all.yaml。该文件包含了所有算子以及算子对应的默认参数。您只需要移除不需要的算子并重新设置部分算子的参数即可。
    • ➕:从头开始构建自己的配置文件。您可以参考我们提供的样例配置文件 config_all.yaml算子文档,以及 开发者指南.
    • 除了使用 yaml 文件外,您还可以在命令行上指定一个或多个参数,这些参数将覆盖 yaml 文件中的值。
python xxx.py --config configs/demo/process.yaml --language_id_score_filter.lang=en
  • 基础的配置项格式及定义如下图所示

    基础配置项格式及定义样例

沙盒实验室

数据沙盒实验室 (DJ-Sandbox) 为用户提供了持续生产数据菜谱的最佳实践,其具有低开销、可迁移、有指导性等特点。

  • 用户在沙盒中可以基于一些小规模数据集、模型对数据菜谱进行快速实验、迭代、优化,再迁移到更大尺度上,大规模生产高质量数据以服务大模型。
  • 用户在沙盒中,除了Data-Juicer基础的数据优化与数据菜谱微调功能外,还可以便捷地使用数据洞察与分析、沙盒模型训练与评测、基于数据和模型反馈优化数据菜谱等可配置组件,共同组成完整的一站式数据-模型研发流水线。

沙盒默认通过如下命令运行,更多介绍和细节请参阅沙盒文档.

python tools/sandbox_starter.py --config configs/demo/sandbox/sandbox.yaml

预处理原始数据(可选)

  • 我们的 Formatter 目前支持一些常见的输入数据集格式:
    • 单个文件中包含多个样本:jsonl/json、parquet、csv/tsv 等。
    • 单个文件中包含单个样本:txt、code、docx、pdf 等。
  • 但来自不同源的数据是复杂和多样化的,例如:
    • 从 S3 下载的 arXiv 原始数据 包括数千个 tar 文件以及更多的 gzip 文件,并且所需的 tex 文件在 gzip 文件中,很难直接获取。
    • 一些爬取的数据包含不同类型的文件(pdf、html、docx 等),并且很难提取额外的信息,例如表格、图表等。
  • Data-Juicer 不可能处理所有类型的数据,欢迎提 Issues/PRs,贡献对新数据类型的处理能力!
  • 因此我们在 tools/preprocess 中提供了一些常见的预处理工具,用于预处理这些类型各异的数据。
    • 欢迎您为社区贡献新的预处理工具。
    • 我们强烈建议将复杂的数据预处理为 jsonl 或 parquet 文件。

对于 Docker 用户

  • 如果您构建或者拉取了 data-juicer 的 docker 镜像,您可以使用这个 docker 镜像来运行上面提到的这些命令或者工具。
  • 直接运行:
# 直接运行数据处理
docker run --rm \  # 在处理结束后将容器移除
  --privileged \
  --shm-size 256g \
  --network host \
  --gpus all \
  --name dj \  # 容器名称
  -v <host_data_path>:<image_data_path> \  # 将本地的数据或者配置目录挂载到容器中
  -v ~/.cache/:/root/.cache/ \  # 将 cache 目录挂载到容器以复用 cache 和模型资源(推荐)
  datajuicer/data-juicer:<version_tag> \  # 运行的镜像
  dj-process --config /path/to/config.yaml  # 类似的数据处理命令
  • 或者您可以进入正在运行的容器,然后在可编辑模式下运行命令:
# 启动容器
docker run -dit \  # 在后台启动容器
  --privileged \
  --shm-size 256g \
  --network host \
  --gpus all \
  --rm \
  --name dj \
  -v <host_data_path>:<image_data_path> \
  -v ~/.cache/:/root/.cache/ \
  datajuicer/data-juicer:latest /bin/bash

# 进入这个容器,然后您可以在编辑模式下使用 data-juicer
docker exec -it <container_id> bash

🔼 back to index

开源协议

Data-Juicer 在 Apache License 2.0 协议下发布。

贡献

大模型是一个高速发展的领域,我们非常欢迎贡献新功能、修复漏洞以及文档改善。请参考开发者指南

致谢

Data-Juicer被许多大模型相关产品和研究工作所使用,例子阿里巴巴通义和阿里云人工智能平台 (PAI) 之上的工业界场景。 我们期待更多您的体验反馈、建议和合作共建!

Data-Juicer 感谢社区贡献者 和相关的先驱开源项目,譬如Huggingface-Datasets, Bloom, RedPajama, Arrow, Ray, ....

参考文献

如果您发现我们的工作对您的研发有帮助,请引用以下论文

@inproceedings{chen2024datajuicer,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}
更多Data-Juicer团队相关论文: >

🔼 back to index