Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Haruhi-Zero数据组织问题 #69

Open
qinb opened this issue Feb 21, 2024 · 4 comments
Open

Haruhi-Zero数据组织问题 #69

qinb opened this issue Feb 21, 2024 · 4 comments

Comments

@qinb
Copy link

qinb commented Feb 21, 2024

@LC1332 感谢作者项目的无私分享,我在学习您的数据生成时发现一些疑惑,想请教一下:
具体参考的数据 https://huggingface.co/datasets/silk-road/Haruhi-Zero/tree/main

1、对于RoleLLM-sample.jsonl,Haruhi52_sample.jsonl等,我大致总结了一下数据组织方式,问题 1: 不知是否正确?
a. 通过embedding相似度获取context,并以\n###\n分割;
b. 数据组织成from,value这种shareGPT格式;
c. 每个对话使用「和」括住;

疑惑: 我跟进了您最新上传的novel_50_xx-sample.jsonl以及tranlsated_and_split_PIPPA_sample.jsonl,
发现似乎并不按照上述方式组织,【似乎没有了相似度获取的context,以及每个对话使用「和」括住;
问题2: 类似多种数据组织方式对于训练的影响大吗?

@LC1332
Copy link
Owner

LC1332 commented Feb 21, 2024

  1. 因为Haruhi zero的目标希望去兼容过往的带rag 以及现在普遍生态的zero shot数据
    足够大的模型肯定是希望各种引号都去适配而去适应不同格式的对话

  2. 对于较小的模型 是会造成问题的,这个如果进一步缩小模型很容易观测到。 对于小模型最好格式是统一的 或者在prompt前面有一定的提示 (比如当前对话使用xxx格式)

@qinb
Copy link
Author

qinb commented Feb 21, 2024

感谢回复!

我使用LLAMA-Factory微调Haruhi-Zero的xx-sample.jsonl数据,出现了不满足shareGPT格式的错误。
因为shareGPT要求conversations为偶数行,而且数据要求u/a/u/a这种顺序。但xx-sample.jsonl数据中,是u/u/a等一些不满足要求的数据。

请问:上面情况你是怎么处理的呢? 【我暂时使用的是相邻uu或者相邻aa合并的】

@LC1332
Copy link
Owner

LC1332 commented Feb 22, 2024

啊那个我修正掉了 就是用你说的 并且a开头的话前面加一句sys然后把sys置0 你要更多数据的话可以去知乎加一下我微信。。。不过现在数据已经非常多了差不多有40w 准备最终做到100w

@qinb
Copy link
Author

qinb commented Feb 22, 2024

感谢,我已通过知乎发了我的微信号

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants