-
Notifications
You must be signed in to change notification settings - Fork 164
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Haruhi-Zero数据组织问题 #69
Comments
|
感谢回复! 我使用LLAMA-Factory微调Haruhi-Zero的xx-sample.jsonl数据,出现了不满足shareGPT格式的错误。 请问:上面情况你是怎么处理的呢? 【我暂时使用的是相邻uu或者相邻aa合并的】 |
啊那个我修正掉了 就是用你说的 并且a开头的话前面加一句sys然后把sys置0 你要更多数据的话可以去知乎加一下我微信。。。不过现在数据已经非常多了差不多有40w 准备最终做到100w |
感谢,我已通过知乎发了我的微信号 |
@LC1332 感谢作者项目的无私分享,我在学习您的数据生成时发现一些疑惑,想请教一下:
具体参考的数据 https://huggingface.co/datasets/silk-road/Haruhi-Zero/tree/main
1、对于RoleLLM-sample.jsonl,Haruhi52_sample.jsonl等,我大致总结了一下数据组织方式,问题 1: 不知是否正确?
a. 通过embedding相似度获取context,并以\n###\n分割;
b. 数据组织成from,value这种shareGPT格式;
c. 每个对话使用「和」括住;
疑惑: 我跟进了您最新上传的novel_50_xx-sample.jsonl以及tranlsated_and_split_PIPPA_sample.jsonl,
发现似乎并不按照上述方式组织,【似乎没有了相似度获取的context,以及每个对话使用「和」括住;】
问题2: 类似多种数据组织方式对于训练的影响大吗?
The text was updated successfully, but these errors were encountered: