关于从小说中抽取出的角色语料生成可训练数据的步骤 #53

tinydust18 · 2023-11-30T10:15:25Z

您好，我对这个项目非常感兴趣，并且按照小说抽取的步骤抽取和生成了杨过这一人物形象的text语料和system prompt以及人物的jsonl文件。但是和训练代码中dataloader中加载的文件并不一样，请问应该如何从语料生成可训练数据呢？训练数据中chat_history以及embedding又该如何获取呢？

LC1332 · 2023-11-30T12:21:01Z

这是个好问题，最近正好在重构这部分代码你要不到知乎给我发下你微信 https://www.zhihu.com/people/cheng-li-47

重构训练代码的大致计划https://o9z6tor1qu.feishu.cn/docx/LxTWdGnP2oQ0oUx8H0wcmyZCnrb

tinydust18 · 2023-11-30T13:23:00Z

好的，非常感谢，我在知乎上给您发私信了，希望可以一起探索这个项目。

tinydust18 · 2023-11-30T13:25:20Z

已经发过了一条知乎私信，在您回复我之前不能再发消息了，所以不能再发我的微信号了，可以麻烦您回复一下吗？非常感谢。

LC1332 · 2023-12-01T01:45:30Z

你是几点发的呀为啥我没看到啊。。。

LC1332 · 2023-12-01T01:45:41Z

要不你发邮件 [email protected]吧

tinydust18 · 2023-12-01T02:02:27Z

好的，我发一下邮件，谢谢。

LC1332 · 2023-12-07T12:28:23Z

新的数据和生成方法已经放在 https://huggingface.co/datasets/silk-road/ChatHaruhi-Expand-118K

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于从小说中抽取出的角色语料生成可训练数据的步骤 #53

关于从小说中抽取出的角色语料生成可训练数据的步骤 #53

tinydust18 commented Nov 30, 2023

LC1332 commented Nov 30, 2023

tinydust18 commented Nov 30, 2023

tinydust18 commented Nov 30, 2023

LC1332 commented Dec 1, 2023

LC1332 commented Dec 1, 2023

tinydust18 commented Dec 1, 2023

LC1332 commented Dec 7, 2023

关于从小说中抽取出的角色语料生成可训练数据的步骤 #53

关于从小说中抽取出的角色语料生成可训练数据的步骤 #53

Comments

tinydust18 commented Nov 30, 2023

LC1332 commented Nov 30, 2023

tinydust18 commented Nov 30, 2023

tinydust18 commented Nov 30, 2023

LC1332 commented Dec 1, 2023

LC1332 commented Dec 1, 2023

tinydust18 commented Dec 1, 2023

LC1332 commented Dec 7, 2023