-
评测代码:运行
src/main.py
进行评测(使用python src/main.py -h
查看要求的和可用的命令行选项)。模型设定见src/models.py
(其中模型路径需自行修改)。主观评测的 few-shot 样例见此目录。当运行评测代码时,模型回复将会被保存在responses/
文件夹下(格式与对应的评测数据集相同),而评测结果将会保存在results/
文件夹下(csv 格式)。评测代码完成后,评测结果将会被打印。如果评测代码未能正常完成,只需要重新运行直至其完成为止。已经得到的数据和评测结果不会被重复生成。您可以在此处查看关于我们使用的评测方法的更多详情。您也可以查看 ml3m 技术文档以便更好地理解我们的评测代码。