DISC-Law-Eval Benchmark

评测数据集：客观评测集和主观评测集。
评测代码：运行 src/main.py 进行评测（使用 python src/main.py -h 查看要求的和可用的命令行选项）。模型设定见 src/models.py（其中模型路径需自行修改）。主观评测的 few-shot 样例见此目录。当运行评测代码时，模型回复将会被保存在 responses/ 文件夹下（格式与对应的评测数据集相同），而评测结果将会保存在 results/ 文件夹下（csv 格式）。评测代码完成后，评测结果将会被打印。如果评测代码未能正常完成，只需要重新运行直至其完成为止。已经得到的数据和评测结果不会被重复生成。您可以在此处查看关于我们使用的评测方法的更多详情。您也可以查看 ml3m 技术文档以便更好地理解我们的评测代码。
评测结果: 此处保存了我们的技术报告中的评测结果。包括主观评测和客观评测的样例。