[TOC]
自动评测和人工评测。这两种方法在评测语言模型和机器翻译等任务时起着重要的作用。
自动评测方法基于计算机算法和自动生成的指标,能够快速且高效地评测模型的性能。
而人工评测则侧重于人类专家的主观判断和质量评测,能够提供更深入、细致的分析和意见。了解和掌握这两种评测方法对准确评测和改进语言模型的能力十分重要。
大模型需要遵循的** helpful,honest, harmless **的原则。
可以有意构造如下的训练样本,以提升模型遵守 honest 原则,可以算 trick 了:微调时构造知识问答类训练集,给出不知道的不回答,加强 honest 原则;阅读理解题,读过的要回答,没读过的不回答,不要胡说八道。
在评测 LLMs 的性能时,选择合适的任务和领域对于展示大型语言模型的表现、优势和劣势至关重要。为了更清晰地展示 LLMs 的能力水平,文章将现有的任务划分为以下7个不同的类别:
- 自然语言处理:包括自然语言理解、推理、自然语言生成和多语言任务
- 鲁棒性、伦理、偏见和真实性
- 医学应用:包括医学问答、医学考试、医学教育和医学助手
- 社会科学
- 自然科学与工程:包括数学、通用科学和工程
- 代理应用:将 LLMs 作为代理使用
- 其他应用
- 首先是“直接评估指标”这一类别。这些是在人工智能领域长期以来广泛使用的传统指标。像准确率(accuracy)和F1得分(F1 score)等指标属于这个类别。通常情况下,这种方法涉及从模型中获取单一的输出,并将其与参考值进行比较,可以通过约束条件或提取所需信息的方式来实现评估**。**
- 接下来是第二类方法,称为“间接或分解的启发式方法(indirect or decomposed heuristics)”。在这种方法中,我们利用较小的模型(smaller models)来评估主模型(the main model)生成的答案,这些较小的模型可以是微调过的模型或原始的分解模型(raw decompositions)。
- 第三类评估方法被称为“基于模型的评估”。在这种方法中,模型本身提供最终的评估分数或评估结果。然而,这也引入了额外的可变因素。即使模型可以获取到ground truth信息,评估指标本身也可能在评分过程中产生随机因素或不确定因素。
- ChatbotArena:借鉴游戏排位赛机制,让人类对模型两两评价
- SuperCLUE:中文通用大模型综合性评测基准,尝试全自动测评大模型
- C-Eval:采用 1.4 万道涵盖 52 个学科的选择题,评估模型中文能力
- FlagEval:采用“能力—任务—指标”三维评测框架