为什么需要评测
目前存在多种不同类型的大模型,例如文本到文本(text to text)、文本到任务(text to task)、文本到图像(text to image)、文本到视频(text to video)等。因此,需要一种统一的评测方法,以便能够确定最佳模型。
指导模型的能力提升,评测可以了解模型能力的边界在哪里以便迭代并提升模型。
评估大模型在特定场景中是否真正适用(例如法律或医疗领域)是至关重要的。
需要评测什么?
传统NLP(关系抽取,情感分析等等)
大模型(知识,语言,推理,长文本生成,Agent能力,多轮对话能力,情感认知,垂直领域能力,等等)
如何评测
基座模型,在prompt里加上instruct进行评测。
微调后的对话模型(sft,rlhf),跟人类对话的方式来进行评测。
客观评测:由于大语言模型的输出自由度较高,评测时允许模型的输出与标准答案存在一定的差异。
主观评测:语言表达生动精彩,变化丰富,因此主要以人的主观感受为主进行模型评测。同时,也可以考虑使用综合能力较强的模型,例如 GPT-4,来代替人工评价。
提示词工程评测:如果同一个问题使用不同语言表达形式构造不同的prompt,而模型的答案变化较大,这可能表明模型对于提示的敏感性较高,鲁棒性较差。
大模型评测领域的挑战
OpenCompass提供设计一套全面、高效、可拓展的大模型评测方案,对模型能力、性能、安全性等进行全方位的评估。
OpenCompass提供分布式自动化的评测系统,支持对(语言/多模态)大模型开展全面系统的能力评估。
工具架构:
OpenCompass能力维度体系涵盖通用能力和特色能力两大部分。
评测方法
问题? 答案1
上的困惑度为 0.1,在 问题? 答案2
上的困惑度为 0.2,最终我们会选择 答案1
作为模型的输出。流水线设计