查看原文
其他

解读|SuperCLUE中文大模型评测方法及说明(10月)

SuperCLUE CLUE中文语言理解测评基准
2024-09-09
10月25日,CLUE社区发布了SuperCLUE中文大模型测评基准10月榜单。
本文会对10月SuperCLUE的评测报告进行全方位解读。

01

10月SuperCLUE的评测方法

10月SuperCLUE评测主要包括多轮开放问题测评(OPEN)和三大能力客观题测评(OPT)。共3754题,其中OPEN有606道多轮简答题,OPT有3148道选择题。
10月SuperCLUE总排行榜的总分由SuperCLUE-OPEN和OPT两部分合并组成,总分=60%*OPEN分+40%*OPT分。
OPEN多轮开放问题测评
OPEN主观题的测评聚焦在反应大模型用于真实用户场景的能力,特别是开放式问题的生成能力、指令遵循和多轮交互能力,包括四大能力上百个任务。
10月OPEN主观题由测试库(2.4万道题)中采取不重复抽样获得,并人工进行校验。
OPEN基准使用超级模型(如GPT4)作为评判官,使用一个待评估模型与一个基准模型(如gpt-3.5-turbo)进行对比,让超级模型选出哪个模型更好。
答案是A模型好,B模型好,或平局。评估的标准,是要求超级模型作为一个公证的评估者,评估模型的质量。回答的质量包括回答有针对性、准确和全面,并且可以对多轮能力进行评测。
示例

可以上下滚动的图片OPT三大能力客观题测评

OPT选择题的测评维度主要包括基础能力、学术与专业能力和中文特性三个维度,共计有74个评测任务。

10月OPT选择题是在SuperCLUE十万量级测试库中抽取,并移除了过去历月评测集,保证10月选择题是全新独立的。针对每一个题目,我们构造了统一的prompt供模型使用,要求模型选取ABCD中一个唯一的选项。

如果模型的回答不是标准的答案,而是一段文字,系统会采取特定的策略自动提取出模型的答案。该策略结合模型的表现进行优化和完善。当无法提取有效答案的时候,则表明模型没有按照人类做题的要求,未正确理解指令,则认为模型回答错误。

02

10月SuperCLUE的评测模型变动

10月新增模型:
1.Moonshot
月之暗面最新推出的支持输入20万汉字的大模型moonshot,本次测评的是搭载该模型的智能助手产品Kimi Chat,网页版本。
www.moonshot.cn
2.文心一言4.0
百度于10月17日在百度世界大会上发布文心一言4.0版本,本次测评的是ERNIE-Bot-4(API)。
3.讯飞星火V3.0
科大讯飞于10月24日发布的讯飞星火V3.0,本次测评的是星火V3.0的API。
4.Qwen-14B-Chat
阿里巴巴最新开源模型Qwen-14B-Chat,本次测评的是阿里巴巴灵积平台的qwen-14b-chat的API。
具体模型配置信息见Github的ModelCard。
https://github.com/CLUEbenchmark/SuperCLUE

03

10月评测结果解读

1.与GPT3的水平极为接近,与GPT4的差距仍然较大
在SuperCLUE10月测评结果中,国内第一梯队大模型的综合能力上已经较为接近GPT3.5的分数,最高分数仅差0.38分。在部分任务上也有超过GPT3.5的表现,如传统安全、逻辑与推理、知识百科、工具使用等,尤其在知识百科任务上国内模型相对于GPT3.5的优势较为明显。
但和GPT4对比发现,除在传统安全外,在各项任务上都有落后,尤其在计算、角色扮演、上下文对话、生成创作任务上差距尤为明显。

注:国内各任务最优成绩取自国内模型中各项任务的最高分
2.国内模型更擅长做选择题,GPT更均衡
国内大模型多数擅长做选择题,在三大能力客观题OPT分数上有11个国内模型已经超过GPT3.5,而GPT系列模型在OPEN多轮开放评测中表现较好,为此我们计算了OPT与OPEN的波动差值,代表模型在选择题和简答题上的不同表现。

注:波动差值=OPT分-OPEN分
可以看到国际上表现较好的三个模型在OPEN(简答题)上的表现都要好于OPT(选择题),但国内模型的差值要大很多,最高有38.38分数差值。
SuperCLUE认为,客观题相对主观题更容易通过题库形式进行训练和提升;同时也由于客观题中包含中文特性问题,中文模型自然有一定的优势,所以应该综合来看模型的评测效果。
3.国内模型在语言类任务上,回答规范但需增加点睛之笔
国内大部分在语言类任务上(生成与创作、角色扮演、上下文对话),回答长度和格式普遍较好,而且基本上都能遵循指令。但较少出现高质量和有深度的内容,往往缺少创造力,如何出现点睛之笔是国产模型需要研究的方向之一。
我们看一个例子:

GPT的回答 :

国内模型回答:
我们可以发现国内模型在表述“自研芯片”都没有很直接,而GPT创作的内容则可以容易让用户广泛理解。同时GPT3.5的“与星共舞”是一句非常惊艳的描述,富有创造力。
4.在逻辑与推理任务上,个别国内模型表现惊艳。
在逻辑与推理任务上,Moonshot和文心一言3.0表现惊艳,均超过了GPT3.5的成绩,而且Moonshot拿到了满分,是SuperCLUE历史上唯一在中文子任务上拿到满分的中文模型。所以SuperCLUE认为,长期来看在中文推理任务上中文模型的机会很大。
有任何关于SuperCLUE大模型评测相关的疑问和建议,可关注下方CLUE官方公众号与我们联系。
CLUE官方账号
进交流群可关注👇
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存