中国公司突破1200分超ChatGPT创历史新高，登顶AI琅琊榜！

CLUE中文语言理解测评基准

2024-09-09

琅琊榜首，众雄争王；

谁是英雄，决琅琊榜。

对战发起团队｜CLUE

近日，中文大模型匿名对战平台SuperCLUE-LYB琅琊榜发布更新，共获得有效投票9.9K。

以下是截至2023年7月7日18点12分的SuperCLUE琅琊榜大模型排名。

SuperCLUE-琅琊榜官方唯一地址：www.SuperCLUEAI.com

SuperCLUE认为榜上有名的都是英雄。

温馨提醒，此榜单仅用于学术研究，不作为投资建议。

本次更新要点：

增加清华大学和智谱AI开发的2代GLM模型ChatGLM2-6B
增加了RWKV的世界多语言模型RWKV-4-World-7B
首次加入百川智能开源的预训练模型baichuan-7B
更新IDEA研究院开发的idea-jiangziya模型为v1.1版本
去掉了Anthropic公司开发的Claude模型，原因是Claude官方接口技术问题，后续待官方稳定后可重新上榜

本次更新中，中国公司MiniMax以1250分力压GPT3.5-turbo位列榜首，由清华大学和智谱AI开发的ChatGLM-130B则以微弱差距排名第三，该团队最新开源的ChaGLM2-6B紧随其后，该模型仅有60亿参数量，表现堪称亮眼。值得一提的还有RWKV团队推出的新模型RWKV-4-World-7B，较上个月上榜的模型RWKV-Raven-7B有大幅度提升，同时支持全球100+种语言，以仅仅70亿参数量级位列榜单第8位，表现不俗。另外，百川智能开源的预训练模型baichuan-7B首次上榜，仅以预训练模型表现依然可圈可点，期待该团队推出chat版本。

CLUE团队表示，之后会定期更新SuperCLUE琅琊榜排名，同时加入更多具有代表性的大模型。

对战胜率

此外，SuperCLUE琅琊榜还展示了排位赛中每个模型的对战胜率。

模型A在所有非平局对战中获胜的比例

每个模型组合的对战次数(不含平局)

对所有其他模型的平均胜率(假设均匀抽样且无平局)

Elo机制的Bootstrap抽样(1000轮随机抽样)

什么是SuperCLUE？

SuperCLUE是中文通用大模型综合性评测基准，由三大基准组成，分别是：

一、SuperCLUE-Opt：客观题测试形式，三大能力+七十余子任务

二、SuperCLUE-Open：主观题形式，十大基础任务，可测开放域、多轮能力

详情点击文章：首测生成、多轮对话能力！SuperCLUE-Open中文大模型开放域测评基准发布

三、SuperCLUE-LYB琅琊榜：用户投票的匿名对战形式，也是本文发布的基准

详情点击文章：大模型对战平台「SuperCLUE琅琊榜」排名首发，国内大模型首超GPT3.5

SuperCLUE会定期更新，并会纳入更多有代表性的中文大模型，欢迎大模型研发机构加入对战，欢迎感兴趣的朋友加入SuperCLUE社群，共建大模型评测基准。

SuperCLUE评测申请：https://wj.qq.com/s2/12305633/a73d/

模型内测需求收集（非公开）：https://wj.qq.com/s2/12307825/2ae0/

Github地址：https://github.com/CLUEbenchmark

CLUE官方地址：https://www.cluebenchmarks.com

SuperCLUE-LYB琅琊榜地址：www.SuperCLUEAI.com

点击阅读原文，查看SuperCLUE琅琊榜详情

继续滑动看下一个

CLUE中文语言理解测评基准

向上滑动看下一个

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

中国公司突破1200分超ChatGPT创历史新高，登顶AI琅琊榜！

模型A在所有非平局对战中获胜的比例

每个模型组合的对战次数(不含平局)

对所有其他模型的平均胜率(假设均匀抽样且无平局)

Elo机制的Bootstrap抽样(1000轮随机抽样)

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

2024年最佳公众号排行，不用瞎忙，关注它们你就成功了一半

英美所谓联合声明无端指责中国，干涉中国内政，中方强烈不满、坚决反对！

生成图片，分享到微信朋友圈

中国公司突破1200分超ChatGPT创历史新高，登顶AI琅琊榜！

模型A在所有非平局对战中获胜的比例

每个模型组合的对战次数(不含平局)

对所有其他模型的平均胜率(假设均匀抽样且无平局)

Elo机制的Bootstrap抽样(1000轮随机抽样)

您可能也对以下帖子感兴趣