查看原文
其他

中国公司突破1200分超ChatGPT创历史新高,登顶AI琅琊榜!

       琅琊榜首,众雄争王;

       谁是英雄,决琅琊榜。


对战发起团队|CLUE

近日,中文大模型匿名对战平台SuperCLUE-LYB琅琊榜发布更新,共获得有效投票9.9K

以下是截至2023年7月7日18点12分的SuperCLUE琅琊榜大模型排名。

SuperCLUE-琅琊榜官方唯一地址:www.SuperCLUEAI.com

SuperCLUE认为榜上有名的都是英雄。

温馨提醒,此榜单仅用于学术研究,不作为投资建议。

本次更新要点:
  • 增加清华大学和智谱AI开发的2代GLM模型ChatGLM2-6B

  • 增加了RWKV的世界多语言模型RWKV-4-World-7B

  • 首次加入百川智能开源的预训练模型baichuan-7B

  • 更新IDEA研究院开发的idea-jiangziya模型为v1.1版本

  • 去掉了Anthropic公司开发的Claude模型,原因是Claude官方接口技术问题,后续待官方稳定后可重新上榜

本次更新中,中国公司MiniMax以1250分力压GPT3.5-turbo位列榜首,由清华大学和智谱AI开发的ChatGLM-130B则以微弱差距排名第三,该团队最新开源的ChaGLM2-6B紧随其后,该模型仅有60亿参数量,表现堪称亮眼。值得一提的还有RWKV团队推出的新模型RWKV-4-World-7B,较上个月上榜的模型RWKV-Raven-7B有大幅度提升,同时支持全球100+种语言,以仅仅70亿参数量级位列榜单第8位,表现不俗。另外,百川智能开源的预训练模型baichuan-7B首次上榜,仅以预训练模型表现依然可圈可点,期待该团队推出chat版本。
CLUE团队表示,之后会定期更新SuperCLUE琅琊榜排名,同时加入更多具有代表性的大模型。

对战胜率

此外,SuperCLUE琅琊榜还展示了排位赛中每个模型的对战胜率。

模型A在所有非平局对战中获胜的比例


每个模型组合的对战次数(不含平局)


对所有其他模型的平均胜率(假设均匀抽样且无平局)


Elo机制的Bootstrap抽样(1000轮随机抽样)


什么是SuperCLUE?

SuperCLUE是中文通用大模型综合性评测基准,由三大基准组成,分别是:

一、SuperCLUE-Opt:客观题测试形式,三大能力+七十余子任务

详情点击文章:最新大模型排名!中文大模型评测基准SuperCLUE发布6月榜单

二、SuperCLUE-Open:主观题形式, 十大基础任务,可测开放域、多轮能力

详情点击文章:首测生成、多轮对话能力!SuperCLUE-Open中文大模型开放域测评基准发布

三、SuperCLUE-LYB琅琊榜:用户投票的匿名对战形式,也是本文发布的基准

详情点击文章:大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超GPT3.5


SuperCLUE会定期更新,并会纳入更多有代表性的中文大模型,欢迎大模型研发机构加入对战,欢迎感兴趣的朋友加入SuperCLUE社群,共建大模型评测基准。
SuperCLUE评测申请:https://wj.qq.com/s2/12305633/a73d/
模型内测需求收集(非公开):https://wj.qq.com/s2/12307825/2ae0/
Github地址:https://github.com/CLUEbenchmark
CLUE官方地址:https://www.cluebenchmarks.com
SuperCLUE-LYB琅琊榜地址:www.SuperCLUEAI.com





点击阅读原文,查看SuperCLUE琅琊榜详情
继续滑动看下一个
CLUE中文语言理解测评基准
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存