本测评结果仅用于学术研究。

1月8日,SuperCLUE发布《中文大模型基准测评年度报告》,引起了中文技术社区的广泛关注。在报告中,SuperCLUE对于国内外代表性的42个大模型进行了全方位测评

其中,360zhinao2-o1夺得本次测评的金牌,位于第一梯队,总体表现优异;360Zhinao2-7B-Chat-4K在开源模型榜单和10B以内的小模型榜单中表现惊艳,在10B以内的小模型榜单中获得铜牌。本文将详细说明360zhinao2-o1的测评分析结果。

模型简介

360zhinao2-o1是360推出的最新推理模型。360于2023年3月29日发布首个大模型「360智脑1.0」。其后陆续推出多版本,2024年10月发布360gpt2-pro,在数学以及各种复杂逻辑推理任务上有了显著提升。

技术特点360zhinao2-o1使用树搜索构建思维链,并引入了反思机制,使用强化学习训练,模型具备自我反思与纠错的能力。

能力优势擅长复杂推理任务:在SuperCLUE「逻辑推理」任务排名国内第一;在SuperCLUE「深度推理、Agent、计算」任务排名国内前三;

适配应用场景:复杂任务、智能体、数理计算、工业、金融

来源:SuperCLUE, 2025年1月8日

测评环境

参考标准:SuperCLUE综合性测评标准

评测模型360zhinao2-o1API)


测集:SuperCLUE综合性测评基准12月评测集,1325道多轮简答题,包括九大任务。


模型GenerationConfig配置:

  • temperature=0.9

  • max_new_tokens=4096

  • top_p= 0.7

  • top_k=0

  • repetition_penalty: 1.1

  • num_beams: 1

测评方法

本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。

先说结论
结论1:在SuperCLUE综合基准上,360zhinao2-o1获得金牌。在Hard和理科任务中,均得分排行前三,文科得分接近80分。
结论2:360zhinao2-o1与国内外头部大模型相比,在深度推理、计算、逻辑推理、Agent上具有一定优势和竞争力。适用于Agent智能体、数理运算、深度推理等应用场景。

结论3:360zhinao2-o1在指令遵循任务还有一定的提升空间,和o1在指令遵循上相差近50分,和国内头部大模型在指令遵循上相差近10分。

以下是我们从定量和定性两个角度对模型进行的测评分析。
测评分析
1  定量分析
在SuperCLUE测评中,360zhinao2-o1的总体表现如下:

360zhinao2-o1总体表现

来源:SuperCLUE, 2025年1月8日

在SuperCLUE通用综合测评基准上,360zhinao2-o1获得总分67.4分,表现优异。其中,Hard和理科的得分均排行国内前三,文科得分接近80分。

360zhinao2-o1在九大基础能力上的表现

来源:SuperCLUE, 2025年1月8日

360zhinao2-o1在Hard任务上表现突出,得分排行国内第三名。其中,深度推理得分接近60分,排行国内第二名。Agent得分排行国内前五,在新增任务维度上表现亮眼。




来源:SuperCLUE, 2025年1月8日
360zhinao2-o1在理科任务上表现突出,得分排行国内第二名。逻辑推理排行国内第一名,计算排行国内前三。


来源:SuperCLUE, 2025年1月8日

360zhinao2-o1在文科任务上表现突出,得分处于中上游位置。


来源:SuperCLUE, 2025年1月8日

360zhinao2-o1和GPT系列模型对比,在深度推理、计算和逻辑推理上,分别领先ChatGPT-4o-latest近3.3分、1.3分、2.8分。在Agent上领先o1-preview近4分。但整体还有一定提升空间,与o1相比,在深度推理上相差近20分,在指令遵循上相差近50分,在代码上相差近17分。


来源:SuperCLUE, 2025年1月8日

360zhinao2-o1和国外其他头部大模型对比,在深度推理、逻辑推理、语言理解和传统安全类上,得分均领先Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)。但在指令遵循遵循、代码上还有一定的优化空间。


来源:SuperCLUE, 2025年1月8日

360zhinao2-o1和本次并列第一的两个国内大模型对比,在深度推理、逻辑推理上继续保持领先,但在指令遵循上得分相差近10分,在传统安全类可以有进一步的优化空间。

来源:SuperCLUE, 2025年11月8日

360zhinao2-o1与国内大模型平均得分对比,我们可以发现,360zhinao2-o1在各项能力上均高于平均线,在文科上领先幅度较小,但在Agent任务上领先近25分,在深度推理和代码上均领先10分以上,在计算和逻辑推理上领先近9分。

小结

从评测结果我们发现,360zhinao2-o1整体表现突出,其中在Agent、深度推理、计算、逻辑推理等任务上较为领先,指令遵循能力上还有一定优化空间。

2  定性分析

通过一些典型示例,对比定性分析360zhinao2-o1的特点。
示例1:Agent

示例2:深度推理

【问题】:

360zhinao2-o1】:5分(满分5分)

Gemini-2.0-Flash-Exp】:3分(满分5分)

示例3:计算

问题】:

360zhinao2-o1】:4分(满分5分)

【Claude 3.5 Sonnet(20241022)】:2分(满分5分)

示例4:指令遵循
【问题】:请撰写一篇关于科技对教育影响的文章,要求第五个句子(用中文句号或问号或感叹号分隔)以‘随着科技的进步’开头。

【360zhinao2-o1】:科技对教育的影响是深远而广泛的。首先,科技使得教育资源更加丰富和多样化。通过互联网,学生可以随时随地获取各种学习资料和信息。其次,科技改变了传统的教学方式。在线课程、虚拟课堂和智能辅导系统等新兴技术,使得教育变得更加灵活和个性化。随着科技的进步,教育的未来将更加智能化和高效化。

【错误原因】:第5个句子并未以‘随着科技的进步’开头

小结

从示例分析中我们发现360zhinao2-o1在Agent、深度推理、计算能力上表现不俗,但在指令遵循任务上还有一定的提升空间。
更多年度报告测评信息,请加入SuperCLUE交流群。

延伸阅读:

SuperCLUE在线完整年度报告地址(可下载):

www.cluebenchmarks.com/superclue_2024

SuperCLUE排行榜:https://www.superclueai.com

CLUE官网地址:https://www.cluebenchmarks.com

   点击阅读原文,查看SuperCLUE排行榜

点击扫码分享至微信