本测评结果仅用于学术研究。
其中,360zhinao2-o1夺得本次测评的金牌,位于第一梯队,总体表现优异;360Zhinao2-7B-Chat-4K在开源模型榜单和10B以内的小模型榜单中表现惊艳,在10B以内的小模型榜单中获得铜牌。本文将详细说明360zhinao2-o1的测评分析结果。
360zhinao2-o1是360推出的最新推理模型。360于2023年3月29日发布首个大模型「360智脑1.0」。其后陆续推出多版本,2024年10月发布360gpt2-pro,在数学以及各种复杂逻辑推理任务上有了显著提升。
技术特点:360zhinao2-o1使用树搜索构建思维链,并引入了反思机制,使用强化学习训练,模型具备自我反思与纠错的能力。
能力优势:擅长复杂推理任务:在SuperCLUE「逻辑推理」任务排名国内第一;在SuperCLUE「深度推理、Agent、计算」任务排名国内前三;
适配应用场景:复杂任务、智能体、数理计算、工业、金融
测评环境
评测模型:360zhinao2-o1(API)
评测集:SuperCLUE综合性测评基准12月评测集,1325道多轮简答题,包括九大任务。
模型GenerationConfig配置:
-
temperature=0.9
-
max_new_tokens=4096
-
top_p= 0.7
-
top_k=0
-
repetition_penalty: 1.1
-
num_beams: 1
本次测评为自动化评测,具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。
结论3:360zhinao2-o1在指令遵循任务还有一定的提升空间,和o1在指令遵循上相差近50分,和国内头部大模型在指令遵循上相差近10分。
360zhinao2-o1总体表现
来源:SuperCLUE, 2025年1月8日
在SuperCLUE通用综合测评基准上,360zhinao2-o1获得总分67.4分,表现优异。其中,Hard和理科的得分均排行国内前三,文科得分接近80分。
360zhinao2-o1在九大基础能力上的表现
360zhinao2-o1在Hard任务上表现突出,得分排行国内第三名。其中,深度推理得分接近60分,排行国内第二名。Agent得分排行国内前五,在新增任务维度上表现亮眼。
360zhinao2-o1在文科任务上表现突出,得分处于中上游位置。
将360zhinao2-o1和GPT系列模型对比,在深度推理、计算和逻辑推理上,分别领先ChatGPT-4o-latest近3.3分、1.3分、2.8分。在Agent上领先o1-preview近4分。但整体还有一定提升空间,与o1相比,在深度推理上相差近20分,在指令遵循上相差近50分,在代码上相差近17分。
将360zhinao2-o1和国外其他头部大模型对比,在深度推理、逻辑推理、语言理解和传统安全类上,得分均领先Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)。但在指令遵循遵循、代码上还有一定的优化空间。
来源:SuperCLUE, 2025年1月8日
将360zhinao2-o1和本次并列第一的两个国内大模型对比,在深度推理、逻辑推理上继续保持领先,但在指令遵循上得分相差近10分,在传统安全类可以有进一步的优化空间。
将360zhinao2-o1与国内大模型平均得分对比,我们可以发现,360zhinao2-o1在各项能力上均高于平均线,在文科上领先幅度较小,但在Agent任务上领先近25分,在深度推理和代码上均领先10分以上,在计算和逻辑推理上领先近9分。
小结:
2 定性分析
【问题】:
【360zhinao2-o1】:5分(满分5分)
示例3:计算
【问题】:
【360zhinao2-o1】:4分(满分5分)
【360zhinao2-o1】:科技对教育的影响是深远而广泛的。首先,科技使得教育资源更加丰富和多样化。通过互联网,学生可以随时随地获取各种学习资料和信息。其次,科技改变了传统的教学方式。在线课程、虚拟课堂和智能辅导系统等新兴技术,使得教育变得更加灵活和个性化。随着科技的进步,教育的未来将更加智能化和高效化。
小结:
延伸阅读:
www.cluebenchmarks.com/superclue_2024
SuperCLUE排行榜:https://www.superclueai.com
CLUE官网地址:https://www.cluebenchmarks.com