大模型2024年度报告分析之模型篇1：国产推理大模型360zhinao2-o1

本测评结果仅用于学术研究。

1月8日，SuperCLUE发布《中文大模型基准测评年度报告》，引起了中文技术社区的广泛关注。在报告中，SuperCLUE对于国内外代表性的42个大模型进行了全方位测评。

其中，360zhinao2-o1夺得本次测评的金牌，位于第一梯队，总体表现优异；360Zhinao2-7B-Chat-4K在开源模型榜单和10B以内的小模型榜单中表现惊艳，在10B以内的小模型榜单中获得铜牌。本文将详细说明360zhinao2-o1的测评分析结果。

模型简介

360zhinao2-o1是360推出的最新推理模型。360于2023年3月29日发布首个大模型「360智脑1.0」。其后陆续推出多版本，2024年10月发布360gpt2-pro，在数学以及各种复杂逻辑推理任务上有了显著提升。

技术特点：360zhinao2-o1使用树搜索构建思维链，并引入了反思机制，使用强化学习训练，模型具备自我反思与纠错的能力。

能力优势：擅长复杂推理任务：在SuperCLUE「逻辑推理」任务排名国内第一；在SuperCLUE「深度推理、Agent、计算」任务排名国内前三；

适配应用场景：复杂任务、智能体、数理计算、工业、金融

来源：SuperCLUE, 2025年1月8日

测评环境

参考标准：SuperCLUE综合性测评标准

评测模型：360zhinao2-o1（API）

评测集：SuperCLUE综合性测评基准12月评测集，1325道多轮简答题，包括九大任务。

模型GenerationConfig配置：

temperature=0.9
max_new_tokens=4096
top_p= 0.7
top_k=0
repetition_penalty: 1.1
num_beams: 1

测评方法：

本次测评为自动化评测，具体评测方案可查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。

先说结论

结论1：在SuperCLUE综合基准上，360zhinao2-o1获得金牌。在Hard和理科任务中，均得分排行前三，文科得分接近80分。

结论2：360zhinao2-o1与国内外头部大模型相比，在深度推理、计算、逻辑推理、Agent上具有一定优势和竞争力。适用于Agent智能体、数理运算、深度推理等应用场景。

结论3：360zhinao2-o1在指令遵循任务还有一定的提升空间，和o1在指令遵循上相差近50分，和国内头部大模型在指令遵循上相差近10分。

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析

1 定量分析

在SuperCLUE测评中，360zhinao2-o1的总体表现如下：

360zhinao2-o1总体表现

来源：SuperCLUE, 2025年1月8日

在SuperCLUE通用综合测评基准上，360zhinao2-o1获得总分67.4分，表现优异。其中，Hard和理科的得分均排行国内前三，文科得分接近80分。

360zhinao2-o1在九大基础能力上的表现

来源：SuperCLUE, 2025年1月8日

360zhinao2-o1在Hard任务上表现突出，得分排行国内第三名。其中，深度推理得分接近60分，排行国内第二名。Agent得分排行国内前五，在新增任务维度上表现亮眼。

来源：SuperCLUE, 2025年1月8日

360zhinao2-o1在理科任务上表现突出，得分排行国内第二名。逻辑推理排行国内第一名，计算排行国内前三。

来源：SuperCLUE, 2025年1月8日

360zhinao2-o1在文科任务上表现突出，得分处于中上游位置。

来源：SuperCLUE, 2025年1月8日

将360zhinao2-o1和GPT系列模型对比，在深度推理、计算和逻辑推理上，分别领先ChatGPT-4o-latest近3.3分、1.3分、2.8分。在Agent上领先o1-preview近4分。但整体还有一定提升空间，与o1相比，在深度推理上相差近20分，在指令遵循上相差近50分，在代码上相差近17分。

来源：SuperCLUE, 2025年1月8日

将360zhinao2-o1和国外其他头部大模型对比，在深度推理、逻辑推理、语言理解和传统安全类上，得分均领先Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)。但在指令遵循遵循、代码上还有一定的优化空间。

来源：SuperCLUE, 2025年1月8日

将360zhinao2-o1和本次并列第一的两个国内大模型对比，在深度推理、逻辑推理上继续保持领先，但在指令遵循上得分相差近10分，在传统安全类可以有进一步的优化空间。

来源：SuperCLUE, 2025年11月8日

将360zhinao2-o1与国内大模型平均得分对比，我们可以发现，360zhinao2-o1在各项能力上均高于平均线，在文科上领先幅度较小，但在Agent任务上领先近25分，在深度推理和代码上均领先10分以上，在计算和逻辑推理上领先近9分。

小结：

从评测结果我们发现，360zhinao2-o1整体表现突出，其中在Agent、深度推理、计算、逻辑推理等任务上较为领先，指令遵循能力上还有一定优化空间。

2 定性分析

通过一些典型示例，对比定性分析360zhinao2-o1的特点。

示例1：Agent

示例2：深度推理

【问题】：

【360zhinao2-o1】：5分（满分5分）

【Gemini-2.0-Flash-Exp】：3分（满分5分）

示例3：计算

【问题】：

【360zhinao2-o1】：4分（满分5分）

【Claude 3.5 Sonnet(20241022)】：2分（满分5分）

示例4：指令遵循

【问题】：请撰写一篇关于科技对教育影响的文章，要求第五个句子（用中文句号或问号或感叹号分隔）以‘随着科技的进步’开头。

【360zhinao2-o1】：科技对教育的影响是深远而广泛的。首先，科技使得教育资源更加丰富和多样化。通过互联网，学生可以随时随地获取各种学习资料和信息。其次，科技改变了传统的教学方式。在线课程、虚拟课堂和智能辅导系统等新兴技术，使得教育变得更加灵活和个性化。随着科技的进步，教育的未来将更加智能化和高效化。

【错误原因】：第5个句子并未以‘随着科技的进步’开头

小结：

从示例分析中我们发现，360zhinao2-o1在Agent、深度推理、计算能力上表现不俗，但在指令遵循任务上还有一定的提升空间。

更多年度报告测评信息，请加入SuperCLUE交流群。

大模型2024年度报告分析之模型篇1：国产推理大模型360zhinao2-o1

相关文章

ChatGPT引爆“吉卜力”风格图像生成浪潮同时激发AI违法争议

阿里通义千问推出视觉推理模型QVQ-Max

如何缓解AI时代下的焦虑？

大模型2024年度报告分析之模型篇1：国产推理大模型360zhinao2-o1

相关文章

ChatGPT引爆“吉卜力”风格图像生成浪潮 同时激发AI违法争议

阿里通义千问推出视觉推理模型QVQ-Max

如何缓解AI时代下的焦虑？

ChatGPT引爆“吉卜力”风格图像生成浪潮同时激发AI违法争议