笔者让目前市面上主流的大模型来做公务员考试行测真题,来尝试从一个侧面观察大模型的综合能力。在让30多个大模型各做了一千多道行测题后,笔者发现了一些比较有意思的线索(非专业大模型研究者,观点仅供参考):
- Deepseek-R1确是真神,总分第一并在所有科目中均排到前2,相对于其他大多数大模型,甚至其基础模型Deepseek-V3来说都具有极大的优势;
- 虽然热度平平,但豆包大模型(仅限pro版)已经具备了很强的实力,在行测任务中成绩优异,令人刮目相看;
- 各家模型的在行测数学能力方面,最近半年都有很大的提升(相比于知乎网友在24年8月行测方面的评测);
- 有的模型很懂政治(豆包pro和Deepseek-V3/R1均做到满分),有的模型很懂封杀……(step-2系列超过一半的政治题都因为内容审查而拒绝作答);
- 通过强化学习来赋予模型深度思考能力这条路,在综合能力上确实有很优秀的表现,但从各家模型的总体表现来看似乎并不总是银弹:
- 深度思考大模型,在综合表现上全部超过了基础模型(glm-zero-preview除外),甚至说通过R1蒸馏这种外挂式增强的Qwen2.5-32B模型综合表现都超过了原始的Qwen2.5-72B;
- 在言语理解等一些题型里面,具备深度思考能力的很多模型相对于基础模型都退步了,即便是o1-mini在这方面也远远落后于gpt-4o,
- 然而,Deepseek-R1确实在所有科目上表现都超过了Deepseek-V3且有极大提升,原因目前我也没想清楚;
- 低于32B的小模型在行测中表现不佳。看起来尺寸较小不管怎么折腾,即使各个评测数据集上成绩刷到飞起,在考察综合能力的时候也很难有特别亮眼的表现;
以下正文;)
1. 背景介绍
1.1 为什么要做这个评测
- 原因1: 春节在家走亲戚太无聊了,需要找点有意思的事儿对冲一下;
- 原因2: 大模型能力的评测一直是一个业界难题。与其说它是一个问题,倒不如说是一个博弈,因为任何在公众领域公开的数据集,必然面临刷分的问题。半年前我们在做大模型测试用例生成的时候,内部搞了一些测试集与公开的Coding类benchmark进行对比,就发现几乎市面上所有的公开benchmark都几乎无法准确反映模型的代码能力(lmarena除外)
年前Deepseek一举爆红,笔者跟朋友也在尝试用各种方法评测Deepseek等新模型的能力。周围有不少朋友在考公(坐标猜猜?),有时候发一些题目给大模型,结果我们发现不少行测题即使是Deepseek V3/R1也很难正确解答。正好笔者春节在家无聊,一时兴起,想着说那不如爬一些行测题目来做一个测试集,摸排一下市面上大模型,尤其是最近半年的新模型,综合能力到底如何?
公务员行测题目都是选择题,做起来方便,判卷也容易。同时考察的范围非常综合,既包含常识知识和政治,也有数学推理和资料分析,同时其中很多题目对考生的抽象能力又有一定要求。笔者觉得是评价大模型能力的一个相对比较全面的方法。
1.2 数据来源和准备工作
太长不放,这里的README详细介绍了数据来源和收集过程。简单来说就是24-25年几个题目比较难的重点省份和国考的行测真题,同时将涉及图片信息的一律去掉,经过简单的筛选之后总共得到六大类题型(政治理论、常识判断、言语理解、数量关系、判断推理、资料分析)共计1383道题目。
1.3 参与评测的有哪些模型
选取在我自己工作中使用过认为表现相对较好的开源模型(通义千问系列,Llama系列,Deepseek系列,浦语,GLM部分开源模型等)和闭源模型(Openai,豆包,混元,月之暗面,零一万物,阶跃星辰,MiniMax等。以国内厂商的大模型为主,一方面是因为海外的大模型不太懂政治(结果Gpt-4o打我脸了,告诉我海外模型也很懂政治!);另一方面是近半年来国外的大模型确实没那么香了,不必投入那么多精力和💲。
另外如果模型系列有类o1的内生思维链推理的版本,这里均纳入评测(如Deepseek-R1,QwQ,o1-mini,glm-zero等,o3-mini目前没弄到API就没放进去,p.s. 思维链好是好,就是tokens太贵了……)在评测过程中,商用闭源模型均采用官方API(Deepseek由于官网服务不稳定,使用Siliconflow✖️华为昇腾提供的API,后期该API限流之后改用Deepinfra),其他开源模型均使用Siliconflow或Deepinfra提供的API。总计成本约1000+RMB。
p.s. Siliconflow的R1 API简直太卡了,是因为R1现在太火爆嘛?
纳入评测的模型详细清单如下(顺序随机排列,看心情;),共计33个模型:
| 模型系列 | 模型名 | 备注 |
|---|---|---|
| 阿里通义千问 | Qwen-2.5-7B | 开源 |
| Qwen-2.5-14B | 开源 | |
| Qwen-2.5-32B | 开源 | |
| Qwen-2.5-72B | 开源 | |
| Qwen-QwQ-32B-Preview | 类o1推理强化模型,开源 | |
| 深度求索 | DeepSeek-V3 | 开源 |
| DeepSeek-R1 | 类o1推理强化模型,开源 | |
| DeepSeek-R1-distill-llama-70b | 蒸馏类o1推理强化模型,开源 | |
| DeepSeek-R1-distill-qwen-32b | 蒸馏类o1推理强化模型,开源 | |
| 智谱glm | glm-4-plus | 闭源 |
| glm-4-air | 闭源 | |
| glm-4-flash | 闭源 | |
| glm-zero-preview | 类o1推理强化模型,闭源 | |
| glm-4-9b-chat | 开源 | |
| 月之暗面 | moonshot-v1-8k | 闭源 |
| 字节豆包 | doubao-1.5-pro-32k | 闭源 |
| doubao-1.5-lite-32k | 闭源 | |
| 腾讯混元 | hunyuan-pro | 闭源 |
| hunyuan-standard | 闭源 | |
| hunyuan-lite | 闭源 | |
| 零一万物 | yi-lightning | 闭源 |
| 阶跃星辰 | step-2-16k | 闭源 |
| step-2-mini | 闭源 | |
| 书生浦语 | internlm2.5-7b-chat | 开源 |
| internlm2.5-20b-chat | 开源 | |
| Minimax | minimax-text-01 | 闭源 |
| Openai | gpt-4o | 闭源 |
| gpt-4o-mini | 闭源 | |
| o1-mini | o1(本尊)推理强化模型,闭源 | |
| Meta Llama | Llama-3.1-8B | 开源 |
| Llama-3.3-70B | 开源 | |
| Microsoft | phi-4 | 开源 |
| gemma-2-9b-it | 开源 |
2. 测评结果简单总结
2.1 总体答题情况
在知乎网友在24年8月做的评测中,参与评测的大模型整体正确率在65%-75%之间。仅仅过了半年,就有多家大模型的正确率突破了75%,最高的甚至达到了85%,可见大模型能力进步之神速。
这里的表格列出了所有平均正确率超过了75%的大模型,得分从高到低排序(要不然列的太多了也看不过来,文章后边会附上完整的排序表格)。至于为什么只看超过75%的,主要是因为身边考公的朋友说正确率超过75%就已经属于进面相对比较稳的范畴,到85%+已经算是考公天才了(狗头)。
| 模型名称 | 题目类别 | 总题目数量 | 做对题数 | 正确率 | 排名 |
|---|---|---|---|---|---|
| deepseek-r1 | 总计 | 1383 | 1191 | 86.1% | 1 |
| doubao-1.5-pro | 总计 | 1383 | 1179 | 85.2% | 2 |
| hunyuan-pro | 总计 | 1383 | 1079 | 78.0% | 3 |
| glm-4-plus | 总计 | 1383 | 1072 | 77.5% | 4 |
| qwen-qwq-32b-preview | 总计 | 1383 | 1052 | 76.1% | 5 |
| deepseek-r1-distill-qwen-32b | 总计 | 1383 | 1047 | 75.7% | 6 |
从这里可以看出支持深度思考的模型有非常出色的表现。两个基于Qwen2.5-32B进行深度思考强化的模型 正确率都超过了75%,而Qwen2.5-72B并没有达到这个分数。另外若干家闭源的旗舰模型也都达到了相当可观的分数。
不过整体来看,Deepseek-R1和豆包Pro与其他模型能够拉开相当大的差距。
2.2 政治理论部分
政治理论是2025年新加入的题型,因此总共只有60道题目。以前的相关内容零散分布在常识判断模块中。所处的题目和考点基本围绕总书记讲话和党建理论展开。因此这部分题型可以评价模型在中国政治方面的背景知识,同时从拒绝回答的角度来看,可以评价模型的内容审计与拒绝策略是否合理。
由于政治理论题目一半的模型得分都超过了90%,这里我们仅列出前五名,总表我会放在文末。现在的AI很懂政治啊;)
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 |
|---|---|---|---|---|
| doubao-1.5-pro | 政治理论 | 60 | 60 | 100.0% |
| deepseek-r1 | 政治理论 | 60 | 60 | 100.0% |
| deepseek-v3 | 政治理论 | 60 | 60 | 100.0% |
| qwen2.5-72b-instruct | 政治理论 | 60 | 59 | 98.3% |
| openai-gpt-4o | 政治理论 | 60 | 58 | 96.7% |
另外比较有趣的是,在政治理论题目的答题过程中,阶跃星辰的Step-2-16k和Step-2-mini这两个模型均因为内容审核不通过拒绝作答大多数题目(均拒绝33道题,占比超过一半,两个模型看上去共享同一个内容审核策略),成为虽然不一定最懂政治,但一定最懂封杀的模型。
2.3 常识判断部分
这部分主要考察背景知识是否丰富。所以理论上训练语料更丰富的模型应该能够的到更高的分数。这里Deepseek R1和豆包Pro断崖式领先,比其他模型超超出接近10%。下面的表格列出了前10名,但其实3-10名并没有拉开很大的差距。
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 |
|---|---|---|---|---|
| deepseek-r1 | 常识判断 | 257 | 234 | 91.1% |
| doubao-1.5-pro | 常识判断 | 257 | 229 | 89.1% |
| qwen2.5-72b-instruct | 常识判断 | 257 | 208 | 80.9% |
| qwen-qwq-32b-preview | 常识判断 | 257 | 208 | 80.9% |
| hunyuan-pro | 常识判断 | 257 | 207 | 80.5% |
| glm-4-plus | 常识判断 | 257 | 206 | 80.2% |
| qwen2.5-32b-instruct | 常识判断 | 257 | 202 | 78.6% |
| qwen2.5-14b-instruct | 常识判断 | 257 | 200 | 77.8% |
| yi-lightning | 常识判断 | 257 | 199 | 77.4% |
| deepseek-r1-distill-qwen-32b | 常识判断 | 257 | 198 | 77.0% |
2.4 言语理解部分
言语理解包含逻辑填空,短文阅读理解,语句表达等题型,主要考察对文字内容的理解能力。在这部分Deepseek R1和豆包仍然交替领先。一个比较有趣的发现是,大多数类o1的深度思考模型在这部分表现都不佳(例如,qwq和r1蒸馏的qwen2.5-32b均远远落后于原始的qwen2.5-32b模型,glm-zero也落后于glm-plus甚至比qwen2.5-14b更差,o1-mini更是排到了20名开外)。
这个观察与之前知乎网友段小草的评测中所提到的(CoT会导致模型言语理解能力下降)的观察基本符合。但是黑马仍旧出现了,Deepseek R1的表现远远超出它的基础模型Deepseek V3。这里面的原理到底是什么,跟R1的RL训练方式有什么关系?我自己不是LLM方面的专家,还需要蹲一个有缘人来解释下;)
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 |
|---|---|---|---|---|
| doubao-1.5-pro | 言语理解 | 424 | 367 | 86.6% |
| deepseek-r1 | 言语理解 | 424 | 366 | 86.3% |
| hunyuan-pro | 言语理解 | 424 | 360 | 84.9% |
| qwen2.5-72b-instruct | 言语理解 | 424 | 357 | 84.2% |
| glm-4-plus | 言语理解 | 424 | 346 | 81.6% |
| qwen2.5-32b-instruct | 言语理解 | 424 | 335 | 79.0% |
| deepseek-v3 | 言语理解 | 424 | 334 | 78.8% |
| qwen2.5-14b-instruct | 言语理解 | 424 | 328 | 77.4% |
| moonshot-v1-8k | 言语理解 | 424 | 327 | 77.1% |
| glm-zero-preview | 言语理解 | 424 | 327 | 77.1% |
2.5 数量关系部分
数量关系是类o1(以及本尊)的深度思考模型的天下,即使是R1蒸馏的小模型也普遍有比较好的正确率,相对于半年前的评测有了长足的进步。o1-mini在这方面仍然领先,但更加意外的是豆包pro作为一个非深度思考模型仍然做到了很高的正确率(前5名中其他全部是类o1模型),体现出了很强的数学能力。
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 |
|---|---|---|---|---|
| openai-o1-mini | 数量关系 | 170 | 147 | 86.5% |
| deepseek-r1 | 数量关系 | 170 | 141 | 82.9% |
| doubao-1.5-pro | 数量关系 | 170 | 137 | 80.6% |
| deepseek-r1-distill-qwen-32b | 数量关系 | 170 | 133 | 78.2% |
| qwen-qwq-32b-preview | 数量关系 | 170 | 126 | 74.1% |
| deepseek-r1-distill-llama-70b | 数量关系 | 170 | 125 | 73.5% |
| glm-4-plus | 数量关系 | 170 | 124 | 72.9% |
| deepseek-v3 | 数量关系 | 170 | 114 | 67.1% |
| hunyuan-pro | 数量关系 | 170 | 107 | 62.9% |
| glm-zero-preview | 数量关系 | 170 | 105 | 61.8% |
2.6 判断推理部分
判断推理题目中,豆包pro和Deepseek R1仍然有不相伯仲的成绩(这话我都说累了!)并且能跟其他模型拉开相当大的差距。
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 |
|---|---|---|---|---|
| doubao-1.5-pro | 判断推理 | 408 | 331 | 81.1% |
| deepseek-r1 | 判断推理 | 408 | 328 | 80.4% |
| hunyuan-pro | 判断推理 | 408 | 300 | 73.5% |
| glm-4-plus | 判断推理 | 408 | 287 | 70.3% |
| deepseek-r1-distill-qwen-32b | 判断推理 | 408 | 285 | 69.9% |
| openai-o1-mini | 判断推理 | 408 | 281 | 68.9% |
| openai-gpt-4o | 判断推理 | 408 | 280 | 68.6% |
| qwen-qwq-32b-preview | 判断推理 | 408 | 277 | 67.9% |
| minimax-text-01 | 判断推理 | 408 | 275 | 67.4% |
| deepseek-v3 | 判断推理 | 408 | 275 | 67.4% |
2.7 资料分析部分
资料分析类题目通常是给定一段图文资料(这里参与评测的题目都是纯文字背景资料),主要考查的是对复杂资料的综合理解与分析加工能力,以及一部分速算能力(有时候需要根据资料中的公式计算结果)。由于带图形的题目都被筛掉了,因此这部分只留下64道题目。
在这部分中,前4名均为支持深度思考的推理强化模型,且与第5名(豆包pro)拉开一定的差距。并且所有模型系列中,支持深度思考的模型均碾压同系列其他模型(例如,Deepseek R1 » V3, Qwen QwQ » 72B, glm-zero » glm-4-plus, …)可见对于资料的深度理解和分析方面,深度思考有很大的提升。
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 |
|---|---|---|---|---|
| deepseek-r1 | 资料分析 | 64 | 62 | 96.9% |
| deepseek-r1-distill-qwen-32b | 资料分析 | 64 | 59 | 92.2% |
| qwen-qwq-32b-preview | 资料分析 | 64 | 58 | 90.6% |
| openai-o1-mini | 资料分析 | 64 | 57 | 89.1% |
| doubao-1.5-pro | 资料分析 | 64 | 55 | 85.9% |
| glm-zero-preview | 资料分析 | 64 | 55 | 85.9% |
| glm-4-plus | 资料分析 | 64 | 52 | 81.3% |
| deepseek-r1-distill-llama-70b | 资料分析 | 64 | 52 | 81.3% |
| qwen2.5-72b-instruct | 资料分析 | 64 | 51 | 79.7% |
| deepseek-v3 | 资料分析 | 64 | 51 | 79.7% |
3. 一些有意思的观察
3.1 深度思考(或者说运行时推理)是否一定更智能
综合来看,针对深度推理强化过的模型(QwQ,o1等,后续我们简称为类o1模型)表现出了较大的优势。
但是,在言语理解类的题目中,类o1模型大多数翻车(除了R1之外)。在笔者认为,这体现出:思考固然很重要,但判断何时应该深度思考,何时应该相信直觉也许更加重要。从技术角度出发,也许我们需要让大模型具备针对不同的问题设置不同的思考方式的能力。正如人在社会中生存,面对技术问题和政治问题的思考方式就是截然不同的。
另外相比于基础模型而言,深度推理模型普遍带来了很大的tokens开销(接近翻番),是否总是需要这么多的推理开销,能不能灵活控制推理长度和成本也是个值得探讨的问题。
3.2 知识蒸馏带来的能力提升的不确定性
Deepseek 通过R1的知识蒸馏对多个模型进行强化。但其效果差距却很大,Llama-3-70b在强化后,整体表现的提升仅从63.9%提升到了64.2%,难兄难弟了可以说。但是对Qwen2.5-32B的强化却取得了非常好的效果,强化之后的模型甚至超越了Qwen2.5-72B。从另一个侧面看,同样是在Qwen2.5-32B的基础上进行深度思考微调,Qwen-QwQ-Preview也达到了非常接近的效果(总成绩一个75.7%一个74.7%),让人不禁猜想是不是这种深度思考微调的上限很大程度上取决于基础模型本身。
4. 完整测试数据表格
4.1 总成绩全排序
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 |
|---|---|---|---|---|
| deepseek-r1 | 总计 | 1383 | 1191 | 86.1% |
| doubao-1.5-pro | 总计 | 1383 | 1179 | 85.2% |
| hunyuan-pro | 总计 | 1383 | 1079 | 78.0% |
| glm-4-plus | 总计 | 1383 | 1072 | 77.5% |
| qwen-qwq-32b-preview | 总计 | 1383 | 1052 | 76.1% |
| deepseek-r1-distill-qwen-32b | 总计 | 1383 | 1047 | 75.7% |
| qwen2.5-72b-instruct | 总计 | 1383 | 1033 | 74.7% |
| deepseek-v3 | 总计 | 1383 | 1027 | 74.3% |
| glm-zero-preview | 总计 | 1383 | 1008 | 72.9% |
| openai-gpt-4o | 总计 | 1383 | 992 | 71.7% |
| openai-o1-mini | 总计 | 1383 | 982 | 71.0% |
| qwen2.5-32b-instruct | 总计 | 1383 | 979 | 70.8% |
| minimax-text-01 | 总计 | 1383 | 976 | 70.6% |
| yi-lightning | 总计 | 1383 | 971 | 70.2% |
| qwen2.5-14b-instruct | 总计 | 1383 | 958 | 69.3% |
| glm-4-air | 总计 | 1383 | 950 | 68.7% |
| step-2-16k | 总计 | 1383 | 916 | 66.2% |
| doubao-1.5-lite.32k | 总计 | 1383 | 904 | 65.4% |
| deepseek-r1-distill-llama-70b | 总计 | 1383 | 888 | 64.2% |
| llama-3.3-70b | 总计 | 1383 | 884 | 63.9% |
| moonshot-v1-8k | 总计 | 1383 | 883 | 63.8% |
| qwen2.5-7b-instruct | 总计 | 1383 | 854 | 61.7% |
| glm-4-9b-chat | 总计 | 1383 | 838 | 60.6% |
| glm-4-flash | 总计 | 1383 | 834 | 60.3% |
| openai-gpt-4o-mini | 总计 | 1383 | 814 | 58.9% |
| step-2-mini | 总计 | 1383 | 798 | 57.7% |
| internlm2.5-20b-chat | 总计 | 1383 | 789 | 57.0% |
| phi-4 | 总计 | 1383 | 786 | 56.8% |
| hunyuan-standard | 总计 | 1383 | 785 | 56.8% |
| internlm2.5-7b-chat | 总计 | 1383 | 759 | 54.9% |
| hunyuan-lite | 总计 | 1383 | 752 | 54.4% |
| gemma-2-9b-it | 总计 | 1383 | 597 | 43.2% |
| meta-llama-3.1-8b-instruct | 总计 | 1383 | 506 | 36.6% |
4.2 政治理论成绩全排序
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 | 总token消耗 |
|---|---|---|---|---|---|
| doubao-1.5-pro | 政治理论 | 60 | 60 | 100.0% | 43551 |
| deepseek-r1 | 政治理论 | 60 | 60 | 100.0% | 78003 |
| deepseek-v3 | 政治理论 | 60 | 60 | 100.0% | 36306 |
| qwen2.5-72b-instruct | 政治理论 | 60 | 59 | 98.3% | 35662 |
| openai-gpt-4o | 政治理论 | 60 | 58 | 96.7% | 44706 |
| deepseek-r1-distill-qwen-32b | 政治理论 | 60 | 57 | 95.0% | 62339 |
| glm-4-plus | 政治理论 | 60 | 57 | 95.0% | 40360 |
| qwen2.5-32b-instruct | 政治理论 | 60 | 57 | 95.0% | 37829 |
| hunyuan-standard | 政治理论 | 60 | 57 | 95.0% | 31730 |
| hunyuan-pro | 政治理论 | 60 | 57 | 95.0% | 43456 |
| moonshot-v1-8k | 政治理论 | 60 | 56 | 93.3% | 24774 |
| yi-lightning | 政治理论 | 60 | 56 | 93.3% | 53295 |
| glm-zero-preview | 政治理论 | 60 | 56 | 93.3% | 30788 |
| qwen-qwq-32b-preview | 政治理论 | 60 | 56 | 93.3% | 84425 |
| glm-4-air | 政治理论 | 60 | 55 | 91.7% | 30631 |
| qwen2.5-14b-instruct | 政治理论 | 60 | 55 | 91.7% | 35790 |
| internlm2.5-20b-chat | 政治理论 | 60 | 53 | 88.3% | 60739 |
| minimax-text-01 | 政治理论 | 60 | 52 | 86.7% | 47255 |
| qwen2.5-7b-instruct | 政治理论 | 60 | 52 | 86.7% | 33516 |
| glm-4-flash | 政治理论 | 60 | 51 | 85.0% | 32404 |
| glm-4-9b-chat | 政治理论 | 60 | 51 | 85.0% | 34502 |
| deepseek-r1-distill-llama-70b | 政治理论 | 60 | 49 | 81.7% | 92063 |
| llama-3.3-70b | 政治理论 | 60 | 46 | 76.7% | 47452 |
| internlm2.5-7b-chat | 政治理论 | 60 | 46 | 76.7% | 56734 |
| openai-o1-mini | 政治理论 | 60 | 42 | 70.0% | 107582 |
| openai-gpt-4o-mini | 政治理论 | 60 | 42 | 70.0% | 37304 |
| hunyuan-lite | 政治理论 | 60 | 41 | 68.3% | 42336 |
| meta-llama-3.1-8b-instruct | 政治理论 | 60 | 36 | 60.0% | 61409 |
| doubao-1.5-lite.32k | 政治理论 | 60 | 35 | 58.3% | 29743 |
| phi-4 | 政治理论 | 60 | 31 | 51.7% | 86727 |
| gemma-2-9b-it | 政治理论 | 60 | 31 | 51.7% | 50327 |
| step-2-16k | 政治理论 | 60 | 24 | 40.0% | 20767 |
| step-2-mini | 政治理论 | 60 | 22 | 36.7% | 20729 |
4.3 常识判断成绩全排序
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 | 总token消耗 |
|---|---|---|---|---|---|
| deepseek-r1 | 常识判断 | 257 | 234 | 91.1% | 456501 |
| doubao-1.5-pro | 常识判断 | 257 | 229 | 89.1% | 211697 |
| qwen2.5-72b-instruct | 常识判断 | 257 | 208 | 80.9% | 178402 |
| qwen-qwq-32b-preview | 常识判断 | 257 | 208 | 80.9% | 426325 |
| hunyuan-pro | 常识判断 | 257 | 207 | 80.5% | 177500 |
| glm-4-plus | 常识判断 | 257 | 206 | 80.2% | 194773 |
| qwen2.5-32b-instruct | 常识判断 | 257 | 202 | 78.6% | 187407 |
| qwen2.5-14b-instruct | 常识判断 | 257 | 200 | 77.8% | 179334 |
| yi-lightning | 常识判断 | 257 | 199 | 77.4% | 258527 |
| deepseek-r1-distill-qwen-32b | 常识判断 | 257 | 198 | 77.0% | 349064 |
| glm-zero-preview | 常识判断 | 257 | 197 | 76.7% | 168331 |
| deepseek-v3 | 常识判断 | 257 | 193 | 75.1% | 173967 |
| openai-gpt-4o | 常识判断 | 257 | 191 | 74.3% | 191633 |
| minimax-text-01 | 常识判断 | 257 | 190 | 73.9% | 206926 |
| glm-4-air | 常识判断 | 257 | 187 | 72.8% | 161596 |
| qwen2.5-7b-instruct | 常识判断 | 257 | 183 | 71.2% | 170575 |
| moonshot-v1-8k | 常识判断 | 257 | 172 | 66.9% | 125742 |
| glm-4-flash | 常识判断 | 257 | 167 | 65.0% | 166545 |
| glm-4-9b-chat | 常识判断 | 257 | 167 | 65.0% | 155741 |
| internlm2.5-7b-chat | 常识判断 | 257 | 164 | 63.8% | 244327 |
| step-2-16k | 常识判断 | 257 | 158 | 61.5% | 193736 |
| llama-3.3-70b | 常识判断 | 257 | 155 | 60.3% | 232522 |
| internlm2.5-20b-chat | 常识判断 | 257 | 154 | 59.9% | 266328 |
| hunyuan-standard | 常识判断 | 257 | 154 | 59.9% | 180875 |
| openai-o1-mini | 常识判断 | 257 | 153 | 59.5% | 507022 |
| deepseek-r1-distill-llama-70b | 常识判断 | 257 | 153 | 59.5% | 499311 |
| openai-gpt-4o-mini | 常识判断 | 257 | 146 | 56.8% | 173715 |
| hunyuan-lite | 常识判断 | 257 | 144 | 56.0% | 174546 |
| step-2-mini | 常识判断 | 257 | 143 | 55.6% | 190018 |
| doubao-1.5-lite.32k | 常识判断 | 257 | 134 | 52.1% | 168004 |
| phi-4 | 常识判断 | 257 | 115 | 44.7% | 357220 |
| meta-llama-3.1-8b-instruct | 常识判断 | 257 | 86 | 33.5% | 247493 |
| gemma-2-9b-it | 常识判断 | 257 | 83 | 32.3% | 193647 |
4.4 言语理解成绩全排序
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 | 总token消耗 |
|---|---|---|---|---|---|
| doubao-1.5-pro | 言语理解 | 424 | 367 | 86.6% | 481656 |
| deepseek-r1 | 言语理解 | 424 | 366 | 86.3% | 922454 |
| hunyuan-pro | 言语理解 | 424 | 360 | 84.9% | 419058 |
| qwen2.5-72b-instruct | 言语理解 | 424 | 357 | 84.2% | 400779 |
| glm-4-plus | 言语理解 | 424 | 346 | 81.6% | 434956 |
| qwen2.5-32b-instruct | 言语理解 | 424 | 335 | 79.0% | 439983 |
| deepseek-v3 | 言语理解 | 424 | 334 | 78.8% | 354736 |
| qwen2.5-14b-instruct | 言语理解 | 424 | 328 | 77.4% | 437291 |
| moonshot-v1-8k | 言语理解 | 424 | 327 | 77.1% | 271512 |
| glm-zero-preview | 言语理解 | 424 | 327 | 77.1% | 418347 |
| qwen-qwq-32b-preview | 言语理解 | 424 | 327 | 77.1% | 874475 |
| glm-4-air | 言语理解 | 424 | 326 | 76.9% | 342668 |
| openai-gpt-4o | 言语理解 | 424 | 325 | 76.7% | 453776 |
| step-2-16k | 言语理解 | 424 | 324 | 76.4% | 513989 |
| minimax-text-01 | 言语理解 | 424 | 320 | 75.5% | 462601 |
| yi-lightning | 言语理解 | 424 | 319 | 75.2% | 532641 |
| doubao-1.5-lite.32k | 言语理解 | 424 | 318 | 75.0% | 387956 |
| deepseek-r1-distill-qwen-32b | 言语理解 | 424 | 315 | 74.3% | 683291 |
| qwen2.5-7b-instruct | 言语理解 | 424 | 310 | 73.1% | 381083 |
| llama-3.3-70b | 言语理解 | 424 | 308 | 72.6% | 471925 |
| openai-o1-mini | 言语理解 | 424 | 302 | 71.2% | 1007671 |
| glm-4-flash | 言语理解 | 424 | 298 | 70.3% | 380829 |
| hunyuan-lite | 言语理解 | 424 | 295 | 69.6% | 427302 |
| glm-4-9b-chat | 言语理解 | 424 | 293 | 69.1% | 366355 |
| openai-gpt-4o-mini | 言语理解 | 424 | 288 | 67.9% | 427527 |
| hunyuan-standard | 言语理解 | 424 | 285 | 67.2% | 426009 |
| step-2-mini | 言语理解 | 424 | 280 | 66.0% | 513016 |
| internlm2.5-7b-chat | 言语理解 | 424 | 280 | 66.0% | 506218 |
| phi-4 | 言语理解 | 424 | 274 | 64.6% | 719297 |
| internlm2.5-20b-chat | 言语理解 | 424 | 272 | 64.2% | 534773 |
| deepseek-r1-distill-llama-70b | 言语理解 | 424 | 266 | 62.7% | 857152 |
| gemma-2-9b-it | 言语理解 | 424 | 239 | 56.4% | 444963 |
| meta-llama-3.1-8b-instruct | 言语理解 | 424 | 165 | 38.9% | 474973 |
4.5 数量关系成绩全排序
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 | 总token消耗 |
|---|---|---|---|---|---|
| openai-o1-mini | 数量关系 | 170 | 147 | 86.5% | 660284 |
| deepseek-r1 | 数量关系 | 170 | 141 | 82.9% | 649275 |
| doubao-1.5-pro | 数量关系 | 170 | 137 | 80.6% | 436958 |
| deepseek-r1-distill-qwen-32b | 数量关系 | 170 | 133 | 78.2% | 748531 |
| qwen-qwq-32b-preview | 数量关系 | 170 | 126 | 74.1% | 811114 |
| deepseek-r1-distill-llama-70b | 数量关系 | 170 | 125 | 73.5% | 800344 |
| glm-4-plus | 数量关系 | 170 | 124 | 72.9% | 412889 |
| deepseek-v3 | 数量关系 | 170 | 114 | 67.1% | 341553 |
| hunyuan-pro | 数量关系 | 170 | 107 | 62.9% | 351469 |
| glm-zero-preview | 数量关系 | 170 | 105 | 61.8% | 564963 |
| doubao-1.5-lite.32k | 数量关系 | 170 | 101 | 59.4% | 422287 |
| yi-lightning | 数量关系 | 170 | 93 | 54.7% | 418164 |
| openai-gpt-4o | 数量关系 | 170 | 92 | 54.1% | 367401 |
| phi-4 | 数量关系 | 170 | 92 | 54.1% | 569789 |
| minimax-text-01 | 数量关系 | 170 | 91 | 53.5% | 279307 |
| step-2-16k | 数量关系 | 170 | 91 | 53.5% | 370763 |
| qwen2.5-72b-instruct | 数量关系 | 170 | 89 | 52.4% | 343168 |
| llama-3.3-70b | 数量关系 | 170 | 83 | 48.8% | 383520 |
| qwen2.5-32b-instruct | 数量关系 | 170 | 83 | 48.8% | 331473 |
| glm-4-air | 数量关系 | 170 | 78 | 45.9% | 536379 |
| openai-gpt-4o-mini | 数量关系 | 170 | 77 | 45.3% | 382970 |
| qwen2.5-14b-instruct | 数量关系 | 170 | 75 | 44.1% | 334684 |
| step-2-mini | 数量关系 | 170 | 73 | 42.9% | 471436 |
| moonshot-v1-8k | 数量关系 | 170 | 68 | 40.0% | 347584 |
| internlm2.5-20b-chat | 数量关系 | 170 | 64 | 37.6% | 427209 |
| qwen2.5-7b-instruct | 数量关系 | 170 | 62 | 36.5% | 334397 |
| hunyuan-standard | 数量关系 | 170 | 60 | 35.3% | 331449 |
| hunyuan-lite | 数量关系 | 170 | 59 | 34.7% | 372923 |
| glm-4-flash | 数量关系 | 170 | 57 | 33.5% | 606998 |
| glm-4-9b-chat | 数量关系 | 170 | 52 | 30.6% | 387846 |
| gemma-2-9b-it | 数量关系 | 170 | 50 | 29.4% | 276725 |
| internlm2.5-7b-chat | 数量关系 | 170 | 49 | 28.8% | 427168 |
| meta-llama-3.1-8b-instruct | 数量关系 | 170 | 43 | 25.3% | 486869 |
4.6 判断推理成绩全排序
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 | 总token消耗 |
|---|---|---|---|---|---|
| doubao-1.5-pro | 判断推理 | 408 | 331 | 81.1% | 649307 |
| deepseek-r1 | 判断推理 | 408 | 328 | 80.4% | 1137114 |
| hunyuan-pro | 判断推理 | 408 | 300 | 73.5% | 543619 |
| glm-4-plus | 判断推理 | 408 | 287 | 70.3% | 603233 |
| deepseek-r1-distill-qwen-32b | 判断推理 | 408 | 285 | 69.9% | 1042003 |
| openai-o1-mini | 判断推理 | 408 | 281 | 68.9% | 1245109 |
| openai-gpt-4o | 判断推理 | 408 | 280 | 68.6% | 685925 |
| qwen-qwq-32b-preview | 判断推理 | 408 | 277 | 67.9% | 1072001 |
| minimax-text-01 | 判断推理 | 408 | 275 | 67.4% | 563935 |
| deepseek-v3 | 判断推理 | 408 | 275 | 67.4% | 552628 |
| step-2-16k | 判断推理 | 408 | 271 | 66.4% | 656822 |
| doubao-1.5-lite.32k | 判断推理 | 408 | 270 | 66.2% | 560820 |
| qwen2.5-72b-instruct | 判断推理 | 408 | 269 | 65.9% | 600128 |
| glm-zero-preview | 判断推理 | 408 | 268 | 65.7% | 656952 |
| glm-4-air | 判断推理 | 408 | 260 | 63.7% | 514285 |
| qwen2.5-32b-instruct | 判断推理 | 408 | 258 | 63.2% | 626004 |
| yi-lightning | 判断推理 | 408 | 256 | 62.7% | 729572 |
| qwen2.5-14b-instruct | 判断推理 | 408 | 255 | 62.5% | 622716 |
| llama-3.3-70b | 判断推理 | 408 | 251 | 61.5% | 677840 |
| deepseek-r1-distill-llama-70b | 判断推理 | 408 | 243 | 59.6% | 1240059 |
| step-2-mini | 判断推理 | 408 | 239 | 58.6% | 636270 |
| glm-4-9b-chat | 判断推理 | 408 | 239 | 58.6% | 524606 |
| moonshot-v1-8k | 判断推理 | 408 | 232 | 56.9% | 442614 |
| phi-4 | 判断推理 | 408 | 229 | 56.1% | 1111992 |
| glm-4-flash | 判断推理 | 408 | 226 | 55.4% | 534496 |
| openai-gpt-4o-mini | 判断推理 | 408 | 223 | 54.7% | 652205 |
| qwen2.5-7b-instruct | 判断推理 | 408 | 217 | 53.2% | 597043 |
| internlm2.5-20b-chat | 判断推理 | 408 | 216 | 52.9% | 661131 |
| hunyuan-standard | 判断推理 | 408 | 209 | 51.2% | 668021 |
| internlm2.5-7b-chat | 判断推理 | 408 | 193 | 47.3% | 644003 |
| hunyuan-lite | 判断推理 | 408 | 190 | 46.6% | 615133 |
| gemma-2-9b-it | 判断推理 | 408 | 172 | 42.2% | 585699 |
| meta-llama-3.1-8b-instruct | 判断推理 | 408 | 158 | 38.7% | 717298 |
4.7 资料分析成绩全排序
| 模型名 | 题目类别 | 总题目数量 | 做对题数 | 正确率 | 总token消耗 |
|---|---|---|---|---|---|
| deepseek-r1 | 资料分析 | 64 | 62 | 96.9% | 209169 |
| deepseek-r1-distill-qwen-32b | 资料分析 | 64 | 59 | 92.2% | 174384 |
| qwen-qwq-32b-preview | 资料分析 | 64 | 58 | 90.6% | 201632 |
| openai-o1-mini | 资料分析 | 64 | 57 | 89.1% | 204159 |
| doubao-1.5-pro | 资料分析 | 64 | 55 | 85.9% | 155148 |
| glm-zero-preview | 资料分析 | 64 | 55 | 85.9% | 128723 |
| glm-4-plus | 资料分析 | 64 | 52 | 81.3% | 114896 |
| deepseek-r1-distill-llama-70b | 资料分析 | 64 | 52 | 81.3% | 220547 |
| qwen2.5-72b-instruct | 资料分析 | 64 | 51 | 79.7% | 120734 |
| deepseek-v3 | 资料分析 | 64 | 51 | 79.7% | 99185 |
| minimax-text-01 | 资料分析 | 64 | 48 | 75.0% | 96040 |
| yi-lightning | 资料分析 | 64 | 48 | 75.0% | 139924 |
| hunyuan-pro | 资料分析 | 64 | 48 | 75.0% | 107411 |
| step-2-16k | 资料分析 | 64 | 48 | 75.0% | 132394 |
| openai-gpt-4o | 资料分析 | 64 | 46 | 71.9% | 115993 |
| doubao-1.5-lite.32k | 资料分析 | 64 | 46 | 71.9% | 146939 |
| phi-4 | 资料分析 | 64 | 45 | 70.3% | 168091 |
| qwen2.5-14b-instruct | 资料分析 | 64 | 45 | 70.3% | 113001 |
| glm-4-air | 资料分析 | 64 | 44 | 68.8% | 110327 |
| qwen2.5-32b-instruct | 资料分析 | 64 | 44 | 68.8% | 119173 |
| llama-3.3-70b | 资料分析 | 64 | 41 | 64.1% | 117593 |
| step-2-mini | 资料分析 | 64 | 41 | 64.1% | 123830 |
| openai-gpt-4o-mini | 资料分析 | 64 | 38 | 59.4% | 110307 |
| glm-4-9b-chat | 资料分析 | 64 | 36 | 56.3% | 101235 |
| glm-4-flash | 资料分析 | 64 | 35 | 54.7% | 102879 |
| internlm2.5-20b-chat | 资料分析 | 64 | 30 | 46.9% | 125186 |
| qwen2.5-7b-instruct | 资料分析 | 64 | 30 | 46.9% | 111683 |
| moonshot-v1-8k | 资料分析 | 64 | 28 | 43.8% | 103263 |
| internlm2.5-7b-chat | 资料分析 | 64 | 27 | 42.2% | 109415 |
| hunyuan-lite | 资料分析 | 64 | 23 | 35.9% | 126190 |
| gemma-2-9b-it | 资料分析 | 64 | 22 | 34.4% | 105080 |
| hunyuan-standard | 资料分析 | 64 | 20 | 31.3% | 123099 |
| meta-llama-3.1-8b-instruct | 资料分析 | 64 | 18 | 28.1% | 118531 |