笔者让目前市面上主流的大模型来做公务员考试行测真题,来尝试从一个侧面观察大模型的综合能力。在让30多个大模型各做了一千多道行测题后,笔者发现了一些比较有意思的线索(非专业大模型研究者,观点仅供参考):

  • Deepseek-R1确是真神,总分第一并在所有科目中均排到前2,相对于其他大多数大模型,甚至其基础模型Deepseek-V3来说都具有极大的优势;
  • 虽然热度平平,但豆包大模型(仅限pro版)已经具备了很强的实力,在行测任务中成绩优异,令人刮目相看;
  • 各家模型的在行测数学能力方面,最近半年都有很大的提升(相比于知乎网友在24年8月行测方面的评测);
  • 有的模型很懂政治(豆包pro和Deepseek-V3/R1均做到满分),有的模型很懂封杀……(step-2系列超过一半的政治题都因为内容审查而拒绝作答);
  • 通过强化学习来赋予模型深度思考能力这条路,在综合能力上确实有很优秀的表现,但从各家模型的总体表现来看似乎并不总是银弹:
    • 深度思考大模型,在综合表现上全部超过了基础模型(glm-zero-preview除外),甚至说通过R1蒸馏这种外挂式增强的Qwen2.5-32B模型综合表现都超过了原始的Qwen2.5-72B;
    • 在言语理解等一些题型里面,具备深度思考能力的很多模型相对于基础模型都退步了,即便是o1-mini在这方面也远远落后于gpt-4o,
    • 然而,Deepseek-R1确实在所有科目上表现都超过了Deepseek-V3且有极大提升,原因目前我也没想清楚;
  • 低于32B的小模型在行测中表现不佳。看起来尺寸较小不管怎么折腾,即使各个评测数据集上成绩刷到飞起,在考察综合能力的时候也很难有特别亮眼的表现;

以下正文;)

1. 背景介绍

1.1 为什么要做这个评测

  • 原因1: 春节在家走亲戚太无聊了,需要找点有意思的事儿对冲一下;
  • 原因2: 大模型能力的评测一直是一个业界难题。与其说它是一个问题,倒不如说是一个博弈,因为任何在公众领域公开的数据集,必然面临刷分的问题。半年前我们在做大模型测试用例生成的时候,内部搞了一些测试集与公开的Coding类benchmark进行对比,就发现几乎市面上所有的公开benchmark都几乎无法准确反映模型的代码能力(lmarena除外)

年前Deepseek一举爆红,笔者跟朋友也在尝试用各种方法评测Deepseek等新模型的能力。周围有不少朋友在考公(坐标猜猜?),有时候发一些题目给大模型,结果我们发现不少行测题即使是Deepseek V3/R1也很难正确解答。正好笔者春节在家无聊,一时兴起,想着说那不如爬一些行测题目来做一个测试集,摸排一下市面上大模型,尤其是最近半年的新模型,综合能力到底如何?

公务员行测题目都是选择题,做起来方便,判卷也容易。同时考察的范围非常综合,既包含常识知识和政治,也有数学推理和资料分析,同时其中很多题目对考生的抽象能力又有一定要求。笔者觉得是评价大模型能力的一个相对比较全面的方法。

1.2 数据来源和准备工作

太长不放,这里的README详细介绍了数据来源和收集过程。简单来说就是24-25年几个题目比较难的重点省份和国考的行测真题,同时将涉及图片信息的一律去掉,经过简单的筛选之后总共得到六大类题型(政治理论、常识判断、言语理解、数量关系、判断推理、资料分析)共计1383道题目。

1.3 参与评测的有哪些模型

选取在我自己工作中使用过认为表现相对较好的开源模型(通义千问系列,Llama系列,Deepseek系列,浦语,GLM部分开源模型等)和闭源模型(Openai,豆包,混元,月之暗面,零一万物,阶跃星辰,MiniMax等。以国内厂商的大模型为主,一方面是因为海外的大模型不太懂政治(结果Gpt-4o打我脸了,告诉我海外模型也很懂政治!);另一方面是近半年来国外的大模型确实没那么香了,不必投入那么多精力和💲。

另外如果模型系列有类o1的内生思维链推理的版本,这里均纳入评测(如Deepseek-R1,QwQ,o1-mini,glm-zero等,o3-mini目前没弄到API就没放进去,p.s. 思维链好是好,就是tokens太贵了……)在评测过程中,商用闭源模型均采用官方API(Deepseek由于官网服务不稳定,使用Siliconflow✖️华为昇腾提供的API,后期该API限流之后改用Deepinfra),其他开源模型均使用Siliconflow或Deepinfra提供的API。总计成本约1000+RMB。

p.s. Siliconflow的R1 API简直太卡了,是因为R1现在太火爆嘛?

纳入评测的模型详细清单如下(顺序随机排列,看心情;),共计33个模型:

模型系列 模型名 备注
阿里通义千问 Qwen-2.5-7B 开源
  Qwen-2.5-14B 开源
  Qwen-2.5-32B 开源
  Qwen-2.5-72B 开源
  Qwen-QwQ-32B-Preview 类o1推理强化模型,开源
深度求索 DeepSeek-V3 开源
  DeepSeek-R1 类o1推理强化模型,开源
  DeepSeek-R1-distill-llama-70b 蒸馏类o1推理强化模型,开源
  DeepSeek-R1-distill-qwen-32b 蒸馏类o1推理强化模型,开源
智谱glm glm-4-plus 闭源
  glm-4-air 闭源
  glm-4-flash 闭源
  glm-zero-preview 类o1推理强化模型,闭源
  glm-4-9b-chat 开源
月之暗面 moonshot-v1-8k 闭源
字节豆包 doubao-1.5-pro-32k 闭源
  doubao-1.5-lite-32k 闭源
腾讯混元 hunyuan-pro 闭源
  hunyuan-standard 闭源
  hunyuan-lite 闭源
零一万物 yi-lightning 闭源
阶跃星辰 step-2-16k 闭源
  step-2-mini 闭源
书生浦语 internlm2.5-7b-chat 开源
  internlm2.5-20b-chat 开源
Minimax minimax-text-01 闭源
Openai gpt-4o 闭源
  gpt-4o-mini 闭源
  o1-mini o1(本尊)推理强化模型,闭源
Meta Llama Llama-3.1-8B 开源
  Llama-3.3-70B 开源
Microsoft phi-4 开源
Google gemma-2-9b-it 开源

2. 测评结果简单总结

2.1 总体答题情况

在知乎网友在24年8月做的评测中,参与评测的大模型整体正确率在65%-75%之间。仅仅过了半年,就有多家大模型的正确率突破了75%,最高的甚至达到了85%,可见大模型能力进步之神速。

这里的表格列出了所有平均正确率超过了75%的大模型,得分从高到低排序(要不然列的太多了也看不过来,文章后边会附上完整的排序表格)。至于为什么只看超过75%的,主要是因为身边考公的朋友说正确率超过75%就已经属于进面相对比较稳的范畴,到85%+已经算是考公天才了(狗头)。

模型名称 题目类别 总题目数量 做对题数 正确率 排名
deepseek-r1 总计 1383 1191 86.1% 1
doubao-1.5-pro 总计 1383 1179 85.2% 2
hunyuan-pro 总计 1383 1079 78.0% 3
glm-4-plus 总计 1383 1072 77.5% 4
qwen-qwq-32b-preview 总计 1383 1052 76.1% 5
deepseek-r1-distill-qwen-32b 总计 1383 1047 75.7% 6

从这里可以看出支持深度思考的模型有非常出色的表现。两个基于Qwen2.5-32B进行深度思考强化的模型 正确率都超过了75%,而Qwen2.5-72B并没有达到这个分数。另外若干家闭源的旗舰模型也都达到了相当可观的分数。

不过整体来看,Deepseek-R1和豆包Pro与其他模型能够拉开相当大的差距。

2.2 政治理论部分

政治理论是2025年新加入的题型,因此总共只有60道题目。以前的相关内容零散分布在常识判断模块中。所处的题目和考点基本围绕总书记讲话和党建理论展开。因此这部分题型可以评价模型在中国政治方面的背景知识,同时从拒绝回答的角度来看,可以评价模型的内容审计与拒绝策略是否合理。

由于政治理论题目一半的模型得分都超过了90%,这里我们仅列出前五名,总表我会放在文末。现在的AI很懂政治啊;)

模型名 题目类别 总题目数量 做对题数 正确率
doubao-1.5-pro 政治理论 60 60 100.0%
deepseek-r1 政治理论 60 60 100.0%
deepseek-v3 政治理论 60 60 100.0%
qwen2.5-72b-instruct 政治理论 60 59 98.3%
openai-gpt-4o 政治理论 60 58 96.7%

另外比较有趣的是,在政治理论题目的答题过程中,阶跃星辰的Step-2-16k和Step-2-mini这两个模型均因为内容审核不通过拒绝作答大多数题目(均拒绝33道题,占比超过一半,两个模型看上去共享同一个内容审核策略),成为虽然不一定最懂政治,但一定最懂封杀的模型。

2.3 常识判断部分

这部分主要考察背景知识是否丰富。所以理论上训练语料更丰富的模型应该能够的到更高的分数。这里Deepseek R1和豆包Pro断崖式领先,比其他模型超超出接近10%。下面的表格列出了前10名,但其实3-10名并没有拉开很大的差距。

模型名 题目类别 总题目数量 做对题数 正确率
deepseek-r1 常识判断 257 234 91.1%
doubao-1.5-pro 常识判断 257 229 89.1%
qwen2.5-72b-instruct 常识判断 257 208 80.9%
qwen-qwq-32b-preview 常识判断 257 208 80.9%
hunyuan-pro 常识判断 257 207 80.5%
glm-4-plus 常识判断 257 206 80.2%
qwen2.5-32b-instruct 常识判断 257 202 78.6%
qwen2.5-14b-instruct 常识判断 257 200 77.8%
yi-lightning 常识判断 257 199 77.4%
deepseek-r1-distill-qwen-32b 常识判断 257 198 77.0%

2.4 言语理解部分

言语理解包含逻辑填空,短文阅读理解,语句表达等题型,主要考察对文字内容的理解能力。在这部分Deepseek R1和豆包仍然交替领先。一个比较有趣的发现是,大多数类o1的深度思考模型在这部分表现都不佳(例如,qwq和r1蒸馏的qwen2.5-32b均远远落后于原始的qwen2.5-32b模型,glm-zero也落后于glm-plus甚至比qwen2.5-14b更差,o1-mini更是排到了20名开外)。

这个观察与之前知乎网友段小草的评测中所提到的(CoT会导致模型言语理解能力下降)的观察基本符合。但是黑马仍旧出现了,Deepseek R1的表现远远超出它的基础模型Deepseek V3。这里面的原理到底是什么,跟R1的RL训练方式有什么关系?我自己不是LLM方面的专家,还需要蹲一个有缘人来解释下;)

模型名 题目类别 总题目数量 做对题数 正确率
doubao-1.5-pro 言语理解 424 367 86.6%
deepseek-r1 言语理解 424 366 86.3%
hunyuan-pro 言语理解 424 360 84.9%
qwen2.5-72b-instruct 言语理解 424 357 84.2%
glm-4-plus 言语理解 424 346 81.6%
qwen2.5-32b-instruct 言语理解 424 335 79.0%
deepseek-v3 言语理解 424 334 78.8%
qwen2.5-14b-instruct 言语理解 424 328 77.4%
moonshot-v1-8k 言语理解 424 327 77.1%
glm-zero-preview 言语理解 424 327 77.1%

2.5 数量关系部分

数量关系是类o1(以及本尊)的深度思考模型的天下,即使是R1蒸馏的小模型也普遍有比较好的正确率,相对于半年前的评测有了长足的进步。o1-mini在这方面仍然领先,但更加意外的是豆包pro作为一个非深度思考模型仍然做到了很高的正确率(前5名中其他全部是类o1模型),体现出了很强的数学能力。

模型名 题目类别 总题目数量 做对题数 正确率
openai-o1-mini 数量关系 170 147 86.5%
deepseek-r1 数量关系 170 141 82.9%
doubao-1.5-pro 数量关系 170 137 80.6%
deepseek-r1-distill-qwen-32b 数量关系 170 133 78.2%
qwen-qwq-32b-preview 数量关系 170 126 74.1%
deepseek-r1-distill-llama-70b 数量关系 170 125 73.5%
glm-4-plus 数量关系 170 124 72.9%
deepseek-v3 数量关系 170 114 67.1%
hunyuan-pro 数量关系 170 107 62.9%
glm-zero-preview 数量关系 170 105 61.8%

2.6 判断推理部分

判断推理题目中,豆包pro和Deepseek R1仍然有不相伯仲的成绩(这话我都说累了!)并且能跟其他模型拉开相当大的差距。

模型名 题目类别 总题目数量 做对题数 正确率
doubao-1.5-pro 判断推理 408 331 81.1%
deepseek-r1 判断推理 408 328 80.4%
hunyuan-pro 判断推理 408 300 73.5%
glm-4-plus 判断推理 408 287 70.3%
deepseek-r1-distill-qwen-32b 判断推理 408 285 69.9%
openai-o1-mini 判断推理 408 281 68.9%
openai-gpt-4o 判断推理 408 280 68.6%
qwen-qwq-32b-preview 判断推理 408 277 67.9%
minimax-text-01 判断推理 408 275 67.4%
deepseek-v3 判断推理 408 275 67.4%

2.7 资料分析部分

资料分析类题目通常是给定一段图文资料(这里参与评测的题目都是纯文字背景资料),主要考查的是对复杂资料的综合理解与分析加工能力,以及一部分速算能力(有时候需要根据资料中的公式计算结果)。由于带图形的题目都被筛掉了,因此这部分只留下64道题目。

在这部分中,前4名均为支持深度思考的推理强化模型,且与第5名(豆包pro)拉开一定的差距。并且所有模型系列中,支持深度思考的模型均碾压同系列其他模型(例如,Deepseek R1 » V3, Qwen QwQ » 72B, glm-zero » glm-4-plus, …)可见对于资料的深度理解和分析方面,深度思考有很大的提升。

模型名 题目类别 总题目数量 做对题数 正确率
deepseek-r1 资料分析 64 62 96.9%
deepseek-r1-distill-qwen-32b 资料分析 64 59 92.2%
qwen-qwq-32b-preview 资料分析 64 58 90.6%
openai-o1-mini 资料分析 64 57 89.1%
doubao-1.5-pro 资料分析 64 55 85.9%
glm-zero-preview 资料分析 64 55 85.9%
glm-4-plus 资料分析 64 52 81.3%
deepseek-r1-distill-llama-70b 资料分析 64 52 81.3%
qwen2.5-72b-instruct 资料分析 64 51 79.7%
deepseek-v3 资料分析 64 51 79.7%

3. 一些有意思的观察

3.1 深度思考(或者说运行时推理)是否一定更智能

综合来看,针对深度推理强化过的模型(QwQ,o1等,后续我们简称为类o1模型)表现出了较大的优势。

但是,在言语理解类的题目中,类o1模型大多数翻车(除了R1之外)。在笔者认为,这体现出:思考固然很重要,但判断何时应该深度思考,何时应该相信直觉也许更加重要。从技术角度出发,也许我们需要让大模型具备针对不同的问题设置不同的思考方式的能力。正如人在社会中生存,面对技术问题和政治问题的思考方式就是截然不同的。

另外相比于基础模型而言,深度推理模型普遍带来了很大的tokens开销(接近翻番),是否总是需要这么多的推理开销,能不能灵活控制推理长度和成本也是个值得探讨的问题。

3.2 知识蒸馏带来的能力提升的不确定性

Deepseek 通过R1的知识蒸馏对多个模型进行强化。但其效果差距却很大,Llama-3-70b在强化后,整体表现的提升仅从63.9%提升到了64.2%,难兄难弟了可以说。但是对Qwen2.5-32B的强化却取得了非常好的效果,强化之后的模型甚至超越了Qwen2.5-72B。从另一个侧面看,同样是在Qwen2.5-32B的基础上进行深度思考微调,Qwen-QwQ-Preview也达到了非常接近的效果(总成绩一个75.7%一个74.7%),让人不禁猜想是不是这种深度思考微调的上限很大程度上取决于基础模型本身。

4. 完整测试数据表格

4.1 总成绩全排序

模型名 题目类别 总题目数量 做对题数 正确率
deepseek-r1 总计 1383 1191 86.1%
doubao-1.5-pro 总计 1383 1179 85.2%
hunyuan-pro 总计 1383 1079 78.0%
glm-4-plus 总计 1383 1072 77.5%
qwen-qwq-32b-preview 总计 1383 1052 76.1%
deepseek-r1-distill-qwen-32b 总计 1383 1047 75.7%
qwen2.5-72b-instruct 总计 1383 1033 74.7%
deepseek-v3 总计 1383 1027 74.3%
glm-zero-preview 总计 1383 1008 72.9%
openai-gpt-4o 总计 1383 992 71.7%
openai-o1-mini 总计 1383 982 71.0%
qwen2.5-32b-instruct 总计 1383 979 70.8%
minimax-text-01 总计 1383 976 70.6%
yi-lightning 总计 1383 971 70.2%
qwen2.5-14b-instruct 总计 1383 958 69.3%
glm-4-air 总计 1383 950 68.7%
step-2-16k 总计 1383 916 66.2%
doubao-1.5-lite.32k 总计 1383 904 65.4%
deepseek-r1-distill-llama-70b 总计 1383 888 64.2%
llama-3.3-70b 总计 1383 884 63.9%
moonshot-v1-8k 总计 1383 883 63.8%
qwen2.5-7b-instruct 总计 1383 854 61.7%
glm-4-9b-chat 总计 1383 838 60.6%
glm-4-flash 总计 1383 834 60.3%
openai-gpt-4o-mini 总计 1383 814 58.9%
step-2-mini 总计 1383 798 57.7%
internlm2.5-20b-chat 总计 1383 789 57.0%
phi-4 总计 1383 786 56.8%
hunyuan-standard 总计 1383 785 56.8%
internlm2.5-7b-chat 总计 1383 759 54.9%
hunyuan-lite 总计 1383 752 54.4%
gemma-2-9b-it 总计 1383 597 43.2%
meta-llama-3.1-8b-instruct 总计 1383 506 36.6%

4.2 政治理论成绩全排序

模型名 题目类别 总题目数量 做对题数 正确率 总token消耗
doubao-1.5-pro 政治理论 60 60 100.0% 43551
deepseek-r1 政治理论 60 60 100.0% 78003
deepseek-v3 政治理论 60 60 100.0% 36306
qwen2.5-72b-instruct 政治理论 60 59 98.3% 35662
openai-gpt-4o 政治理论 60 58 96.7% 44706
deepseek-r1-distill-qwen-32b 政治理论 60 57 95.0% 62339
glm-4-plus 政治理论 60 57 95.0% 40360
qwen2.5-32b-instruct 政治理论 60 57 95.0% 37829
hunyuan-standard 政治理论 60 57 95.0% 31730
hunyuan-pro 政治理论 60 57 95.0% 43456
moonshot-v1-8k 政治理论 60 56 93.3% 24774
yi-lightning 政治理论 60 56 93.3% 53295
glm-zero-preview 政治理论 60 56 93.3% 30788
qwen-qwq-32b-preview 政治理论 60 56 93.3% 84425
glm-4-air 政治理论 60 55 91.7% 30631
qwen2.5-14b-instruct 政治理论 60 55 91.7% 35790
internlm2.5-20b-chat 政治理论 60 53 88.3% 60739
minimax-text-01 政治理论 60 52 86.7% 47255
qwen2.5-7b-instruct 政治理论 60 52 86.7% 33516
glm-4-flash 政治理论 60 51 85.0% 32404
glm-4-9b-chat 政治理论 60 51 85.0% 34502
deepseek-r1-distill-llama-70b 政治理论 60 49 81.7% 92063
llama-3.3-70b 政治理论 60 46 76.7% 47452
internlm2.5-7b-chat 政治理论 60 46 76.7% 56734
openai-o1-mini 政治理论 60 42 70.0% 107582
openai-gpt-4o-mini 政治理论 60 42 70.0% 37304
hunyuan-lite 政治理论 60 41 68.3% 42336
meta-llama-3.1-8b-instruct 政治理论 60 36 60.0% 61409
doubao-1.5-lite.32k 政治理论 60 35 58.3% 29743
phi-4 政治理论 60 31 51.7% 86727
gemma-2-9b-it 政治理论 60 31 51.7% 50327
step-2-16k 政治理论 60 24 40.0% 20767
step-2-mini 政治理论 60 22 36.7% 20729

4.3 常识判断成绩全排序

模型名 题目类别 总题目数量 做对题数 正确率 总token消耗
deepseek-r1 常识判断 257 234 91.1% 456501
doubao-1.5-pro 常识判断 257 229 89.1% 211697
qwen2.5-72b-instruct 常识判断 257 208 80.9% 178402
qwen-qwq-32b-preview 常识判断 257 208 80.9% 426325
hunyuan-pro 常识判断 257 207 80.5% 177500
glm-4-plus 常识判断 257 206 80.2% 194773
qwen2.5-32b-instruct 常识判断 257 202 78.6% 187407
qwen2.5-14b-instruct 常识判断 257 200 77.8% 179334
yi-lightning 常识判断 257 199 77.4% 258527
deepseek-r1-distill-qwen-32b 常识判断 257 198 77.0% 349064
glm-zero-preview 常识判断 257 197 76.7% 168331
deepseek-v3 常识判断 257 193 75.1% 173967
openai-gpt-4o 常识判断 257 191 74.3% 191633
minimax-text-01 常识判断 257 190 73.9% 206926
glm-4-air 常识判断 257 187 72.8% 161596
qwen2.5-7b-instruct 常识判断 257 183 71.2% 170575
moonshot-v1-8k 常识判断 257 172 66.9% 125742
glm-4-flash 常识判断 257 167 65.0% 166545
glm-4-9b-chat 常识判断 257 167 65.0% 155741
internlm2.5-7b-chat 常识判断 257 164 63.8% 244327
step-2-16k 常识判断 257 158 61.5% 193736
llama-3.3-70b 常识判断 257 155 60.3% 232522
internlm2.5-20b-chat 常识判断 257 154 59.9% 266328
hunyuan-standard 常识判断 257 154 59.9% 180875
openai-o1-mini 常识判断 257 153 59.5% 507022
deepseek-r1-distill-llama-70b 常识判断 257 153 59.5% 499311
openai-gpt-4o-mini 常识判断 257 146 56.8% 173715
hunyuan-lite 常识判断 257 144 56.0% 174546
step-2-mini 常识判断 257 143 55.6% 190018
doubao-1.5-lite.32k 常识判断 257 134 52.1% 168004
phi-4 常识判断 257 115 44.7% 357220
meta-llama-3.1-8b-instruct 常识判断 257 86 33.5% 247493
gemma-2-9b-it 常识判断 257 83 32.3% 193647

4.4 言语理解成绩全排序

模型名 题目类别 总题目数量 做对题数 正确率 总token消耗
doubao-1.5-pro 言语理解 424 367 86.6% 481656
deepseek-r1 言语理解 424 366 86.3% 922454
hunyuan-pro 言语理解 424 360 84.9% 419058
qwen2.5-72b-instruct 言语理解 424 357 84.2% 400779
glm-4-plus 言语理解 424 346 81.6% 434956
qwen2.5-32b-instruct 言语理解 424 335 79.0% 439983
deepseek-v3 言语理解 424 334 78.8% 354736
qwen2.5-14b-instruct 言语理解 424 328 77.4% 437291
moonshot-v1-8k 言语理解 424 327 77.1% 271512
glm-zero-preview 言语理解 424 327 77.1% 418347
qwen-qwq-32b-preview 言语理解 424 327 77.1% 874475
glm-4-air 言语理解 424 326 76.9% 342668
openai-gpt-4o 言语理解 424 325 76.7% 453776
step-2-16k 言语理解 424 324 76.4% 513989
minimax-text-01 言语理解 424 320 75.5% 462601
yi-lightning 言语理解 424 319 75.2% 532641
doubao-1.5-lite.32k 言语理解 424 318 75.0% 387956
deepseek-r1-distill-qwen-32b 言语理解 424 315 74.3% 683291
qwen2.5-7b-instruct 言语理解 424 310 73.1% 381083
llama-3.3-70b 言语理解 424 308 72.6% 471925
openai-o1-mini 言语理解 424 302 71.2% 1007671
glm-4-flash 言语理解 424 298 70.3% 380829
hunyuan-lite 言语理解 424 295 69.6% 427302
glm-4-9b-chat 言语理解 424 293 69.1% 366355
openai-gpt-4o-mini 言语理解 424 288 67.9% 427527
hunyuan-standard 言语理解 424 285 67.2% 426009
step-2-mini 言语理解 424 280 66.0% 513016
internlm2.5-7b-chat 言语理解 424 280 66.0% 506218
phi-4 言语理解 424 274 64.6% 719297
internlm2.5-20b-chat 言语理解 424 272 64.2% 534773
deepseek-r1-distill-llama-70b 言语理解 424 266 62.7% 857152
gemma-2-9b-it 言语理解 424 239 56.4% 444963
meta-llama-3.1-8b-instruct 言语理解 424 165 38.9% 474973

4.5 数量关系成绩全排序

模型名 题目类别 总题目数量 做对题数 正确率 总token消耗
openai-o1-mini 数量关系 170 147 86.5% 660284
deepseek-r1 数量关系 170 141 82.9% 649275
doubao-1.5-pro 数量关系 170 137 80.6% 436958
deepseek-r1-distill-qwen-32b 数量关系 170 133 78.2% 748531
qwen-qwq-32b-preview 数量关系 170 126 74.1% 811114
deepseek-r1-distill-llama-70b 数量关系 170 125 73.5% 800344
glm-4-plus 数量关系 170 124 72.9% 412889
deepseek-v3 数量关系 170 114 67.1% 341553
hunyuan-pro 数量关系 170 107 62.9% 351469
glm-zero-preview 数量关系 170 105 61.8% 564963
doubao-1.5-lite.32k 数量关系 170 101 59.4% 422287
yi-lightning 数量关系 170 93 54.7% 418164
openai-gpt-4o 数量关系 170 92 54.1% 367401
phi-4 数量关系 170 92 54.1% 569789
minimax-text-01 数量关系 170 91 53.5% 279307
step-2-16k 数量关系 170 91 53.5% 370763
qwen2.5-72b-instruct 数量关系 170 89 52.4% 343168
llama-3.3-70b 数量关系 170 83 48.8% 383520
qwen2.5-32b-instruct 数量关系 170 83 48.8% 331473
glm-4-air 数量关系 170 78 45.9% 536379
openai-gpt-4o-mini 数量关系 170 77 45.3% 382970
qwen2.5-14b-instruct 数量关系 170 75 44.1% 334684
step-2-mini 数量关系 170 73 42.9% 471436
moonshot-v1-8k 数量关系 170 68 40.0% 347584
internlm2.5-20b-chat 数量关系 170 64 37.6% 427209
qwen2.5-7b-instruct 数量关系 170 62 36.5% 334397
hunyuan-standard 数量关系 170 60 35.3% 331449
hunyuan-lite 数量关系 170 59 34.7% 372923
glm-4-flash 数量关系 170 57 33.5% 606998
glm-4-9b-chat 数量关系 170 52 30.6% 387846
gemma-2-9b-it 数量关系 170 50 29.4% 276725
internlm2.5-7b-chat 数量关系 170 49 28.8% 427168
meta-llama-3.1-8b-instruct 数量关系 170 43 25.3% 486869

4.6 判断推理成绩全排序

模型名 题目类别 总题目数量 做对题数 正确率 总token消耗
doubao-1.5-pro 判断推理 408 331 81.1% 649307
deepseek-r1 判断推理 408 328 80.4% 1137114
hunyuan-pro 判断推理 408 300 73.5% 543619
glm-4-plus 判断推理 408 287 70.3% 603233
deepseek-r1-distill-qwen-32b 判断推理 408 285 69.9% 1042003
openai-o1-mini 判断推理 408 281 68.9% 1245109
openai-gpt-4o 判断推理 408 280 68.6% 685925
qwen-qwq-32b-preview 判断推理 408 277 67.9% 1072001
minimax-text-01 判断推理 408 275 67.4% 563935
deepseek-v3 判断推理 408 275 67.4% 552628
step-2-16k 判断推理 408 271 66.4% 656822
doubao-1.5-lite.32k 判断推理 408 270 66.2% 560820
qwen2.5-72b-instruct 判断推理 408 269 65.9% 600128
glm-zero-preview 判断推理 408 268 65.7% 656952
glm-4-air 判断推理 408 260 63.7% 514285
qwen2.5-32b-instruct 判断推理 408 258 63.2% 626004
yi-lightning 判断推理 408 256 62.7% 729572
qwen2.5-14b-instruct 判断推理 408 255 62.5% 622716
llama-3.3-70b 判断推理 408 251 61.5% 677840
deepseek-r1-distill-llama-70b 判断推理 408 243 59.6% 1240059
step-2-mini 判断推理 408 239 58.6% 636270
glm-4-9b-chat 判断推理 408 239 58.6% 524606
moonshot-v1-8k 判断推理 408 232 56.9% 442614
phi-4 判断推理 408 229 56.1% 1111992
glm-4-flash 判断推理 408 226 55.4% 534496
openai-gpt-4o-mini 判断推理 408 223 54.7% 652205
qwen2.5-7b-instruct 判断推理 408 217 53.2% 597043
internlm2.5-20b-chat 判断推理 408 216 52.9% 661131
hunyuan-standard 判断推理 408 209 51.2% 668021
internlm2.5-7b-chat 判断推理 408 193 47.3% 644003
hunyuan-lite 判断推理 408 190 46.6% 615133
gemma-2-9b-it 判断推理 408 172 42.2% 585699
meta-llama-3.1-8b-instruct 判断推理 408 158 38.7% 717298

4.7 资料分析成绩全排序

模型名 题目类别 总题目数量 做对题数 正确率 总token消耗
deepseek-r1 资料分析 64 62 96.9% 209169
deepseek-r1-distill-qwen-32b 资料分析 64 59 92.2% 174384
qwen-qwq-32b-preview 资料分析 64 58 90.6% 201632
openai-o1-mini 资料分析 64 57 89.1% 204159
doubao-1.5-pro 资料分析 64 55 85.9% 155148
glm-zero-preview 资料分析 64 55 85.9% 128723
glm-4-plus 资料分析 64 52 81.3% 114896
deepseek-r1-distill-llama-70b 资料分析 64 52 81.3% 220547
qwen2.5-72b-instruct 资料分析 64 51 79.7% 120734
deepseek-v3 资料分析 64 51 79.7% 99185
minimax-text-01 资料分析 64 48 75.0% 96040
yi-lightning 资料分析 64 48 75.0% 139924
hunyuan-pro 资料分析 64 48 75.0% 107411
step-2-16k 资料分析 64 48 75.0% 132394
openai-gpt-4o 资料分析 64 46 71.9% 115993
doubao-1.5-lite.32k 资料分析 64 46 71.9% 146939
phi-4 资料分析 64 45 70.3% 168091
qwen2.5-14b-instruct 资料分析 64 45 70.3% 113001
glm-4-air 资料分析 64 44 68.8% 110327
qwen2.5-32b-instruct 资料分析 64 44 68.8% 119173
llama-3.3-70b 资料分析 64 41 64.1% 117593
step-2-mini 资料分析 64 41 64.1% 123830
openai-gpt-4o-mini 资料分析 64 38 59.4% 110307
glm-4-9b-chat 资料分析 64 36 56.3% 101235
glm-4-flash 资料分析 64 35 54.7% 102879
internlm2.5-20b-chat 资料分析 64 30 46.9% 125186
qwen2.5-7b-instruct 资料分析 64 30 46.9% 111683
moonshot-v1-8k 资料分析 64 28 43.8% 103263
internlm2.5-7b-chat 资料分析 64 27 42.2% 109415
hunyuan-lite 资料分析 64 23 35.9% 126190
gemma-2-9b-it 资料分析 64 22 34.4% 105080
hunyuan-standard 资料分析 64 20 31.3% 123099
meta-llama-3.1-8b-instruct 资料分析 64 18 28.1% 118531