笔者让目前市面上主流的大模型来做公务员考试行测真题，来尝试从一个侧面观察大模型的综合能力。在让30多个大模型各做了一千多道行测题后，笔者发现了一些比较有意思的线索（非专业大模型研究者，观点仅供参考）：

Deepseek-R1确是真神，总分第一并在所有科目中均排到前2，相对于其他大多数大模型，甚至其基础模型Deepseek-V3来说都具有极大的优势；
虽然热度平平，但豆包大模型(仅限pro版)已经具备了很强的实力，在行测任务中成绩优异，令人刮目相看；
各家模型的在行测数学能力方面，最近半年都有很大的提升（相比于知乎网友在24年8月行测方面的评测）；
有的模型很懂政治（豆包pro和Deepseek-V3/R1均做到满分），有的模型很懂封杀……（step-2系列超过一半的政治题都因为内容审查而拒绝作答）；
通过强化学习来赋予模型深度思考能力这条路，在综合能力上确实有很优秀的表现，但从各家模型的总体表现来看似乎并不总是银弹：
- 深度思考大模型，在综合表现上全部超过了基础模型（glm-zero-preview除外），甚至说通过R1蒸馏这种外挂式增强的Qwen2.5-32B模型综合表现都超过了原始的Qwen2.5-72B；
- 在言语理解等一些题型里面，具备深度思考能力的很多模型相对于基础模型都退步了，即便是o1-mini在这方面也远远落后于gpt-4o，
- 然而，Deepseek-R1确实在所有科目上表现都超过了Deepseek-V3且有极大提升，原因目前我也没想清楚；
低于32B的小模型在行测中表现不佳。看起来尺寸较小不管怎么折腾，即使各个评测数据集上成绩刷到飞起，在考察综合能力的时候也很难有特别亮眼的表现；

以下正文；）

1. 背景介绍

1.1 为什么要做这个评测

原因1: 春节在家走亲戚太无聊了，需要找点有意思的事儿对冲一下；
原因2: 大模型能力的评测一直是一个业界难题。与其说它是一个问题，倒不如说是一个博弈，因为任何在公众领域公开的数据集，必然面临刷分的问题。半年前我们在做大模型测试用例生成的时候，内部搞了一些测试集与公开的Coding类benchmark进行对比，就发现几乎市面上所有的公开benchmark都几乎无法准确反映模型的代码能力（lmarena除外）

年前Deepseek一举爆红，笔者跟朋友也在尝试用各种方法评测Deepseek等新模型的能力。周围有不少朋友在考公（坐标猜猜？），有时候发一些题目给大模型，结果我们发现不少行测题即使是Deepseek V3/R1也很难正确解答。正好笔者春节在家无聊，一时兴起，想着说那不如爬一些行测题目来做一个测试集，摸排一下市面上大模型，尤其是最近半年的新模型，综合能力到底如何？

公务员行测题目都是选择题，做起来方便，判卷也容易。同时考察的范围非常综合，既包含常识知识和政治，也有数学推理和资料分析，同时其中很多题目对考生的抽象能力又有一定要求。笔者觉得是评价大模型能力的一个相对比较全面的方法。

1.2 数据来源和准备工作

太长不放，这里的README详细介绍了数据来源和收集过程。简单来说就是24-25年几个题目比较难的重点省份和国考的行测真题，同时将涉及图片信息的一律去掉，经过简单的筛选之后总共得到六大类题型（政治理论、常识判断、言语理解、数量关系、判断推理、资料分析）共计1383道题目。

1.3 参与评测的有哪些模型

选取在我自己工作中使用过认为表现相对较好的开源模型（通义千问系列，Llama系列，Deepseek系列，浦语，GLM部分开源模型等）和闭源模型（Openai，豆包，混元，月之暗面，零一万物，阶跃星辰，MiniMax等。以国内厂商的大模型为主，一方面是因为海外的大模型不太懂政治（结果Gpt-4o打我脸了，告诉我海外模型也很懂政治！）；另一方面是近半年来国外的大模型确实没那么香了，不必投入那么多精力和💲。

另外如果模型系列有类o1的内生思维链推理的版本，这里均纳入评测（如Deepseek-R1，QwQ，o1-mini，glm-zero等，o3-mini目前没弄到API就没放进去，p.s. 思维链好是好，就是tokens太贵了……）在评测过程中，商用闭源模型均采用官方API（Deepseek由于官网服务不稳定，使用Siliconflow✖️华为昇腾提供的API，后期该API限流之后改用Deepinfra），其他开源模型均使用Siliconflow或Deepinfra提供的API。总计成本约1000+RMB。

p.s. Siliconflow的R1 API简直太卡了，是因为R1现在太火爆嘛？

纳入评测的模型详细清单如下（顺序随机排列，看心情；）,共计33个模型：

模型系列	模型名	备注
阿里通义千问	Qwen-2.5-7B	开源
	Qwen-2.5-14B	开源
	Qwen-2.5-32B	开源
	Qwen-2.5-72B	开源
	Qwen-QwQ-32B-Preview	类o1推理强化模型，开源
深度求索	DeepSeek-V3	开源
	DeepSeek-R1	类o1推理强化模型，开源
	DeepSeek-R1-distill-llama-70b	蒸馏类o1推理强化模型，开源
	DeepSeek-R1-distill-qwen-32b	蒸馏类o1推理强化模型，开源
智谱glm	glm-4-plus	闭源
	glm-4-air	闭源
	glm-4-flash	闭源
	glm-zero-preview	类o1推理强化模型，闭源
	glm-4-9b-chat	开源
月之暗面	moonshot-v1-8k	闭源
字节豆包	doubao-1.5-pro-32k	闭源
	doubao-1.5-lite-32k	闭源
腾讯混元	hunyuan-pro	闭源
	hunyuan-standard	闭源
	hunyuan-lite	闭源
零一万物	yi-lightning	闭源
阶跃星辰	step-2-16k	闭源
	step-2-mini	闭源
书生浦语	internlm2.5-7b-chat	开源
	internlm2.5-20b-chat	开源
Minimax	minimax-text-01	闭源
Openai	gpt-4o	闭源
	gpt-4o-mini	闭源
	o1-mini	o1(本尊)推理强化模型，闭源
Meta Llama	Llama-3.1-8B	开源
	Llama-3.3-70B	开源
Microsoft	phi-4	开源
Google	gemma-2-9b-it	开源

2. 测评结果简单总结

2.1 总体答题情况

在知乎网友在24年8月做的评测中，参与评测的大模型整体正确率在65%-75%之间。仅仅过了半年，就有多家大模型的正确率突破了75%，最高的甚至达到了85%，可见大模型能力进步之神速。

这里的表格列出了所有平均正确率超过了75%的大模型，得分从高到低排序（要不然列的太多了也看不过来，文章后边会附上完整的排序表格）。至于为什么只看超过75%的，主要是因为身边考公的朋友说正确率超过75%就已经属于进面相对比较稳的范畴，到85%+已经算是考公天才了（狗头）。

模型名称	题目类别	总题目数量	做对题数	正确率	排名
deepseek-r1	总计	1383	1191	86.1%	1
doubao-1.5-pro	总计	1383	1179	85.2%	2
hunyuan-pro	总计	1383	1079	78.0%	3
glm-4-plus	总计	1383	1072	77.5%	4
qwen-qwq-32b-preview	总计	1383	1052	76.1%	5
deepseek-r1-distill-qwen-32b	总计	1383	1047	75.7%	6

从这里可以看出支持深度思考的模型有非常出色的表现。两个基于Qwen2.5-32B进行深度思考强化的模型正确率都超过了75%，而Qwen2.5-72B并没有达到这个分数。另外若干家闭源的旗舰模型也都达到了相当可观的分数。

不过整体来看，Deepseek-R1和豆包Pro与其他模型能够拉开相当大的差距。

2.2 政治理论部分

政治理论是2025年新加入的题型，因此总共只有60道题目。以前的相关内容零散分布在常识判断模块中。所处的题目和考点基本围绕总书记讲话和党建理论展开。因此这部分题型可以评价模型在中国政治方面的背景知识，同时从拒绝回答的角度来看，可以评价模型的内容审计与拒绝策略是否合理。

由于政治理论题目一半的模型得分都超过了90%，这里我们仅列出前五名，总表我会放在文末。现在的AI很懂政治啊;)

模型名	题目类别	总题目数量	做对题数	正确率
doubao-1.5-pro	政治理论	60	60	100.0%
deepseek-r1	政治理论	60	60	100.0%
deepseek-v3	政治理论	60	60	100.0%
qwen2.5-72b-instruct	政治理论	60	59	98.3%
openai-gpt-4o	政治理论	60	58	96.7%

另外比较有趣的是，在政治理论题目的答题过程中，阶跃星辰的Step-2-16k和Step-2-mini这两个模型均因为内容审核不通过拒绝作答大多数题目（均拒绝33道题，占比超过一半，两个模型看上去共享同一个内容审核策略），成为虽然不一定最懂政治，但一定最懂封杀的模型。

2.3 常识判断部分

这部分主要考察背景知识是否丰富。所以理论上训练语料更丰富的模型应该能够的到更高的分数。这里Deepseek R1和豆包Pro断崖式领先，比其他模型超超出接近10%。下面的表格列出了前10名，但其实3-10名并没有拉开很大的差距。

模型名	题目类别	总题目数量	做对题数	正确率
deepseek-r1	常识判断	257	234	91.1%
doubao-1.5-pro	常识判断	257	229	89.1%
qwen2.5-72b-instruct	常识判断	257	208	80.9%
qwen-qwq-32b-preview	常识判断	257	208	80.9%
hunyuan-pro	常识判断	257	207	80.5%
glm-4-plus	常识判断	257	206	80.2%
qwen2.5-32b-instruct	常识判断	257	202	78.6%
qwen2.5-14b-instruct	常识判断	257	200	77.8%
yi-lightning	常识判断	257	199	77.4%
deepseek-r1-distill-qwen-32b	常识判断	257	198	77.0%

2.4 言语理解部分

言语理解包含逻辑填空，短文阅读理解，语句表达等题型，主要考察对文字内容的理解能力。在这部分Deepseek R1和豆包仍然交替领先。一个比较有趣的发现是，大多数类o1的深度思考模型在这部分表现都不佳（例如，qwq和r1蒸馏的qwen2.5-32b均远远落后于原始的qwen2.5-32b模型，glm-zero也落后于glm-plus甚至比qwen2.5-14b更差，o1-mini更是排到了20名开外）。

这个观察与之前知乎网友段小草的评测中所提到的（CoT会导致模型言语理解能力下降）的观察基本符合。但是黑马仍旧出现了，Deepseek R1的表现远远超出它的基础模型Deepseek V3。这里面的原理到底是什么，跟R1的RL训练方式有什么关系？我自己不是LLM方面的专家，还需要蹲一个有缘人来解释下；）

模型名	题目类别	总题目数量	做对题数	正确率
doubao-1.5-pro	言语理解	424	367	86.6%
deepseek-r1	言语理解	424	366	86.3%
hunyuan-pro	言语理解	424	360	84.9%
qwen2.5-72b-instruct	言语理解	424	357	84.2%
glm-4-plus	言语理解	424	346	81.6%
qwen2.5-32b-instruct	言语理解	424	335	79.0%
deepseek-v3	言语理解	424	334	78.8%
qwen2.5-14b-instruct	言语理解	424	328	77.4%
moonshot-v1-8k	言语理解	424	327	77.1%
glm-zero-preview	言语理解	424	327	77.1%

2.5 数量关系部分

数量关系是类o1（以及本尊）的深度思考模型的天下，即使是R1蒸馏的小模型也普遍有比较好的正确率，相对于半年前的评测有了长足的进步。o1-mini在这方面仍然领先，但更加意外的是豆包pro作为一个非深度思考模型仍然做到了很高的正确率（前5名中其他全部是类o1模型），体现出了很强的数学能力。

模型名	题目类别	总题目数量	做对题数	正确率
openai-o1-mini	数量关系	170	147	86.5%
deepseek-r1	数量关系	170	141	82.9%
doubao-1.5-pro	数量关系	170	137	80.6%
deepseek-r1-distill-qwen-32b	数量关系	170	133	78.2%
qwen-qwq-32b-preview	数量关系	170	126	74.1%
deepseek-r1-distill-llama-70b	数量关系	170	125	73.5%
glm-4-plus	数量关系	170	124	72.9%
deepseek-v3	数量关系	170	114	67.1%
hunyuan-pro	数量关系	170	107	62.9%
glm-zero-preview	数量关系	170	105	61.8%

2.6 判断推理部分

判断推理题目中，豆包pro和Deepseek R1仍然有不相伯仲的成绩（这话我都说累了！）并且能跟其他模型拉开相当大的差距。

模型名	题目类别	总题目数量	做对题数	正确率
doubao-1.5-pro	判断推理	408	331	81.1%
deepseek-r1	判断推理	408	328	80.4%
hunyuan-pro	判断推理	408	300	73.5%
glm-4-plus	判断推理	408	287	70.3%
deepseek-r1-distill-qwen-32b	判断推理	408	285	69.9%
openai-o1-mini	判断推理	408	281	68.9%
openai-gpt-4o	判断推理	408	280	68.6%
qwen-qwq-32b-preview	判断推理	408	277	67.9%
minimax-text-01	判断推理	408	275	67.4%
deepseek-v3	判断推理	408	275	67.4%

2.7 资料分析部分

资料分析类题目通常是给定一段图文资料（这里参与评测的题目都是纯文字背景资料），主要考查的是对复杂资料的综合理解与分析加工能力，以及一部分速算能力（有时候需要根据资料中的公式计算结果）。由于带图形的题目都被筛掉了，因此这部分只留下64道题目。

在这部分中，前4名均为支持深度思考的推理强化模型，且与第5名（豆包pro）拉开一定的差距。并且所有模型系列中，支持深度思考的模型均碾压同系列其他模型（例如，Deepseek R1 » V3, Qwen QwQ » 72B, glm-zero » glm-4-plus, …）可见对于资料的深度理解和分析方面，深度思考有很大的提升。

模型名	题目类别	总题目数量	做对题数	正确率
deepseek-r1	资料分析	64	62	96.9%
deepseek-r1-distill-qwen-32b	资料分析	64	59	92.2%
qwen-qwq-32b-preview	资料分析	64	58	90.6%
openai-o1-mini	资料分析	64	57	89.1%
doubao-1.5-pro	资料分析	64	55	85.9%
glm-zero-preview	资料分析	64	55	85.9%
glm-4-plus	资料分析	64	52	81.3%
deepseek-r1-distill-llama-70b	资料分析	64	52	81.3%
qwen2.5-72b-instruct	资料分析	64	51	79.7%
deepseek-v3	资料分析	64	51	79.7%

3. 一些有意思的观察

3.1 深度思考（或者说运行时推理）是否一定更智能

综合来看，针对深度推理强化过的模型（QwQ，o1等，后续我们简称为类o1模型）表现出了较大的优势。

但是，在言语理解类的题目中，类o1模型大多数翻车（除了R1之外）。在笔者认为，这体现出：思考固然很重要，但判断何时应该深度思考，何时应该相信直觉也许更加重要。从技术角度出发，也许我们需要让大模型具备针对不同的问题设置不同的思考方式的能力。正如人在社会中生存，面对技术问题和政治问题的思考方式就是截然不同的。

另外相比于基础模型而言，深度推理模型普遍带来了很大的tokens开销（接近翻番），是否总是需要这么多的推理开销，能不能灵活控制推理长度和成本也是个值得探讨的问题。

3.2 知识蒸馏带来的能力提升的不确定性

Deepseek 通过R1的知识蒸馏对多个模型进行强化。但其效果差距却很大，Llama-3-70b在强化后，整体表现的提升仅从63.9%提升到了64.2%，难兄难弟了可以说。但是对Qwen2.5-32B的强化却取得了非常好的效果，强化之后的模型甚至超越了Qwen2.5-72B。从另一个侧面看，同样是在Qwen2.5-32B的基础上进行深度思考微调，Qwen-QwQ-Preview也达到了非常接近的效果（总成绩一个75.7%一个74.7%），让人不禁猜想是不是这种深度思考微调的上限很大程度上取决于基础模型本身。

4. 完整测试数据表格

4.1 总成绩全排序

模型名	题目类别	总题目数量	做对题数	正确率
deepseek-r1	总计	1383	1191	86.1%
doubao-1.5-pro	总计	1383	1179	85.2%
hunyuan-pro	总计	1383	1079	78.0%
glm-4-plus	总计	1383	1072	77.5%
qwen-qwq-32b-preview	总计	1383	1052	76.1%
deepseek-r1-distill-qwen-32b	总计	1383	1047	75.7%
qwen2.5-72b-instruct	总计	1383	1033	74.7%
deepseek-v3	总计	1383	1027	74.3%
glm-zero-preview	总计	1383	1008	72.9%
openai-gpt-4o	总计	1383	992	71.7%
openai-o1-mini	总计	1383	982	71.0%
qwen2.5-32b-instruct	总计	1383	979	70.8%
minimax-text-01	总计	1383	976	70.6%
yi-lightning	总计	1383	971	70.2%
qwen2.5-14b-instruct	总计	1383	958	69.3%
glm-4-air	总计	1383	950	68.7%
step-2-16k	总计	1383	916	66.2%
doubao-1.5-lite.32k	总计	1383	904	65.4%
deepseek-r1-distill-llama-70b	总计	1383	888	64.2%
llama-3.3-70b	总计	1383	884	63.9%
moonshot-v1-8k	总计	1383	883	63.8%
qwen2.5-7b-instruct	总计	1383	854	61.7%
glm-4-9b-chat	总计	1383	838	60.6%
glm-4-flash	总计	1383	834	60.3%
openai-gpt-4o-mini	总计	1383	814	58.9%
step-2-mini	总计	1383	798	57.7%
internlm2.5-20b-chat	总计	1383	789	57.0%
phi-4	总计	1383	786	56.8%
hunyuan-standard	总计	1383	785	56.8%
internlm2.5-7b-chat	总计	1383	759	54.9%
hunyuan-lite	总计	1383	752	54.4%
gemma-2-9b-it	总计	1383	597	43.2%
meta-llama-3.1-8b-instruct	总计	1383	506	36.6%

4.2 政治理论成绩全排序

模型名	题目类别	总题目数量	做对题数	正确率	总token消耗
doubao-1.5-pro	政治理论	60	60	100.0%	43551
deepseek-r1	政治理论	60	60	100.0%	78003
deepseek-v3	政治理论	60	60	100.0%	36306
qwen2.5-72b-instruct	政治理论	60	59	98.3%	35662
openai-gpt-4o	政治理论	60	58	96.7%	44706
deepseek-r1-distill-qwen-32b	政治理论	60	57	95.0%	62339
glm-4-plus	政治理论	60	57	95.0%	40360
qwen2.5-32b-instruct	政治理论	60	57	95.0%	37829
hunyuan-standard	政治理论	60	57	95.0%	31730
hunyuan-pro	政治理论	60	57	95.0%	43456
moonshot-v1-8k	政治理论	60	56	93.3%	24774
yi-lightning	政治理论	60	56	93.3%	53295
glm-zero-preview	政治理论	60	56	93.3%	30788
qwen-qwq-32b-preview	政治理论	60	56	93.3%	84425
glm-4-air	政治理论	60	55	91.7%	30631
qwen2.5-14b-instruct	政治理论	60	55	91.7%	35790
internlm2.5-20b-chat	政治理论	60	53	88.3%	60739
minimax-text-01	政治理论	60	52	86.7%	47255
qwen2.5-7b-instruct	政治理论	60	52	86.7%	33516
glm-4-flash	政治理论	60	51	85.0%	32404
glm-4-9b-chat	政治理论	60	51	85.0%	34502
deepseek-r1-distill-llama-70b	政治理论	60	49	81.7%	92063
llama-3.3-70b	政治理论	60	46	76.7%	47452
internlm2.5-7b-chat	政治理论	60	46	76.7%	56734
openai-o1-mini	政治理论	60	42	70.0%	107582
openai-gpt-4o-mini	政治理论	60	42	70.0%	37304
hunyuan-lite	政治理论	60	41	68.3%	42336
meta-llama-3.1-8b-instruct	政治理论	60	36	60.0%	61409
doubao-1.5-lite.32k	政治理论	60	35	58.3%	29743
phi-4	政治理论	60	31	51.7%	86727
gemma-2-9b-it	政治理论	60	31	51.7%	50327
step-2-16k	政治理论	60	24	40.0%	20767
step-2-mini	政治理论	60	22	36.7%	20729

4.3 常识判断成绩全排序

模型名	题目类别	总题目数量	做对题数	正确率	总token消耗
deepseek-r1	常识判断	257	234	91.1%	456501
doubao-1.5-pro	常识判断	257	229	89.1%	211697
qwen2.5-72b-instruct	常识判断	257	208	80.9%	178402
qwen-qwq-32b-preview	常识判断	257	208	80.9%	426325
hunyuan-pro	常识判断	257	207	80.5%	177500
glm-4-plus	常识判断	257	206	80.2%	194773
qwen2.5-32b-instruct	常识判断	257	202	78.6%	187407
qwen2.5-14b-instruct	常识判断	257	200	77.8%	179334
yi-lightning	常识判断	257	199	77.4%	258527
deepseek-r1-distill-qwen-32b	常识判断	257	198	77.0%	349064
glm-zero-preview	常识判断	257	197	76.7%	168331
deepseek-v3	常识判断	257	193	75.1%	173967
openai-gpt-4o	常识判断	257	191	74.3%	191633
minimax-text-01	常识判断	257	190	73.9%	206926
glm-4-air	常识判断	257	187	72.8%	161596
qwen2.5-7b-instruct	常识判断	257	183	71.2%	170575
moonshot-v1-8k	常识判断	257	172	66.9%	125742
glm-4-flash	常识判断	257	167	65.0%	166545
glm-4-9b-chat	常识判断	257	167	65.0%	155741
internlm2.5-7b-chat	常识判断	257	164	63.8%	244327
step-2-16k	常识判断	257	158	61.5%	193736
llama-3.3-70b	常识判断	257	155	60.3%	232522
internlm2.5-20b-chat	常识判断	257	154	59.9%	266328
hunyuan-standard	常识判断	257	154	59.9%	180875
openai-o1-mini	常识判断	257	153	59.5%	507022
deepseek-r1-distill-llama-70b	常识判断	257	153	59.5%	499311
openai-gpt-4o-mini	常识判断	257	146	56.8%	173715
hunyuan-lite	常识判断	257	144	56.0%	174546
step-2-mini	常识判断	257	143	55.6%	190018
doubao-1.5-lite.32k	常识判断	257	134	52.1%	168004
phi-4	常识判断	257	115	44.7%	357220
meta-llama-3.1-8b-instruct	常识判断	257	86	33.5%	247493
gemma-2-9b-it	常识判断	257	83	32.3%	193647

4.4 言语理解成绩全排序

模型名	题目类别	总题目数量	做对题数	正确率	总token消耗
doubao-1.5-pro	言语理解	424	367	86.6%	481656
deepseek-r1	言语理解	424	366	86.3%	922454
hunyuan-pro	言语理解	424	360	84.9%	419058
qwen2.5-72b-instruct	言语理解	424	357	84.2%	400779
glm-4-plus	言语理解	424	346	81.6%	434956
qwen2.5-32b-instruct	言语理解	424	335	79.0%	439983
deepseek-v3	言语理解	424	334	78.8%	354736
qwen2.5-14b-instruct	言语理解	424	328	77.4%	437291
moonshot-v1-8k	言语理解	424	327	77.1%	271512
glm-zero-preview	言语理解	424	327	77.1%	418347
qwen-qwq-32b-preview	言语理解	424	327	77.1%	874475
glm-4-air	言语理解	424	326	76.9%	342668
openai-gpt-4o	言语理解	424	325	76.7%	453776
step-2-16k	言语理解	424	324	76.4%	513989
minimax-text-01	言语理解	424	320	75.5%	462601
yi-lightning	言语理解	424	319	75.2%	532641
doubao-1.5-lite.32k	言语理解	424	318	75.0%	387956
deepseek-r1-distill-qwen-32b	言语理解	424	315	74.3%	683291
qwen2.5-7b-instruct	言语理解	424	310	73.1%	381083
llama-3.3-70b	言语理解	424	308	72.6%	471925
openai-o1-mini	言语理解	424	302	71.2%	1007671
glm-4-flash	言语理解	424	298	70.3%	380829
hunyuan-lite	言语理解	424	295	69.6%	427302
glm-4-9b-chat	言语理解	424	293	69.1%	366355
openai-gpt-4o-mini	言语理解	424	288	67.9%	427527
hunyuan-standard	言语理解	424	285	67.2%	426009
step-2-mini	言语理解	424	280	66.0%	513016
internlm2.5-7b-chat	言语理解	424	280	66.0%	506218
phi-4	言语理解	424	274	64.6%	719297
internlm2.5-20b-chat	言语理解	424	272	64.2%	534773
deepseek-r1-distill-llama-70b	言语理解	424	266	62.7%	857152
gemma-2-9b-it	言语理解	424	239	56.4%	444963
meta-llama-3.1-8b-instruct	言语理解	424	165	38.9%	474973

4.5 数量关系成绩全排序

模型名	题目类别	总题目数量	做对题数	正确率	总token消耗
openai-o1-mini	数量关系	170	147	86.5%	660284
deepseek-r1	数量关系	170	141	82.9%	649275
doubao-1.5-pro	数量关系	170	137	80.6%	436958
deepseek-r1-distill-qwen-32b	数量关系	170	133	78.2%	748531
qwen-qwq-32b-preview	数量关系	170	126	74.1%	811114
deepseek-r1-distill-llama-70b	数量关系	170	125	73.5%	800344
glm-4-plus	数量关系	170	124	72.9%	412889
deepseek-v3	数量关系	170	114	67.1%	341553
hunyuan-pro	数量关系	170	107	62.9%	351469
glm-zero-preview	数量关系	170	105	61.8%	564963
doubao-1.5-lite.32k	数量关系	170	101	59.4%	422287
yi-lightning	数量关系	170	93	54.7%	418164
openai-gpt-4o	数量关系	170	92	54.1%	367401
phi-4	数量关系	170	92	54.1%	569789
minimax-text-01	数量关系	170	91	53.5%	279307
step-2-16k	数量关系	170	91	53.5%	370763
qwen2.5-72b-instruct	数量关系	170	89	52.4%	343168
llama-3.3-70b	数量关系	170	83	48.8%	383520
qwen2.5-32b-instruct	数量关系	170	83	48.8%	331473
glm-4-air	数量关系	170	78	45.9%	536379
openai-gpt-4o-mini	数量关系	170	77	45.3%	382970
qwen2.5-14b-instruct	数量关系	170	75	44.1%	334684
step-2-mini	数量关系	170	73	42.9%	471436
moonshot-v1-8k	数量关系	170	68	40.0%	347584
internlm2.5-20b-chat	数量关系	170	64	37.6%	427209
qwen2.5-7b-instruct	数量关系	170	62	36.5%	334397
hunyuan-standard	数量关系	170	60	35.3%	331449
hunyuan-lite	数量关系	170	59	34.7%	372923
glm-4-flash	数量关系	170	57	33.5%	606998
glm-4-9b-chat	数量关系	170	52	30.6%	387846
gemma-2-9b-it	数量关系	170	50	29.4%	276725
internlm2.5-7b-chat	数量关系	170	49	28.8%	427168
meta-llama-3.1-8b-instruct	数量关系	170	43	25.3%	486869

4.6 判断推理成绩全排序

模型名	题目类别	总题目数量	做对题数	正确率	总token消耗
doubao-1.5-pro	判断推理	408	331	81.1%	649307
deepseek-r1	判断推理	408	328	80.4%	1137114
hunyuan-pro	判断推理	408	300	73.5%	543619
glm-4-plus	判断推理	408	287	70.3%	603233
deepseek-r1-distill-qwen-32b	判断推理	408	285	69.9%	1042003
openai-o1-mini	判断推理	408	281	68.9%	1245109
openai-gpt-4o	判断推理	408	280	68.6%	685925
qwen-qwq-32b-preview	判断推理	408	277	67.9%	1072001
minimax-text-01	判断推理	408	275	67.4%	563935
deepseek-v3	判断推理	408	275	67.4%	552628
step-2-16k	判断推理	408	271	66.4%	656822
doubao-1.5-lite.32k	判断推理	408	270	66.2%	560820
qwen2.5-72b-instruct	判断推理	408	269	65.9%	600128
glm-zero-preview	判断推理	408	268	65.7%	656952
glm-4-air	判断推理	408	260	63.7%	514285
qwen2.5-32b-instruct	判断推理	408	258	63.2%	626004
yi-lightning	判断推理	408	256	62.7%	729572
qwen2.5-14b-instruct	判断推理	408	255	62.5%	622716
llama-3.3-70b	判断推理	408	251	61.5%	677840
deepseek-r1-distill-llama-70b	判断推理	408	243	59.6%	1240059
step-2-mini	判断推理	408	239	58.6%	636270
glm-4-9b-chat	判断推理	408	239	58.6%	524606
moonshot-v1-8k	判断推理	408	232	56.9%	442614
phi-4	判断推理	408	229	56.1%	1111992
glm-4-flash	判断推理	408	226	55.4%	534496
openai-gpt-4o-mini	判断推理	408	223	54.7%	652205
qwen2.5-7b-instruct	判断推理	408	217	53.2%	597043
internlm2.5-20b-chat	判断推理	408	216	52.9%	661131
hunyuan-standard	判断推理	408	209	51.2%	668021
internlm2.5-7b-chat	判断推理	408	193	47.3%	644003
hunyuan-lite	判断推理	408	190	46.6%	615133
gemma-2-9b-it	判断推理	408	172	42.2%	585699
meta-llama-3.1-8b-instruct	判断推理	408	158	38.7%	717298

4.7 资料分析成绩全排序

模型名	题目类别	总题目数量	做对题数	正确率	总token消耗
deepseek-r1	资料分析	64	62	96.9%	209169
deepseek-r1-distill-qwen-32b	资料分析	64	59	92.2%	174384
qwen-qwq-32b-preview	资料分析	64	58	90.6%	201632
openai-o1-mini	资料分析	64	57	89.1%	204159
doubao-1.5-pro	资料分析	64	55	85.9%	155148
glm-zero-preview	资料分析	64	55	85.9%	128723
glm-4-plus	资料分析	64	52	81.3%	114896
deepseek-r1-distill-llama-70b	资料分析	64	52	81.3%	220547
qwen2.5-72b-instruct	资料分析	64	51	79.7%	120734
deepseek-v3	资料分析	64	51	79.7%	99185
minimax-text-01	资料分析	64	48	75.0%	96040
yi-lightning	资料分析	64	48	75.0%	139924
hunyuan-pro	资料分析	64	48	75.0%	107411
step-2-16k	资料分析	64	48	75.0%	132394
openai-gpt-4o	资料分析	64	46	71.9%	115993
doubao-1.5-lite.32k	资料分析	64	46	71.9%	146939
phi-4	资料分析	64	45	70.3%	168091
qwen2.5-14b-instruct	资料分析	64	45	70.3%	113001
glm-4-air	资料分析	64	44	68.8%	110327
qwen2.5-32b-instruct	资料分析	64	44	68.8%	119173
llama-3.3-70b	资料分析	64	41	64.1%	117593
step-2-mini	资料分析	64	41	64.1%	123830
openai-gpt-4o-mini	资料分析	64	38	59.4%	110307
glm-4-9b-chat	资料分析	64	36	56.3%	101235
glm-4-flash	资料分析	64	35	54.7%	102879
internlm2.5-20b-chat	资料分析	64	30	46.9%	125186
qwen2.5-7b-instruct	资料分析	64	30	46.9%	111683
moonshot-v1-8k	资料分析	64	28	43.8%	103263
internlm2.5-7b-chat	资料分析	64	27	42.2%	109415
hunyuan-lite	资料分析	64	23	35.9%	126190
gemma-2-9b-it	资料分析	64	22	34.4%	105080
hunyuan-standard	资料分析	64	20	31.3%	123099
meta-llama-3.1-8b-instruct	资料分析	64	18	28.1%	118531