9 月 24 日,OpenAI 重磅推出了 GPT-o1 模型(以下简称 “o1”),这个新版本的目标是大幅提升 GPT 的推理和逻辑能力。然而,许多用户通过官方 demo 和各大 AI 大佬的分享后纷纷表示,o1 的回答速度明显 “降速”,但这并不是因为它 “卡” 了,而是它变得更 “深思熟虑” 了。根据官方的说法,o1 在回答之前会进行充分的思考,确保自己的回答不仅对得上用户的问题,还要逻辑严谨。这种慎重的态度,让它更像是在回答前先做了一番 “头脑风暴”。
另外,令人啼笑皆非的是,o1 模型似乎又回到了只能支持文字输入的模式。可以打趣地说,OpenAI 自从 GPT-4 开始对图片、语音和文档领域的拓展努力,现在仿佛又被 “打回了原形”,聚焦于最纯粹的文字和逻辑。在各大社交媒体上,不少科技达人都在测试 o1 的表现,大家一致感叹:o1 的回答更像是 “经过考虑后的发言”。尤其是在处理那些之前让 AI 挠头的刁钻问题上,o1 的应对能力有了显著提升。比如经典的 “strawberry 这个单词里有几个字母 r?”(“how many r’s in the word strawberry?”),此前 GPT-4.0 因为 token 分割的问题,往往无法给出准确答案:

但是在 o1 给出的答案中,则是正确的:

由此可见,o1 的逻辑推理能力更像人类,且更加准确。那么问题来了,如何在实际应用中检验这一点呢?最简单、最具挑战性的推理测试非那个堪称 “大型多人实景头脑风暴情景剧本杀” 的终极试题莫属 —— 高考数学试卷。

在以往每次 GPT 的升级过程中,总会有热心的 AI 工作者祭出高考数学试卷对其进行 “灵魂拷问”,然而,结果往往不尽如人意。
过去,AI 的回答经常像个 “学舌” 的小孩子,这是因为这类大语言模型的训练方式有关──它们总是试图从自己的模型库中找到尽可能相关的答案,结果却常常南辕北辙。AI 看似给出了答案,甚至每句话听起来像是在解答问题,但实际上却完全避开了题目的核心,令人哭笑不得。每次的推理过程仿佛一场杂乱无章的思维跳跃,最终得出的结论不仅毫无逻辑,正确性更是无从谈起。
而现在,随着 o1 的推出,这种情况或许会有所改变。它不再只是 “尽量凑近” 的无效回答,而是经过一番 “深思熟虑” 之后,给出的解答更具逻辑性和准确度。这也让我们对未来的 AI 在复杂推理场景下的表现充满期待 —— 是否 o1 真的能在高考数学试卷上打出一张像模像样的答卷?它的思考过程与一般的人类究竟还有什么区别?
正好最近我也在忙高中的在线教育项目,身边正好有一位对 AI 技术颇感兴趣的数学老师。于是,我简单说明了我的来意和需求,他爽快地答应了帮忙。为了让测试更具挑战性,他直接给我发了一套最新的 2024 年全国高考数学卷,并表示愿意从专业教师的角度对 o1 模型的推理能力进行评分。如此绝佳的机会,我们当然迫不及待地开始测试,看看 o1 模型到底能不能在高考这块 “硬骨头” 面前表现出色!
说干就干,我立刻将高考试卷的部分题目喂给 o1,准备好看看它会如何处理这些棘手的数学问题。从之前的版本来看,GPT 的回答常常在数学问题上表现得像个 “经验型玩家”—— 擅长套用它见过的模板,却在面对复杂推理和严谨计算时常常 “掉链子”。这一次,让我们使用全新的模型一题一题来测试,看看 o1 在面对 2024 年最新的高考数学题时,是否真能像个数学尖子生那样,一步步推理、运算,并最终得出正确答案。
测试流程和说明
本次测试分为三个部分。分别是试题转换、作答和改正
试题转换
由于 o1 模型当前无法处理图片输入,同时为了避免 OCR 技术带来的识别错误,我们决定采取 “人工 + GPT-4o” 协作的方式,将 PDF 格式的 2024 年普通高等学校招生全国统一考试(新课标 II 卷)中的选择题和填空题转换为 LaTeX 格式,便于后续 o1 模型的调用和测试。
对于那些也想测试 o1 推理能力的朋友们,我在这里分享转化后的文档,方便大家直接使用进行相同的测试。以下是经过转换的 LaTeX 试题:
latex
如果有需要的话,还请尽情取用~
试题作答
这部分是这次测试的核心,根据 OpenAI 官方的说法,由于 o1 以一个全新的模式处理提供的内容,所以现在的 prompt 要尽量简单直接,原来的那些基于权重的 prompt 并不能很好的在 o1 上工作,所以这次的前置我只输入了必要的内容:
我会给你发送 LaTeX 格式的数学试题,你要分析并得出答案,你要根据题号进行作答:1-8 是单选,只有一个正确答案;9-11 是多选,至少两个正确答案。题号在试题的最前方,当你给出答案时,设计数学符号的表述请也以 LaTeX 的格式提供给我,如果你准备好了 回复开始 我将发送第一题给你
经过短暂的几秒思考,o1 只简单地回复了我两个字:「开始」。这点非常不错,和 GPT-4o 的表现如出一辙,远胜于之前的 GPT-4.0。它现在明显更能 “听懂人话”,会根据你的要求精准作答,而不是给出一堆冗长无用的废话。
接下来,我开始逐题测试 o1 的能力:每次将一道试题粘贴到对话框中,等待它给出 ABCD 选项中的一个或多个(针对选择题),或者直接填空题的答案。每次答完一道题,我才发送下一道。在这个过程中,我并没有告诉它答案是否正确,也没有给任何额外的提示或指导,甚至没有告诉它哪些是需要重点关注的部分。唯一的 “指示” 是在多选题和填空题开始时,我简单提醒了一句 “接下来是 XXX”。
这个测试过程尽量还原了人在高考考场上的真实状态 —— 没有人会告诉你应该怎么答题,也不会在你写完答案后立即反馈正确与否。唯一的提示来自题目的编号和简短的文字描述,完全模拟了考场上那种全凭个人理解的情境。
经过不到十分钟的作答,o1 顺利完成了全部选择题和填空题的解答。最长的一道题目花了约 60 秒思考,而最短的则不到五秒。最终,在选择题和填空题的总分 73 分中,o1 取得了 64 分的好成绩!它只在一道单选题上出错,并且在一道多选题中出现了少选的情况,而填空题部分全部正确。
这个成绩无疑非常亮眼,尤其是考虑到之前的 GPT-4 和 GPT-4o 基本不可能达到这样高的准确率。在它们的测试中,尤其是涉及复杂推理和数学问题时,常常会因为逻辑不清或推理错误而掉分。而这次,o1 不仅准确度大幅提升,且在填空题上的表现尤为出色,展示了其在计算和推理方面的进步。
比起 o1 的高分表现,更有趣的是它的思考过程和高考题目的难度排布形成了正相关。前几道题几乎没有花费太多时间,迅速给出了答案,随着题号的增大,o1 的思考时间也逐渐延长。在单选题的第 6、7、8 题时,它的思考时间均超过了 30 秒,而在多选题部分,思考的时间普遍比单选题更长。
更有趣的是,o1 在返回结果时竟然也表现出一种 “区别对待” 的倾向,仿佛在它的作答中,我看到了当年老师的影子。对于前几道简单的选择题,o1 显得格外简洁,几乎不愿多说一句,只给出一个选项,似乎在 “暗示” 这些基础题目没什么好解释的 ——“这东西太简单了,没必要多费口舌,大家都会吧,直接跳过。”
然而,到了选择题的中部,o1 的风格明显发生了变化。它开始为每一个选择进行简要的解释,展示出它对题目的分析和思考过程,好像在说:“这部分稍微有点难度,但我还是能给出合理的推理。” 而到了压轴部分,o1 不仅给出答案,还花费了大量篇幅去解释它的推理过程。
这种表现方式真的是太有趣了!它不仅让人感受到 o1 似乎具备某种 “层次感”,能够根据题目的难度调整自己的作答风格。o1 的这种作答表现,不仅仅是 AI 简单的逻辑输出,更像是在模仿某种 “人性化” 的解题策略。它似乎有能力感知题目的难度,并在简单题目和难题之间作出合适的反应,既体现了它的效率,也展现了它的推理深度。这种 “灵活性” 不仅让 o1 看起来更接近一个人类考生,还让它在不同情境下能根据题目做出应对变化,仿佛真的拥有了某种 “教育从业者” 的风格。
同样的现象也出现在填空题中,第一道填空题只用了 11 秒就给出答案,而最后几道填空题则花了接近 40 秒。这种思考时间的逐步增加与题目难度的提升完美契合,这和我们参加高考时的体验非常相似:前几题通常较为简单,能迅速解答,而后面的题目则逐渐加大难度,迫使我们花费更多时间思考。
这种思考时间的直观增长,主要展示了 o1 模型对问题难度的敏感度的精准捕捉。我们都知道,越到试卷的后半段,题目的复杂度和计算量越大,需要更多的推理和推算时间。以往的 GPT 4 或 4o 在面对多元化答案或者需要分类讨论的时候准率骤降。这一变化使得 o1 的表现更接近一个真正的 “考生”,在不同题目前调整自己的思维节奏。
错题验算
这是一个额外的测试环节。在 o1 解答完所有试题后,我告诉它做错了两道题,并给了它最后一次机会进行改正。用过 GPT 的朋友们都知道,GPT 对用户输入的反馈非常敏感,甚至有点 “过于顺从”。如果你对 GPT 坚持说 “你回答错了”,即便它最初给出的答案是正确的,它也很可能会开始动摇,甚至直接修改之前的正确答案。这一特性为我们提供了一个有趣的测试场景。
在这个环节,我们就是要检验 o1 是否依然具备这种 “盲目服从” 的倾向。为了获取更高的分数,当它知道自己第一次作答有误时,它会重新思考并根据逻辑推理改正答案,还是会顺从用户输入的提示,修改自己的答案呢?
做得好,你答完了所有的试题!其中错误两道:4 题、11 题。
现在你有一次改错的机会,再算一次第四题和第十一题:
「下面省略的部分为第四题和第十一题题干」
在错选的单选和多选题的重新作答中,o1 展现了截然不同的应对思路。在单选题中,o1 毫不犹豫地更换了自己的答案(虽然依旧不正确),表现出了一种快速调整策略的倾向。然而,在多选题中,它的表现却大不相同,展现出更加谨慎的作答逻辑。
我猜测这种差异可能与我事先告知它多选题的赋分规则有关:
多项选择题:本大题共 3 小题,每小题 6 分,共 18 分。在每小题给出的四个选项中,有多项符合题目要求。全部选对得 6 分,选对但不全的得部分分,有选错的得 0 分。
o1 似乎在策略上选择了更加 “保守” 的方式,依旧坚持选择了它第一次作答时的单一选项,虽然这让它错过了全部得分的机会,但它显然是为了避免选错一个而失去所有分数。这种思路让我不禁感到一丝亲切 —— 这不就是我们许多考生在高考时的心态吗?面对多选题的 “高风险”,宁可选择保守作答,以求稳妥的部分得分,而非冒险选错,导致全军覆没。
回想起我当年的高考,我也曾在多选题面前摇摆不定,最终选择了较为稳妥的策略,毕竟错选一个选项就意味着一分都拿不到。这种谨慎的作答风格体现了 o1 在某些决策中的 “理性选择”,并且在模拟考生心理方面竟然表现得如此接近人类。这一点让人不仅感到有趣,也展示了 o1 在解题时不仅能进行逻辑推理,还能在某种程度出现了 “风险管理” 的萌芽。
总结
GPT-o1 模型一经发布,立刻引起了广泛关注。作为 OpenAI 的最新力作,o1 的推理能力明显增强,但随之而来的,是回答速度的 “沉稳” 化。相比过去的模型,o1 在作答时更注重逻辑严谨性,似乎每次回答前都经过了深思熟虑。然而,令人忍俊不禁的是,它又回归到了纯文字模式,似乎放下了对图片和语音处理的追求。尽管如此,在面对复杂问题时,o1 的表现仍然让人眼前一亮,尤其是在高考数学题的测试中,它展现了惊人的推理深度和准确度,仿佛有了 “考生” 般的意识。可以说,o1 模型不仅是在推理上进化,还带来了一种更接近人类思维的解答方式。Claude 的 Sonet 模型,尤其是其 Artifacts 功能,在自然语义理解上曾一度优于 GPT。不过,随着 GPT-o1 的发布,AI 领域的竞争再次加剧,双方在推理和语义处理上的差距逐渐缩小。
展望未来,尤其在 K12 教育行业,AI 模型的进步无疑将带来巨大变革。随着推理能力的提升,像 GPT-o1 这样的模型在解题、个性化辅导等教育场景中将扮演更加重要的角色,为学生提供定制化的学习支持,帮助他们更好地理解复杂问题和培养逻辑思维。这不仅将有效提升学习效率,还能为教育行业注入全新的智能化动力,未来的教育体验也因此令人期待。
作答原文
我将所有与 o1 模型的交谈记录放在这里,供有兴趣的教师朋友们评估。
第一题:思考少于五秒,正确

第二题:思考 8 秒,正确

第三题:思考 11 秒,正确

第四题:思考 103(26+77) 秒,错误,改正后错误

第五题:思考 5 秒,正确

第六题:思考 60 秒,正确

第七题:思考 8 秒,正确

latex
第八题:思考 34 秒,正确
latex
第九题:思考 22 秒,正确
latex
第十题:思考 35 秒,正确
latex
第十一题:思考 164(51+103) 秒,少选,改正后少选
latex
第十二题:思考 11 秒,正确

latex
第十三题:思考 17 秒,正确

latex
第十四题:思考 28 秒,正确

latex