五大维度评测OpenAI全新o1模型：代码编写、游戏制作等能力“惊艳”，事实性知识却“翻了车”

结果显示，o1-preview表现出了超越OpenAI之前发布的大模型的编程和数学推理能力。例如，o1-preview能够编写出流畅运行的代码，并且在复杂环境中依然能够自行推理出解决方案。而且，记者在测试过程中也感觉到，o1-preview在人性化方面也有很大的提升，表现出了真人般的思考。不过，新模型也并非毫无缺点，在事实性知识测试就“翻车”了。

传说中的“草莓”来了

当地时间9月12日，OpenAI发布了一款名为o1的新模型，这是其计划中一系列“推理”模型中的第一个版本，也是此前业界盛传已久的“草莓”模型。

对于OpenAI来说，o1代表着它朝着类人AI的目标又迈出了一步。OpenAI认为，o1代表着一种全新的能力，这一能力被认为如此重要，以至于公司决定从当前的GPT-4模型重新开始，完全放弃了“GPT”品牌，从1开始命名。

OpenAI表示，将从当前的GPT-4模型重新开始，“将计数器重置为 1”，甚至放弃了迄今为止定义了聊天机器人乃至整个生成式AI热潮的“GPT”品牌。o1建立了一个能够通过一系列离散步骤，谨慎而合乎逻辑地解决问题的系统，每个步骤都建立在上一个步骤的基础上，类似于人类的推理方式。

OpenAI首席科学家Jakub Pachocki表示，之前的模型在收到用户问询时会立即开始回答。“而这个模型（指的是o1）会慢慢来。它思考问题，并尝试分解问题，寻找角度，努力提供最佳答案。”这就像大多数人在幼年时被父母所要求的那样，先想好再说话。

OpenAI表示，o1在竞赛编程问题（Codeforces）中排名第89个百分点，在美国数学奥林匹克竞赛（AIME）预选赛中位列美国前500名学生之列，并且在物理、生物和化学问题的基准测试（GPQA）中超过了人类博士水平的准确度。

在OpenAI发布的研究和博客文章中，o1看起来“推理”能力十分强大，不仅可解决高级数学和编码问题，还能解密复杂的密码，以及解答来自专家学者们关于遗传学、经济学和量子物理学的复杂问题。大量图表显示，在内部评估中，o1在编码、数学和各个科学领域的问题上已经超越了公司最先进的语言模型GPT-4o，甚至可能超越了人类。

代码编写、游戏制作等能力“惊艳”

为了深入了解o1模型的强大能力，《每日经济新闻》记者从经典草莓测试、代码编写、小游戏制作、数学与经济学，以及事实性知识这五大维度对o1-preview模型进行了测试。

1）草莓测试

首先，记者用之前几乎所有大模型都“翻车”的一道简单题目进行了测试，即“单词strawberry里面到底有几个r”。从生成的结果看，o1-preview还是带来了一点小惊喜的。