OpenAI发布最新模型,AI终于会做数学题了,而且能力直追理科博士

⭐发布日期:2024年09月28日 | 来源:亦辰文旅

⭐作者:Koller 责任编辑:Admin

⭐阅读量:791 评论:5人

【今晚新澳彩结果查询看不懂】

【新澳门正版资料免费更新1181】

【老版澳彩记录】 【2024澳门正版资料免费大】 【警方通报日本公民在苏州遇袭】 【今晚澳门四肖八码期期准】 【2024年澳门码资料】 【澳门一肖一码期期准中选料1k】 【7月或有1至2个台风登陆】 【澳门内部正版资料推荐】
【澳门正版精准免费大全】 【管家婆精准资料免费大全汕头六哥】 【澳门2024正版资料免费公开四不像】 【香港正版资料大全65695】 【新澳门结果记录2024年份】 【今期马会传真内部封信】 【新澳门金龙资料版】 【老澳门六开彩资料大全网址】

橙柿互动 记者 童蔚


9.8和9.11哪个大?

当公主的年龄是王子过去年龄的两倍时,公主的年龄等于她当前年龄与王子当前年龄之和的一半。公主和王子的年龄分别是多少?

……

当再次抛出这几个数学推理问题,人工智能或许已能准确作答,不再给你留下嘲笑它的机会。

今天凌晨,OpenAI发布最新模型o1的预览版,也就是此前业界传得沸沸扬扬的“草莓”模型。

和GPT-4o相比,它的最大特点就是推理能力非常强,包括数学、编程问题、科学领域等。

“这是一种新范式的开始,AI可以进行通用复杂推理了。”CEO阿尔特曼在社交平台上写道。

大模型界来了位“理科生”

o1,其实是OpenAI一系列计划中的“推理”模型的首个模型。这些模型经过训练,能够比人类更快地回答更复杂的问题。

为什么叫o1,而不是沿用此前的GPT系列命名?

官方解释是:“对于复杂的推理任务而言,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为1,并将这个系列命名为OpenAI o1。”

那么,o1到底强到什么程度?官方甩出了一大堆各种比赛的成绩单,仅从数据来看几乎是全面碾压级别。

比如,在2024 AIME(美国数学邀请赛)的资格考试中,GPT-4o解决问题准确率为13.4%,o1预览版成绩为56.7%,而尚未发布的o1正式版是83.3%。

编程方面,在模拟Codeforces平台的竞争性编程比赛中,o1超越93%的人类竞争者,也远远超过了GPT-4o(仅超越11%的人类竞争者)。

GPQA Diamond是一项专门评估化学、物理和生物等领域专业知识的测试。o1不仅通过了测试,而且还超过部分拥有相关领域博士学位的人类专家。这也是有史以来,第一个获得此成就的模型。

给出答案前会花更多时间思考

如果说之前的模型,大多凭“直觉”来回答我们的提问,那么o1给出的就是深思熟虑后的答案。

这一改变来自于背后的“链式思考”机制。

OpenAI的研究负责人Jerry Tworek(杰里·特沃瑞克)透露,o1的训练与之前产品有本质上的区别,“使用了一种全新的优化算法和专门为它定制的新训练数据集。”

“模型在学习自己思考,而不是试图模仿人类的思维方式。” OpenAI研究主管Mark Chen(马克·陈)表示。

也就是说,它在回复我们的询问之前,会花更多时间“想一想”。

今天,OpenAI也放出了多个演示视频,以显示o1的这种能力。

在其中一个视频中,工作人员问道:“当公主的年龄是王子过去年龄的两倍时,公主的年龄等于她当前年龄与王子当前年龄之和的一半。公主和王子的年龄分别是多少?”

o1思考了几秒钟后开始作答,并显示推理的全过程,包括变量是什么,条件又是什么,如何将这个问题准确表述,等等;接着转化为可解的方程式,并实时求解,最后甚至还给出了一条验证的结果。

最终的正确答案是:王子的年龄是任意自然数k的6倍,公主的年龄是k的8倍。

解题过程截图

目前,o1花在思考上的时间是从几秒到十几秒不等,但OpenAI表示未来的改进方向不是缩短,而是努力继续增加这个时长,让未来的版本思考几个小时、几天甚至几周。“人工智能可以不仅仅是聊天机器人。”

部分用户今天已用上

眼下,ChatGPT Plus和Team用户已经可以在ChatGPT中,通过手动选择o1-preview和o1-mini,来试一试o1模型的能力。o1-preview每周消息限制为30条,o1-mini为50条。

今天一上午,网上各种跃跃欲试,已有不少人迫不及待地晒出自己的试用结果。

有网友一上来就让它回答9.8和9.11哪个大的问题,也有人去翻数学高考题。

博主卡兹克直接甩出了很多人看了都迷糊的调休问题:“这是2024年9月9日(星期一)开始到10月13日的放假调休安排:上6休3上3休2上5休1上2休7再上5休1。问:我除了我本来该休的周末,我因为放假多休息了几天?”

在思考了整整30秒以后,o1给出了准确答案。

不过目前,o1还只是个早期模型,侧重复杂推理,诸如联网搜索、图片视频处理等都还不支持,需要配合GPT-4o一起使用。

另外,它的推理能力虽然强于此前模型,使得回答更为准确,但仍然会有出现“幻觉”问题的概率。“我们不能说我们已经解决了幻觉问题。”Jerry Tworek坦言。


责任编辑:童蔚
审核:陈奕 梁应杰

【2024澳门天天开好彩大全免费】 【新澳天天开奖资料大全最新】
【2024年天天开好彩资料】 【新澳天天开奖资料大全最新54期】
【2024澳门天天开好彩大全53期】 【澳门天天开彩期期精准】
【2024全年资料免费大全】 【新澳天天开奖资料大全】
【澳门内部最精准免费资料】 【2024澳门天天开好彩大全】
【2024年新奥门天天开彩免费资料】 【新澳2024今晚开奖资料】 【每日免费一肖一码】
上一条新闻 下一条新闻

推荐文章

发表评论

高维

8秒前:这一改变来自于背后的“链式思考”机制。

IP:63.54.2.*

Raj

5秒前:”“模型在学习自己思考,而不是试图模仿人类的思维方式。

IP:50.26.5.*

拉瑞·布尔乔亚

4秒前:”那么,o1到底强到什么程度?

IP:17.82.7.*

亦辰文旅APP介绍

APP图标

澳门内部正版资料大全2021正式APP名:亦辰文旅

版本:V5.68.494

更新时间:2024-09-27 16:21

漳浦各镇人口排名表这是一个功能强大的澳门免费资料最准的资料APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:”Jerry Tworek坦言。

新澳门正版资料大全2024免费APP介绍

APP图标

2024年香港今期结果查询管家婆APP名:亦辰文旅

版本:V1.59.570

更新时间:2024-09-27 15:15

2024今晚澳门开什么这是一个功能强大的免费的网站域名查询澳门APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:OpenAI的研究负责人Jerry Tworek(杰里·特沃瑞克)透露,o1的训练与之前产品有本质上的区别,“使用了一种全新的优化算法和专门为它定制的新训练数据集。

嫁入豪门却不幸的女星APP介绍

APP图标

澳门马会传真祥彩联盟港图库APP名:亦辰文旅

版本:V4.70.906

更新时间:2024-09-27 23:20

打开澳门六开彩免费这是一个功能强大的香港今晚开特马APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:和GPT-4o相比,它的最大特点就是推理能力非常强,包括数学、编程问题、科学领域等。

酵素洗白纱帘洗的白APP介绍

APP图标

澳门特马最准免费资料网站APP名:亦辰文旅

版本:V9.83.762

更新时间:2024-09-27 13:24

澳门彩历史结果这是一个功能强大的2024新澳门资料大全正版APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:今天一上午,网上各种跃跃欲试,已有不少人迫不及待地晒出自己的试用结果。

2024澳门今晚开什APP介绍

APP图标

新奥管家婆资料2024年85期APP名:亦辰文旅

版本:V3.92.908

更新时间:2024-09-27 18:24

奥门一肖一码资料大全这是一个功能强大的2024年澳门今晚资料APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:7%,而尚未发布的o1正式版是83.

2024年新澳门管家婆一肖一码APP介绍

APP图标

2024澳门天天开好彩APP名:亦辰文旅

版本:V5.48.509

更新时间:2024-09-27 23:13

澳门今期结果这是一个功能强大的2024香港特马结果查询今天APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:解题过程截图目前,o1花在思考上的时间是从几秒到十几秒不等,但OpenAI表示未来的改进方向不是缩短,而是努力继续增加这个时长,让未来的版本思考几个小时、几天甚至几周。

2024年澳门天天彩的最新更新APP介绍

APP图标

澳门天天彩期期精准APP名:亦辰文旅

版本:V1.39.478

更新时间:2024-09-27 16:15

2024今晚香港开特马开什么这是一个功能强大的澚门六开彩最新号码APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:也就是说,它在回复我们的询问之前,会花更多时间“想一想”。

新澳彩免费资料查询APP介绍

APP图标

伊朗发布首份直升机事故调查报告APP名:亦辰文旅

版本:V1.20.364

更新时间:2024-09-27 21:21

48k奥彩免费资料这是一个功能强大的澳门老陈三肖六码APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:不过目前,o1还只是个早期模型,侧重复杂推理,诸如联网搜索、图片视频处理等都还不支持,需要配合GPT-4o一起使用。