o3智商有157,堪比爱因斯坦?

o3智商有157,商有斯坦堪比爱因斯坦?堪比

12月24日,OpenAI模型智商图在全网传播。爱因

Codeforces排名基于编程竞赛

图中清晰可见,能达到o3智商水平的堪比人类约占0.0075%。

在13333人中,爱因只有一人IQ处于o3级。商有斯坦对于GPT-4o,堪比6人中有一人能达到IQ 115的爱因水平。

从GPT-4o、商有斯坦到o1系,堪比再到o3系,爱因模型IQ逐渐增加,商有斯坦只用了一年时间就实现了质的堪比飞跃。即使是爱因最强的o1 pro(IQ为139),o3完全领先近20分。

有网友说,用不了多久,我们口袋里就会有IQ 157的智能。

另有人说,陶哲轩的智商大约在225-230之间,未来的模型很快就会达到这个水平。

超高智商背后的o3

o3发布后,很多人认为AGI已经实现了。

OpenAI从o1到o3只用了3个月;从o1到o3 从pro到o3只用了一个月。各种迹象表明,Scaling Law还没有结束。

在过去的五年里,OpenAI模型在ARC-AGI上的得分也说明了一切。

NatttatopenAI研究员 在o3发布当天,Mcalese分享了一些关于模型的介绍。

他说,o3代表着通过加强学习在一般领域的巨大进步。

o1是第一个大规模推理模型,只是RL训练的大模型。o3是在o1的基础上进一步强化学习的。

我们已经看到o3在世界上最具竞争力的编程基准Codeforces中得分超过2700分,完全达到了国际大师的水平。

与此同时,o3在数学基准FrontierMath上的惊艳表现令人生畏,甚至击穿了陶哲轩的预言。

在Keras中,François 在Chollet转写的报告中,也解释了o3与旧模型的区别:

o3的核心创新点是在token空间中搜索和执行自主语言程序。在测试过程中,它搜索可能的Cot空间,并描述解决任务所需的步骤,并通过评估模型指导搜索过程。

而且,他说,这种方式与AlphaZero的蒙特卡洛树搜索没有太大区别。

o3本质上是一种深度学习指导的程序搜索形式。

然而,即使opnenAI研究员Willl如此疯狂,即使o3的进化速度如此疯狂 depue表示,这不是AGI,我们还有很长的路要走。

o3 ARC-AGI测试被曝光「作弊」?

而就在最近,o3的ARC-AGI测试结果,在圈内引起了不小的争议。

你知道,这个基准的初衷是找到那些对人类容易但对人工智能困难的话题。

据OpenAI介绍,在ARC-AGI的基准测试中,O3在低计算模式下,在半私有评估中得分为75.7%;在高计算模式下,分为87.5%。

人类在这项任务中的表现通常是85%,也就是说,o3在高计算模式下已经超过了人类。

这个结果引起了很多人的质疑:OpenAI不会专门训练这个任务,对吧?

在直播的第12天,奥特曼特别强调,「没有对模型进行特殊处理」。

对此,细心的网友们纷纷展开调查。

例如,这个名字叫Knightt Lee的网友表示,o3在ARC-AGI上的分数是微调的,而之前的AI分数并没有微调。

他说o3的主要优点之一就是接受了示例测试问题的明确训练。

之所以有这样的观点,是因为他引用了ARC-AGI设计师François Chollet的说法——

OpenAI分享说,他们测试的o3是在公共训练集75%的数据上训练的。他们还没有透露更多细节。我们还没有测试未经ARC数据培训的模型,所以我们不知道它的性能归因于ARC-AGI数据。

这个说法是真的,o3的分数显然占了很大的便宜。

Zach,OpenAI研究员 Stein-Perlman反驳说,他们没有对ARC对o3进行微调。

然而,今天o3智商157的结果至少可以稍微更正其性能。

o4才是Orion

而且,o3之后,可能会出现更强的IQ模型。

Information独家透露,o3不是代号为orion的模型。相比之下,orion可以作为o4的基本模型。

但《华尔街日报》在之前的报道中表示,Orion是GPT-5……

OpenAI研究员Jason Wei说,从o1到o3只需要3个月的时间,这表明在新范式下,每1-2年更新一次模型的进展速度远快于预训练范式。

推理模型的优点是,在使用更多的计算资源进行思考后,可以弥补预训练的放缓速度。

因此,O3推理的成本也很高。ARC-在AGI基准测试报告中,o3在每个高计算任务中的成本将超过1000美元。

OpenAI博士级AI助手每月能达到2000美元的原因也得到了充分的解释。

另一位OpenAI研究员John Hallman说,当Sam告诉我们的研究人员AGI即将到来时,我们不是为了给你画大蛋糕,不是为了推2000美元的订阅,也不是为了引诱你投资我们的下一轮融资。它真的来了。

目前还不清楚o3能给普通ChatGPT用户带来多大的帮助。

o3在编程、数学和科学领域的表现可能对编程、数学和科学领域的人员最有帮助,包括极其困难的研究问题(如核聚变能源)的研究人员。

对于普通用户来说,新模型可能有点「大材小用」。

尽管o3表现出色,但其他科技巨头也不甘示弱。

Geminini 2.0 Flash、Veo视频模型 2.人工智能研究员Noam被雇佣,费用为30亿美元 Shazeer开发的推理模型。

一些对价格敏感的开发者已经转向谷歌Flash模型。

可以看出,推理模型将继续超进化迭代,2025年将和今年一样令人兴奋。

参考资料:

https://x.com/i_dg23/status/1871135348069482993

https://x.com/kimmonismus/status/1871162085675253977

https://x.com/SmokeAwayyy/status/1871273888191221922

https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi

本文来源:新智元

(1272)
Previous 2026-01-04 18:12
Next 2026-01-04 17:48