o3智商有157,堪比爱因斯坦?-不事边幅网

o3智商有157，商有斯坦堪比爱因斯坦？堪比

12月24日，OpenAI模型智商图在全网传播。爱因

Codeforces排名基于编程竞赛

图中清晰可见，能达到o3智商水平的堪比人类约占0.0075%。

在13333人中，爱因只有一人IQ处于o3级。商有斯坦对于GPT-4o，堪比6人中有一人能达到IQ 115的爱因水平。

从GPT-4o、商有斯坦到o1系，堪比再到o3系，爱因模型IQ逐渐增加，商有斯坦只用了一年时间就实现了质的堪比飞跃。即使是爱因最强的o1 pro(IQ为139)，o3完全领先近20分。

有网友说，用不了多久，我们口袋里就会有IQ 157的智能。

另有人说，陶哲轩的智商大约在225-230之间，未来的模型很快就会达到这个水平。

超高智商背后的o3

o3发布后，很多人认为AGI已经实现了。

OpenAI从o1到o3只用了3个月；从o1到o3 从pro到o3只用了一个月。各种迹象表明，Scaling Law还没有结束。

在过去的五年里，OpenAI模型在ARC-AGI上的得分也说明了一切。

NatttatopenAI研究员在o3发布当天，Mcalese分享了一些关于模型的介绍。

他说，o3代表着通过加强学习在一般领域的巨大进步。

o1是第一个大规模推理模型，只是RL训练的大模型。o3是在o1的基础上进一步强化学习的。

我们已经看到o3在世界上最具竞争力的编程基准Codeforces中得分超过2700分，完全达到了国际大师的水平。

与此同时，o3在数学基准FrontierMath上的惊艳表现令人生畏，甚至击穿了陶哲轩的预言。

在Keras中，François 在Chollet转写的报告中，也解释了o3与旧模型的区别：

o3的核心创新点是在token空间中搜索和执行自主语言程序。在测试过程中，它搜索可能的Cot空间，并描述解决任务所需的步骤，并通过评估模型指导搜索过程。

而且，他说，这种方式与AlphaZero的蒙特卡洛树搜索没有太大区别。

o3本质上是一种深度学习指导的程序搜索形式。

然而，即使opnenAI研究员Willl如此疯狂，即使o3的进化速度如此疯狂 depue表示，这不是AGI，我们还有很长的路要走。

o3 ARC-AGI测试被曝光「作弊」？

而就在最近，o3的ARC-AGI测试结果，在圈内引起了不小的争议。

你知道，这个基准的初衷是找到那些对人类容易但对人工智能困难的话题。

据OpenAI介绍，在ARC-AGI的基准测试中，O3在低计算模式下，在半私有评估中得分为75.7%；在高计算模式下，分为87.5%。

人类在这项任务中的表现通常是85%，也就是说，o3在高计算模式下已经超过了人类。

这个结果引起了很多人的质疑:OpenAI不会专门训练这个任务，对吧？

在直播的第12天，奥特曼特别强调，「没有对模型进行特殊处理」。

对此，细心的网友们纷纷展开调查。

例如，这个名字叫Knightt Lee的网友表示，o3在ARC-AGI上的分数是微调的，而之前的AI分数并没有微调。

他说o3的主要优点之一就是接受了示例测试问题的明确训练。

之所以有这样的观点，是因为他引用了ARC-AGI设计师François Chollet的说法——

OpenAI分享说，他们测试的o3是在公共训练集75%的数据上训练的。他们还没有透露更多细节。我们还没有测试未经ARC数据培训的模型，所以我们不知道它的性能归因于ARC-AGI数据。

这个说法是真的，o3的分数显然占了很大的便宜。

Zach，OpenAI研究员 Stein-Perlman反驳说，他们没有对ARC对o3进行微调。

然而，今天o3智商157的结果至少可以稍微更正其性能。

o4才是Orion？

而且，o3之后，可能会出现更强的IQ模型。

Information独家透露，o3不是代号为orion的模型。相比之下，orion可以作为o4的基本模型。

但《华尔街日报》在之前的报道中表示，Orion是GPT-5……

OpenAI研究员Jason Wei说，从o1到o3只需要3个月的时间，这表明在新范式下，每1-2年更新一次模型的进展速度远快于预训练范式。

推理模型的优点是，在使用更多的计算资源进行思考后，可以弥补预训练的放缓速度。

因此，O3推理的成本也很高。ARC-在AGI基准测试报告中，o3在每个高计算任务中的成本将超过1000美元。

OpenAI博士级AI助手每月能达到2000美元的原因也得到了充分的解释。

另一位OpenAI研究员John Hallman说，当Sam告诉我们的研究人员AGI即将到来时，我们不是为了给你画大蛋糕，不是为了推2000美元的订阅，也不是为了引诱你投资我们的下一轮融资。它真的来了。

目前还不清楚o3能给普通ChatGPT用户带来多大的帮助。

o3在编程、数学和科学领域的表现可能对编程、数学和科学领域的人员最有帮助，包括极其困难的研究问题（如核聚变能源）的研究人员。

对于普通用户来说，新模型可能有点「大材小用」。

尽管o3表现出色，但其他科技巨头也不甘示弱。

Geminini 2.0 Flash、Veo视频模型 2.人工智能研究员Noam被雇佣，费用为30亿美元 Shazeer开发的推理模型。

一些对价格敏感的开发者已经转向谷歌Flash模型。

可以看出，推理模型将继续超进化迭代，2025年将和今年一样令人兴奋。

参考资料：

https://x.com/i_dg23/status/1871135348069482993

https://x.com/kimmonismus/status/1871162085675253977

https://x.com/SmokeAwayyy/status/1871273888191221922

https://www.theinformation.com/articles/openai-wows-the-crowd-as-new-scaling-law-passes-its-first-test?rc=epv9gi

本文来源：新智元

o3智商有157,堪比爱因斯坦?

flink