堪称不可能卤莽被打败的 AGI 基准 ARC-AGI 被 GPT-4o 撼动,GPT-4o 以在内行测试集 50%、在查验集 71% 的准确率成为了新的 SOTA!
ARC-AGI 是唯独不错用来揣度通用东谈主工智能进展的基准,创造者 François Chollets 一经掷下豪言 ——
「它不可能卤莽被打败!」
为了测试这一丝,他于 2020 年在 Kaggle(Google LLC 旗下的数据科学竞赛平台)上主理了首届 ARC-AGI 竞赛。
到手团队 icecuber 在测试集上仅取得了 21% 的收遵循,这个得益强有劲地讲授了 François 的断言是正确的。
而后几年,来自天下各地的挑战者束缚刷新这个记录,但进展慢慢。ARC-AGI 似乎成为了一座不可进步的峻岭。
然则这周二,ARC-AGI 基准无法被挑战的外传被 GPT-4o 撼动了!GPT-4o 以在内行测试集 50%、在查验集的保留子集 71% 的准确率成为了新的 SOTA!
ARC-AGI 上周被大力宣传为 LLM 无法责罚的基准。这个说法激勉了我亲爱的共事 Ryan Greenblatt 的斗志,因此他上周试图用 LLMs 来责罚这个问题。Ryan 在一组示例中取得了 71% 的准确率,而东谈主类的准确率为 85%;这(GPT-4o)是 SOTA。
这个音讯也赶紧登上了 HN 热搜榜。
值得一提的是,本年 Mike Knoop、François 和 Lab42 联手创建了 2024 年 ARC 奖,奖金池突出 110 万好意思元。
为了完成这个挑战,Ryan 灭亡了一个星期的神色,联想了好多花哨的手段,争取了高性能:
查验集:71% vs. 东谈主类基线 85%
测试集:51% vs. 之前的 SOTA 34%(东谈主类基线未知)
但缺憾的是,此提交不合适 ARC-AGI 奖项和主要排名榜的经验,因为它使用闭源模子和过多的开动时诡计。
可能 Ryan 会提交到私东谈主排名榜中吧。
什么是 ARC-AGI?
ARC-AGI 的数据集由视觉问题构成,输入输出示例是由彩色单位格构成的网格,任务是揣摸从输入到输出的调度规章,然后补全缺失的网格。
看起来很浅显对吧,就像是小学的奥数题,让 GPT-4o 来责罚也并不艰难。不外,内行测试集合的任务要宝贵多,对于东谈主类来说,也会有些辣手,但并非不可责罚。
每一项 ARC-AGI 任务皆是流程东谈主工考据的,包括内行测试集,确保 ARC-AGI 的悉数任务皆不错由东谈主类责罚。
毕竟这是一个通用东谈主工智能基准,若是连东谈主类我方皆难倒了,那拿去测试 LLM 也不对事理。
据报谈,亚马逊土耳其机器东谈主 (Amazon Mechanical Turk,MTurk) 查验散布的东谈主类基线是 85%,但莫得针对公开测试集的东谈主类基线,不外咱们已知的是,公开测试集更难,那么针对公开测试集的东谈主类基线应该会更低。
Ryan 给出了测试集合的一些代表性的问题,以及他基于 GPT-4o 的责罚决议是否回应正确。
问题 1:
问题 2:
问题 3:
从 Ryan 给出的这 3 个例子中不错看出,GPT-4o 答对了三分之一。(跟小编的胜率通常,前 2 个图密密匝匝,没看出个是以然来…)
若何让 GPT-4o 作念到的
Ryan 的责罚决议的主要念念路很是浅显:让 GPT-4o 生成约 8000 个尝试已毕调度的 python 措施,汲取一个在悉数示例(无为有 3 个示例)中皆正确的措施,然后提交该函数诳骗于特别测试输入时产生的输出。
Ryan 以图像和各式 ASCII 暗意形状向 GPT-4o 展示了该问题。
这种措施在本体上与 AlphaCode 中诳骗的措施访佛,在 AlphaCode 中,一个模子会生成数百万个试图责罚编程问题的完成项,然后对这些完成项进行汇总,以细则要提交的内容。
从更高级次上来解释,Ryan 使用的措施是:
向 GPT-4o 先容 ARC-AGI 的问题,并为问题中的每个网格提供图像暗意法和各式文本暗意法。
指点 GPT-4o 推理背后的规章,进一步推理若何用代码已毕调度,终末用代码已毕。
使用几次领导以及几个尽心手写的分步推理示例来履行让 GPT-4o 有用地进行此推理。生成的领导无为长度约为 30k 个 token(包括图像)。
从 GPT-4o 中抽取巨额的完成样本(每个问题约 5000 个)。
针对每个问题中式最有但愿的 12 个补全,然后通过向 GPT-4o 展示该措施在示例中的履行输出,并要求 GPT-4o 修改代码使其正确,从而尝试成立每个补全。
然后,把柄对正确示例措施的多数投票效果,选出 3 个提交措施。
空洞来说,Ryan 通过实足长的、精雕细镂的少样本领导,生成许多可能的 Python 措施,从苟简 5k 个揣摸中,使用示例选出最好揣摸,然后进行调试。
除了对查验集进行迭代外,Ryan 还对内行测试集的 100 个问题子集进行了一丝迭代。
在这里先容的悉数用果皆是在不调换的内行测试集的另一个子集上诡计得出的。
查验集和测试集不是颓唐的,而且测试集的难度更大,因此使用测试集的子集进行迭代有助于快速更好地了解问题随难度的变化。
晦气的是,这些测试集不是颓唐同散布(Independent Identically Distribution,IID):这使得迭代变得愈加艰难和紊乱。
对于措施的更多细节,以及齐备的责罚决议,不错参阅神色的 GitHub:
https://github.com/rgreenblatt/arc_draw_more_samples_pub采样每增多一倍,精度普及 3%
若是有更多的采样,性能会有所普及吗?
谜底是会的!
缩放 Python 采样数目不错可靠地普及性能,每增多一倍,精度普及 3%。
而且这距离 AlphaCode 使用的数百万个样本还很远!
GPT-4o 存在的非推理毛病
GPT-4o 看不清澈。GPT-4o 在网格上的视力很糟糕,当被要求姿首一个较大的网格中的内容时,它无为无法正确「看清」输入,并陈述连络某些位置的表情或存在的步地的失实事实。
GPT-4o 不太擅长编码(突出是对于此类几何操作问题),况兼往往犯一些浅显的失实,举例差一失实(Off-by-one error,OBOE)。
当坎坷文中的 token 突出 32k 时,其性能会着落。
摈斥这些非推理毛病将显贵普及责罚决议的性能,而这些问题似乎很可能通过界限化(scalling)来责罚。
距离 ARC-AGI 大奖还有多远?
若何才能达到 ARC-AGI 所设定的 85% 的大奖蓄意呢?
Ryan 作念出了很是「数据化」的预计。
70% 的可能性:一个由 3 名顶尖 ML 工程师构成的团队,通过微调 GPT-4o(包括 SFT 和 RL)、1000 万好意思元的诡计量和 1 年的工夫,不错使用 GPT-4o 超越 MTurk 85% 的东谈主类基线(浅显查验集)。
35% 概率:在上述同等条目下,内行测试集上的概率也可达 85%。现在还不清澈哪些东谈主在测试集上的清楚 >=85%,尽管这对于贤慧的东谈主来说可能并不难。
80% 的概率:下一代多模态大模子(举例 GPT-5)将大约大幅普及 ARC-AGI 的性能。
LLM 有学习才略吗
Ryan 援用了 François Chollets 的一段话 ——
若是你是对的(LLMs 不错进行情境学习),那么,LLMs 在 ARC 谜题上会清楚得很好,因为 ARC 谜题并不复杂。你不需要解析念念考它,它们履行上对东谈主类来说很是高慢。
即使是孩子也不错作念到,但 LLMs 弗成。即使 LLMs 的常识比你多 100,000 倍,仍然作念不到。ARC 唯独的特殊之处在于它的联想初志便是为了抵制追念。这是 LLM 性能的浩瀚足下。
若是仔细不雅察 LLMs,很高慢他们并莫得着实即时合成新措施来责罚他们濒临的任务。
Ryan 则以为,LLMs 在进行坎坷体裁习时履行上作念了一些关连的「学习」。
尽管举座性能很是弱,远远不如东谈主类(不然他就不需要在他的责罚决议中抽取数千个样本),但这仍然是一种学习。
「我的不雅点并不是说 GPT-4o 相对于东谈主类来说是贤慧的,但我确乎以为它是具有『智能』的。」
参考贵寓:
https://x.com/bshlgrs/status/1802766374961553887
https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt
告白声明:文内含有的对外跳转流畅(包括不限于超流畅、二维码、口令等形状),用于传递更多信息kaiyun欧洲杯app(官方)官方网站·IOS/安卓通用版/手机APP下载,省俭甄选工夫,效果仅供参考,IT之家悉数著述均包含本声明。
声明:新浪网独家稿件,未经授权辞谢转载。 -->