人工智能引领科研新方向:机器思维促成人类学术论文

AI快讯1天前发布 niko
1 0

难以置信!人工智能产生的科研点子,确实已由人类写成了论文。
连同预印本、博客和代码都有着全部的记录。
今年八月,由’Transformer’论文项目的最后一位作者Llion Jones创立的Sakana AI公司,正式发布了史上第一位’AI科学家’,并且一出手就呈现了十篇完整的学术论文。
现在,在其中一篇论文想法的启发下,真实的科学家确实将相关的研究撰写成论文,并已在预印本平台arXiv上公开。
前OpenAI研究团队负责人Jeff Clune激动地表示:
难以置信!这是AI给我提供的想法中最出色的之一。看到它与人类达成的共识真的太酷了,确确实实,人类在这方面做得更出色。
不多讲,让我们来探究一下这篇论文的具体内容。
Claude所提出的主意,已被人类转化为论文。
查阅’AI科学家’之前撰写的论文,我们发现了Clune所提及的这篇。
《通过最小描述长度揭示压缩中的突发泛化现象》是Claude 3.5 Sonnet在第22次迭代时提出的。
主要讨论了神经网络中的最小描述长度(MDL)与“grokking”现象的关系——模型在长时间训练之后突然能够泛化。
研究从信息论的角度分析了突发泛化的机制。
其中,MDL被视作衡量模型复杂性和可压缩性的一种方法,即模型应该能很好地拟合数据,同时避免过于复杂以防过拟合。
进一步来说,研究引入了一种基于权重修剪的新型MDL估计技术,并将其应用于多个数据集,包括模块化算术和排列任务。实验结果显示,MDL降低和泛化能力提高之间存在强烈的相关性,MDL变化点往往在’grokking’现象发生之前或与之同时出现。
此外,研究还发现,在’grokking’与非’grokking’环境下MDL的演变模式存在差异,前者表现为MDL快速降低后持续泛化。这些发现为理解’grokking’的信息论基础提供了深刻的洞察,并显示在训练过程中监控MDL可预测即将发生的泛化。
了解过原论文后,再来看看人类学者最新的研究成果。
简单总结,他们研究了神经网络在“grokking”现象中的复杂性变化,即在从记忆训练数据到实现完美泛化的过渡中,提出了一种基于失真压缩理论的新方法来衡量神经网络的复杂性。
首先,作者之一Branton DeMoss指出,他们的研究受到了Sean Carroll和Scott Aaronson先前研究的启发。
通过观察咖啡和奶油混合的现象,Scott等学者发现复杂性随时间先上升后下降,与熵单调递增的过程相似。
而DeMoss团队则将这一直觉公式化,并对神经网络进行了应用,以追踪网络学习的抽象复杂度。
具体来说,文章先介绍了grokking现象,即神经网络在长时间过拟合训练数据后突然泛化的能力。
x轴表示优化步骤数,y轴表示准确率;红线上显示了训练集的准确率,绿线则是验证集的准确率。
从图中可以看出,训练一个小规模的Transformer模型模拟后,模型在经过几百个训练步骤后完美拟合了训练数据;然而,直到大约10^5个训练步骤后,模型才实现了泛化。
为了解释这一现象,团队引入了基于失真压缩和Kolmogorov复杂性的新方法来衡量神经网络的复杂性,并通过这一框架追踪了grokking过程中网络复杂性的动态变化。
可以类比为’神经网络的JPEG’。
研究的结果表明,在从记忆过渡到泛化的阶段,网络的复杂性先是上升,然后在泛化发生时下降。
进一步地,研究还发现,如果神经网络没有任何形式的正则化(这是一种防止过拟合的技术),它就无法从记忆阶段过渡到泛化阶段,而是会长期保持在记忆阶段。
没有正则化的情况反应表现如下:
有正则化的时候反应如下:
此外,作者也指出了传统复杂性评估标准(例如参数数量和权重范数)无法准确描述模型的复杂性,因为它们忽略了训练过程中的变化。
他们采用最小描述长度(MDL)原则和Kolmogorov复杂度来定义和估计复杂性,并通过实验证实了这种方法,并强调简单模型在数据压缩中的优势。
总的来说,研究强调了理解复杂性对于预测模型泛化能力的重要性。
对于更多细节感兴趣的读者可以查阅原论文(链接在文末)。
能够看出,最初由AI提出的想法,最终由人完成更详细的论证。
有网友分析指出AI的那篇论文实验结果不及人类研究员的好。
而曾经共著’AI科学家’总论文的Cong Lu也说:
谁能预料到AI未来还会激发出哪些思想……
顺便一提,在Sakana AI公布’AI科学家独立生成10篇学术论文’的消息后,公司在九月份又获得了一笔两亿美元的A轮融资,其中还有英伟达的参与。
总之,AI不仅能够自己撰写论文,还能成为人类合作伙伴。
论文:https://arxiv.org/abs/2412.09810
GitHub:https://github.com/brantondemoss/GrokkingComplexity
博客:https://brantondemoss.com/research/grokking/
参考链接:
[1]http://x.com/cong_ml/status/1869135740275450197
[2]http://x.com/BrantonDeMoss/status/1868666711890706675

© 版权声明

相关文章

暂无评论

暂无评论...