人工智能引领科研新方向：机器思维促成人类学术论文

难以置信！人工智能产生的科研点子，确实已由人类写成了论文。
连同预印本、博客和代码都有着全部的记录。
今年八月，由’Transformer’论文项目的最后一位作者Llion Jones创立的Sakana AI公司，正式发布了史上第一位’AI科学家’，并且一出手就呈现了十篇完整的学术论文。
现在，在其中一篇论文想法的启发下，真实的科学家确实将相关的研究撰写成论文，并已在预印本平台arXiv上公开。
前OpenAI研究团队负责人Jeff Clune激动地表示：
难以置信！这是AI给我提供的想法中最出色的之一。看到它与人类达成的共识真的太酷了，确确实实，人类在这方面做得更出色。
不多讲，让我们来探究一下这篇论文的具体内容。
Claude所提出的主意，已被人类转化为论文。
查阅’AI科学家’之前撰写的论文，我们发现了Clune所提及的这篇。
《通过最小描述长度揭示压缩中的突发泛化现象》是Claude 3.5 Sonnet在第22次迭代时提出的。
主要讨论了神经网络中的最小描述长度（MDL）与“grokking”现象的关系——模型在长时间训练之后突然能够泛化。
研究从信息论的角度分析了突发泛化的机制。
其中，MDL被视作衡量模型复杂性和可压缩性的一种方法，即模型应该能很好地拟合数据，同时避免过于复杂以防过拟合。
进一步来说，研究引入了一种基于权重修剪的新型MDL估计技术，并将其应用于多个数据集，包括模块化算术和排列任务。实验结果显示，MDL降低和泛化能力提高之间存在强烈的相关性，MDL变化点往往在’grokking’现象发生之前或与之同时出现。
此外，研究还发现，在’grokking’与非’grokking’环境下MDL的演变模式存在差异，前者表现为MDL快速降低后持续泛化。这些发现为理解’grokking’的信息论基础提供了深刻的洞察，并显示在训练过程中监控MDL可预测即将发生的泛化。
了解过原论文后，再来看看人类学者最新的研究成果。
简单总结，他们研究了神经网络在“grokking”现象中的复杂性变化，即在从记忆训练数据到实现完美泛化的过渡中，提出了一种基于失真压缩理论的新方法来衡量神经网络的复杂性。
首先，作者之一Branton DeMoss指出，他们的研究受到了Sean Carroll和Scott Aaronson先前研究的启发。
通过观察咖啡和奶油混合的现象，Scott等学者发现复杂性随时间先上升后下降，与熵单调递增的过程相似。
而DeMoss团队则将这一直觉公式化，并对神经网络进行了应用，以追踪网络学习的抽象复杂度。
具体来说，文章先介绍了grokking现象，即神经网络在长时间过拟合训练数据后突然泛化的能力。
x轴表示优化步骤数，y轴表示准确率；红线上显示了训练集的准确率，绿线则是验证集的准确率。
从图中可以看出，训练一个小规模的Transformer模型模拟后，模型在经过几百个训练步骤后完美拟合了训练数据；然而，直到大约10^5个训练步骤后，模型才实现了泛化。
为了解释这一现象，团队引入了基于失真压缩和Kolmogorov复杂性的新方法来衡量神经网络的复杂性，并通过这一框架追踪了grokking过程中网络复杂性的动态变化。
可以类比为’神经网络的JPEG’。
研究的结果表明，在从记忆过渡到泛化的阶段，网络的复杂性先是上升，然后在泛化发生时下降。
进一步地，研究还发现，如果神经网络没有任何形式的正则化（这是一种防止过拟合的技术），它就无法从记忆阶段过渡到泛化阶段，而是会长期保持在记忆阶段。
没有正则化的情况反应表现如下：
有正则化的时候反应如下：
此外，作者也指出了传统复杂性评估标准（例如参数数量和权重范数）无法准确描述模型的复杂性，因为它们忽略了训练过程中的变化。
他们采用最小描述长度（MDL）原则和Kolmogorov复杂度来定义和估计复杂性，并通过实验证实了这种方法，并强调简单模型在数据压缩中的优势。
总的来说，研究强调了理解复杂性对于预测模型泛化能力的重要性。
对于更多细节感兴趣的读者可以查阅原论文（链接在文末）。
能够看出，最初由AI提出的想法，最终由人完成更详细的论证。
有网友分析指出AI的那篇论文实验结果不及人类研究员的好。
而曾经共著’AI科学家’总论文的Cong Lu也说：
谁能预料到AI未来还会激发出哪些思想……
顺便一提，在Sakana AI公布’AI科学家独立生成10篇学术论文’的消息后，公司在九月份又获得了一笔两亿美元的A轮融资，其中还有英伟达的参与。
总之，AI不仅能够自己撰写论文，还能成为人类合作伙伴。
论文：https://arxiv.org/abs/2412.09810
GitHub：https://github.com/brantondemoss/GrokkingComplexity
博客：https://brantondemoss.com/research/grokking/
参考链接：
[1]http://x.com/cong_ml/status/1869135740275450197
[2]http://x.com/BrantonDeMoss/status/1868666711890706675

# AI快讯

文章版权归作者所有，未经允许请勿转载。