Jeremy Howard称创造首个大语言模型，ULMFiT引发起源考据

Jeremy Howard：首个大语言模型的缔造者之争

澳大利亚昆士兰大学名誉教授JeremyHoward，这位曾任Kaggle创始总裁和首席科学家，现answer.ai与 Fast.ai创始人，声称自己创造了第一个大语言模型。这一言论起因于其项目llms.txt在助力大模型爬取互联网信息方面遭质疑，进而引发激烈争论，吸引众多关注。

ULMFiT：关键论文与影响力

2018年初，JeremyHoward发表的论文ULMFiT意义重大。该论文提出有效迁移学习方法，可应用于NLP领域各项任务，还介绍微调语言模型关键技术。在六个文本分类任务中，其表现远超当时SOTA方法，多数数据集上错误率降低18- 24%，仅用100个带标签示例，性能就与在100倍以上数据上从头训练模型相当。

大语言模型标准与模型分析

软件工程师Jonathon Belotti在《谁才是第一个大语言模型》中进行考据。他以GPT -1为公认大语言模型标准，提取大语言模型标准：是语言模型，通过自监督训练，预测下一个token，能适应新任务且具通用性。

分析多个模型，原版Transformer虽为架构基础但不够通用；CoVE通过监督学习训练不符合自监督条件；ELMo在few -shot能力上不足。而ULMFiT，这个在WikiText数据上自监督训练的LSTM模型，能低成本适应新任务，执行大量文本分类任务并达SOTA性能。

后续回应与意义探讨

Jeremy Howard回应称创造了第一个“通用语言模型”，后续才有“大型语言模型”新术语。苹果工程师NathanLawrence认为ULMFiT是转折点。有人建议JeremyHoward称ULMFit是第一个“通用预训练模型”，这一争论背后，“开拓智域”文化值得关注。

# AI快讯

文章版权归作者所有，未经允许请勿转载。