Jeremy Howard:首个大语言模型的缔造者之争
澳大利亚昆士兰大学名誉教授JeremyHoward,这位曾任Kaggle创始总裁和首席科学家,现answer.ai与Fast.ai创始人,声称自己创造了第一个大语言模型。这一言论起因于其项目llms.txt在助力大模型爬取互联网信息方面遭质疑,进而引发激烈争论,吸引众多关注。
ULMFiT:关键论文与影响力
2018年初,JeremyHoward发表的论文ULMFiT意义重大。该论文提出有效迁移学习方法,可应用于NLP领域各项任务,还介绍微调语言模型关键技术。在六个文本分类任务中,其表现远超当时SOTA方法,多数数据集上错误率降低18- 24%,仅用100个带标签示例,性能就与在100倍以上数据上从头训练模型相当。
大语言模型标准与模型分析
软件工程师Jonathon Belotti在《谁才是第一个大语言模型》中进行考据。他以GPT -1为公认大语言模型标准,提取大语言模型标准:是语言模型,通过自监督训练,预测下一个token,能适应新任务且具通用性。
分析多个模型,原版Transformer虽为架构基础但不够通用;CoVE通过监督学习训练不符合自监督条件;ELMo在few -shot能力上不足。而ULMFiT,这个在WikiText数据上自监督训练的LSTM模型,能低成本适应新任务,执行大量文本分类任务并达SOTA性能。
后续回应与意义探讨
Jeremy Howard回应称创造了第一个“通用语言模型”,后续才有“大型语言模型”新术语。苹果工程师NathanLawrence认为ULMFiT是转折点。有人建议JeremyHoward称ULMFit是第一个“通用预训练模型”,这一争论背后,“开拓智域”文化值得关注。
© 版权声明
文章版权归作者所有,未经允许请勿转载。