大模型数据污染：医疗领域的潜在危机与解决方案

纽约大学研究者于NatureMedicine发表的最新研究，为大模型在医疗领域的应用敲响警钟。在模拟数据攻击实验中，仅将0.001%的训练token替换为错误信息，便训练出更易传播错误医学知识的模型。

LLM训练遵循「垃圾输入，垃圾输出」原则，因其常用互联网大规模爬取文本作训练材料，有害内容难以筛选，成为持久漏洞。在医疗相关大模型中，数据污染问题尤为严峻，因其错误输出对诊断结果和病人护理影响巨大。

为探究数据污染的影响程度，研究者利用OpenAI GPT-3.5API及提示工程，为外科、神经外科和药物三个医学子领域创建5万篇假文章，并嵌入HTML隐藏恶意文本。这些页面被抓取后融入高质量训练数据集，形成涵盖三个医学领域、共30亿个token的训练数据集。

随后，针对这三个医学领域，研究人员用不同比例虚假数据训练6个1.3B参数模型。训练完成后，15名临床医生手动审查模型生成的医疗相关内容是否包含有害虚假信息。

实验结果显示，训练时即便数据集中只有0.01%和0.001%的文本为虚假内容，1.3B参数模型输出的有害内容也分别增加11.2%和7.2%。4B参数的领域模型，用0.001%的虚假信息替换100亿训练token中的100万个，即注入仅花费5美元生成的2000篇恶意文章，有害内容增加4.8%。

模型越大，数据污染攻击成本虽增加，但投入产出比仍很可观。针对在2万亿token上训练的7B参数LLaMA2进行数据攻击，仅需4万篇文章，成本低于100美元。按比例扩大至当前最大的LLM，中毒数据总成本也能保持在1000美元以下。

该研究不仅指出问题，还给出解决方案。研究表明，对注入0.001%错误信息训练后中毒的4B参数LLM，提示工程、RAG及使用医疗问答数据集进行监督微调这三种常规方案效果不佳。

研究提出将大模型输出与生物医学知识图谱交叉引用以筛选医疗虚假信息。研究人员用真实数据构建精炼版知识图谱，包含21706个医学概念和416302个关联关系。

具体操作是，先用命名实体识别（NER）从模型输出中提取医学短语，再与生物医学知识图谱交叉验证。之后用包含1.1亿参数的embedding模型Medcpt，通过向量相似度搜索将提取的医学短语转换为知识图谱词汇。

若短语无法与图谱匹配，则视为潜在错误信息；大模型产生的段落，若包含至少一个不匹配医学短语，将被标记为「需要审查」。此方法分离了大模型的推理与医疗信息验证过程，仅用语言模型操作文本，成功捕捉超90%中毒大模型生成的含虚假信息段落。

在医疗、法律等与用户密切相关领域，使用大模型要避免出现幻觉。但研究发现，这类专业模型易被有害数据污染。如研究中，一天就能产生1.5万篇虚假医学文档，花费5美元产生的2000篇虚假论文，就能使模型输出虚假信息显著增多。

研究指出的数据中毒所需虚假信息数据比例，值得大模型从业者关注。当前高水平数据集中也含过时医学知识，如PubMed仍托管超3000篇宣扬前额叶切除术好处的有害文章，而该方法已被证明会致患者智力严重受损。

因此，当代模型难以完全摆脱医疗误信息，即便最先进的专业LLM也可能延续历史偏见、引用不恰当医学文章。大模型在关键任务医疗保健环境中的可靠性，亟需深入研究。

文章版权归作者所有，未经允许请勿转载。