LLaVA-Rad小型多模态模型助力临床放射学报告生成

微软研究院携手华盛顿大学、斯坦福大学等多所高校研究人员，共同带来创新成果——LLaVA-Rad小型多模态模型（SMM），其目标明确，旨在大幅提升临床放射学报告的生成效率。此模型的诞生，无疑是医学图像处理技术发展道路上的一座重要里程碑，更为放射学在临床领域的应用开拓了新的局面。

在生物医学范畴内，基于大规模基础模型的研究进展，为行业带来了广阔的应用前景。特别是多模态生成AI技术的兴起，让同时处理文本与图像成为现实，有力支持了视觉问答和放射学报告生成等关键任务。然而，发展的道路并非一帆风顺，当前仍面临诸多挑战。大型模型对资源需求巨大，在临床环境中广泛部署困难重重；小型多模态模型虽在效率上有所提升，但与大型模型相比，性能差距明显。此外，开源模型的匮乏以及可靠的事实准确性评估方法的缺失，都在一定程度上制约了临床应用的步伐。

LLaVA-Rad模型的训练依托来自七个不同源头的697,435对放射学图像与报告的数据集，尤其聚焦于最为常见的胸部X光（CXR）成像。其设计采用模块化训练方式，涵盖单模态预训练、对齐和微调三个阶段，借助高效的适配器机制，将非文本模态成功嵌入文本嵌入空间。尽管LLaVA-Rad规模小于部分大型模型，如Med-PaLM M，但性能表现可圈可点。在ROUGE-L和F1-RadGraph等关键指标上，相较于其他同类模型，分别提升了12.1% 和10.1%。

值得关注的是，LLaVA-Rad在多个数据集上始终保持着卓越性能，即使面对未见过的数据进行测试，也能展现出稳定表现。这得益于其精巧的模块化设计和高效的数据利用架构。不仅如此，研究团队还推出了CheXprompt——一个用于自动评分事实正确性的指标，成功为临床应用中的评估难题提供了解决方案。

LLaVA-Rad的发布，是推动基础模型在临床环境中广泛应用的重要一步，为放射学报告生成提供了轻量级且高效的解决途径，彰显了技术与临床需求的深度融合。项目地址：https://github.com/microsoft/LLaVA-Med 。

# AI快讯

文章版权归作者所有，未经允许请勿转载。