LLaVA-Rad小型多模态模型助力临床放射学报告生成

AI快讯2周前发布 niko
10 0
AiPPT - 一键生成ppt

微软研究院携手华盛顿大学、斯坦福大学等多所高校研究人员,共同带来创新成果——LLaVA-Rad小型多模态模型(SMM),其目标明确,旨在大幅提升临床放射学报告的生成效率。此模型的诞生,无疑是医学图像处理技术发展道路上的一座重要里程碑,更为放射学在临床领域的应用开拓了新的局面。

db73a539-416b-4dd8-acfe-b9a708b61f59.png

在生物医学范畴内,基于大规模基础模型的研究进展,为行业带来了广阔的应用前景。特别是多模态生成AI技术的兴起,让同时处理文本与图像成为现实,有力支持了视觉问答和放射学报告生成等关键任务。然而,发展的道路并非一帆风顺,当前仍面临诸多挑战。大型模型对资源需求巨大,在临床环境中广泛部署困难重重;小型多模态模型虽在效率上有所提升,但与大型模型相比,性能差距明显。此外,开源模型的匮乏以及可靠的事实准确性评估方法的缺失,都在一定程度上制约了临床应用的步伐。

LLaVA-Rad模型的训练依托来自七个不同源头的697,435对放射学图像与报告的数据集,尤其聚焦于最为常见的胸部X光(CXR)成像。其设计采用模块化训练方式,涵盖单模态预训练、对齐和微调三个阶段,借助高效的适配器机制,将非文本模态成功嵌入文本嵌入空间。尽管LLaVA-Rad规模小于部分大型模型,如Med-PaLM M,但性能表现可圈可点。在ROUGE-L和F1-RadGraph等关键指标上,相较于其他同类模型,分别提升了12.1% 和10.1%。

值得关注的是,LLaVA-Rad在多个数据集上始终保持着卓越性能,即使面对未见过的数据进行测试,也能展现出稳定表现。这得益于其精巧的模块化设计和高效的数据利用架构。不仅如此,研究团队还推出了CheXprompt——一个用于自动评分事实正确性的指标,成功为临床应用中的评估难题提供了解决方案。

LLaVA-Rad的发布,是推动基础模型在临床环境中广泛应用的重要一步,为放射学报告生成提供了轻量级且高效的解决途径,彰显了技术与临床需求的深度融合。项目地址:https://github.com/microsoft/LLaVA-Med 。

© 版权声明
智谱清言 - 国产最强AI模型