ProteinDT：利用文本描述助力蛋白质设计的创新多模态框架

AI快讯1年前 (2025)发布 niko

在生物技术领域，蛋白质发现与设计正借助人工智能飞速发展。近期，加州大学伯克利分校与加州理工学院的研究团队携手，推出了名为ProteinDT的新型多模态框架，旨在运用文本描述推动蛋白质设计。此创新方法将蛋白质序列和结构信息，与海量文本形式的生物学知识相融合，开启了蛋白质设计的新纪元。

ProteinDT的工作流程主要涵盖三个步骤。首先，团队采用“对比语言-蛋白质预训练”（ProteinCLAP）方法，使文本描述与蛋白质序列实现对齐。这一过程利用了来自UniProt数据库的41.1万个文本-蛋白质对，通过对比学习技术达成有效的多模态融合。

其次，ProteinDT的“促进器”模型依据文本生成蛋白质序列的表征，借助高斯分布估算条件分布以实现精准生成。最后一步则由解码器完成，作为条件生成模型，它依据上一步的表征生成最终的蛋白质序列。

为验证该框架的有效性，研究团队设计了三项下游任务。在文本到蛋白质生成任务中，ProteinDT展现出根据目标蛋白质特性的文本描述生成相关蛋白质序列的能力，准确率超90%。在零样本文本引导的蛋白质编辑任务里，通过潜在空间插值和潜在优化方法，有效融入文本信息，提升了蛋白质生成质量。此外，团队对ProteinCLAP学习到的表征的稳健性和泛化能力进行评估，结果显示，与其他六种先进方法相比，ProteinDT在多项基准测试中表现卓越。

此项研究不仅为蛋白质设计开辟了新路径，还凸显了文本数据与生物分子设计相结合的巨大潜力，有望进一步推动生物医学研究与药物开发。

# AI快讯

文章版权归作者所有，未经允许请勿转载。