在生物技术领域,蛋白质发现与设计正借助人工智能飞速发展。近期,加州大学伯克利分校与加州理工学院的研究团队携手,推出了名为ProteinDT的新型多模态框架,旨在运用文本描述推动蛋白质设计。此创新方法将蛋白质序列和结构信息,与海量文本形式的生物学知识相融合,开启了蛋白质设计的新纪元。
ProteinDT的工作流程主要涵盖三个步骤。首先,团队采用“对比语言-蛋白质预训练”(ProteinCLAP)方法,使文本描述与蛋白质序列实现对齐。这一过程利用了来自UniProt数据库的41.1万个文本-蛋白质对,通过对比学习技术达成有效的多模态融合。
其次,ProteinDT的“促进器”模型依据文本生成蛋白质序列的表征,借助高斯分布估算条件分布以实现精准生成。最后一步则由解码器完成,作为条件生成模型,它依据上一步的表征生成最终的蛋白质序列。
为验证该框架的有效性,研究团队设计了三项下游任务。在文本到蛋白质生成任务中,ProteinDT展现出根据目标蛋白质特性的文本描述生成相关蛋白质序列的能力,准确率超90%。在零样本文本引导的蛋白质编辑任务里,通过潜在空间插值和潜在优化方法,有效融入文本信息,提升了蛋白质生成质量。此外,团队对ProteinCLAP学习到的表征的稳健性和泛化能力进行评估,结果显示,与其他六种先进方法相比,ProteinDT在多项基准测试中表现卓越。
此项研究不仅为蛋白质设计开辟了新路径,还凸显了文本数据与生物分子设计相结合的巨大潜力,有望进一步推动生物医学研究与药物开发。
© 版权声明
文章版权归作者所有,未经允许请勿转载。