AI对生命科学的影响日益深远,尤其在多组学领域。不过,实现生命系统的精准建模,依赖于覆盖多物种、多细胞类型的高质量数据。目前,在基因组与表观基因组领域,这类数据的缺乏成了制约AI深入理解基因调控机制的瓶颈。
浙江大学郭国骥团队7月8日在《Cell》发表的研究,回应了这一挑战。团队开发的超高通量单细胞染色质开放测序技术(UUATAC-seq),首次实现单日内构建跨物种的单细胞染色质图谱。该技术通过四轮条码标记方法,提高了对开放染色质区域DNA片段的捕获效率,避免了细胞之间标签的交叉污染。基于这些改进,可在单日内完成对多个物种、数十万细胞核的染色质可及性分析,为AI模型训练提供了坚实的数据基础。
在获得高质量数据基础上,团队构建了跨物种单细胞深度学习模型——女娲CE。该模型以DNA序列为输入,以单细胞甚至单核级别的分辨率精准预测染色质开放性,解读基因组序列中的调控“语法”。它侧重从DNA序列中直接学习染色质的开放状态及其调控模式,采用多任务深度学习架构,能有效捕捉DNA序列中复杂的模式特征与多尺度信息。在性能评估中,女娲CE表现卓越,具有很强的泛化预测能力,还能自动识别出与神经、免疫、脂代谢等功能相关的序列模块,增强了模型的可解释性。
这项研究还探索了女娲CE模型在实际生物医学问题中的应用潜力。团队选取已知与人类疾病密切相关的非编码位点,利用女娲CE模型进行突变功能效应预测,鉴定出关键变异位点。还通过基因编辑实验,验证了AI精准预测的疾病治疗关键位点,为AI在临床治疗靶点设计中的应用提供了实验证据。
研究团队揭示了跨物种的调控序列共性规律,发现不同脊椎动物基因组中调控元件数量随基因组规模扩增而稳定增加,每个调控元件自身长度相对稳定。女娲CE模型不依赖复杂数据体系,能实现单细胞水平的序列功能预测,理解特异性调控规则。这为全面解读基因组语言和建立数字生命模型奠定了基础,有望加速精准医学和合成生物学发展。
7月10日19:00 -21:00,郭国骥老师将在“计算医学研讨会”第二期活动中分享这一最新研究成果。“AI驱动的计算医学前沿:从科学发现到数字孪生”系列研讨会由DAMO开发者矩阵与集智俱乐部联合主办,欢迎相关领域朋友报名参加。