
每个人的DNA中都有成千上万个微小的基因改变,也被称为遗传变异,其影响细胞如何构建蛋白质;这些变异中仅有少数能以导致疾病的方式改变蛋白质,即致病遗传变异。尽管近年来人类基因组测序技术不断发展,但致病遗传变异的范围仍过于庞大,仅依靠人群变异数据或疾病相关实验分析难以实现全面解析。
对于严重遗传性疾病,家系trio测序虽然可以筛选候选变异,但仅有25%的罕见病患者能获得明确诊断。现有遗传变异预测模型在区分致病与良性变异等方面表现良好,且能泛化至未经注释的基因变异;但缺乏全蛋白质组层面的统一校准,无法比较不同基因中变异的有害程度,难以满足真实临床场景需求。地球生物数十亿年的进化数据蕴含着维持蛋白质功能的核心遗传模式,如果能提炼相关进化信息,将有望突破现有工具局限。
近日,哈佛医学院与巴塞罗那基因组调控中心的研究人员合作,开发了一种名为popEVE的深度生成模型,该模型结合了进化信息与人类群体变异数据,能够在全蛋白质组范围评估变异的危害性。经验证,popEVE模型性能达到当前领先水平,且能避免高估有害变异负荷;在严重发育障碍队列中成功识别出442个基因中的致病变异(含123个新候选基因)。更重要的是,popEVE 仅凭儿童外显子组数据即可优先推定潜在致病变异,从而在无需父母本测序的情况下实现诊断。总之,该模型为罕见病(尤其是单例病例)诊断提供了一个可推广的框架,并证明了经校准、基于进化信息的评分模型在临床基因组学中的实用价值。
popEVE模型旨在提供一种人类特异性、连续性的变异有害性评分体系,以实现跨蛋白质比较。该模型的核心创新在于将深度进化模型(如EVE、ESM-1v模型)中变异的“进化评分”(能够将变异分类为良性或有害),与人类群体数据库(如UK Biobank和gnomAD)中的错义变异汇总统计信息相结合;并通过高斯过程先验框架进行统一建模,学习进化评分与该变异在人类群体中出现概率之间的关系。
popEVE仅利用人群数据对基因间变异进行重新排序,而保留基因内变异排序基本不变,可实现跨基因变异的合理比较。此外,该模型采用变异的粗略度量(即在人群中“出现过” 或 “未出现过”)替代等位基因频率,有效避免了人群结构偏差,其评分与错义变异约束指标相关性也更强,能反映变异对表型的影响程度。
图1. popEVE模型
研究团队对popEVE模型进行评估,发现其在多项关键测试中展现出显著优势。
首先,研究团队测试了popEVE能否区分导致严重临床结局(如儿童期发病或致命疾病)的变异与中等效应变异。结果显示,popEVE评分在区分儿童期死亡相关变异与成人期死亡变异方面显著优于所有其他方法,在发病年龄相关的区分上也呈现类似趋势,表明popEVE可捕捉疾病相关变异的严重程度。
图2. popEVE捕捉变异的严重性及致病性
为评估popEVE捕捉变异严重性的能力,研究团队将其应用与严重发育障碍(SDD)队列,并对比了该队列的新生错义变异与健康对照人群的相关变异。结果显示,在SDD队列中,popEVE预测的有害变异呈现显著富集特征,严重有害变异(阈值为-5.056)的富集程度达健康对照的15倍,比同类方法高5倍,中度有害变异达5倍。
在区分SDD病例与对照时,popEVE优于所有其他模型,其平均精度较次优模型提升3.2%。值得注意的是,该模型在有效识别病例的同时,不会高估普通人群的变异严重性,有效避免了现有方法普遍存在的“过度预测”问题。总之,popEVE实现了对致病变异严重程度的精准分层,为基于外显子组数据的临床优先排序提供了高特异性工具。
图3. popEVE可捕获致病变异严重程度
接下来,研究团队探究了popEVE在SDD大队列中发现新变异与新基因的效用。基于对SDD队列的分析,popEVE通过变异阈值法和基因折叠法两种策略,共识别出410个疾病相关基因,其中包括152个先前已报道的基因和123个为未报道的新候选基因。在123个新候选基因中,有119个可通过单变异水平识别,这些变异在英国生物银行(UKBB)及基因组聚合数据库(GnomAD)中均未出现。
图4:popEVE发现新候选基因
蛋白质结构分析显示,新候选基因中91%变异被popEVE判定为高评分变异(严重致病),其位于距离互作分子(如蛋白质、配体或核酸)8埃以内的关键三维空间位点,显著影响蛋白质功能。如popEVE评分最高的两个变异(R192C和R68L)均位于翻译终止因子ETF1中,并毗邻核糖体RNA的功能性基序。
功能分析显示,新候选基因与发育障碍基因高度相似。70%候选基因与发育障碍相关,且与已知疾病基因存在显著相互作用网络富集,涉及染色质重塑和离子通道等重要复合物;候选基因在发育中胎儿脑组织高表达,显著富集于染色质组织、神经系统发育等关键生物学过程,这与已知疾病基因一致。这表明popEVE能可靠地识别出与严重发育障碍相关的新型致病基因。
图5. popEVE新候选基因功能分析
最后,研究团队评估了popEVE的临床实用性,将其应用于破译发育障碍(DDD)队列。结果显示,popEVE能够仅基于外显子组数据,有效区分致病性新生变异与大量罕见的遗传性变异。在DDD队列中,对于携带popEVE判定为严重有害新生错义变异的个体,该模型在98%的病例中能将该变异正确地排为其个人基因组中最有害的变异。这一能力极大提升了在缺乏父母基因组数据(即非trio测序)情况下的遗传诊断效率。
图6. popEVE识别无亲本基因组的候选人
综上所述,popEVE模型通过全蛋白质组校准的变异有害性评分,突破了现有工具的跨基因比较局限,显著提升了罕见病尤其是单一病例的遗传诊断能力。其无需家系trio测序即可优先筛选因果变异的特性,大幅扩展了遗传分析的适用范围,对资源有限地区的罕见病诊断具有重要实践价值。
参考文献:
https://www.nature.com/articles/s41588-025-02400-1
邮政编码:200052 电话:021-63800152 传真:021-63800151 京ICP备15010734号-10 技术:网至普网站建设