罕见病是发病率极低,但病种繁多、症状严重的一类疾病,也被称为“孤儿症”。由于罕见病病情少见、单一疾病患者人数极少、医生尤其是基层医院的相关专业知识有限,易造成患者误诊或诊断周期延长。已有研究发现,RNA-seq、代谢组学以及甲基化分析等方法可通过检测意义未明变异(VUS)的存在,来提升罕见病的诊断率。但迄今为止,对于RNA-seq检测、诊断罕见病的能力,人们仍了解不够全面。
近日,在2023年欧洲人类遗传学会议(ESHG)年会上,来自英国南安普顿大学的研究人员Jenny Lord介绍了其团队的一项最新研究成果。该研究对英国“十万人基因组计划”(UK100K)中一个大型患者队列的转录组数据进行了初步分析,包括来自4,400多名未确诊疾病患者的RNA-seq数据,揭示了RNA-seq在改善罕见疾病诊断方面的潜力。
UK100K于2012年12月启动,旨在对英国国民医疗服务体系(NHS)的10万名患者进行测序,主要针对17种癌症类型(包括常见及罕见)以及约1200种影响儿童和成人的罕见疾病。该计划希望通过收集10万人的基因组测序信息来帮助科研人员、医生更好地了解罕见病和癌症,促进人类对自身生命活动规律的认知,以及对癌症、罕见病等疾病的精准诊治。
“虽然该项目为未确诊疾病的参与者提供了诊断渠道,但目前的诊断率仅为25%左右,具有很大的改进空间。”Jenny Lord补充道,“特别是对基因组非编码区域内的变异或影响RNA剪接变异相关的疾病而言,这种情况尤其明显。”
为提高诊断率,Jenny Lord及其团队开始关注患者的多组学数据,这些数据作为100K计划的一部分而收集。研究团队分析了去除珠蛋白RNA和核糖体RNA的血液样本,并使用Illumina 100bp双端测序技术对其进行RNA测序。参与该研究的患者一半以上为男性,其中36%的患者具有神经发育障碍样表型,其余患者表现出心血管、肾脏和其他疾病的表型。
研究团队认为使用5个TPM(Transcripts per million,表示样本中平均每一百万个转录本中对应于特定基因或转录本的数量),一种规范化和量化基因表达的指标,就可在全血RNA测序数据集中对基因进行剪接和表达分析。经检测,基于这一临界值,可分析约一半的基因。此外,约73%最可能与疾病相关的基因(对大多数参与者而言是神经发育障碍)的TPM值为5或更高。
Lord表示:“我们很肯定能够利用这些数据来评估大多数疾病基因。”
接下来,研究人员探究了表达和剪接异常值(outliers)。初步分析表明,20%的先证者具有诊断价值。具体而言,研究团队使用一种名为“Outlier in RNA-seq Finder ”(OUTRIDER)工具对1,347例表达异常的先证者进行了分析,发现有7.6%显示出与患者表型相关的基因异常事件。
例如,在一个病例中,通过表达分析发现了与Diamond-Blackfan贫血相关的RPL5基因的异常事件,这与该患者观察到的表型一致,能够提供候选诊断信息。
研究团队还使用名为“LeafCutterMD”的工具分析了4,438个先证者的剪接异常值。结果显示,约8%患者具有与疾病相关的基因剪接事件。与此同时,通过使用新发布的“FRASER2”框架对200名先验者进行初步分析,该框架旨在检测最有可能与生物学相关的剪接异常值,研究团队在队列中发现了13%的异常事件。
值得注意的是,由FRASER2和LeafCutter识别的事件之间的重叠度非常低,表明不同的剪接工具倾向于识别不同的东西,这提示使用几种不同的工具进行分析是必要的。
在已确定的潜在致病变异中,有一个PTEN基因(一种与Cowden综合征相关的基因)的剪接异常,该患者具有相应的表型。由于该变异距离外显子约20个碱基,其通常会被大多数诊断框架标注为内含子,并被过滤掉。
目前,该研究仍处于“早期阶段”,但根据当前的初步结果,研究团队预计能够在至少25%的队列中检测一个与疾病相关的重要基因异常事件。
展望未来,Lord表示仍有“大量的分析工作要做”,包括在整个队列中运行所有的分析工具,尽量减少剪接分析中的假阳性事件,以及将RNA-seq数据与全基因组测序结果相结合,以帮助检测更多的变异。Lord补充道:“随着更多的工具和分析方法加入,我们预计这一比例(25%)会进一步增加。”
邮政编码:200052 电话:021-63800152 传真:021-63800151 京ICP备15010734号-10 技术:网至普网站建设