低覆盖率的全基因组测序:从较少的数据中学习

2019-05-23 15:35:07 56

首先是微阵列。然后是高通量的。平均测序深度为20X,40X,80X。单个细胞的深度测序。而排序的下一次新革命是...... 0.1X测序?


基因组研究领域一直趋向于更多的数据点,因此低覆盖率全基因组测序(也称为超低通WGS)的出现可能令人惊讶。一般认为测序深度应该是10 - 30X可靠地调用突变,测序的价值仅为0.1 - 3X?

我与两位研究人员进行了交谈,他们在工作中以不同的方式使用相同的低覆盖率技术:博士,多伦多病童医院研究员,研究疾病的遗传结构,以及博士,研究癌症诊断的研究所癌症诊断中心的副主任。

两位研究人员都开发了计算方法,可以从更少的数据中学习更多知识,从而实现经济的疾病检测与


什么是低覆盖率的全基因组测序?


Viktor Adalsteinsson:LC-WGS的执行很简单:我们不是将单个样本加载到序列器上,而是加载许多样本,以便每个样本都接收少量的序列。因为它只需要大量的测序,LC-WGS可以低成本应用于许多样品。


Robert Davies:随着测序成本的降低,LC-WGS已经成为基因分型阵列和其他技术的有前途和可负担的替代品,可以廉价而准确地获得分子信息。


使用LC-WGS进行更多基因组研究


RD:LC-WGS允许像我这样的统计遗传学家研究更多的人群。在全基因组关联研究(GWAS)中,我们从大量个体中收集表型(如身高或疾病)和基因型,并寻找两者之间的关联。例如,尼古丁受体内的遗传基因座和端粒相关基因通过GWAS与肺癌易感性相关。


GWAS的基因型收集通常通过基因分型阵列完成,该基因分型在2005年左右首次在商业上可行用于此类研究。今天,阵列可以以相对低的成本获得500,000个常见单核苷酸多态性或SNP的固定组的基因型。

虽然与全基因组测序类型研究相比价格实惠,但GWAS是有限的:您只限于阵列上的站点,您需要一个大型参考面板来比较您的数据。但是,使用LC-WGS,您可以使用全基因组,并可以使用插补来填充空白。

统计插补以帮助完成LC-WGS数据


RD:统计插补通常用于使用外部参考面板预测未在阵列上测量的位置的基因型。例如,如果我们在染色体上有1,000,000个SNP但是我们的阵列只测量了50,000个,我们可以使用1000 Genomes项目中发现的变异模式来帮助填补未测量的许多SNP的空白。


使用LC-WGS,我们可以更进一步,使用一组LC-WGS数据本身来估算基因型,而无需外部参考。因此,如果一个样本缺少特定SNP的信息,我们可以通过作为整体应用于数据集的插补来恢复它。

我们使用的过程就是假装我们的人口是由几代人(比如说800人)建立的,并且首先猜测创始基因型。然后,我们迭代地1)使用建立的基因型来估算LC-WGS样品的缺失基因型,以及2)在给定插入数据的情况下重新估计建立的基因型。一旦我们收敛到可接受的解决方案,我们就会停止。

使得LC-WGS特别适合动物研究,否则我们需要开发新的阵列(这可能很昂贵)。随着测序成本的持续下降,人类研究也变得越来越有利。例如,LC-WGS已被用于鉴定中国女性的重度抑郁症的两个基因座。

获得研究少数民族和人口不足人口的权力


RD:由于对参考小组的依赖性较小,LC-WGS有望成为促进非欧洲人群研究的一种手段。众所周知,大型队列研究缺乏少数群体,因此可作为少数群体研究的不良参考小组。使用LC-WGS和插补是解决问题的经济实惠的解决方案。

LC-WGS在非洲具有巨大的遗传研究潜力,其遗传多样性大于非洲人口。已经启动了一项旨在研究大约35,000名非洲人的精神遗传学的倡议,正在考虑采用LC-WGS。 

来自非侵入性产前检测的胎儿无细胞DNA(cfDNA)的LC-WGS是另一种有前途的研究途径。例如,一项针对14万中国女性的研究已经确定了与母亲特征的关联,例如身高和体重指数,以及对中国人群的遗传结构和迁徙历史的见解。

用于评估患者样本中癌症的LC-WGS 


VA:我的工作是中,我们发现LC-WGS是一种用于检查肿瘤内容和质量的经济有效的技术。患者血液和肿瘤的肿瘤含量和质量差别很大 - 在进行基因组分析之前,我们理想地想要了解这两者。


我们已经使用LC-WGS来确认从血液中分离的细胞确实是癌细胞,从单细胞产生的测序文库均匀地代表基因组,并且由cfDNA产生的测序文库包含肿瘤DNA。

通过这种方式,LC-WGS可以帮助我们识别符合更广泛基因组分析的患者样本。但这种技术更加通用; 我们开发了一种计算方法,可直接从LC-WGS数据中提取临床相关特征。

鉴定无细胞DNA 


VA:我们团队的方法同时检测体细胞拷贝数改变(SCNAs)并估计血液中cfDNA的肿瘤含量。因此,通过微创血液检查,我们可以对来自大量癌症患者的SCNA进行分析,并确定它们如何随时间变化。


从如此少的数据中识别SCNA的过程类似于用于深度测序的现有方法,但是使用较大的基因组窗口(或箱)来补偿较低的覆盖范围和概率模型来提取信息。通过这种方式,我们从cfDNA的LC-WGS中恢复了SCNA景观,类似于转移性前列腺癌或乳腺癌患者的全外显子组和肿瘤活组织检查的全基因组测序。

评估SCNA的其他方法(如阵列)往往需要更多的样本,并且分辨率低于LC-WGS。阵列的分辨率受所使用的探针序列的限制,而LC-WGS提供全基因组(无偏)的取样。

测量肿瘤分数以预测患者预后


VA:样本中的SCNA分析也允许我们量化血液中肿瘤衍生的cfDNA的分数。我们现在研究了肿瘤部分及其在转移性乳腺癌和前列腺癌患者治疗期间的变化。 


微信

微博

电话咨询
产品服务
平台实力
QQ客服