使用合成添加训练样品进行癌症分类的制作方法
背景技术:
1.脱氧核糖核酸(dna)甲基化在调节基因表达中起重要作用。异常的dna甲基化与许多疾病过程有关,包括癌症。使用甲基化定序(例如,全基因组亚硫酸盐定序(whole genome bisulfite sequencing,wgbs))进行dna甲基化分析逐渐被认为是检测、诊断及/或监测癌症的有价值的诊断工具。例如,差异甲基化区域的特定模式及/或等位基因特异性甲基化模式可用作使用循环游离(cell-free,cf)dna进行非侵入性诊断的分子标记。然而,本领域仍然需要用于分析来自游离dna的甲基化定序数据的改进方法,以用于检测、诊断及/或监测疾病,例如癌症。
2.本公开旨在解决上述这些挑战中的一个或多个。本文提供的背景描述是为了一般地呈现本公开的上下文。除非本文另有说明,否则本节中描述的材料不是本技术中权利要求的现有技术,也不允许通过包含在本节中而成为现有技术或现有技术的建议。
技术实现要素:
3.早期检测对象的疾病状态(例如:癌症)是重要的,因为它允许早期,并且因此有更大的存活机会。游离(cell-free,cf)dna样品中dna片段的定序可用于识别可用于疾病分类的特征。例如,在癌症评估中,来自血液样品的基于游离dna的特征(例如存在或不存在体细胞变异、甲基化状态或是其他遗传异常)可以提供洞察对象是否可能患有癌症,以及进一步了解对象可能患有哪种类型的癌症。为此,本说明书包括用于分析游离dna定序数据以确定对象患病似然(likelihood)的系统及方法。
4.为了提高区分疾病状况的分类器的性能,本公开通过提供用于利用现有数据的改进的系统和方法解决了上述问题。通常,所公开的系统和方法通过实现生物数据集的合成扩展来实现这一点,特别是那些基于从生物样品的核酸定序中提取的基因组数据的数据集,例如,肿瘤样品、液体活检等。在一些实施方案中,这是通过生成基于从生物样品生成的一个或多个数据构建体的增强数据构建体来实现的。增强的数据构建体可用于补充直接从生物样品生成的现有数据构建体,从而生成扩展的生物数据集。这些扩展的生物数据集可以促进疾病分类器的训练,其比仅针对直接从生物样品生成的原始数据构建体训练的疾病分类器具有更高的特异性及/或敏感性。这种改善可归因于几个因素。例如,通过使用更大(扩展)的训练数据集,数据过度拟合的发生率会降低,因为分类器可以更好地概括数据的趋势。此外,通过控制增强数据构建体中的疾病信号量,可以构建扩展数据集,使其包含更高百分比的具有接近分类器检测水平(level of detection,lod)的疾病信号的数据构建体。反过来,这可以允许在疾病信号较少的特征空间中更好地训练模型。
5.分析系统处理来自多个样品(例如,多个癌症及非癌症样品)的大量定序数据,以识别随后用于癌症分类的特征。分析系统从获得的生物样品中生成至少一个合成训练样品。分析系统通过从标记为癌症的训练样品中采样片段以及从另一个标记为非癌症的训练
样品中采样片段来生成合成训练样品。分析系统可以进一步用属于用于生成合成训练样品的癌症训练样品的特定癌症类型来标记合成训练样品。采样概率是基于癌症分类器的检测限度确定的,例如,以便生成具有接近检测限度的癌症肿瘤分数的合成训练样品。借助测序数据,分析系统能够训练和配置癌症分类器,以便生成测试样品的癌症预测。
6.在选择使用哪些训练样品来训练癌症分类器时,分析使用已经被识别并标记为具有一种或多种癌症类型的训练样品,以及来自健康个体被标记为非癌症的训练样品。每个训练样品都包含一组片段。对于每个训练样品,分析系统生成一个特征向量,例如,通过为每个识别的特征分配一个分数。分析系统可以将训练样品分组成一组一个或多个训练样品,用于癌症分类器的反复训练。分析系统将每组特征向量输入到癌症分类器中,并且调整癌症分类器中的分类参数,使得癌症分类器的函数计算癌症的预测,所述预测基于特征向量和分类参数预测集中训练样品的标记,并且具有高于阈值的精度。癌症分类器通过在每组训练样品中反复上述步骤来反复训练。
7.在配置期间,分析系统以与训练样品类似的方式生成测试样品的特征向量,例如,通过为每个测试样品的特征向量中的多个特征中的每一个分配分数。然后,分析系统将测试样品的特征向量输入到癌症分类器中,所述分类器返回癌症预测。在一个实施方案中,癌症分类器可以被配置为二元分类器,以返回对患有或不患有癌症的可能性的癌症预测。在另一个实施方案中,癌症分类器可以被配置为多类分类器,以返回具有针对多种癌症类型中的每一种的预测值的癌症预测。
附图说明
8.图1a是描述根据一个或多个实施方案对游离(cell-free,cf)dna的片段进行定序以获得甲基化状态向量的方法的示例性流程图;
9.图1b是根据一个或多个实施方案图1a的对游离dna的片段进行定序以获得甲基化状态向量的方法的示例性图示;
10.图2a及图2b是描述根据一个或多个实施方案从样品中确定异常甲基化片段的方法的示例性流程图;
11.图3示出了根据一个或多个实施方案的生成合成训练样品的示例性方法;
12.图4是描述根据一个或多个实施方案的生成用于训练癌症分类器的合成训练样品的方法的示例性流程图;
13.图5a示出了根据一个或多个实施方案的用于生成增强数据及可选地训练分类器以将疾病状态彼此区分开来的示例性工作流500;
14.图5b示出了根据一个或多个实施方案的用于生成补充数据的示例性工作流;
15.图6a是描述根据一个或多个实施方案的训练癌症分类器的方法的示例性流程图;
16.图6b示出了根据一个或多个实施方案的用于训练癌症分类器的特征向量的示例性生成;
17.图7a说明了根据一个或多个实施方案的用于对核酸样品进行定序的装置的示例性流程图;
18.图7b是根据一个或多个实施方案的分析系统的示例性框图;
19.图8示出了根据示例性实现的示例性图表,其显示了各种癌症类型的多类癌症分
类器的癌症预测准确度;
20.图9示出了根据示例性实现的示例性图表,其显示了在首先使用二元癌症分类器之后,针对各种癌症类型的多类癌症分类器的癌症预测准确度;
21.图10示出了根据示例性实现的示例性混淆矩阵(confusion matrix),其展示了训练的癌症分类器的性能;
22.图11示出了根据一些示例性实现的比较使用合成训练样品进行训练的癌症分类器的性能的示例性表格;
23.图12a至图12c示出了根据一个或多个实施方案的示例性癌症概率(probability)图表;
24.图13说明了根据一个或多个实施方案,基于患者样品中游离dna的基因组特征,对被训练以检测癌症的两个分类器的评估;
25.图14示出了根据一个或多个实施方案的训练集灵敏度与测试集灵敏度的示例图表;以及
26.图15示出了根据一个或多个实施方案的表示随着分类器中使用的特征的数量扩大而沿着一些维度被最大化或最小化的特征空间百分比的曲线的示例性图表。
27.附图仅出于说明的目的而描绘了各种实施方案。本领域技术人员将从以下讨论中容易地认识到,在不偏离本文描述的原理的情况下,可以采用本文所示的结构及方法的替代实施方案。
具体实施方式
28.概述:
29.甲基化概述:
30.根据本说明书,来自个体的cfdna片段被处理,例如通过将未甲基化的胞嘧啶转化为尿嘧啶,进行定序并且将序列读取与参考基因组进行比较,以鉴定dna片段内特定cpg位点的甲基化状态。每个cpg位点可以被甲基化或未甲基化。与健康个体相比,异常甲基化片段的鉴定可以洞察对象的癌症状态。如本领域公知的,dna甲基化异常(与健康对照相比)会导致不同的影响,这可能会导致癌症。在异常甲基化cfdna片段的鉴定中出现了各种挑战。首先,与一组对照个体相比,确定异常甲基化的dna片段可以保持体重,因此如果对照组人数较少,则由于在较小规模的对照组内的统计变异性,此分析会失去信心。此外,在一组对照个体中,甲基化状态可能会有所不同,其在确定对象的dna片段是否异常甲基化时可能难以解释。另一方面,在cpg位点处胞嘧啶的甲基化可能会影响后续cpg位点的甲基化。封装这种依赖关系本身可能是另一个挑战。
31.当胞嘧啶碱基的嘧啶环上的氢原子转化为甲基时,甲基化通常可以发生在脱氧核糖核酸(dna)中,形成5-甲基胞嘧啶。特别地,甲基化可以发生在胞嘧啶及鸟嘌呤的二核苷酸处,在本文中称为“cpg位点”。在其他情况下,甲基化可以发生在不是cpg位点一部分的胞嘧啶或是另一不是胞嘧啶的核苷酸处;但是,这些情况很少见。在本公开内容中,为了清楚起见,参考cpg位点讨论甲基化。异常dna甲基化可被鉴定为高甲基化或低甲基化,这两者均可能指示癌症状态。在整个本公开中,如果dna片段包含多于阈值数量的cpg位点,并且超过阈值百分比的那些cpg位点被甲基化或未甲基化,则可以表征dna片段的高甲基化及低甲基
sample)”或“样品(sample)”是指从一对象采集的任何样品,其可以反映与对象相关的生物状态,并且包括游离dna。生物样品的示例包括但不限于对象的血液、全血、血浆、血清、尿液、脑脊液、粪便、唾液、汗液、眼泪、胸膜液、心包液或腹膜液。生物样品可以包括源自活的或死的对象身上的任何组织或材料。生物样品可以是游离(cell-free)样品。生物样品可以包含核酸(例如,dna或是rna)或其片段。术语“核酸”可指脱氧核糖核酸(dna)、核糖核酸(rna)或其任何杂交或是片段。样品中的核酸可以是游离核酸。样品可以是液体样品或固体样品(例如,细胞或组织样品)。生物样品可以是体液,如血液、血浆、血清、尿液、阴道液、来自鞘膜积液(例如睾丸的)的液体、阴道冲洗液、胸膜液、腹水、脑脊液、唾液、汗液、眼泪、痰、支气管肺泡灌洗液、乳头排出液、身体不同部位(例如甲状腺、乳腺)的抽吸液等。生物样品可以是粪便样品。在各种实施方案中,已富集游离dna的生物样品(例如,通过离心程序获得的血浆样品)中的大部分dna可以是游离的(例如,大于50%、60%、70%、80%、90%、95%或99%的dna可以是游离的)。可对生物样品进行处理以物理破坏组织或细胞结构(例如,离心及/或细胞裂解),从而将细胞内的成分释放到溶液中,溶液可进一步包含可用于制备样品以供分析的酶、缓冲液、盐、洗涤剂等。
43.本文所用,术语“对照(control)”、“对照样品(control sample)”、“参考(reference)”、“参考样品(reference sample)”、“正常(normal)”及“正常样品(normal sample)”描述来自不具有特定条件的对象的样品,或是在其他方面是健康的。在一个示例中,本文公开的方法可以施行在患有肿瘤的对象,其中参考样品是取自对象的健康组织的样品。参考样品可以从对象或是数据库中获得。参考可以是例如参考基因组,其用于绘制通过对来自对象的样品进行定序而获得的核酸片段序列。参考基因组可以指单倍体或二倍体基因组,来自生物样品和组成样品的核酸片段序列可以与其进行比对及比较。组成样品的一个例子可以是从对象获得的白细胞的dna。对于单倍体基因组,每个位点只能有一个核苷酸。对于二倍体基因组,可以鉴定杂合基因座;每个杂合基因座可以有两个等位基因,其中任何一个等位基因都可以匹配到基因座的比对。
44.如本文所用,术语“癌症”或“肿瘤”是指异常的组织的肿块,其中肿块的生长超过正常组织的生长,并且与正常组织的生长不协调。
45.如本文所用,短语“健康的(healthy)”是指具有良好健康的对象。健康对象可以证明不存在任何恶性或非恶性疾病。“健康个体”可能患有与所检测的疾病无关的其他疾病或病症,所述疾病或是病症通常不被认为是“健康的”。
46.如本文所用,术语“甲基化(methylation)”是指脱氧核糖核酸(dna)的修饰,其中胞嘧啶碱基的嘧啶环上的氢原子被转化为甲基,形成5-甲基胞嘧啶。特别地,甲基化倾向发生在胞嘧啶及鸟嘌呤的二核苷酸(dinucleotides)处,本文称为“cpg位点”。在其他情况下,甲基化可能发生在不是cpg位点一部分的胞嘧啶或是另一个不是胞嘧啶的核苷酸上;但是,这些情况很少见。异常cfdna甲基化可被识别为高甲基化或低甲基化,这两者都可能表明癌症状态。dna甲基化异常(与健康对照组相比)会导致不同的影响,其可能导致癌症。本文所述的原理同样适用于检测cpg环境及非cpg环境中的甲基化,包括非胞嘧啶甲基化。此外,甲基化状态向量可以包含通常是已经发生或未发生甲基化的位点的向量的元件(即使这些位点不是特定的cpg位点)。
47.如本文可互换使用的,术语“甲基化片段(methylation fragment)”或“核酸甲基
化片段(nucleic acid methylation fragment)”是指通过核酸(例如,核酸分子及/或核酸片段)的甲基化定序来确定的多个cpg位点中的每个cpg位点的甲基化状态的序列。在甲基化片段中,核酸片段中每个cpg位点的位置及甲基化状态是基于序列读取(例如,从核酸的定序获得)与参考基因组的比对来确定。核酸甲基化片段包含多个cpg位点(例如:甲基化状态向量)中每个cpg位点的甲基化状态,其指定核酸片段在参考基因组中的位置(例如,通过使用cpg索引或其他类似度量的核酸片段中第一个cpg位点的位置来指定)以及核酸片段中cpg位点的数量。基于核酸分子的甲基化定序,序列读取与参考基因组的比对可以通过cpg索引进行。如本文所用,术语“cpg索引(cpg index)”是指参考基因组(例如:人类参考基因组)中多个cpg位点(例如:cpg 1、cpg 2、cpg 3等)中每个cpg位点的列表,其可以是电子格式。cpg索引还包括针对cpg索引中的每个相应cpg位点,对应参考基因组中对应的基因组位置。因此,每个相应核酸甲基化片段中的每个cpg位点均被索引到相应参考基因组中的特定位置,其可以通过cpg索引来确定。
48.如本文所用,术语“真阳性”(true positive,tp)是指患有病症的对象。“真阳性”可以指患有肿瘤、癌症、癌前病症(例如,癌前病变(pre-cancerous lesion))、局部或是转移的癌症或是非恶性疾病的对象。“真阳性”可以指对象患有病症,并且通过本公开的分析或方法被鉴定为患有此病症。如本文所用,术语“真阴性”(true negative,tn)是指不具有病症或不具有可检测到病症的对象。真阴性可以指没有疾病或是未检测到疾病的对象,疾病例如肿瘤、癌症、癌前病症(例如,癌前病变)、局部或是转移的癌症、非恶性疾病或是其他方面健康的对象。真阴性可以指不具有病症或未检测到病症,或是通过本公开的分析或方法被鉴定为不具有病症的对象。
49.如本文所用,术语“参考基因组(reference genome)”是指可用于参考来自对象的识别的序列的任何生物体或是病毒的任何特定已知、定序或是表征的基因组,并且无论是部分的或是完整的。用于人类对象以及许多其他生物的示例性参考基因组在由国家生物技术信息中心(national center for biotechnology information,ncbi)或是加利福尼亚大学圣克鲁兹分校(university of california,santa cruz,ucsc)托管的在线基因组浏览器中提供。“基因组(genome)”是指以核酸序列表达的生物体或是病毒的完整遗传信息。如本文所用,参考序列或是参考基因组可以是来自个体或是多个个体的组装或是部分组装的基因组序列。在一些实施方案中,参考基因组是来自一个或多个人类个体的组装或部分组装的基因组序列。参考基因组可以被视为一物种基因组的代表性例子。在一些实施方案中,参考基因组包含分配给染体的序列。示例性人类参考基因组包括但不限于ncbi build 34(ucsc等效物(equivalent):hg16)、ncbi build 35(ucsc等效物:hg17)、ncbi build36.1(ucsc等效物:hg18)、grch37(ucsc等效物:hg19)和grch38(ucsc等效物:hg38)。
50.如本文所用,术语“序列读取(sequence read)”或“读取”是指通过本文所述或本领域已知的任何定序过程产生的核苷酸序列。读取可以从核酸片段的一端生成(单端读取(single-end read)),并且有时可以从核酸的两端生成(例如,双端读取(paired-end read)、双端读取(double-end read)。在一些实施方案中,序列读取(例如,单端或双端读取)可以从靶向核酸片段的一条或两条链产生。序列读取的长度可以与特定的定序技术相关联。例如,高通量方法可以提供大小从几十个到几百个碱基对(bp)不等的序列读取。在一些实施方案中,序列读取的平均数、中值或平均长度为约15bp至700bp长(例如,约20bp、约
25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp)。在一些实施方案中,序列读取的平均数、中值或平均长度为约1000bp、2000bp、5000bp、10,000bp或50,000bp或更多。例如,纳米孔定序(nanopore sequencing)可以提供大小从几十到几百到几千个碱基对不等的序列读取。illumina并行定序(illumina parallel sequencing)可以提供变化不大的序列读取,例如,大多数序列读取可以小于200bp。序列读取(或定序读取)可以指对应于核酸分子(例如,一串核苷酸)的序列信息。例如,序列读取可以对应于来自部分核酸片段的一串核苷酸(例如,约20至约150个),可以对应于核酸片段一端或两端的一串核苷酸,或是可以对应于整个核酸片段的核苷酸。序列读取可以通过多种方式来获得,例如,通过定序技术或使用探针,例如杂交阵列或捕获探针(capture probes),或是扩增技术,例如聚合酶链式反应(polymerase chain reaction,pcr),或是使用单一引子的线性扩增或等温扩增。
51.如本文所用,如本文所用的术语“定序(sequencing)”等通常是指可用于确定例如核酸或蛋白质之类的生物大分子的顺序的任何及所有生化过程。例如,定序数据可以包括核酸分子,例如dna片段中的全部或部分核苷酸碱基。
52.如本文所用,术语“定序深度(sequencing depth)”可与术语“覆盖(coverage)”互换使用,是指基因座被对应于与所述基因座比对的独特核酸靶(nucleic acid target)分子的共有序列读取覆盖的次数;例如,定序深度等于覆盖基因座的独特核酸靶分子的数量。基因组位置可以小到一个核苷酸,大到一个染体臂,或是大到整个基因组。定序深度可以表示为“yx”,例如,50x、100x等,其中“y”是指基因组被对应于一核酸靶的一序列覆盖的次数;例如,获得覆盖特定基因组的独立序列信息的次数。在一些实施方案中,定序深度对应于已定序的基因组数量。定序深度也可以应用于多个基因座或整个基因组,在这种情况下,y可以分别指基因座、单倍体基因组或是整个基因组进行定序的平均数(mean)或是平均次数。当引用平均深度时,数据集中包含的不同基因座的实际深度可以跨越一系列值。超深度定序可以指在一基因座处的定序深度至少为100x。
53.如本文所用,术语“灵敏度(sensitivity)”或是“真阳性率(true positive rate,tpr)”是指真阳性的数量除以真阳性与假阴性的数量之和。灵敏度可以表征分析或方法正确识别真正患有某种疾病的族的比例的能力。例如,灵敏度可以表征一种方法正确识别族中患有癌症的对象的数量的能力。在另一个例子中,灵敏度可以表征一种方法正确识别一种或多种指示癌症的标志物(marker)的能力。
54.如本文所用,术语“特异性(specificity)”或“真阴性率(true negative rate,tnr)”是指真阴性的数量除以真阴性与假阳性的数量之和。特异性可以表征分析或方法正确识别真正未患有疾病的族的比例的能力。例如,特异性可以表征一种方法正确识别族中未患有癌症的对象的数量的能力。在另一个例子中,特异性表征一种方法正确识别一种或多种指示癌症的标志物的能力。
55.如本文所用,术语“对象(subject)”是指任何活的或非活的有机体,包括但不限于人类(例如,男性人类、女性人类、胎儿、怀孕的女性、儿童等)、非人类动物、植物、细菌、真菌或原生生物。任何人类或非人类动物都可以作为对象,包括但不限于哺乳动物、爬行动物、鸟类、两栖动物、鱼类、有蹄类动物、反刍动物、牛(bovine)(例如:牛(cattle))、马(equine)
(例如:马(horse))、山羊(caprine)及绵羊(ovine)(例如:绵羊(sheep)、山羊(goat))、猪(swine)(例如:猪(pig))、骆驼(camelid)(例如:骆驼(camel)、美洲驼(llama)、羊驼(alpaca))、猴子、猿(例如:大猩猩、黑猩猩)、熊(ursid)(例如:熊(bear))、家禽、狗、猫、老鼠、老鼠、鱼、海豚、鲸鱼及鲨鱼。在一些实施方案中,对象是任何阶段的男性或女性(例如,男性、女性或儿童)。从中获取样品或通过本文所述的任何方法或组合物的对象可以是任何年龄并且可以是成人、婴儿或儿童。
56.如本文所用,术语“组织”可以对应于作为功能单元组合在一起的一组细胞。在单个组织中可以发现不止一种类型的细胞。不同类型的组织可能包括不同类型的细胞(例如,肝细胞、肺泡细胞或血细胞),但也可以对应于来自不同生物体的组织(母亲与胎儿)或健康细胞与肿瘤细胞。术语“组织”通常可以指在人体中发现的任何细胞组(例如,心脏组织、肺组织、肾组织、鼻咽组织、口咽组织)。在一些方面,术语“组织”或“组织类型”可用于指代游离核酸来源的组织。在一个例子中,病毒核酸片段可以来源于血液组织。在另一个例子中,病毒核酸片段可以来源于肿瘤组织。
57.如本文所用,术语“基因组(genomic)”是指一生物体的基因组的特征。基因组特征的例子包括但不限于与以下各项相关的基因组特征:全部或部分基因组的一级核酸序列(primary nucleic acid sequence)(例如,是否存在核苷酸多态性(nucleotide polymorphism)、插入缺失(indel)、序列重排、突变频率等)、基因组内一个或多个特定核苷酸序列的拷贝数(例如,拷贝数、等位基因频率分数、单染体或整个基因组倍性等)、全部或部分基因组的表观遗传状态(例如,共价核酸修饰,例如甲基化、组蛋白修饰、核小体定位等)、生物体基因组的表达谱(例如,基因表达水平、同种型表达水平、基因表达比率等)。
58.本文使用的术语仅出于描述特定情况的目的,并不旨在进行限制。如本文所用,除非上下文另有明确指示,单数形式“一(a)”、“一(an)”及“所述(the)”旨在也包括复数形式。此外,在详细描述及/或权利要求中使用的术语“包括(including)”、“包括(includes)”、“具有(having)”、“具有(has)”、“具有(with)”或其变体的范围内,这些术语旨在以类似于“包含”一词的方式包含在内。
59.样品处理:
60.为dna片段生成甲基化状态向量:
61.图1a是描述根据一个或多个实施方案的一种对游离(cell-free,cf)dna片段进行定序,以获得甲基化状态向量的方法100的示例性流程图。为了分析dna甲基化,分析系统首先从个体获得110包含多个cfdna分子的样品。一般而言,样品可以来自健康个体、已知患有或怀疑患有癌症的对象,或是未知先验信息的对象。测试样品可以是选自于由血液、血浆、血清、尿液、粪便及唾液样品所组成的组的样品。或者,测试样品可以包括选自于由全血、血液组分(例如,白细胞)、组织活检、胸膜液、心包液、脑脊髓液及腹膜液所组成的组的样品。在其它实施方案中,方法100可以应用于对其他类型的dna分子进行定序。
62.从样品中,分析系统可以分离每个cfdna分子。cfdna分子可以被处理,以将未甲基化的胞嘧啶转化为尿嘧啶。在一个实施方案中,此方法使用亚硫酸盐处理dna,将未甲基化的胞嘧啶转化为尿嘧啶,而不转化甲基化的胞嘧啶。例如,商业试剂盒可用于亚硫酸盐转化,例如ez dna methylation
tm-gold、ez dna methylation
tm-direct及ez dna methylation
tm-lightning kit(可从zymo research corp(加利福尼亚州尔湾市(irvine,
ca))获得)。在另一实施方案中,未甲基化胞嘧啶向尿嘧啶的转化是通过酶促反应完成的。例如,转化可以使用商业试剂盒来将未甲基化胞嘧啶转化为尿嘧啶,例如apobec seq(可从马萨诸塞州伊普斯威奇(ipswich,ma)nebiolabs获得)。
63.从转化的cfdna分子,可以制备定序文库130。在文库制备期间,通过接头连接(adapter ligation)将唯一分子标识符(unique molecular identifiers,umi)添加到核酸分子(例如:dna分子)。唯一分子标识符是短核酸序列(例如,4至10个碱基对),在接头连接过程中添加到dna片段的末端(例如,通过物理剪切、酶消化及/或化学片段化的dna分子)。唯一分子标识符可以是简并碱基对,用作唯一的标记,可用于识别源自特定dna片段的序列读取。在接头连接后的pcr扩增过程中,唯一分子标识符可以与连接的dna片段一起复制。这可以提供一种在下游分析中识别来自相同原始片段的序列读取的方法。
64.可选地,定序文库可以使用多个杂交探针富集135个cfdna分子或基因组区域,这些分子或基因组区域可提供癌症状态的信息。杂交探针是能够与特别指定的cfdna分子或靶向区域杂交并且富集那些片段或区域以用于后续定序及分析的短寡核苷酸。杂交探针可以用于对一组研究人员感兴趣的特定cpg位点进行有针对性的高深度分析。杂交探针可以以1x、2x、3x、4x、5x、6x、7x、8x、9x、10x或超过10x的覆盖率平铺(tiled across)在一个或多个靶序列上。例如,以2x的覆盖率平铺的杂交探针包含重叠探针,使得靶序列的每个部分与2个独立的探针杂交。杂交探针可以覆盖一个或多个靶序列,且覆盖率小于1x。
65.在一个实施方案中,杂交探针被设计为富集已被处理(例如,使用亚硫酸盐)的dna分子,以将未甲基化的胞嘧啶转化为尿嘧啶。在富集过程中,杂交探针(在本文中也称为“探针”)可用于靶向及提取核酸片段,以了解癌症(或疾病)的存在与否、癌症状态或癌症分类(例如,癌症类型或起源组织)。探针可以设计为与靶向(互补)dna链退火(anneal)(或杂交)。靶向链可以是“正”链(例如,转录成mrna并随后转译成蛋白质的链)或互补的“负”链。探针的长度范围可以从10s、100s或1000s碱基对不等。可以基于甲基化位点组(panel)设计探针。可以基于一组靶向基因设计探针,以分析怀疑对应于某些癌症或其他类型疾病的基因组(例如,人类或其他生物体)的特定突变或是靶向区域。此外,探针可以覆盖靶向区域的重叠部分。
66.一旦制备好,定序文库或其一部分可以被定序,以获得多个序列读取。序列读取可以是用于计算机软件处理以及解释的计算机可读数字格式。可以将序列读取与参考基因组比对,以确定比对位置信息。比对位置信息可以指示参考基因组中对应于给定序列读取的开始核苷酸碱基以及终止核苷酸碱基的区域的起始位置以及终止位置。比对位置信息还可以包括序列读取长度,其可以从起始位置以及终止位置确定。参考基因组中的一区域可以与一基因或一基因片段相关联。序列读取可以由表示为r1及r2的一读取对组成。例如,第一读取r1可以从核酸片段的第一端被定序,而第二读取r2可以从核酸片段的第二端被定序。因此,第一读取r1以及第二读取r2的核苷酸碱基对可以与参考基因组的核苷酸碱基一致地(例如,以相反的方向)进行比对。源自读取对r1及r2的比对位置信息可以包括参考基因组中对应于第一读取(例如,r1)的末端的起始位置,以及参考基因组中对应于第二读取的末端的终止位置(例如,r2)。换言之,参考基因组中的起始位置以及终止位置可以代表参考基因组中核酸片段对应的可能位置。可以生成并输出具有sam(序列比对图)格式或bam(二元)格式的输出文件,用于进一步分析,例如甲基化状态确定。
synthesis)以及可逆终止子基础的定序(reversible terminator-based sequencing)(例如,illumina'sgenome analyzer;genome analyzer ii;hiseq 2000;hiseq 2500(illumina,圣迭戈,加利福尼亚州)可用于从获自训练对象的生物样品的游离核酸获得序列读取,以形成基因型数据集。数百万个游离核酸(例如:dna)片段可以并行定序。在此类定序技术的一个实施例中,使用了流动池(flow cell),所述流动池包含光学透明的载玻片,在其表面上具有8个单独的通道(lane),这些通道是结合的寡核苷酸锚(oligonucleotide anchor)(例如:接头引子(adaptor primer))。游离核酸样品可以包括促进检测的信号或是标记。从获自生物样品的游离核酸获取的序列读取可以包括通过多种技术获得信号或是标记的量化信息,所述技术例如流式细胞术、定量聚合酶链式反应(quantitative polymerase chain reaction,qpcr)、凝胶电泳、基因芯片分析、微阵列、质谱、细胞荧光分析、荧光显微镜、共聚焦显微成像技术、激光扫描细胞仪、亲和谱法、手动分批模式分离(manual batch mode separation)、电场悬浮、定序及其组合。
71.一个或多个定序方法可以包括全基因组定序分析(whole-genome sequencing assay)。全基因组定序分析可以包括为整个基因组或整个基因组的大部分生成序列读取的物理分析,其可用于确定大的变异,例如拷贝数变异(variation)或拷贝数畸变(aberration)。这种物理分析可以采用全基因组定序技术或全外显子组定序技术。全基因组定序分析在测试对象的基因组中可以具有至少1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、至少20x、至少30x或是至少40x的平均定序深度。在一些实施方案中,定序深度为约30,000x。一个或多个定序方法可以包括靶向组定序分析(targeted panel sequencing assay)。靶向组定序分析对于靶向组基因可以具有至少50,000x、至少55,000x、至少60,000x或至少70,000x定序深度的平均定序深度。靶向基因组可以包含450至500个基因。靶向基因组可以包含500
±
5个基因、500
±
10个基因或是500
±
25个基因。
72.一个或多个定序方法可以包括双端定序(paired-end sequencing)。一个或多个定序方法可以产生多个序列读取。多个序列读取可以具有10至700、50至400或是100至300的平均长度。一个或多个定序方法可以包括甲基化定序分析。甲基化定序可以是:(i)全基因组甲基化定序;或是(ii)使用多个核酸探针的靶向dna甲基化定序。例如,甲基化定序是全基因组亚硫酸盐定序(例如:wgbs)。甲基化定序可以是使用多个核酸探针靶向甲基化组的信息量最大的区域的靶向dna甲基化定序、独特的甲基化数据库以及先前的原型全基因组及靶向定序分析(prior prototype whole-genome and targeted sequencing assay)。
73.甲基化定序可以检测一个或多个5-甲基胞嘧啶(5mc)及/或5-羟甲基胞嘧啶(5hmc)。甲基化定序可以包括将一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶转化为相应的一个或多个尿嘧啶。可以在甲基化定序期间将一个或多个尿嘧啶检测为一个或多个相应的胸腺嘧啶。一个或多个未甲基化胞嘧啶或一个或多个甲基化胞嘧啶的转化可以包括化学转化、酶促转化或其组合。
74.例如,亚硫酸盐转化涉及将胞嘧啶转化为尿嘧啶,同时保持甲基化胞嘧啶(例如,5-甲基胞嘧啶或5-mc)完整。在一些dna中,约95%的胞嘧啶在dna中可以没有甲基化,因此产生的dna片段可以包括许多以胸腺嘧啶为代表的尿嘧啶。酶促转化过程可用于在定序之前处理核酸,其可以以各种方式进行。无亚硫酸盐转化的一个实施例包括无亚硫酸盐与碱基分辨定序方法,tet辅助吡啶定序(tet-assisted pyridine borane sequencing,
taps),用于无损并且直接检测5-甲基胞嘧啶及5-羟甲基胞嘧啶而不影响未修饰的胞嘧啶。当通过甲基化定序确定cpg位点被甲基化时,相应核酸甲基化片段中的对应的多个cpg位点中的一cpg位点的甲基化状态可以被甲基化,并且当通过甲基化定序确定cpg位点未被非甲基化时,相应核酸甲基化片段中的对应的多个cpg位点中的一cpg位点的甲基化状态可以不被甲基化。
75.甲基化定序分析(例如,wgbs及/或靶向甲基化定序)可以具有一平均定序深度,包括但不限于高达约1,000x、2,000x、3,000x、5,000x、10,000x、15,000x、20,000x或是30,000x。甲基化定序可以具有大于30,000x,例如至少40,000x或是50,000x的定序深度。全基因组亚硫酸盐定序方法的平均定序深度可以在20x至50x之间,而靶向甲基化定序方法的平均有效深度可以在100x至1000x之间,其中有效深度可以是等效的全基因组亚硫酸盐定序覆盖度,以获得通过靶向甲基化定序获得的相同数量的序列读取。
76.关于甲基化定序(例如,wgbs及/或靶向甲基化定序)的更多细节,参见例如,2018年3月13日提交的标题为“甲基化片段异常检测(methylation fragment anomaly detection)”的美国专利申请第62/642,480号,以及2019年12月18日提交的标题为“使用甲基化信息估计细胞源分数的系统和方法(systems and methods for estimating cell source fractions using methylation information)”的美国专利申请第16/719,902号,其均通过引用并入本文。用于甲基化定序的其他方法,包括本文公开的那些及/或其任何修饰、取代或组合,可用于获得片段甲基化模式。甲基化定序可以用于鉴定一个或多个甲基化状态向量,例如在2019年3月13日提交的标题为“异常片段检测及分类(anomalous fragment detection and classification)”的美国专利申请第16/352,602号中所述,或是根据于2020年5月13日提交的标题为“基于模型特征化及分类(model-based featurization and classification)”的美国专利申请第15/931,022号所揭示的任何技术,其均通过引用并入本文。
77.核酸的甲基化定序和所得的一个或多个甲基化状态向量可用于获得多个核酸甲基化片段。每个对应的多个核酸甲基化片段(例如,对于每个相应基因型数据集)可以包含超过100个核酸甲基化片段。每个对应的多个核酸甲基化片段的核酸甲基化片段的平均数量可以包含1000个或更多核酸甲基化片段、5000个或更多核酸甲基化片段、10,000个或更多核酸甲基化片段、20,000个或更多核酸甲基化片段,或是30,000个或更多核酸甲基化片段。每个对应的多个核酸甲基化片段的核酸甲基化片段的平均数量可以在10,000个核酸甲基化片段至50,000个核酸甲基化片段之间。对应的多个核酸甲基化片段可以包含一千或更多、一万或更多、十万或更多、一百万或更多、一千万或更多、一亿或更多、五亿或更多、十亿或更多,二十亿或更多、三十亿或更多、四十亿或更多、五十亿或更多、六十亿或更多、七十亿或更多、八十亿或更多、九十亿或更多、或一百亿或更多核酸甲基化片段。对应的多个核酸甲基化片段的平均长度可以在140至280个核苷酸之间。
78.2020年3月4日提交的标题为“使用自动编码器确定癌症状况的系统及方法(systems and methods for cancer condition determination using autoencoders)”的美国临时专利申请第62/985,258号中公开了关于对核酸及甲基化定序数据进行定序的方法的更多细节,其在此整体通过引用并入本文。
79.识别异常片段:
80.分析系统可以使用样品的甲基化状态向量来确定样品的异常片段。对于样品中的每个片段,分析系统可以使用对应于片段的甲基化状态向量来确定片段是否为异常片段。在一些实施方案中,分析系统计算每个甲基化状态向量的p值分数,其描述在健康对照组中观察到甲基化状态向量或是其他甲基化状态向量的概率甚至更小。计算p值分数的方法将在以下的p值过滤中进一步讨论。分析系统可以将具有低于阈值p值分数的甲基化状态向量的片段确定为异常片段。在一些实施方案中,分析系统进一步将具有至少有一些cpg位点的甲基化或非甲基化超过某个阈值百分比的片段分别标记为高甲基化片段及低甲基化片段。高甲基化片段或低甲基化片段也可称为具有极端甲基化(ufxm)的异常片段。在其他实施方案中,分析系统可以实施用于确定异常片段的各种其他概率模型。其他概率模型的示例包括混合模型、深度概率模型等。在一些实施方案中,分析系统可以使用下文描述的方法的任何组合来识别异常片段。利用所识别的异常片段,分析系统可以过滤样品的甲基化状态向量集,以用于其他方法,例如,用于训练及配置癌症分类器。
81.p值过滤:
82.在一些实施方案中,分析系统计算每个甲基化状态向量与来自健康对照组中的片段的甲基化状态向量相比的p值分数。p值分数可以描述在健康对照组中观察到与甲基化状态向量或其他甲基化状态向量匹配的甲基化状态的概率甚至更小。为了确定异常甲基化的dna片段,分析系统可以使用具有大部分正常甲基化片段的健康对照组。当进行此用于确定异常片段的概率分析时,与构成健康对照组的对照组相比,确定可以保持权重。为了确保健康对照组的稳健性,分析系统可以选择健康个体的一些阈值数量来获取包括dna片段在内的样品。以下图2a描述了为健康对照组生成数据构建体的方法,分析系统可以利用此数据构建体计算p值分数。图2b描述了使用生成的数据构建体计算p值分数的方法。
83.图2a是描述根据实施方案的为健康对照组生成数据构建体的方法200的流程图。为了创建健康对照组数据构建体,分析系统可以接收来自多个健康个体的多个dna片段(例如:cfdna)。可以为每个片段鉴定甲基化状态向量,例如通过方法100。
84.利用每个片段的甲基化状态向量,分析系统可以将甲基化状态向量细分205成cpg位点串(string)。在一些实施方案中,分析系统细分205甲基化状态向量,使得结果串都小于给定长度。例如,长度为11的甲基化状态向量可以细分为长度小于或等于3的串,其会产生9个长度为3的串、10个长度为2的串以及11个长度为1的串。在另一实施例中,将长度为7的甲基化状态向量细分为长度小于或等于4的串会产生长度为4的4串、5个长度为3的串、6个长度为2的串以及7个长度为1的串。如果甲基化状态向量的长度小于或等于特定的串长度,则甲基化状态向量可以转换为包含此向量的所有cpg位点的单个串。
85.对于向量中每个可能的cpg位点以及甲基化状态的可能性,分析系统通过对具有指定cpg位点作为串中的第一cpg位点并且具有甲基化状态的可能性的对照组中所存在的串的数量进行计数,来对串进行计数210。例如,在给定的cpg位点,考虑到串的长度为3,有2^3或8种可能的串配置。在那个给定的cpg位点,对于8种可能的串配置中的每一种,分析系统计数210每个甲基化状态向量的可能性在对照组中出现的次数。延续此实施例,这可以涉及计算以下数量:《m
x
,m
x+1
,m
x+2
》,,《m
x
,m
x+1
,u
x+2
》,...,《u
x
,u
x+1
,u
x+2
》,对于参考基因组中的每个起始cpg位点x。分析系统创建215存储每个起始cpg位点及串的可能性的计数的数据构建体。
86.设置串长度的上限有几个好处。首先,根据串的最大长度,分析系统创建的数据构建体的大小可以急剧增加。例如,最大串长度为4意味着每个cpg位点至少有2^4个数字来统计长度为4的串。将最大串长度增加到5意味着每个cpg位点都有额外的2^4或16要计数的数字,与之前的串长度相比,要计数的数字(以及所需的计算机内存)翻倍。减少串大小可以帮助保持数据构建体的创建及性能(例如,用于稍后的访问,如下所述),在计算及存储方面是合理的。其次,限制最大串长度的统计考虑可以是避免过度拟合使用串计数的下游模型。如果长串cpg位点在生物学上不会对结果产生强烈影响(例如,预测癌症存在的异常性预测),则基于长串cpg位点计算概率可能会有问题,因为它使用了显着的可能不可用的数据量,因此对于模型来说可能太稀疏而无法正常执行。例如,计算以先前100个cpg位点为条件的异常/癌症概率可以使用长度为100的数据构建体中的串计数,理想情况下,其中一些与先前的100个甲基化状态完全匹配。如果仅长度为100的串的稀疏计数可用,则可能没有足够的数据来确定测试样品中长度为100的给定串是否异常。
87.图2b是描述根据实施方案的用于识别来自个体的异常甲基化片段的方法220的流程图。在方法220中,分析系统从对象的cfdna片段生成100个甲基化状态向量。分析系统可以如下处理每个甲基化状态向量。
88.对于给定的甲基化状态向量,分析系统列举230甲基化状态向量在甲基化状态向量中具有相同起始cpg位点以及相同长度(即,cpg位点组)的所有可能性。由于每个甲基化状态通常是甲基化或是未甲基化,因此每个cpg位点可以有效地存在两种可能的状态,并且因而甲基化状态向量的不同可能性的计数可以取决于2的幂(power),使得甲基化状态向量的长度n会与甲基化状态向量的2n种可能性相关联。使用包括一个或多个cpg位点的不确定状态的甲基化状态向量,分析系统可以列举230种甲基化状态向量的可能性,仅考虑已观察到状态的cpg位点。
89.分析系统通过访问健康对照组数据构建体计算240观察到识别的起始cpg位点的甲基化状态向量的每个可能性以及甲基化状态向量长度的概率。在一些实施方案中,计算观察给定可能性的概率使用马尔可夫链(markov chain)概率来对联合概率(joint probability)计算进行建模。基于具有对应的多个cpg位点的健康非癌症组(cohort)数据集中那些核酸甲基化片段的相应片段(例如:核酸甲基化片段)的对应的多个cpg位点中的每个cpg位点的甲基化状态的评估,markov模型可以至少部分地被训练。例如,markov模型(例如,hidden markov模型或hmm)用于确定对于多个核酸甲基化片段中的核酸甲基化片段可以观察到甲基化状态的序列(包括,例如“m”或“u”)的概率,给定一组概率,这些概率为序列中的每个状态确定观察序列中下一个状态的似然。这组概率可以通过训练hmm来获得。这种训练可以涉及计算统计参数(例如,第一状态可以转变为第二状态的概率(转变概率)及/或对于相应cpg位点可以观察到给定甲基化状态的概率(发射概率(the emission probability)),给定观察到的甲基化状态序列(例如:甲基化模式)的初始训练数据集。hmm可以使用监督训练(例如,使用基础序列及观察状态已知的样品)及/或无监督训练(例如,viterbi学习、最大似然(likelihood)估计、期望最大化训练(expectation-maximization training)及/或baum-welch训练)。在其他实施方案中,使用除markov链概率之外的计算方法来确定观察到甲基化状态向量的每个可能性的概率。例如,这种计算方法可以包括学习表示。p值阈值可以介于0.01至0.1之间,或是介于0.03至0.06之间。p值阈值可以是0.05。p
值阈值可以小于0.01、小于0.001或是小于0.0001。
90.分析系统使用每个可能性的计算的概率来计算250甲基化状态向量的p值分数。在一些实施方案中,这包括识别与匹配所讨论的甲基化状态向量的可能性相对应的计算的概率。具体而言,这可以是具有与甲基化状态向量相同的一组cpg位点或是类似的起始cpg位点及长度的可能性。分析系统可以对具有小于或等于所识别的概率的概率的任何可能性的计算的概率求和,以生成p值分数。
91.此p值可以表示在健康对照组中观察到片段的甲基化状态向量或其他甲基化状态向量的概率,甚至更小。因此,低p值分数通常可以对应于甲基化状态向量,其在健康个体中是罕见的,并且相对于健康对照组,这会导致片段被标记为异常甲基化。高p值分数通常与甲基化状态向量相关,在相对意义上,预期存在于健康个体中。例如,如果健康对照组是非癌性组,则低p值可以表明此片段相对于非癌性组是异常甲基化的,因此可能表明测试对象中存在癌症。
92.如上所述,分析系统可以计算多个甲基化状态向量中的每一个的p值分数,每个甲基化状态向量代表测试样品中的cfdna片段。为了识别哪些片段被异常甲基化,分析系统可以基于它们的p值分数过滤260甲基化状态向量集。在一些实施方案中,通过将p值得分与阈值进行比较,并且仅将那些片段保持在阈值以下来执行过滤。此阈值p值分数可以是0.1、0.01、0.001、0.0001或是类似的数量级。
93.根据来自方法400的实施例结果,分析系统可以针对在训练中没有癌症的参与者产生一中值(范围)为2,800(1,500至12,000)个具有异常甲基化模式的片段,以及在训练中患有癌症的参与者产生一中值(范围)为3,000(1,200-220,000)个具有异常甲基化模式的片段。这些过滤后的具有异常甲基化模式的片段集可用于下游分析,如下文所述。
94.在一些实施方案中,分析系统使用255滑动窗口来确定甲基化状态向量的可能性并且计算p值。分析系统不是枚举可能性及计算整个甲基化状态向量的p值,而是仅枚举连续cpg位点窗口的可能性并且计算p值,其中窗口的长度(cpg位点)比至少一些片段短(否则,窗口将无用)。窗口长度可以是静态的、用户确定的、动态的或是以其他方式选择的。
95.在计算大于窗口的甲基化状态向量的p值时,窗口可以从窗口内的向量识别出从向量中的第一个cpg位点开始的连续的一组cpg位点。分析系统可以计算包括第一个cpg位点的窗口的p值分数。然后,分析系统可以将窗口“滑动(slide)”到向量中的第二个cpg位点,并且计算第二个窗口的另一个p值分数。因此,对于窗口大小l以及甲基化向量长度m,每个甲基化状态向量可以生成m-l+1p值分数。在完成向量每个部分的p值计算后,所有滑动窗口中的最低p值分数可以作为甲基化状态向量的总体p值分数。在其他实施方案中,分析系统聚合甲基化状态向量的p值分数,以生成总体p值分数。
96.使用滑动窗口可以帮助减少甲基化状态向量的枚举可能性及其对应的概率计算,否则这些计算会需要被执行。举一个现实的例子,片段可能有超过54个cpg位点。代替计算2^54(~1.8
×
10^16)可能性的概率来生成单个p分数,分析系统可以改为使用大小为5的窗口(例如),其导致片段的甲基化状态向量的50个窗口中的每个窗口都有50个p值计算。50个计算中的每一个都可以枚举2^5(32)种甲基化状态向量的可能性,总共产生50
×
2^5(1.6
×
10^3)个概率计算。这可以使得要执行的计算大幅减少,而对异常片段的准确识别没有任何意义。
97.在具有不确定状态的实施方案中,分析系统可以计算p值分数,将片段的甲基化状态向量中具有不确定状态的cpg位点相加。分析系统可以识别与甲基化状态向量的所有甲基化状态一致的所有可能性,不包括不确定状态。分析系统可以将概率分配给甲基化状态向量,作为识别的可能性的概率之和。作为示例,分析系统可以计算《m1,i2,u3》的甲基化状态向量的概率,作为《m1,m2,u3》及《m1,u2,u3》的甲基化状态向量的可能性的概率之和,因为观察到cpg位点1至3的甲基化状态,并且与cpg位点1至3的片段的甲基化状态一致。这种对具有不确定状态的cpg位点求和的方法可以使用高达2^i的可能性的概率的计算,其中i表示甲基化状态向量中的不确定状态的数量。在另外的实施方案中,可以实施动态规划(dynamic programming)算法来计算具有一个或多个不确定状态的甲基化状态向量的概率。有利地,动态规划算法可以在线性计算时间内运行。
98.在一些实施方案中,可以通过缓存(caching)至少一些计算来进一步减少计算概率及/或p值分数的计算负担。例如,分析系统可以将甲基化状态向量(或其窗口)的可能性的概率计算缓存在暂时或持久内存中。如果其他片段具有相同的cpg位点,则缓存可能性概率可以允许有效计算p分数值,而无需重新计算潜在的可能性概率。等效地,分析系统可以计算与来自向量(或其窗口)的一组cpg位点相关联的甲基化状态向量的每个可能性的p值分数。分析系统可以缓存p值分数,以用于确定包括相同cpg位点的其他片段的p值分数。通常,具有相同cpg位点的甲基化状态向量的可能性的p值分数可以用于确定来自同一组cpg位点的不同可能性的p值分数。
99.可以在训练区域模型或癌症分类器之前过滤一个或多个核酸甲基化片段。过滤核酸甲基化片段可以包括从对应的多个核酸甲基化片段中去除不满足一个或多个选择标准(例如,低于或高于一个选择标准)的每个相应核酸甲基化片段。一个或多个选择标准可以包括一p值阈值。可以至少部分地基于相应核酸甲基化片段的对应的甲基化模式与具有相应核酸甲基化片段的对应的多个cpg位点的健康非癌症组数据集中的那些核酸甲基化片段的甲基化模式的对应分布的一比较,来确定相应核酸甲基化片段的输出p值。
100.过滤多个核酸甲基化片段可以包括去除不满足p值阈值的每个相应核酸甲基化片段。可以使用在第一多个核酸甲基化片段中观察到的甲基化模式来将过滤应用于每个相应核酸甲基化片段的甲基化模式。每个相应核酸甲基化片段(例如,片段1、
…
、片段n)的每个相应甲基化模式可以包含使用甲基化位点标识符以及对应的甲基化模式标识的对应的一个或多个甲基化位点(例如,cpg位点),表示作为1’s及0’s的序列,其中每个“1”代表一个或多个cpg位点中的甲基化cpg位点,并且每个“0”代表一个或多个cpg位点中的未甲基化cpg位点。在第一多个核酸甲基化片段中观察到的甲基化模式可以用于构建由第一多个核酸甲基化片段共同代表的cpg位点状态的甲基化状态分布(例如,cpg位点a、cpg位点b、
…
,cpg位点zzz)。关于核酸甲基化片段的处理的更多细节公开在于2020年3月4日提交的标题为“使用自动编码器确定癌症状况的系统及方法(systems and methods for cancer condition determination using autoencoders)”的美国临时专利申请第62/985,258号中,其通过引用整体并入本文。
101.当对应的核酸甲基化片段具有小于异常甲基化分数阈值的异常甲基化分数时,相应核酸甲基化片段可以不满足一个或多个选择标准中的选择标准。在这种情况下,异常甲基化评分可以通过一混合模型来确定。例如,基于相同长度以及相同对应基因组位置的可
能甲基化状态向量的数量,通过确定相应核酸甲基化片段的甲基化状态向量(例如:甲基化模式)的可能性,混合模型可以检测核酸甲基化片段中的异常甲基化模式。这可以通过在参考基因组中的每个基因组位置为指定长度的向量生成多个可能的甲基化状态来执行。使用多个可能的甲基化状态,可以确定总的可能甲基化状态的数量以及随后在基因组位置处每个预测的甲基化状态的概率。然后可以通过将样品核酸甲基化片段与一预测的(例如,可能的)甲基化状态匹配并取得预测的甲基化状态的计算概率来确定样品核酸甲基化片段对应于参考基因组内的基因组位置的似然。然后,可以基于样品核酸甲基化片段的概率计算异常甲基化分数。
102.当相应核酸甲基化片段具有小于阈值数量的残基时,相应核酸甲基化片段可以无法满足一个或多个选择标准中的选择标准。残基的阈值数量可以在10至50之间、50至100之间、100至150之间或是超过150个。残基的阈值数目可以是20至90之间的一固定值。当相应核酸甲基化片段具有小于阈值数量的cpg时,相应核酸甲基化片段可以不满足一个或多个选择标准中的选择标准。cpg位点的阈值数量可以是4、5、6、7、8、9或10。当相应核酸甲基化片段的基因组起始位置以及基因组终止位置表明相应核酸甲基化片段代表人类基因组参考序列中少于阈值数量的核苷酸时,相应核酸甲基化片段可以不满足一个或多个选择标准中的选择标准。
103.过滤可以去除对应的多个核酸甲基化片段中与对应的多个核酸甲基化片段中的另一个核酸甲基化片段具有相同的对应的甲基化模式以及相同的对应的基因组起始位置及基因组终止位置的核酸甲基化片段。此过滤步骤可以去除完全重复的冗余片段,在某些情况下包括pcr重复。过滤可以去除与对应的多个核酸甲基化片段中的另一个核酸甲基化片段具有相同的对应的基因组起始位置以及基因组终止位置并且不同甲基化状态的阈值数量少于阈值数量的核酸甲基化片段。用于保留核酸甲基化片段的不同甲基化状态的阈值数量可以是1、2、3、4、5或大于5。例如,第一核酸甲基化片段,具有与第二核酸甲基化片段相同的对应的基因组起始以及终止位置,但是在对应的cpg位点具有至少1个、至少2个、至少3个、至少4个或是至少5个不同的甲基化状态(例如,与参考基因组相比),被保留。作为另一个实施例,第一核酸甲基化片段,具有与第二核酸甲基化片段相同的甲基化状态向量(例如,甲基化模式)但是不同的对应的基因组起始以及终止位置也被保留。
104.过滤可以去除多个核酸甲基化片段中的测定伪影(artifact)。去除测定伪影可以包括去除从定序杂交探针获得的序列读取及/或从在亚硫酸氢转化期间未能经历转化的序列获得的序列读取。过滤可以去除污染物(例如,由于定序、核酸分离及/或样品制备)。
105.基于针对多个训练对象的癌症状态的相应甲基化片段的互信息过滤,过滤可以从多个甲基化片段中移除甲基化片段的一子集。例如,互信息可以提供同时抽样的两个感兴趣条件之间的相互依赖性的度量。可以通过从一个或多个数据集中选择一组独立的cpg位点(例如,在核酸甲基化片段的全部或一部分内)并且比较两个样品组(例如,基因型数据集、生物样品及/或对象的子集及/或组)之间的一组cpg位点的甲基化状态的概率,来确定互信息。互信息分数可以表示在滑动窗口的相应帧中的相应区域处第一条件相对于第二条件的甲基化模式的概率,从而指示相应区域的辨别能力。当滑动窗口在选定的一组cpg位点组及/或选定的基因组区域中进行时,可以类似地计算滑动窗口的每个帧中的每个区域的互信息分数。关于互信息过滤的更多细节公开在2020年12月11日提交的美国专利申请第
17/119,606号,标题为“使用面片卷积神经网络的癌症分类(cancer classification using patch convolutional neural networks)”),其全文通过引用并入本文。
106.高甲基化片段以及低甲基化片段:
107.在一些实施方案中,分析系统将异常片段确定为具有超过阈值数量的cpg位点的片段,并且具有超过阈值百分比的甲基化的cpg位点或是具有超过阈值百分比的未甲基化的cpg位点;分析系统将这些片段识别为高甲基化片段或低甲基化片段。片段长度(或cpg位点)的示例阈值包括大于3、4、5、6、7、8、9、10等。甲基化或非甲基化的示例百分比阈值包括大于80%、85%、90%、95%,或50%至100%的任何其他百分比。
108.示例分析系统:
109.图7a是根据一个或多个实施方案的核酸样品定序的装置的示例性流程图。此说明性流程图包括例如一定序器720及一分析系统700的装置。定序器720及分析系统700可以协同(tandem)工作,以执行图1a的方法100、图2a的方法200、图2b的方法220中的一个或多个步骤,以及本文描述的其他方法。
110.在各种实施方案中,定序器720接收一富集的核酸样品710。如图7a所示,定序器720可以包括一图形用户界面725,其使得用户能够与特定任务(例如,启动定序或终止定序)交互作用;以及一个或多个加载站730,用于加载包括富集的片段样品的定序盒及/或加载用于执行定序分析的必要缓冲液。因此,一旦定序器720的用户已经将必要的试剂及定序盒提供给定序器720的加载站730,用户就可以通过与定序器720的图形用户界面725交互作用来启动定序。一旦启动,定序器720执行定序,并且输出来自核酸样品710的富集片段的序列读取。
111.在一些实施方案中,定序器720与分析系统700通信耦合。分析系统700包括一些用于处理各种应用的序列读取的计算装置,例如评估一个或多个cpg位点的甲基化状态、变体调用(calling)或质量控制。定序器720可以将bam文件格式的序列读取提供给分析系统700。分析系统700可以通过无线、有线或无线与有线通信技术的组合通信地耦合到定序器720。通常,分析系统700配置有一处理器及存储计算机指令的非暂时性计算机可读存储介质,当处理器执行计算机指令时,使得处理器处理序列读取或是执行本文公开的任何方法或过程的一个或多个步骤。
112.在一些实施方案中,序列读取可以使用本领域已知的方法与参考基因组比对,以确定比对位置信息,例如,通过图1a中的方法100的步骤140。比对位置通常可以描述参考基因组中对应于给定的序列读取的起始核苷酸碱基及末端核苷酸碱基的区域的起始位置及终止位置。对应于甲基化定序,比对位置信息可以被概括为指示根据与参考基因组的比对的序列读取中所包括的一第一cpg位点及一最后cpg位点。对准位置信息可以进一步指示给定的序列读取中所有cpg位点的甲基化状态及位置。参考基因组中的区域可以与基因或基因片段相关联;因此,分析系统700可以标记一序列读取,所述序列读取具有与序列读取比对的一个或多个基因。在一个实施方案中,从起始位置及终止位置来确定片段长度(或大小)。
113.在各种实施方案中,例如,当使用成对末端(paired-end)定序方法时,序列读取由表示为r_1及r_2的读取对组成。例如,第一读取r_1可以从双链dna(dsdna)分子的第一末端定序,而第二读取r_2可以从双链dna的第二末端定序。因此,第一读取r_1及第二读取r_2的
核苷酸碱基对可以与参考基因组的核苷酸碱基一致地(例如,在相反的方向上)比对。源自读取对r_1及r_2的比对位置信息可以包括参考基因组中对应于第一读取(例如:r_1)终端的起始位置以及参考基因组中对应于第二读取(例如:r_2)终止的终止位置。换句话说,参考基因组中的起始位置及终止位置可以代表核酸片段对应的参考基因组内的可能位置。可以生成具有sam(序列比对图(sequence alignment map))格式或是bam(二元)格式的输出档案,并且输出以供进一步分析。
114.现在参考图7b,图7b是根据一个实施方案的用于处理dna样品的分析系统700的框图。分析系统实现用于分析dna样品的一个或多个计算装置。分析系统700包括一序列处理器740、序列数据库745、模型数据库755、模型750、参数数据库765及评分引擎760。在一些实施方案中,分析系统700执行图1a的方法100以及图2的方法200中的一些或全部。
115.序列处理器740为来自样品的片段生成甲基化状态向量。通过图1a的方法100,在片段上的每个cpg位点处,序列处理器740生成每个片段的甲基化状态向量,所述甲基化状态向量指明片段在参考基因组中的位置、片段中多个cpg位点,以及片段中每个cpg位点的甲基化状态,无论是甲基化的、非甲基化的或是不确定的。序列处理器740可以将片段的甲基化状态向量存储在序列数据库745中。序列数据库745中的数据可以被组织成使得来自样品的甲基化态向量彼此关联。
116.此外,多个不同的模型750可存储在模型数据库755中,或是被取得以用于测试样品。在一个实施例中,模型是训练的癌症分类器,用于使用从异常片段导出的特征向量来确定测试样品的癌症预测。癌症分类器的训练及使用会结合以下“用于确定癌症的癌症分类器”的内容进一步讨论。分析系统700可以训练一个或多个模型750,并将各种训练参数存储在参数数据库765中。分析系统700将模型750连同函数一起存储在模型数据库755中。
117.在推论期间,评分引擎760使用一个或多个模型750来返回输出。评分引擎760访问模型数据库755中的模型750以及来自参数数据库765的训练参数。根据每个模型,评分引擎接收模型的适当输入,并且基于接收到的输入、参数以及与输入及输出相关的每个模型的函数来计算输出。在一些用例中,评分引擎760进一步计算与来自模型的计算输出的置信度(confidence)相关的度量。在其他用例中,评分引擎760计算用于模型中的其他中间值。
118.确定癌症的癌症分类:
119.概述:
120.可以训练癌症分类器以接收测试样品的特征向量,并且确定测试样品是否来自患有癌症或更具体地患有特定癌症类型的测试对象。癌症分类器可以包括多个分类参数以及表示作为输入的特征向量与作为输出的癌症预测之间的关系的函数,其通过使用分类参数对输入特征向量进行操作来确定。在一些实施方案中,输入到癌症分类器中的特征向量基于从测试样品确定的多个异常片段的集。可以通过图2b中的方法220确定异常片段;或是更具体地,通过方法220的步骤270确定高甲基化及低甲基化片段;或是根据一些其他方法确定异常片段。在配置癌症分类器之前,分析系统可以训练癌症分类器。
121.生成合成训练样品:
122.图3示出了根据一个或多个实施方案的生成合成训练样品的示例性方法。分析系统可以使用从具有已知癌症状态的个体获得的训练样品来生成一个或多个合成训练样品。分析系统可以使用包括合成训练样品的训练样品来训练癌症分类器。
123.分析系统获得癌症训练样品310以及非癌症训练样品320,以生成合成训练样品330。癌症训练样品310源自已知患有癌症的状态的个体。非癌症训练样品320源自已知未患癌症状态(“非癌症”)的个体。每个训练样品包含与人类基因组中多个基因组区域中的至少一个基因组区域重叠的cfdna片段。给定n个基因组区域,癌症训练样品310具有在基因组区域1中的片段312,具有在基因组区域2中的片段314,以及具有在每个基因组区域的片段,一直到具有在基因组区域n中的片段316。类似地,非癌症训练样品320具有在基因组区域1中的片段322,在基因组区域2中的片段324,以及具有在每个基因组区域的片段,一直到具有在基因组区域n中的片段326。
124.分析系统通过对来自癌症训练样品310的片段以及来自非癌症训练样品320的片段进行抽样来生成合成训练样品330。分析系统在每个基因组区域以第一抽样概率从癌症训练样品310抽样多个片段的子集,并且以与第一抽样概率互补的第二抽样概率从非癌症训练样品320抽样多个片段的子集。如图所示,第一抽样概率为a%,第二抽样概率为b%。通过以这种方式抽样,合成训练样品330被生成以包括基因组区域1的a%的来自癌症训练样品310的片段312,以及b%的来自非癌症训练样品320的片段322。类似地,合成样品330被生成以包括基因组区域2的a%的来自癌症训练样品310的片段314,以及b%的来自非癌症训练样品320的片段324。这继续通过基因组区域直到基因组区域n,其中合成生成样品330被生成以包括基因组区域n中的a%的癌症训练样品310的片段316,以及b%的非癌症训练样品320的片段326。分析系统使用一癌症标记来标记合成训练样品330。标记还可包括存在于癌症训练样品310中的特定癌症类型。
125.可以根据训练的癌症分类器的性能来确定抽样概率。分析系统可以训练癌症分类器并且评估其性能。分类器的性能可以包括检测的限度,以预测在最小肿瘤分数处样品中癌症的存在,即,检测癌症信号所需的从肿瘤组织脱落(shed)的cfdna片段的最小百分比。例如,分类器可以具有检测样品中每千个片段中有一个从肿瘤组织脱落的片段的限度。对应于从癌症训练样品310中抽样的片段的百分比的第一抽样概率可以设置为0.001%(或大约这样的百分比)。分析系统可以将第二抽样概率确定为与第一抽样概率互补。互补抽样概率的百分比加起来为100%。例如,0.001%的互补百分比为0.999%,其被设置为对应于从非癌症训练样品320中抽样的片段百分比的第二抽样概率。分析系统可以进一步根据根据癌症训练样品310以及非癌症训练样品320的定序深度来调整抽样概率。例如,如果癌症训练样品310具有比非癌症训练样品320更小的定序深度,则可以增加第一抽样概率。随着使用合成训练样品逐步训练癌症分类器,分析系统可以逐步调整抽样概率。
126.图4是描述根据一个或多个实施方案的生成用于训练癌症分类器的合成训练样品的方法400的示例性流程图。尽管以下描述是从分析系统的角度出发的,但是可以由图7b中所示的分析系统700的任何组件来执行以下方法。
127.分析系统接收多个训练样品的定序数据410。分析系统可以接收每个带有癌症或非癌症标记的训练样品。带有癌症标记的训练样品还可以带有特定癌症类型的标记。每个训练样品可以包含根据图2b的方法220可以被确定为异常甲基化的多个cfdna片段。
128.分析系统对标记为癌症的第一训练样品以及标记为非癌症的第二训练样品进行抽样420。第一训练样品可以具有多个癌症类型中的特定癌症类型的附加标记。
129.分析系统通过对来自第一训练样品的异常cfdna片段的第一子集以及来自第二训
练样品的异常cfdna片段的第二子集进行抽样来生成标记为癌症的第一合成训练样品430。如图3所示,分析系统可以通过抽样概率根据基因组区域从每个训练样品中抽样片段。在每个基因组区域,分析系统可以根据第一抽样概率对第一训练样品的基因组区域中的片段进行抽样,并且根据第二抽样概率对第二训练样品的基因组区域中的片段进行抽样,其中第二抽样概率与第一个抽样概率互补。
130.分析系统可以重复步骤420及430,以生成额外的合成训练样品。单个癌症训练样品可用于生成标记为癌症的多个合成训练样品。
131.分析系统生成每个训练样品的特征向量440。训练样品至少包括第一合成训练样品,并且最多包括所有生成的合成训练样品。可以根据训练样品中的异常cfdna片段生成特征向量。下文(癌症分类器的训练)描述了一种特征化方法。
132.分析系统使用特征向量以及训练样品的标记来训练癌症分类器450。分析系统通过输入训练样品的特征向量来训练癌症分类器,并且调整癌症分类器的参数以优化癌症分类器对训练样品的标记的预测准确性。关于癌症分类器的训练的更多细节在下文(癌症分类器的训练)描述。
133.使用生成的一个或多个合成训练样品训练癌症分类器有利于改进癌症分类器的特异性及敏感性。改善归因于几个因素。例如,通过使用扩展的训练集,可以减少数据过度拟合,因为分类器可以更好地概括数据的趋势。此外,通过确定抽样概率,生成的合成训练样品可以具有接近分类器检测的限度的癌症信号。反过来,这可以允许在癌症信号较少的特征空间中对癌症分类器进行更稳健的训练。
134.图5a示出了根据本公开的各种实施方案的用于生成增强数据以及可选地训练分类器以将疾病状态彼此区分开来的示例工作流500。
135.在一些实施方案中,工作流500的第一步骤是收集(502)来自一个或多个训练组(cohort)的基础生物数据,例如,其中每个训练组中的对象具有不同的疾病状态。从第一组中的对象收集(504),例如,包含核酸的生物样品,其中的每个均具有第一疾病状态,例如,癌症或是心血管疾病的特定状态,并且游离核酸是疾病状态的信息。如图2所示,从一个或多个另外的组中的对象收集(505)生物样品,每个均具有不同于第一疾病状态的第二疾病状态。例如,第一组中的对象患有癌症,而第二组中的对象未患有癌症。本文所述方法中使用的每个生物样品可以包括游离核酸,例如cfdna。有利地,游离核酸可以通过从对象中微创、小体积的血液抽取,或是可以通过其他体液例如唾液或尿液的无创抽样来获得。本文所述的系统及方法可适用于评估可用于检测对象的疾病状态的任何类型的生物数据,例如游离或细胞基因组数据、转录组数据、表观遗传数据、蛋白质组数据、代谢组数据等。可以处理生物样品,以获得关于对象的生物信息(506)。可以对样品中的游离核酸(例如:cfdna)进行定序,以生成cfdna序列读取。
136.尽管工作流500说明了收集生物样品(例如,从组1(504)以及其他可选组(505)获得cfdna样品)以及生物特征提取(例如,生成cfdna序列读取506)的可选步骤,然而本文所述的方法可以通过以电子形式获得先前提取的生物学特征(例如,序列读取以及可选的序列读取的特征)开始。
137.工作流500包括获得来自第一组中的对象的核酸样品的核酸片段序列的步骤(508),并且可选地,来自其他组中的对象的核酸样品的核酸片段序列的步骤。工作流500
进一步包括基于在步骤506收集的生物学信息为组1中的每个对象获得数据构建体(construct)的步骤(510)。数据构建体可以包括基因组特征(features)(或基因组特征(characteristics))、疾病状态,并且可选地对象的个人特征。可用于本文所述的方法的基因组特征的实例包括:读取计数(例如:基因组拷贝数特征),其提供了关于在生物样品中的特定序列(例如:基因组或外显子基因座)的相对丰度的信息;变异等位基因(例如,变异等位基因特征)的存在,其提供了关于对象的基因组(例如,在生殖系或患病组织中的一个或两个中)相对于对象的物种的(多个)参考基因组的差异的信息;等位基因频率(例如,等位基因比率特征),其提供了关于在测试生物样品中,变异等位基因相对于非变异等位基因的相对丰度的信息;以及甲基化状态(例如,基因组甲基化特征),其提供了关于在测试生物样品中,不同基因组区域的甲基化状态的信息。包括在数据构建体中的特定特征以及数据构建体的格式可以由在工作流500的步骤516中可选训练的分类器规定。在工作流502中,核酸片段序列数据可以不合并在一起。在这种情况下,可以保持cfdna来源的身份,并且每个补充数据构建体都可以从来自其中一个组的单个对应的样品的cfdna构建。在一些替代实施方案中,来自一组的两个或多个样品的cfdna被合并到单一的补充数据构建体中。
138.工作流500包括基于在步骤506收集的生物信息为任何附加组中的每个对象获得(512)数据构建体的可选步骤。如上所述,数据构建体可以包括对象的基因型特征、疾病状态及可选的个人特征。在数据构建体用于训练分类器以区分附加组中对象的疾病状态的情况下,在步骤512获得的数据构建体中的基因组特征可以与在步骤510为第一组获得的数据构建体中的基因组特征相同。
139.工作流500还包括基于为第一组中的至少一个对象获得的核酸片段序列的概率抽样,生成包含基因组特征的增强值的补充数据构建体的步骤(514)。一个或多个补充数据构建体可以表示样品的状态,其被模拟为具有接近正在训练的分类器的检测限度的疾病特征。在这种情况下,可以通过呈现更多代表给定疾病状态的弱数据信号示例来改进分类器的训练。
140.图5b说明了用于在步骤514生成补充数据构建体的示例工作流。如图5b所示,来自第一组中的一个或多个对象(例如,患有癌症)的核酸片段序列数据520被概率地抽样(530),以选择所有核酸片段序列的子集,然后可以模拟具有较弱疾病信号的数据。例如,当从肿瘤分数为0.2的液体生物样品产生的归一化核酸片段序列的集开始时(即,样品中20%的游离核酸来自癌细胞),对每个核酸片段序列应用50%的选择概率会产生对应的补充数据构建体的核酸片段序列的一选择的集,其具有约一半的癌症信号量,这大致相当于肿瘤分数为0.1的样品的预期癌症信号。在实践中,可以使用一组无癌症对象以及一组癌症对象来训练分类器,其中组中的癌症对象在肿瘤分数方面有所不同。然后,可以评估经过训练的分类器的性能,以确定分类器的检测的限度。可以评估经过训练的分类器,以确定分类器的性能开始显着下降或完全失败的肿瘤分数。
141.然后,方法502(图2)可用于生成以此肿瘤分数为中心的补充数据构建体。例如,考虑癌症组中的平均癌症对象的肿瘤分数为0.4,并且经过训练的分类器在肿瘤分数为0.2时失败的情况。在这种情况下,分类器可能无法以足够的表现将肿瘤分数为0.2或更低的对象识别为患有癌症。在这种情况下,可以在逐个对象的组的基础上从癌症组生成补充数据构建体。对于每个对象,他们的每个片段序列可以被选择以在概率的基础上包含在对应的
补充数据构建体中。由于分类器在0.2失败,具有肿瘤分数的补充数据构建体可以在0.2附近,以便更好地训练分类器。因此,针对癌症组中的每个相应对象,使用相应对象的组中的核酸片段数据,通过概率地抽样(接受)每个核酸片段,每个核酸片段序列可以被选择用于对应的补充数据构建体,以包含在对应的补充数据构建体中。在此示例中,0.50的概率抽样应用于癌症组中相应对象的每个核酸片段。因此,如果癌症组中的相应对象有1000个核酸片段,则每个核酸片段可以以百分之五十的概率被接受到对应的补充数据构建体中。有利地,在不考虑参考等位基因以及替代等位基因的情况下,或是甚至不知道哪些等位基因决定了癌症信号的情况下,通过应用这种概率抽样可以将区分替代等位基因的原始计数减半,以便生成对应的补充数据构建体,所述补充数据构建体模拟具有0.2肿瘤分数的真实组样品。以这种方式生成的补充数据构建体可以与原始组数据相结合,以再次训练分类器,现在有了更多数据,并且可以再次评估分类器相对于原始数据的性能。有利地,如下面的示例中所示,此方法可以提高分类器性能,特别是在原始组数据具有缺乏对象的较低肿瘤分数时。
142.可选地,在替代的实施方案中,也如图5b所示,可以随机抽样(532)来自第二组中的一个或多个对象(例如,未患有癌症)的核酸片段序列数据522,以选择只是所有核酸片段序列的一子集。此抽样的核酸片段序列的子集可以与来自第一组中的一个或多个对象的随机抽样的核酸片段序列混合(540),例如以生成具有比来自第一组中的对象的原始核酸片段序列的集较弱的疾病特征(例如,当疾病是癌症时,较低的肿瘤分数)的核酸片段序列的增强集。当用于训练分类器的基因组特征之一是基于疾病衍生的核酸片段序列与健康核酸片段序列的一比率时,可以使用抽样的核酸片段序列的混合。为了说明,可以使用第一概率(例如,0.6)对来自第一组中的对象(例如,患有癌症)的核酸片段序列数据520进行概率抽样(530),以选择仅来自对象中的所有核酸片段序列的一子集。此外,可以使用第二概率(例如,0.4)对来自第二组中的成对对象(例如,未患有癌症)的核酸片段序列数据522进行概率抽样(530),以选择仅来自成对对象的所有核酸片段序列的一子集。来自成对对象的核酸片段序列,一个来自组1,一个来自组2,可以组合形成补充数据构建体。组1中的多个对象以及组2中的单个对象可以以这种方式对单个补充数据构建体做出贡献。组2中的多个对象以及组1中的单个对象可以以这种方式对单个补充数据构建体做出贡献。组2中的大于一个对象以及组1中的大于一个对象可以以这种方式对单个补充数据构建体作出贡献。在一些实施方案中,以第一概率对来自第一组的对象中的核酸片段序列进行抽样,并且以第二概率对来自第二组的对象中的核酸片段序列进行抽样,以形成补充数据构建体,其中第一与第二概率相同或不同,并且第一与第二个概率的总和等于或不等于1。
143.在替代的实施方案中,通过将“缺失(missing)”核酸片段序列指定为非疾病状态来构建补充数据构建体,这与使用来自非患病组的核酸片段序列稀释来自患病组的核酸片段序列相反。例如,假设来自第一组(例如:患病组)中的对象的一组核酸片段序列包括给定的基因组基因座的100个核酸片段序列,其中20个来自患病细胞。如果随机抽样50%的核酸片段序列,选出10个来自病变细胞的核酸片段序列以及40个来自健康细胞的核酸片段序列,则增强(augmented)集的等位基因比例可以为20%,即与起始样品相同。然而,核酸片段序列的增强集仍然可以包括来自基因座的100个核酸片段序列,在这种情况下,增强集的等位基因比率可以确定为原始核酸片段集的10%或一半序列。
144.如图5b所示,在一些实施方案中,随机抽样的核酸片段序列(例如,在步骤530以及可选地,在步骤532及/或540产生的)然后用于形成(550)步骤514的补充数据构建体。
145.在一些实施方案中,如图5a所示,工作流500包括训练分类器以区分与第一组对象相关的第一疾病状态以及至少与一个或多个额外组别的对象相关的第二疾病状态的步骤。如图5a所示,训练使用以下的数据构建体(例如,其包括关于每个对象或增强构建体的疾病状态信息,例如,疾病状态信息,以及针对每个对象或增强构建体获得或生成的生物数据的基因组特征):针对第一组中的对象、至少第二组中的对象获得的数据构建体;以及从来自第一组中的至少一个对象的随机抽样的核酸片段序列产生的增强数据构建体。
146.使用概率抽样人工扩展数据集的方法可以生成用于训练分类器以更好区域分不同疾病状态的多个补充数据构建体(例如,增强的单时间点训练构建体及/或增强的时间序列训练构建体),例如,用于确定对象是否患有疾病,例如癌症或心血管疾病;用于确定疾病类型(例如,癌症类型、癌症的原发性起源);用于确定疾病的阶段(分期)(stage)(例如,癌症的一个阶段)、用于确定疾病的预后(例如,癌症及/或不癌症的预后)等。
147.方法可以包括以电子形式获得训练数据集(例如,单时间点训练数据),包括具有疾病状况的第一状态的第一组训练对象(例如,训练对象)的第一多个基因组数据构建体。第一组训练对象可以包括至少5、10、100、10与25,000之间、或少于100个训练对象。
148.对于第一组训练对象中的每个相应的训练对象,第一多个基因组数据构建体可以包括相应的基因组数据构建体,所述基因组数据构建体包括从相应训练对象获得的对应的生物样品(例如,对应于核酸片段序列数据)中的对应的多个核酸片段的多个基因组特征的值。方法然后可以包括使用训练数据集来生成多个补充数据构建体(例如,增强的单时间点训练数据),其中多个补充基因组数据构建体中的每个相应补充基因组数据构建体对应于(从中抽样)来自第一多个基因组数据构建体的至少一个相应的基因组数据构建体(例如,单时间点训练数据)。
149.对于多个基因组特征中的每个相应基因型特征,多个补充基因组数据构建体中的每个相应补充基因组数据构建体可以包括增强值(例如,增强基因组拷贝数特征、增强变异等位基因特征、增强等位基因比率特征及增强基因组甲基化特征等中的一个或多个),其源自对来自第一多个基因组的至少相应基因组数据构建体中的相应基因组特征的值有贡献的核酸片段的概率抽样。在一个实例中,补充基因型数据构建体由第一组中的训练对象的基因组数据构建体通过对训练对象中的每个核酸片段序列的随机抽样而形成。也就是说,第一组中的训练对象中的每个核酸片段序列可以在一概率的基础上被接受到对应的补充基因组数据构建体中。以这种方式,基于在概率基础上,从第一组中的训练对象被接受到对应的补充基因组数据构建体中的核酸片段序列的身份及特征(例如,基因组拷贝数特征、变体等位基因特征、等位基因比率特征及基因组甲基化特征等中的一个或多个),补充基因组数据构建体可以实现多个基因组特征中的每个相应基因组特征的增强值。
150.多个基因组特征可以包括至少100、500、1000、5000、10,000、50,000、100,000或更多个基因型特征。多个基因组特征可以包括单一类型的基因型特征,例如基因组拷贝数特征、变体等位基因特征、等位基因比率特征及基因组甲基化特征中的一个。在一些实施方案中,多个基因型特征包括至少两个类型的基因型特征,例如基因组拷贝数特征、变异等位基因特征、等位基因比率特征及基因组甲基化特征中的两个或更多个。多个基因型特征可以
包括至少三个基因型特征,例如,基因组拷贝数特征、变异等位基因特征、等位基因比率特征及基因组甲基化特征中的三个或更多个。对应的多个核酸片段的多个基因组特征值可以通过全基因组定序、全基因组甲基化定序、靶向定序(例如:靶向dna甲基化定序)使用多个核酸探针以富集对应的生物样品中多个基因组区域的核酸而获得。
151.可以对多于一个单时间点训练数据集进行抽样,以形成对应的补充数据构建体。在这种情况下,来自两个或多个单时间点训练数据集的核酸片段序列可以被随机抽样,以生成补充数据构建体,其代表与单个时间点训练数据集中所代表的数量相等或更少的核酸片段序列。在一些实施方案中,将至少两个单时间点训练数据集一起抽样。在其他实施方案中,将至少3、4、5、6、7、8、9、10、25、50、100、500、1000或更多个单时间点训练数据集一起抽样,以形成单个补充数据构建体。
152.在一些实施方案中,基于在第二时间从训练对象获得的第二生物样品,第一多个基因组数据构建体包括第一组训练对象中的一个或多个训练对象的至少第二基因组数据构建体。也就是说,对于此训练对象,可以存在使用在第一时间从训练对象获得的第一生物样品所获得的第一基因组数据构建体,以及使用在第二时间从训练对象获得的第二生物样品所获得的第二基因组数据构建体。例如,第二个样品可以在第一个样品之后数天、数周、数月或数年获得。在这种情况下,可能有一个以上的基因型数据构建体使用从对象随时间获取的生物样品从训练对象获得,其中随着时间的推移,对象进展到特定癌症的晚期阶段,提供了独特的机会来增强数据。在这样的实施方案中,增强的基因型数据构建体可以通过以下方式而被构建:使用第一概率随机抽样第一次从对象获得的第一基因组数据构建体中的每个核酸片段,以及使用第二概率随机抽样第二次从对象获得的第二基因型数据构建体中的每个核酸片段,以构建增强的基因型数据构建体。此外,第一及第二概率可以被选择而使得增强的基因组数据构建体与第一基因组构建体之间的距离以及增强的基因组数据构建体与第二基因组构建体之间的距离受到控制。例如,为了获得比第二基因组构建体更接近第一基因组构建体的增强的基因型数据构建体(就基因型特征而言),可以使用比第二基因组构建体的每个核酸片段序列被抽样以包含在增强的基因组数据构建体中的概率更高的一概率来对第一基因组构建体的每个核酸片段序列进行抽样。
153.此方法可以生成多个补充数据构建体(例如,增强的时间序列训练构建体),当与一个或多个训练数据构建体配对时,形成代表疾病状态(例如,癌症)进展或消退的生物学特征的时间序列数据。时间序列数据可用于训练分类器,以更好区域分不同的疾病状态,例如,用于确定对象是否患有诸如癌症或心血管疾病等疾病,用于确定疾病类型(例如,癌症的类型),癌症的要起源),用于确定疾病的阶段(分期)(stage)(例如,癌症的阶段),用于确定疾病的预后(例如,癌症及/或不癌症的预后)等。
154.为了生成时间序列数据,方法可以包括以电子形式获得第一训练数据集(例如,时间序列训练数据),其包括第一组的训练对象的第一多个基因组数据构建体。对于第一组训练对象中的每个相应训练对象,第一多个基因组数据构建体可以包括(i)相应的第一基因组数据构建体,包括在相应的第一时间点,从相应的训练对象(例如,对应于核酸片段序列数据)获得的对应的第一生物样品中的对应的第一多个核酸片段的多个基因组特征的值,相应训练对象可以具有在相应的第一时间点的疾病状况的第一状态(例如,不存在例如癌症或心血管疾病之类的疾病);以及(ii)一组一个或多个添加(spike-in)对象的一个或多
个添加(spike-in)基因组数据构建体的集。一个或多个添加(spike-in)基因组数据构建体的集可以包括相应添加(spike-in)基因型数据构建体,其包括从相应添加(spike-in)对象获得的对应的生物样品中对应的多个核酸片段的多个基因组特征的值,其中当从相应的添加(spike-in)对象(例如,具有疾病状态,例如,患有癌症)获得对应的生物样品时,相应的添加(spike-in)对象具有疾病状况的第二状态。疾病状况的第一状态以及疾病状况的第二状态可以通过疾病状况的进展相关联。例如,训练对象未患有疾病(例如,癌症或心血管疾病)或是患有疾病的早期阶段(例如,0期或1期癌症),并且添加(spike-in)对象患有疾病及/或患有晚期阶段的疾病,使得从添加(spike-in)对象获得的样品可以在他们经历疾病状态的进展之后,在稍后的时间被视为来自训练对象的样品。
155.然后,方法可以包括使用第一训练数据集来生成相应的第一增强基因组数据构建体(例如,增强时间序列数据),包括代表在相应的第二时间点相应的训练对象的多个基因组特征的值。相应的第一增强基因组数据构建体可以对应于对应的第一对基因组数据构建体。第一对基因组数据构建体可以包括:(i)相应训练对象的相应第二基因组数据构建体;以及(ii)来自一个或多个添加(spike-in)基因型数据构建体的集的相应的添加(spike-in)基因组数据构建体。相应的第一增强基因组数据构建体可以包括增强值,所述增强值源自对对应的第一对基因型数据构建体的每个基因组数据构建体中相应的基因组特征的值有贡献的核酸片段的第一概率抽样。因此,方法可以针对第一组训练对象中的每个相应训练对象生成包括相应的第一基因组数据构建体以及相应的第一增强基因组数据构建体的相应时间序列数据集。基因组特征及疾病状况的细节在本文别处描述。
156.对于第一组训练对象中的至少一个相应的训练对象,相应的训练对象在相应的第一时间点可能不患有癌症。当从相应的添加(spike-in)对象获得对应的生物样品时,可以从患有至少2期癌症的对应的添加(spike-in)对象获得此对基因型数据构建体中的相应添加(spike-in)基因型数据构建体。
157.可以针对第一组训练对象中的每个对应训练对象生成相应的时间序列数据集,包括相应的第一基因型数据构建体以及相应的第一增强基因型数据构建体。因此,相应的第一增强基因组数据构建体可以对应于对应的第一对基因组数据构建体。第一对基因组数据构建体可以包括:(i)相应训练对象的相应第二基因组数据构建体;以及(ii)来自一个或多个添加(spike-in)基因组数据构建体的集的相应添加(spike-in)基因组数据构建体。
158.例如,在来自训练对象与添加(spike-in)对象的样品被同时收集或训练对象从未发展为疾病状态的情况下,添加(spike-in)对象可以是与训练对象不同的对象。在这种情况下,来自添加(spike-in)样品的疾病信号可以直接与从训练对象获得的第一样品混合,以形成对应于训练对象的第二时间点的数据构建体。因此,对于第一组训练对象中的至少一个相应的训练对象,相应的第二基因组数据构建体可以是相应的第一基因组数据构建体。然而,例如,当训练对象之后没有患上疾病或是没有经历疾病的实质性进展时,也可以从训练对象获得第二样品,并且作为对应于第二时间点的数据构建体的背景。来自添加(spike-in)样品的疾病信号可以与来自训练对象的第二样品的背景混合,以形成对应于训练对象的第二时间点的数据构建体。因此,对于第一组训练对象中的至少一个相应的训练对象,相应的第二基因组数据构建体可以包括在第二时间点从相应的训练对象获得的对应的第二生物样品中对应的第二多个核酸片段的多个基因组特征的值。对应于对应的基因型
数据构建体的对中的相应的添加(spike-in)基因型数据构建体的添加(spike-in)对象可以基于共享的个人特征与相应的训练对象匹配,例如,以考虑与除疾病之外的因素相关联的变化进展。
159.在一个实施例中,装置100从一个或多个训练构建体(例如,520)随机抽样(530)核酸片段序列数据,并且一个或多个添加(spike-in)样品(例如,522)选择核酸片段序列的子集(例如,增强的核酸片段序列数据152-n),用于构建补充数据构建体(550)。混合可以被认为是使用来自训练数据构建体的背景稀释来添加(spike-in)样品的生物疾病信号,以在训练对象经历疾病状态进展后的第二次生成代表训练对象的数据构建体。来自一个或多个训练构建体的核酸片段序列数据可以使用具有第一概率的简单随机抽样进行抽样,并且可以使用具有第二概率的简单随机抽样对来自一个或多个添加(spike-in)样品的核酸片段序列数据进行抽样,其中第一概率相同或不同。在一些实施方案中,第一概率与第二概率是相同的。第一概率可以是至少5%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%等。第一概率最多可为90%、80%、70%、60%、50%、40%、30%、20%、10%或更小。第二概率可以是至少5%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%等。第二概率最多可为90%、80%、70%、60%、50%、40%、30%、20%、10%或更小。第一概率可以与第二概率相同或不同。
160.还可以生成额外的增强时间点,例如,通过混合来自添加(spike-in)样品的不同量的生物信号与来自训练样品的生物信号,或是通过混合来自代表疾病进展或消退的时间进程的一系列添加(spike-in)样品的生物信号。在一些实施方案中,时间序列数据包括至少3个时间点,或是至少4、5、6、7、8、9、10或更多个时间点。
161.可以通过疾病进展模型来告知训练样品与添加(spike-in)样品之间的生物信号的混合。例如,癌症进展模型用于确定在每个时间点可以将多少额外的癌症信号(例如,由添加(spike-in)样品提供的)添加到训练样品中,以复制给定的癌症进展。因此,概率抽样可以选择对第一相应基因组构建体中的多个基因组特征的值有贡献的多个核酸片段的相应第一部分,以及对相应的添加(spike-in)基因组数据构建体中的多个基因组特征的值有贡献的多个核酸片段的相应第二部分。各个掺入基因组数据构建体中的多个基因组特征的值。可以至少基于(i)第一时间点与第二时间点之间的时间长度以及(ii)从疾病状况的第一状态的疾病状况发展到第二状态的时间模型,来确定相应的核酸片段的第一部分以及相应的核酸片段的第二部分的大小。
162.疾病进展或消退的模型可以考虑对象的一个或多个个人特征。例如,肺癌在吸烟的对象中比在不吸烟的对象中进展得更快。因此,从疾病状况的第一状态发展到疾病状况的第二状态的时间模型至少基于相应对象的个人特征,例如性别、年龄、家族病史、个人病史、种族、吸烟状况、饮酒状况、拟人化数据等。疾病进展或消退的模型可以特定于特定形式的疾病,例如癌症。例如,疾病状况是癌症,并且从癌症的第一状态发展到癌症的第二状态的时间模型是至少基于癌症的类型。在另一个例子中,疾病状况可以是癌症,并且从癌症的第一状态发展到癌症的第二状态的时间模型可以是至少基于癌症是转移性的或是非转移性的。在又一个示例中,疾病状况是癌症,并且从癌症的第一状态发展到癌症的第二状态的时间模型被分成多个阶段。
163.在一些实施方案中,可以在概率基础上对每个核酸片段序列进行抽样,以包含在
补充数据构建体中。可以基于概率对每个核酸片段序列进行抽样以包含在补充数据构建体中,其中每个核酸片段序列的包含的概率是相同的(例如,在5%至95%之间、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%)。在随机抽样的一些实施方案中,可以基于概率对每个核酸片段序列进型抽样,以包含在补充数据构建体中,其中包含的概率取决于在多个箱(箱)中核酸片段序列对应于哪个箱,其中多个箱中的每个箱代表参考基因组的不同部分。使用的实际概率值可能取决于应用程序(例如,基于受过训练的分类器的检测限度)。在一个实施例中,分类器的检测限度可以通过肿瘤分数的度量来衡量,并且可以使用所公开的系统及方法生成表示处于分类器检测限度的肿瘤分数的增强数据集。
164.疾病状况可以是癌症。例如,癌症的第一个状态是癌症的存在,而癌症的第二个状态是癌症不存在。在这种情况下,分类器可以针对以下特征进行训练:来自第一组患有癌症的患者的特征、来自第二组未患癌症的患者的特征,以及来自一组增强数据构建体的模拟特征,例如,癌症信号通常比第一组的癌症信号弱。癌症的第一状态可以是第一类型的癌症,并且癌症的第二状态可以是第二类型的癌症。在这种情况下,分类器可以针对以下特征进行训练:来自患有第一类癌症的第一组患者的特征、来自患有第二类癌症的第二组患者的特征,以及来自一组增强数据构建体的模拟特征,例如,第一及/或第二类癌症的癌症信号通常比第一及/或第二组的癌症信号弱。癌症的第一状态可以是特定癌症的第一阶段,并且癌症的第二状态可以是特定癌症的第二阶段。在这种情况下,分类器可以被训练以区分相同或不同类型癌症的不同阶段,例如,在0期、1期、2期、3期及4期癌症中的两个或更多个之间。癌症的第一状态可以是癌症的第一预后,并且癌症的第二状态可以是癌症的第二预后。在这种情况下,分类器可以被训练以区分没有的不同预期寿命、有进行的不同预期寿命、不同的预期缓解率及/或对特定的不同预期反应。
165.在一些实施方案中,疾病状况是心血管疾病。心血管疾病的第一状态可以是心血管疾病的存在,心血管疾病的第二状态可以是心血管疾病的不存在。在这种情况下,分类器可以针对以下特征进行训练:来自患有心血管疾病的第一组患者的特征、来自未患有心血管疾病的第二组患者的特征,以及来自一组增强数据构建体的模拟特征,例如,心血管疾病信号通常比第一组的信号弱。心血管疾病的第一状态可以是心血管疾病的第一预后,心血管疾病的第二状态可以是心血管疾病的第二预后。在这种情况下,分类器可以被训练以区分未的不同预期寿命、有进行的不同预期寿命、不同的预期缓解率及/或对特定的不同预期反应。
166.在一些实施方案中,来自第二组522中的一个或多个数据构建体的生物数据也可以被随机抽样,并且与来自第一数据构建体的随机抽样数据混合,以从来自第一组中的一个或多个对象概率抽样的核酸片段与来自第二组中的一个或多个对象概率抽样的核酸片段的组合形成补充数据构建体。来自第二组522中的单个数据构建体的生物学数据也可以被随机抽样,并且与来自第一数据构建体的随机抽样数据混合,以从来自第一组中的单个对象概率抽样的核酸片段与来自第二组中的单个对象概率抽样的核酸片段的组合形成补充数据构建体,其中第一数据构建体对应于具有特定疾病状态(例如,患有癌症或患有心血管疾病)的对象,而第二数据构建体对应于不具有特定疾病状态(例如,未患有癌症或是未患有心血管疾病)的对象,混合可以被认为是使用来自第二个数据构建体的背景稀释来自
第一个数据构建体的生物疾病信号。因此,训练数据集可以进一步包括具有不同于疾病状况的第一状态的疾病状况的第二状态的第二组训练对象的第二多个基因组数据构建体。第二多个基因组数据构建体可以包括相应的基因型数据构建体,其包括从相应的训练对象获得的对应的生物样品中的对应的多个核酸片段的多个基因组特征的值。抽样数据可以不从第一数据构建体中稀释。与使用与背景信号混合的相同抽样信号训练模型时生成的分类器相比,使用其中抽样数据不与背景信号混合的增强数据构建体训练分类器可以生成更好的分类器。
167.对数据进行随机抽样的方法可以包括简单随机抽样、分层随机抽样(stratified random sampling)、系统随机抽样、聚类随机抽样(clustered random sampling)以及多阶段随机抽样(multi-stage random sampling)。简单随机抽样可以包括组中的每个项目(在此,一个或多个训练组中的一个对象或多个对象中的每个核酸片段序列)具有相同的被选择概率。例如,一组核酸片段序列的简单随机抽样表明此组中的每个核酸片段序列具有被选择用于此组的扩增的核酸片段序列的一组机会。可以采用分层抽样或聚类抽样以及简单随机抽样的组合。各种考虑因素可能决定了对于任何特定的抽样事件使用什么选择概率。这些考虑可以包括但不限于起始数据构建体中的疾病信号量(例如,对应于癌症患者的数据构建体的肿瘤分数及/或突变负荷)、补充数据构建体中所需的疾病信号量,以及其他训练数据构建体中的疾病信号量。
168.概率抽样可以包括对对多个基因组特征的值有贡献的多个核酸片段的预定部分进行加权随机抽样,其中选择有助于对应的基因组特征的值的相应核酸片段的概率与有助于对应的基因组特征的核酸片段的丰度相对于有助于多个基因型特征的值的核酸片段的总数成比例。概率抽样可以选择多个核酸片段的相应部分,其有助于来自第一多个基因组数据构建体的相应数据构建体中的多个基因组特征的值。核酸片段的相应部分的量值可以独立于针对其他补充数据构建体选择的核酸片段的相应部分的量值来被确定。可以独立选择对不同训练数据集进行抽样的方法,例如,以考虑每个数据构建体中疾病信号量等因素。核酸片段的相应部分的量值可以被选择,使得相应的补充数据构建体表示模拟的信息性核酸片段部分,其落入信息性核酸片段分数的范围内,在此范围内探索性分类器满足对由基因型数据构建体表示的信息性核酸片段分数的变化的阈值敏感性,其中探索性分类器被训练以基于多个基因型特征来区分疾病状况的状态。可以形成补充数据构建体,使得它们的疾病信号(例如,癌症患者的肿瘤分数)落在分类器的预测检测水平(level of detection,lod)附近的范围内。
169.信息性核酸片段分数(例如,肿瘤分数)的范围可以使用训练数据集生成多个增强探索性基因组数据构建体来被确定。多个增强探索性基因组数据构建体中的每个相应增强探索性基因组数据构建体可以对应于来自第一多个基因组数据构建体的至少一个相应基因组数据构建体。多个增强探索性基因型数据构建体中的每个相应增强探索性基因组数据构建体可以包括增强值,所述增强值源自对来自第一多个基因组数据构建体的至少相应基因组数据构建体的相应基因组特征的值有贡献的核酸片段的概率抽样。多个增强探索性基因组数据构建体中的每个相应增强探索性基因组数据构建体可以表示模拟的信息性核酸片段分数,其基于由来自第一多个基因组数据构建体的相应基因组数据构建体表示的信息性核酸片段分数。由多个增强探索性基因组数据构建体表示的模拟信息核酸片段分数的分
布可以从低于探索性分类器的检测水平的第一信息性核酸片段分数到高于探索性分类器检测水平的第二信息性核酸片段分数。模拟信息性核酸片段分数的分布可以从高于检测水平约1%至低于检测水平约1%,从高于检测水平约2%至低于检测水平约2%,从高于检测水平约5%至低于检测水平约5%,从高于检测水平约10%至低于检测水平约10%,从高于检测水平约15%至低于检测水平约15%,或是从高于检测水平约20%至低于检测水平约20%。
170.信息性核酸片段分数的范围可以使用单个时间点训练数据的全部或子集,通过训练例如与最终分类器相同类型的初步分类器而被确定。然后,可以将多个增强探索性基因型数据构建体应用于探索性分类器,以生成多个模拟的疾病状况概率。探索性分类器可以被训练以至少使用以下各项来区分疾病状况的状态:(1)第一多个探索性基因组数据构建体,其中第一多个探索性基因型数据构建体包括相应的基因组数据构建体,其包括从相应的探索性对象获得的对应的生物样品中的对应的多个核酸片段的多个基因组特征的值;(2)第二多个探索性数据构建体,其中第二多个探索性基因型数据构建体包括相应基因组数据构建体,其包括从相应的探索性对象获得的对应的生物样品中的对应的多个核酸片段的多个基因组特征的值;以及(3)对于第一及第二多个探索性基因组数据构建体中的每个相应基因组数据构建体,疾病状况状态的指示。可以识别信息性核酸片段分数的范围,在此范围内模拟的疾病状况概率对由相应的增强探索性基因型数据构建体表示的信息性核酸片段分数的变化最敏感。
171.用于从多个电子序列中提取基因组特征/特征的方法可以在例如美国专利申请公开第2019/0287652号中到(其内容出于所有目的通过引用并入本文),描述了用于确定多个基因组位置的甲基化状态。类似地,美国专利申请公开第2019/0287649号(其内容出于所有目的通过引用并入本文)描述了用于确定多个基因组位置的相对拷贝数的方法。
172.基因组特征可以包括多个相对拷贝数(例如,箱读数),其中多个相对拷贝数中的每个相应的相对拷贝数对应于多个遗传位置中的不同遗传位置。相对拷贝数可以代表来自多个基因组区域的序列读取的相对丰度。基因组区域可以具有相同或不同的大小。基因组区域可以通过该区域内的核酸残基数量或其位置以及区域内的核酸残基数量来被定义。例如,基因组区域可以包括10kb或更少、20kb或更少、30kb或更少、40kb或更少、50kb或更少、60kb或更少、70kb或更少、80kb或更少、90kb或更少、100kb或更少、110kb或更少、120kb或更少、130kb或更少、140kb或更少、150kb或更少、160kb或更少、170kb或更少、180kb或更少、190kb或更少、x200 kb或更少、或250kb或更少。基因组区域可以通过将对象的物种的参考基因组划分为多个区段(即,基因组区域)来被定义。例如,参考基因组被划分为多达1,000个区域、2,000个区域、4,000个区域、6,000个区域、8,000个区域、10,000个区域、12,000个区域、14,000个区域、16,000个区域、18,000个区域、20,000个区域、22,000个区域、24,000个区域、26,000个区域、28,000个区域、30,000个区域、32,000个区域、34,000个区域、36,000个区域、38,000个区域、40,000个区域、42,000个区域、44,000个区域、46,000个区域、48,000个区域、50,000个区域、55,000个区域、60,000个区域、65,000个区域、70,000个区域、80,000个区域、90,000个区域或是多达100,000个区域。对象的序列读取可以归一化为对象的所有染体区域的平均读取计数,例如,如美国专利申请公开第2019/0287649中所述,其内容通过引用并入本文。拷贝数数据可以进一步被归一化,例如,以减少或消除由潜
在混杂因素引起的定序数据差异。归一化可以涉及以下一项或多项:以样品内集中趋势的测量为中心、以来自参考样品或组的数据为中心、gc含量的归一化及主成分分析(principal component analysis,pca)校正。附加地或替代地,归一化可以包括b分数处理,如美国专利申请公开第2019/0287649号中所述。
173.多个基因组特征可以包括多个甲基化状态(例如,区域甲基化状态),其中多个甲基化状态中的每个甲基化状态对应于多个遗传位置中的不同遗传位置。在一些实施方案中,每种甲基化状态由甲基化状态向量表示,例如在美国专利申请公开第2019/0287652号中所述,其通过引用整体并入本文。多个甲基化状态可以使用多个探针通过靶向dna甲基化定序来获得。多个探针可以与人类基因组中的至少100个基因座杂交。在其他实施方案中,多个探针与人类基因组中的至少250、500、750、1000、2500、5000、10,000、25,000、50,000、100,000或更多个基因座杂交。例如,在美国专利申请公开第2019/0287649号中描述了用于识别信息性甲基化基因座以对疾病状况(例如,癌症)进行分类的方法。甲基化数据可以被归一化,例如,以减少或消除由潜在混杂因素引起的定序数据的差异。在一些实施方案中,归一化涉及以下一项或多项:以样品内集中趋势的测量为中心、以来自参考样品或组的数据为中心、gc含量的归一化及主成分分析(principal component analysis,pca)校正。甲基化数据归一化的进一步描述可以在例如美国专利申请公开第2019/0287652号及美国专利申请公开第2019/0287649号中到,两者的公开内容均通过引用并入本文。
174.基因组数据构建体(例如,训练、增强及/或测试基因型数据构建体)中的多个基因组特征可以包括第一多个箱值(例如,区域甲基化状态)。第一多个箱值中的每个相应箱值可以表示多个箱中的对应的箱。第一多个箱值中的每个相应箱值可以代表具有映射到多个箱中的对应的箱的来自对应的一组核酸片段序列(例如,训练集、增强集或测试集)中被识别的预定甲基化模式的多个独特核酸片段。多个箱中的每个箱可以代表对象的物种的参考基因组的非重叠区域。
175.癌症分类器的训练:
176.图6a是描述根据实施方案的训练癌症分类器的方法600的流程图。分析系统获得510多个训练样品,每个训练样品具有异常片段的集以及癌症类型的标记。多个训练样品可以包括来自具有一般标记“非癌症”的健康个体的样品、来自具有一般标记“癌症”或特定标记(例如,“乳癌”、“肺癌”等)的对象的样品的任意组合。来自一个癌症类型的对象的训练样品可以称为所述癌症类型的组(cohort)或癌症类型组。
177.分析系统基于训练样品的异常片段的集为每个训练样品确定520特征向量。分析系统可以计算初始cpg位点的初始集中每个cpg位点的异常分数。cpg位点的初始集可以是人类基因组中的所有cpg位点或其某些部分,其数量级可能为104、105、106、107、108等。在一个实施方案中,分析系统基于在包含cpg位点的异常片段的集中是否存在异常片段来定义具有二元评分的特征向量的异常分数。在另一个实施方案中,分析系统基于与cpg位点重叠的异常片段的计数来定义异常分数。在一个实施例中,分析系统可以使用三元评分,其将第一分数分配给不存在异常片段,将第二分数分配给存在一些异常片段,并且将第三分数分配给存在多于几个异常片段。例如,分析系统计算样品中与cpg位点重叠的5个异常片段,并根据计数5来计算异常分数。
178.一旦确定了训练样品的所有异常分数,分析系统可以将特征向量确定为元素的向
量,对于每个元素,包括与初始集中的cpg位点之一相关联的异常分数之一。分析系统可以基于样品的覆盖率对特征向量的异常分数进行归一化。在此,覆盖率可以指由分类器中使用的cpg位点的初始集覆盖或是基于给定的训练样品的异常片段的集的所有cpg位点的中值或是平均定序深度。
179.作为实施例,现在参考图6b,其示出了训练特征向量的矩阵622。在此实施例中,分析系统已经识别cpg位点[k]626,以便在为癌症分类器生成特征向量时考虑。分析系统选择训练样品[n]624。分析系统确定要在训练样品[n1]的特征向量中使用的第一任意cpg位点[k1]的第一异常分数628。分析系统检查异常片段的集中的每个异常片段。如果分析系统识别出包括第一cpg位点的至少一个异常片段,则分析系统将第一cpg位点的第一异常分数628确定为1,如图6b所示。考虑到第二任意cpg位点[k2],分析系统类似地检查异常片段的集,以查至少一个包含第二cpg位点[k2]的片段。如果分析系统没有发现包括第二cpg位点的任何此类异常片段,则分析系统将第二cpg位点[k2]的第二异常分数629确定为0,如图6b所示。一旦分析系统确定了cpg位点的初始集的所有异常分数,分析系统就确定了包括异常分数的第一个训练样品[n1]的特征向量,其包括第一cpg位点[k1]的第一异常分数628为1;以及第二cpg位点[k2]的第二异常分数629为0,以及之后的异常分数,从而形成一特征向量[1,0,...]。
[0180]
样品特征化的其他方法可见于以下:美国专利申请第15/931,022号,标题为“基于模型的特征化和分类(model-based featurization and classification;)”;美国专利申请第16/579,805号,标题为“靶向定序的混合模型(mixture model for targeted sequencing)”;美国专利申请第16/352,602号,标题为“异常片段检测和分类(anomalous fragment detection and classification)”;以及美国专利申请第16/723,716号,标题为“基于游离dna样品中甲基化片段的来源解卷积(source of origin deconvolution based on methylation fragments in cell-free dna samples)”;其均通过引用整体并入本文中。
[0181]
分析系统可以进一步限制考虑用于癌症分类器的cpg位点。针对cpg位点的初始集中的每个cpg位点,分析系统基于训练样品的特征向量计算530信息增益。从步骤520开始,每个训练样品具有一个特征向量,所述特征向量可以包含cpg位点的初始集中所有cpg位点的异常分数,其最多可以包括人类基因组中的所有cpg位点。然而,cpg位点的初始集中的一些cpg位点在区分癌症类型方面可能不如其他cpg位点信息丰富,或是可能与其他cpg位点重复。
[0182]
在一个实施方案中,分析系统计算530每个癌症类型以及初始集中的每个cpg位点的信息增益,以确定是否在分类器中包括那个cpg位点。与所有其他样品相比,计算具有给定癌症类型的训练样品的信息增益。例如,使用了两个随机变量“异常片段”(anomalous fragment,af)以及“癌症类型”(cancer type,ct)。在一个实施方案中,af是一个二元变量,指示在给定样品中是否存在与给定cpg位点重叠的异常片段,如针对上述异常分数/特征向量所确定的。ct是一个随机变量,表明癌症是否属于特定类型。分析系统计算关于给定af的ct的互信息。也就是说,如果知道是否存在与特定cpg位点重叠的异常片段,则会获得多少有关癌症类型的信息。在实践中,对于第一种癌症类型,分析系统计算相对于其他癌症类型的成对互信息增益,并且将所有其他癌症类型的互信息增益相加。
[0183]
对于给定的癌症类型,分析系统可以使用此信息来根据cpg位点的癌症特异性对其进行分级。可以对所考虑的所有癌症类型重复此过程。如果特定区域在给定癌症的训练样品中通常异常甲基化,但在其他癌症类型的训练样品或是健康训练样品中没有,则与这些异常片段重叠的cpg位点对于给定的癌症类型可能具有高信息增益。每个癌症类型的分级cpg位点可以基于其在癌症分类器中使用的等级,贪婪地添加(选择)540到一组选定的cpg位点。
[0184]
在另外的实施方案中,分析系统可以考虑用于选择要在癌症分类器中使用的信息性cpg位点的其他选择标准。一个选择标准可以是所选cpg位点高于与其他所选cpg位点分离的阈值。例如,选择的cpg位点与任何其他选择的cpg位点(例如:100个碱基对)的距离会超过阈值数量的碱基对,使得在阈值分离范围内的cpg位点不会同时被选择用于癌症分类器。
[0185]
在一个实施方案中,根据从初始集中选择的一组cpg位点,分析系统可以根据需要修改550训练样品的特征向量。例如,分析系统可以截断特征向量,以去除与不在所选cpg位点的集中的cpg位点相对应的异常分数。
[0186]
利用训练样品的特征向量,分析系统可以以多种方式中的任何一种方式训练癌症分类器。特征向量可以对应于来自步骤520的cpg位点的初始集或是来自步骤550的cpg位点的所选的集。在一个实施方案中,分析系统训练560二元癌症分类器,以基于训练样品的特征向量来区分癌症和非癌症。以这种方式,分析系统使用训练样品,包括来自健康个体的非癌症样品及来自对象的癌症样品。每个训练样品都可以具有“癌症”或“非癌症”两个标记之一。在此实施方案中,分类器输出指示癌症存在或不存在的似然(likelihood)的癌症预测。
[0187]
在另一个实施例中,分析系统训练450多类癌症分类器,以区分许多癌症类型(也称为起源组织(tissue of origin,too)标记)。癌症类型可以包括一个或多个癌症,并且可以包括非癌症类型(还可以包括任何其他的其他疾病或遗传疾病等)。为此,分析系统可以使用癌症类型组,并且还可以包括或不包括非癌症类型组。在这个多癌症实施方案中,癌症分类器被训练以确定癌症预测(或更具体地,too预测),其包括被分类的每个癌症类型的预测值。预测值可以对应于给定训练样品(以及在推断期间,测试样品)具有每个癌症类型的似然。在一个实施方案中,预测值在0与100之间进行评分,其中预测值的累积等于100。例如,癌症分类器返回癌症预测,包括乳癌、肺癌及非癌症的预测值。例如,分类器可以返回一癌症预测,即测试样品有65%的可能性是乳癌,25%的可能性是肺癌,10%的可能性是非癌症。分析系统可以进一步评估预测值,以生成对样品中存在一个或多个癌症的预测,也可以称为指示一个或多个too标记的too预测,例如具有最高预测值的第一too标记、具有第二高预测值的第二too标记等。继续上面的实施例并给出百分比,在此实施例中,假设乳癌具有最高似然,则系统可以确定样品患有乳癌。
[0188]
在两个实施方案中,分析系统通过将训练样品的集及其特征向量输入癌症分类器,并且调整分类参数,以使分类器的功能准确地将训练特征向量与其对应的标记相关联来训练癌症分类器。分析系统可以将训练样品分组成一个或多个训练样品的集,用于癌症分类器的反复批量训练。在输入包括其训练特征向量的所有训练样品的集并调整分类参数后,癌症分类器可以在一定误差范围内,根据其特征向量进行充分训练,以标记测试样品。分析系统可以根据多种方法中的任何一种来训练癌症分类器。例如,二元癌症分类器可以
是使用对数损失函数(log-loss function)训练的l2正则化逻辑回归分类器(l2-regularized logistic regression classifier)。作为另一个实施例,多癌症分类器可以是多分类逻辑回归(multinomial logistic regression)。在实践中,任何一种癌症分类器都可以使用其他技术进行训练。这些技术很多,包括核(kernel)方法的潜在用途、随机森林分类器、混合模型、自动编码器模型、机器学习算法(例如:多层神经网络)等。
[0189]
在一些实施方案中,可以使用补充数据构建体(例如,与通过随机抽样从其中导出补充数据构建体的原始组数据结合)训练分类器,以区分两个或更多个疾病状态。训练数据集可以进一步包括第二组训练对象的第二多个基因组数据构建体,所述第二组训练对象具有不同于疾病状况的第一状态的疾病状况的第二状态。第二多个基因组数据构建体可以包括相应的基因组数据构建体,其包括从相应的训练对象获得的对应的生物样品中的对应的多个核酸片段的多个基因组特征的值。此方法可以包括训练分类器的步骤,以至少通过以下各项来区分疾病状况的状态:(i)第一多个基因组数据构建体;(ii)第二多个基因组数据构建体;(iii)多个补充基因组数据构建体;以及(iv)针对第一多个基因型数据构建体、第二多个基因组数据构建体及多个补充基因组数据构建体中的每个相应基因组数据构建体,疾病状况的状态的指示。
[0190]
训练可以另外使用第三组训练对象的第三多个基因型数据构建体。第三多个基因组数据构建体可以包括相应的基因组数据构建体,其包括从相应的训练对象获得的对应的生物样品中的对应的多个核酸片段的多个基因型特征的值。第三组中的每个训练对象可以具有疾病状况的第三状态。以这种方式,分类器可以被训练以区分第一、第二及第三疾病状态。训练可以另外使用相应训练对象的一个或多个个人特征。例如,使用性别、年龄、家族病史、个人病史、种族、吸烟状况、饮酒状况、拟人数据等中的一个或多个。
[0191]
一个或多个补充基因组数据构建体可以由来自不同组(例如,患病组及健康组)的数据构建体的随机采样的生物特征(例如,核酸片段序列)的混合物形成。多个补充基因组数据构建体中的每个相应补充基因组数据构建体可以对应于对应的基因组数据构建体对。此基因组数据构建体对可以包括:(i)来自第一多个基因组数据构建体(例如,对应于患病对象)的相应基因组数据构建体;以及(ii)来自第二多个基因组数据构建体(例如,对应于健康对象)的相应基因组数据构建体。补充多个基因组数据构建体中的每个相应的补充基因组数据构建体可以包括增强值,所述增广值源自对对应的基因组数据构建体对的每个基因组数据构建体中的相应的基因组特征的值有贡献的核酸片段的概率抽样。
[0192]
对于多个补充基因型数据构建体中的至少一个相应的补充基因组数据构建体,可以在导出相应的补充基因型数据构建体的多个基因型特征的增强值之前,增强来自第二多个基因型数据构建体的相应基因组数据构建体。多个基因组特征中的每个相应基因组特征的增强值可以从以下各项形成:(i)来自第一多个基因组数据构建体的相应基因组数据构建体的相应基因组特征的第一加权贡献;以及(ii)来自第二多个基因型数据构建体的相应基因组数据构建体的相应基因组特征的第二加权贡献。以这种方式,通过控制来自每个原始数据集的疾病信号的比例,可以在补充数据构建体中获得信息性核酸分数(例如,考虑癌症时的肿瘤分数)。
[0193]
当混合来自相同或不同组中的对象的生物信息时,可以通过匹配对应于数据构建体的对象的一个或多个个人特征来选择数据构建体,例如,以考虑由此类个人特征引入的
生物差异。对于多个补充基因组数据构建体中的每个相应补充基因组数据构建体,(i)对应于来自第一多个基因组数据构建体的相应基因组数据构建体的相应训练对象,以及(ii)对应于来自第二多个基因组数据构建体的相应基因组数据构建体的相应训练对象,对应于基因组数据构建体对,可以根据共同的个人特征进行匹配。
[0194]
人工生成的时间序列数据集可用于训练分类器,以区分两个或更多个疾病状态。因此,训练时间分类器以区分疾病状况的状态可以至少针对以下各项使用:(i)第一组训练对象中的每个相应的训练对象,相应的时间序列数据集;(ii)在第一组训练对象中的每个相应的训练对象,相应的多个时间点,包括相应的时间序列数据集中的每个相应的基因组数据构建体的相应的时间点,或其推导;以及(iii)在第一组训练对象中的每个相应的训练对象,在相应的多个时间点中至少最早的相应的时间点以及最晚的相应的时间点的疾病状况的指示。训练可以使用相应训练对象的一个或多个个人特征。例如,性别、年龄、家族病史、个人病史、种族、吸烟状况、饮酒状况、拟人数据等中的一个或多个。分类器的细节在本文别处描述。
[0195]
使用表示模拟癌症进展的时间序列的人工创建的数据来训练时间分类器的方法可以包括获得电子形式的训练数据集(例如,时间序列训练数据),针对多个训练对象中的每个相应的训练对象包括:(1)相应的训练对象的相应的第一基因组数据构建体,所述相应的第一基因组数据构建体包括在相应第一时间点(例如,时间序列训练数据点)从相应训练对象获得的第一生物样品中的第一相应多个核酸片段的多个基因组特征的值;(2)相应的训练对象的相应的第二基因组数据构建体,所述相应的第二基因组数据构建体包括代表在相应的第一时间点(例如,增强的时间序列数据点)之后发生的相应的第二时间点的相应训练对象的多个基因组特征的值;(3)相应的第一时间点及相应的第二时间点,或其推导(例如,第一及第二数据点对应的时间或两个时间点之间的时间量);以及(4)在相应的第一时间点及相应的第二时间点,相应的训练对象的疾病状态的集中的疾病状态的指示。
[0196]
然后,方法可以包括针对每个相应的训练对象,至少相对于以下各项训练时间分类算法:(a)相应的第一基因组数据构建体;(b)相应的第二基因组数据构建体;(c)相应的第一时间及相应的第二时间点,或其推导;以及(d)在相应的第一时间点及相应的第二时间点的疾病状况的指示。对于多个训练对象中的至少一个相应的训练对象,相应的第二基因组数据构建体可以包括以下的值:来自从相应的训练对象获得的第二生物样品的相应的第二多个核酸片段的多个基因组特征;以及来自从患有疾病状况的状态的集中的疾病状况的相应状态的添加(spike-in)对象获得的添加(spike-in)生物样品的相应第三多个核酸片段。
[0197]
对于多个基因组特征中的每个相应的基因组特征,相应的第二基因组数据构建体可以包括从以下各项的概率抽样得出的增强值:(i)对第二多个核酸片段中的相应基因组特征的值有贡献的核酸片段;以及(ii)对第三多个核酸片段中的相应基因组特征的值有贡献的核酸片段。采样可以被认为是使用来自训练数据构建体的背景稀释来自添加(spike-in)样品的生物疾病信号,以在训练对象经历疾病状态进展后的第二次生成代表训练对象的数据构建体。
[0198]
相应的第三基因组数据构建体可以包括以下的值:代表在相应第二时间点、相应第三时间点或相应第二时间点及相应第三时间点的推导之后发生的相应第三时间点的相
应训练对象的多个基因组特征(例如,多个点之间的时间段),以及在相应第三时间点相应训练对象的疾病状况的状态的集中的疾病状况的状态的指示。对于多个训练对象中的至少一个相应的训练对象,相应的第三基因组数据构建体可以包括多个基因组特征的值,其来自:来自从相应训练对象获得的一第三生物样品的一相应第四多个核酸片段;以及来自从具有在疾病状况的状态的集中的疾病状况的相应状态的一添加(spike-in)对象获得的一添加(spike-in)生物样品的一相应第五多个核酸片段。
[0199]
相应的第二多个核酸片段以及相应的第四多个核酸片段可以是来自从相应的训练对象获得的相同生物样品的相同的游离核酸。在这种情况下,用于形成第二基因组数据构建体的训练对象的相同背景样品可用于形成第三个基因型数据构建体,例如,通过与来自不同添加(spike-in)样品的生物信号或来自相同添加(spike-in)样品的不同量的生物信号相混合。
[0200]
相应的第三多个核酸片段以及相应的第五多个核酸片段可以是来自从添加(spike-in)对象获得的相同添加(spike-in)生物样品的相同的游离核酸。在这种情况下,用于形成第二基因型数据构建体的来自添加(spike-in)对象的相同添加(spike-in)样品可用于形成第三基因型数据构建体,例如,通过以不同比例与来自背景样品的生物信号混合,这可能与用于构建第二基因型数据构建体的背景样品相同或不同。相应的第二基因型数据构建体中的多个基因组特征的值可以包括以下各项的一相应的第一加权混合物:(i)相应的第二多个核酸片段的多个基因组特征的值;以及(ii)相应的第三多个核酸片段的多个基因组特征的值。相应的第三基因组数据构建体中的多个基因组特征的值可以包括以下各项的一相应的第二加权混合物:(i)相应的第二多个核酸片段的多个基因组特征的值;以及(ii)相应第三多个核酸片段的多个基因组特征的值。与相应的第一加权混合物相比,相应的第二加权混合物可以更重地往相应的第三多个核酸片段的多个基因组特征的值进行加权。
[0201]
概率抽样可以选择对多个基因型特征的值有贡献的相应第二多个核酸片段的一相应的第一部分;以及对多个基因型特征的值有贡献的相应的第三多个核酸片段的一相应的第二部分;并且核酸片段的相应的第一部分以及核酸片段的相应的第二部分的量值至少基于以下各项而被确定:(i)第一时间点与第二时间点之间的时间长度;以及(ii)在疾病状况的状态的集中,添加(spike-in)对象所患有的疾病状况的相应状态的发展的一时间模型。
[0202]
可以通过将来自第二生物样品的第一量的第二多个核酸片段与来自添加(spike-in)生物样品的第二量的游离核酸混合在一起,来形成相应的第二基因组数据构建体,从而形成游离核酸混合物,对来自游离核酸混合物的核酸片段进行定序,并且基于定序确定多个基因组特征的值。因此,方法可以包括:对于每个相应的训练对象,针对至少相应的第一基因组数据构建体,相应的第二基因组数据构建体,相应的第一时间点及相应的第二时间点,或其推导,以及在相应的第一时间及相应的第二时间点的疾病状况的指示,来训练时间分类算法。在一些实施方案中,时间分类算法针对以下各项被进一步训练:相应的第三基因组数据构建体、相应的第三时间点、或相应的第二时间点的推导及相应的第二时间点,以及在相应的第三时间点的相应训练对象的疾病状态的状态的集中的疾病状况的状态的指示。在一些实施方案中,训练数据构建体包括至少3、4、5、6、7、8、9、10或更多个时间点。
[0203]
方法还可以包括使用例如根据上述采样方法生成的滴定(titrated)增强数据集来评估训练模型。此方法可以包括通过评估测试基因组数据构建体(例如,疾病分类器)来获得被训练以区分疾病状况的第一分类器,其中测试基因组数据构建体包括从测试对象获得的一第一对应的生物样品中的一对应的第一多个核酸片段的多个基因组特征的值。然后,方法可以包括获得包括多个增强基因组数据构建体(例如,增强的单时间点数据或增强的时间序列数据)的增强评估数据集。多个增强基因组数据构建体中的每个相应增强基因组数据构建体可以包括代表从具有在疾病状况的多个状态中的疾病状况的一相应状态的一对象所获得的一对应的生物样品的一对应的多个核酸片段的多个基因组特征的值。增强评估数据集可以在多个增强基因型数据构建体中包括相应的增强基因组数据构建体,其代表疾病状况的多个状态中的疾病状况的每个相应状态,例如从无疾病到疾病晚期。然后,此方法可以包括将增强评估数据集中的每个相应增强基因组数据构建体独立地应用到分类器,以针对每个相应的增强基因组数据构建体生成疾病状态分类,从而生成多个疾病状态分类。然后,此方法可以包括评估多个疾病状态分类中的每个相应的疾病状态分类,作为由相应的增强基因组数据构建体表示的疾病状况的相应状态的函数,从而评估分类器的性能。
[0204]
通常,所公开的方法可以允许可以在体内表示的疾病状态范围评估分类器,以确定分类器是否已经过拟合到训练数据。例如,图13说明了根据患者样品中游离dna的基因组特征对两个被训练以检测癌症的分类器进行的评估。根据本文所述的方法,通过稀释来自12名癌症患者样品的生物癌症信号,来制备增强时间序列数据构建体,形成一系列稀释而低至0%的肿瘤分数,例如,完全没有来自任何癌细胞的信号。然后,将此系列稀释数据应用于两个分类器,以产生每个数据构建体是从癌症患者样品中生成的概率(曲线802及804)。如图13所示,当使用第一个分类器时(对应于曲线802),几个稀释系列被分类为具有非常高的源自癌症患者的概率,即使当增强的数据构建体完全不包含癌症信号时(例如,在滴定(titration)为0时),请参见个体1、2、9及10。这表明模型对训练数据过度拟合,并且可能会产生不可接受的误报数量。相比之下,当使用第二个分类器时(对应于曲线804),模型输出的癌症概率对于每个增强的时间序列下降得更加缓慢及一致,所有个体的下降到或低于50%,表明了模型与第一个分类器相比,过拟合较少。
[0205]
在一些实施方案中,癌症的多个状态中的每个状态(例如,在多个增强基因型数据构建体中)包括在游离dna肿瘤分数范围内的游离dna肿瘤分数的一子范围,至少从低于分类器的检测水平至少25%的游离dna肿瘤分数的一基线百分比至高于分类器的检测水平至少25%的游离dna肿瘤分数的一上限百分比(624)。在其他实施方案中,游离dna肿瘤分数的子范围落在分类器的检测水平的5%以内,或在分类器的检测水平的10%、15%、20%、25%、30%、40%或50%以内。
[0206]
在一些实施方案中,心血管疾病的多个状态中的每个状态(例如,在多个增强的基因型数据构建体中)包括在游离dna心血管组织分数范围内的游离dna肿瘤分数的一子范围,至少从低于分类器的检测水平至少25%的游离dna心血管组织分数的一基线百分比至高于分类器的检测水平至少25%的游离dna心血管组织分数的一上限百分比(628)。在其他实施方案中,游离dna肿瘤分数的子范围落在分类器的检测水平的5%以内,或在分类器的检测水平的10%、15%、20%、25%、30%、40%或50%以内。
[0207]
分类器可以包括逻辑回归算法(logistic regression algorithm)、神经网络算法(neural network algorithm)、支持向量机算法(support vector machine algorithm)、朴素贝叶斯算法(naive bayes algorithm)、最邻近搜索算法(nearest neighbor algorithm)、提升树算法(boosted trees algorithm)、随机森林算法(random forest algorithm)、决策树算法(decision tree algorithm)、多分类逻辑回归算法(multinomial logistic regression algorithm)、线性模型(linear model)或线性回归算法(linear regression algorithm)。
[0208]
在一些实施方案中,使用难例挖掘(hard-negative mining)的一种形式来提高分类器的性能。例如,方法包括通过从第二多个基因组数据构建体中识别基因组数据构建体的一子集来获得多个增强的假阳性基因组数据构建体,所述子集被分类器的前体识别,其性能未达到一性能阈值;以及使用基因组数据构建体的子集来生成多个增强的假阳性基因型数据构建体。每个相应的增强的假阳性基因组数据构建体可以对应于来自基因组数据构建体的子集的至少一个相应的基因组数据构建体,并且多个增强的假阳性基因组数据构建体中的每个相应的基因组数据构建体可以包括从对来自基因组数据构建体的子集的至少相应的基因组数据构建体中的相应的基因组特征的值有贡献的核酸片段的概率采样导出的一增强值。在这些实施方案中,分类器可以针对多个增强的假阳性基因组数据构建体及疾病状况状态的指示被进一步训练。
[0209]
许多不同的模型可以评估生物特征,以便对对象的一个或多个疾病状态(例如,癌症状态、冠状动脉疾病状态等)进行分类。例如,美国专利申请公开第2019/0287652号描述了,例如,使用cfdna样品评估多个基因组基因座中的甲基化状态的模型,以便对对象的癌症状态进行分类。类似地,美国专利申请公开第2019/0287649号描述了,例如,使用cfdna样品评估多个基因组基因座的相对拷贝数的模型,以便对对象的癌症状态进行分类。同样,已经开发了各种模型来评估变异等位基因(例如,单核苷酸变异、插入/缺失(indels)、缺失(deletions)、颠换(transversion)、易位(translocation)等)的存在,以便对对象的癌症状态进行分类。其他合适的模型公开在2019年5月31日提交的标题为“卷积神经网络系统和数据分类方法(convolutional neural network systems and methods for data classification)”的美国专利申请第16/428,575号中。通常,为对象的疾病状态分类而开发的任何模型都可以通过本文所述的增强数据集进行训练,并且与本文所述的系统和方法结合使用,例如,用于确定测试对象的疾病状态。
[0210]
分类器可以用于检测对象中疾病状态的存在,例如,检测对象中的癌症或冠状动脉疾病。本文提供的系统及方法可以适用于改进现有疾病模型的敏感性及特异性,因为它们可以使用额外的增强数据来进行训练,其提供了许多在患者数据上训练的模型的检测限度附近的弱疾病信号的实施例。由于与收集训练数据相关的费用,以及通常不收集患者在疾病的早期阶段的数据,训练数据集可能不包含许多疾病信号在模型的检测限度附近的数据构建体。相反,训练集可能有许多来自患有晚期疾病状态的训练对象的明显疾病信号的实施例,以及许多来自未患有疾病的训练对象的无疾病信号的实施例。然而,由于很难对疾病的早期阶段进行积极诊断,因此训练数据集可能包含很少的中至弱的疾病信号,所述中至弱的疾病信号对于提高分类器的灵敏度及特异性是重要的。
[0211]
通常,许多不同的分类算法可用于本文所述的系统及方法中。例如,模型可以包括
神经网络算法、支持向量机算法、朴素贝叶斯算法、最邻近搜索算法、提升树算法、随机森林算法、决策树算法、回归算法、多分类逻辑回归算法、线性模型或线性回归算法。与基于深度学习的模型(例如:神经网络)相比,使用增强数据构建体可以提高基于回归的模型的性能,而不是提高分类器的性能。回归算法可以是带有lasso、l2或弹性网络正则化(elastic net regularization)的逻辑回归。在一些实施方案中,逻辑回归还包括个人特征,例如性别、年龄、家族病史、个人病史、种族、吸烟状况、饮酒状况、拟人数据等中的一个或多个。
[0212]
疾病状态模型可以包括在训练期间调整的特征的学习权重。无论使用哪种特定的机器学习技术,术语“权重(weight)”在本文都可以通用地表示与模型的任何给定特征相关联的学习量。在一些实施方案中,癌症指标评分通过将源自一个或多个dna序列(或其dna序列读取)的特征值输入机器学习或深度学习模型来确定。在一些实施方案中,例如,当疾病类别评估模型是神经网络(例如,常规或卷积神经网络)时,疾病分类器的输出是分类,例如,癌症阳性或癌症阴性。然而,为了给模型的输出提供连续或半连续的值,而不是分类,神经网络的隐藏层,例如在输出层之前的隐藏层,可以用作分类模型的输出。
[0213]
因此,模型可以包括:(i)一输入层,用于接收多个基因组特征的值,其中多个基因组特征包括第一维数;以及(ii)一嵌入层,包括一组权重,其中嵌入层直接或间接接收输入层的输出,并且嵌入层的输出是模型分数集,所述模型分数集具有小于第一维数的一第二维数;以及(iii)一输出层,直接或间接从嵌入层接收模型分数集。在这样的实施方案中,第一模型分数集是在将第一基因组数据构建体输入到输入层时嵌入层的模型分数集,并且第二模型分数集是在将第二基因组数据构建体输入到输入层时嵌入层的模型分数集。换句话说,模型分数集可以是与称为嵌入层的神经网络中的隐藏层相关联的一组神经元的输出。嵌入层中的每个这样的神经元都可以与一个权重以及一激活函数相关联,并且模型分数集由每个这样的激活函数的输出组成。嵌入层中神经元的激活函数可以是线性整流函数(rectified linear unit,relu)、tanh函数或sigmoid激活函数。在一些这样的实施方案中,嵌入层的神经元可以完全连接到输入层的每个输入。输出层的每个神经元都可以完全连接到嵌入层的每个神经元。输出层的每个神经元都可以与一个softmax激活函数相关联。在一些实施方案中,嵌入层及输出层中的一个或多个不是完全连接的。
[0214]
癌症分类器的配置:
[0215]
在癌症分类器的使用期间,分析系统可以从未知癌症类型的对象获得测试样品。分析系统可以利用方法100、200及220的任意组合来处理由dna分子组成的测试样品,以获得多个异常片段的集。分析系统可以根据方法500中讨论的类似原理来确定癌症分类器使用的测试特征向量。分析系统可以计算癌症分类器使用的多个cpg位点中的每个cpg位点的异常分数。例如,癌症分类器接收包含1,000个选定cpg位点的异常分数作为输入特征向量。因此,分析系统可以根据异常片段的集确定包含1,000个选定cpg位点的异常分数的测试特征向量。分析系统可以以与训练样品相同的方式计算异常分数。在一些实施方案中,分析系统将异常分数定义为基于在包含cpg位点的异常片段的集中是否存在高甲基化或低甲基化片段的二元分数。
[0216]
然后,分析系统可以将测试特征向量输入到癌症分类器中。然后,癌症分类器的功能可以基于在方法600中训练的分类参数及测试特征向量来生成癌症预测。在第一个方式中,癌症预测可以是二元的,并且选自由癌症或是非癌症组成的组;在第二个方式中,癌
症预测是从许多癌症类型及非癌症中选出的。在另外的实施方案中,癌症预测具有多个癌症类型中的每一个的预测值。此外,分析系统可以确定测试样品最有可能属于癌症类型之一。按照上面的实施例,测试样品的癌症预测为65%的乳癌似然、25%的肺癌似然及10%的非癌症似然,分析系统可以确定测试样品最有可能患有乳癌。在另一个实施例中,癌症预测是二元的,即60%的非癌症似然及40%的癌症似然,分析系统确定测试样品最有可能未患有癌症。在另外的实施方案中,具有最高似然的癌症预测仍然可以与阈值(例如,40%、50%、60%、70%)进行比较,以便将测试对象称为具有此癌症类型。如果具有最高似然的癌症预测未超过此阈值,则分析系统可能会返回不确定的结果。
[0217]
在另外的实施方案中,分析系统将在方法600的步骤560中训练的癌症分类器与在步骤570或方法500中训练的另一个癌症分类器链接起来。分析系统可以将测试特征向量输入到在方法600的步骤560中作为二元分类器训练的癌症分类器。分析系统可以接收癌症预测的输出。癌症预测可以是二元的,关于测试对象是否可能患有或可能没有癌症。在其他实施方案中,癌症预测包括描述癌症似然及非癌症似然的预测值。例如,癌症预测的癌症预测值为85%,非癌症预测值为15%。分析系统可以确定测试对象可能患有癌症。一旦分析系统确定测试对象可能患有癌症,分析系统可以将测试特征向量输入到经过训练以区分不同癌症类型的多类癌症分类器中。多类癌症分类器可以接收测试特征向量,并且返回多个癌症类型中的癌症类型的癌症预测。例如,多类癌症分类器提供癌症预测,指定测试对象最有可能患有卵巢癌。在另一个实施方式中,多类癌症分类器提供多种癌症类型中的每个癌症类型的一预测值。例如,癌症预测可以包括40%的乳癌类型预测值、15%的结肠直肠癌类型预测值及45%的肝癌预测值。
[0218]
根据二元癌症分类的一般实施方案,分析系统可以基于测试样品的定序数据(例如,甲基化定序数据、snp定序数据、其他dna定序数据、rna定序数据等)确定测试样品的癌症分数。分析系统可以将测试样品的癌症分数与二元阈值截断(cutoff)进行比较,以预测测试样品是否可能患有癌症。可以使用基于一个或多个too子类型类别的too阈值,来调整二元阈值截断。分析系统可以进一步生成用于多类癌症分类器的测试样品的特征向量,以确定指示一个或多个可能的癌症类型的癌症预测。
[0219]
分类器可用于确定测试对象的疾病状态,例如疾病状态未知的对象。方法可以包括以电子形式获得测试基因组数据构建体(例如,单时间点测试数据),其包括从测试对象获得的生物样品中对应的多个核酸片段的多个基因组特征中的每个基因组特征的值。然后,方法可以包括将测试基因组数据构建体应用到测试分类器,从而确定测试对象的疾病状况的状态。测试对象之前可能没有被诊断出患有疾病状况。
[0220]
分类器可以是一时间分类器,其至少使用(i)从在第一时间点从测试对象获得的第一生物样品产生的第一测试基因组数据构建体;以及(ii)从在第二时间点从测试对象获得的第二生物样品产生的第二测试基因组数据构建体。
[0221]
训练的分类器可用于确定测试对象的疾病状态,例如疾病状态未知的对象。在这种情况下,方法可以包括针对测试对象获取电子形式的测试时间序列数据集,其中针对多个时间点中的每个相应时间点,测试时间序列数据集包括一对应的测试基因型数据构建体,其包括以下的值:在相应的时间点从测试对象获得的对应的生物样品中的对应的多个核酸片段的多个基因型特征;以及针对多个时间点中的每一对相应连续时间点,在相应连
续时间点对之间的时间长度的指示。然后,方法可以包括将测试基因型数据构建体应用到测试分类器,从而确定测试对象的疾病状况的状态。测试对象之前可能没有被诊断出患有疾病状况。
[0222]
应用:
[0223]
在一些实施方案中,本发明的方法、分析系统及/或分类器可用于检测癌症的存在,监测癌症进展或复发,监测反应或有效性,确定存在或监测微小残留病变(minimum residual disease,mrd),或其任何组合。例如,如本文所述,分类器可用于生成描述测试特征向量来自癌症对象的似然的概率分数(例如,从0到100)。在一些实施方案中,将概率分数与阈值概率进行比较,以确定对象是否患有癌症。在其他实施方案中,可以在多个不同的时间点(例如,之前或之后)评估似然或是概率分数,以监测疾病进展或监测效果(例如,疗效)。在其他实施方案中,似然或是概率分数可用于做出或影响临床决策(例如,癌症诊断、选择、效果评估等)。例如,在一个实施方案中,如果概率分数超过阈值,则医生可以开出适当的。
[0224]
癌症的早期检测:
[0225]
在一些实施方案中,本发明的方法及/或分类器用于检测怀疑患有癌症的对象中是否存在癌症。例如,分类器(例如,如前所示例的)可用于确定描述测试特征向量来自患有癌症的对象的似然的癌症预测。
[0226]
在一个实施方案中,癌症预测是测试样品是否具有癌症(即:二元分类)的似然(例如,得分在0至100之间)。因此,分析系统可以确定用于确定测试对象是否患有癌症的阈值。例如,大于或等于60的癌症预测可以指示对象患有癌症。在其他实施方案中,癌症预测大于或等于65、大于或等于70、大于或大于75、大于或小于80、大于或等同85、大于或相等90,或是大于或等于95指示对象患有癌症。在其他实施方案中,癌症预测可以指示疾病的严重性。例如,与低于80的癌症预测(例如,概率分数70)相比,80的癌症预计可能指示更严重的癌症形式或是更晚期。类似地,癌症预测随时间的增加(例如,通过对来自在两个或多个时间点采集的同一对象的多个样品的测试特征向量进行分类来确定)可以指示疾病进展,或是癌症预测随随时间的减少可以指示成功。
[0227]
在另一个实施方案中,癌症预测包括许多预测值,其中被分类(即多类分类)的多个癌症类型中的每一个都具有预测值(例如,得分在0至100之间)。预测值可以对应于给定训练样品(并且在推断期间,训练样品)具有每个癌症类型的似然。分析系统可以识别具有最高预测值的癌症类型,并且指示测试对象可能具有此癌症类型。在其他实施方案中,分析系统进一步将最高预测值与阈值(例如,50、55、60、65、70、75、80、85等)进行比较,以确定测试对象可能具有此癌症类型。在其他实施方案中,预测值还可以指示疾病的严重程度。例如,与60的预测值相比,大于80的预测值可能指示更严重的癌症形式或晚期。类似地,预测值随时间的增加(例如,通过对来自在两个或多个时间点采集的同一对象的多个样品的测试特征向量进行分类来确定)可以指示疾病进展,或是预测值随随时间的减少可以指示成功。
[0228]
根据本发明的各个方面,本发明的方法及系统可以被训练以检测或分类多种癌症适应症。例如,本发明的方法、系统和分类器可用于检测1个或更多、2个或更多、3个或更多、5个或更多、10个或更多、15个或更多,或是20个或更多不同类型癌症的存在。
[0229]
可以使用本发明的方法、系统及分类器检测的癌症的例子包括上皮癌(carcinoma)、淋巴瘤、母细胞瘤、肉瘤及白血病或淋巴恶性肿瘤。此类癌症的更具体实施例包括但不限于鳞状细胞癌(例如,上皮鳞状细胞癌)、皮肤癌、黑素瘤、肺癌,包括:小细胞肺癌、非小细胞肺癌(non-small cell lung cancer,nsclc)、肺腺癌、肺鳞癌、腹膜癌、胃癌或胃癌,包括:胃肠道癌、胰脏癌,(例如:胰腺导管腺癌)、宫颈癌、卵巢癌(例如:高级别浆液性卵巢癌)、肝癌(例如:肝细胞癌(hepatocellular carcinoma,hcc)、肝癌(hepatoma)、肝癌(hepatic carcinoma)、膀胱癌(例如:膀胱尿路上皮癌(urothelial bladder cancer))、睾丸(生殖细胞癌)癌、乳癌(例如:her2阳性、her2阴性及三重阴性乳癌)、脑癌(例如:星形细胞瘤、神经胶质瘤(例如:胶质母细胞瘤))、结肠癌、直肠癌、结直肠癌、子宫内膜癌或子宫癌、唾液腺癌、肾(kidney)癌或肾(renal)癌(例如:肾细胞癌、肾母细胞瘤或威尔姆氏肿瘤(wilms’tumor))、前列腺癌、外阴癌、甲状腺癌、肛门癌、阴茎癌、头颈癌、食道癌、及鼻咽癌(npc)。癌症的其他例子包括但不限于视网膜母细胞瘤、卵泡膜细胞瘤(thecoma)、男性细胞瘤(arrhenoblastoma)、血液系统恶性肿瘤(hematological malignancies),包括但不局限于非霍奇金淋巴瘤(non-hodgkin's lymphoma,nhl)、多发性骨髓瘤及急性血液系统恶性肿瘤、子宫内膜异位症、纤维肉瘤、绒毛膜癌、喉癌、卡波西肉瘤(kaposi's sarcoma)、许旺细胞瘤(schwannoma)、寡突胶质细胞瘤(oligodendroglioma)、神经母细胞瘤、横纹肌肉瘤(rhabdomyosarcoma)、骨肉瘤、平滑肌肉瘤及泌尿道癌(urinary tract carcinomas)。
[0230]
在一些实施方案中,癌症是肛肠癌(anorectal cancer)、膀胱癌、乳癌、宫颈癌、结直肠癌、食道癌、胃癌、头颈癌、肝胆癌、白血病、肺癌、淋巴瘤、黑素瘤、多发性骨髓瘤、卵巢癌、胰脏癌、前列腺癌、肾癌、甲状腺癌、子宫癌、子宫癌,或其任意组合。
[0231]
在一些实施方案中,一个或多个癌症可以是“高信号”癌症(定义为5年癌症特异性死亡率大于50%的癌症),例如肛肠癌、结肠直肠癌、食道癌、头颈癌、肝胆癌、肺癌、卵巢癌及胰脏癌,以及淋巴瘤及多发性骨髓瘤。高信号癌症倾向于更具侵袭性,并且在从患者获得的测试样品中通常具有高于平均水平的游离核酸浓度。
[0232]
癌症及监测:
[0233]
在一些实施方案中,可以在多个不同的时间点(例如,之前或之后)评估癌症预测,以监测疾病进展或监测效果(例如,疗效)。例如,本发明包括多种方法,涉及:在第一时间点从癌症患者获得第一样品(例如,第一血浆cfdna样品),由此确定第一癌症预测(如本文所述);在第二时间点从癌症患者获得第二测试样品(例如,第二血浆cfdna样品),并且由此确定第二癌症预测(如本文所述)。
[0234]
在某些实施方案中,第一时间点是在癌症之前(例如,在切除手术或干预之前),第二时间点是癌症之后(例如,切除手术或干预之后),并且分类器用于监测的有效性。例如,如果第二癌症预测与第一癌症预测相比降低,则认为已经成功。然而,如果第二癌症预测与第一癌症预测相比增加,则认为不成功。在其他实施方案中,第一以及第二时间点都是在癌症之前(例如,在切除手术或干预之前)。在其他实施方案中,第一及第二时间点都是在癌症之后(例如,在切除手术或干预之后)。在其他实施方案中,可以在第一及第二时间点从癌症患者获得cfdna样品并且进行分析。例如,监测癌症进展,以确定癌症是否处于缓解(例如:后),以监测或检测残余疾病或疾病复发,或是监测(treatment)(例如:(therapeutic))效果。
[0235]
本领域技术人员将容易理解,测试样品可以在任何一组任何期望的时间点从癌症患者获得,并且根据本发明的方法进行分析,以监测患者的癌症状态。在一些实施方案中,第一时间点及第二时间点被分离的时间量从约15分钟到约30年,例如约30分钟,例如约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23,或是约24小时,例如约1、2、3、4、5、10、15、20、25,或约50天,或例如约1、2、3,4、5,6、7、8、9、10、11,或12个月,或例如约1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5或约30年。在其他实施方案中,可以至少每5个月、至少每6个月、每年、至少每2年、至少每3年、至少每4年,或至少每5年从患者获得一次测试样品。
[0236]
:
[0237]
在另一个实施方案中,癌症预测可用于做出或影响临床决策(例如,癌症诊断、选择、效果评估等)。例如,在一个实施方案中,如果癌症预测(例如,针对癌症或针对特定癌症类型)超过阈值,则医生可以开出适当的(例如,切除手术、放射、化疗及/或免疫)。
[0238]
分类器(如本文所述)可用于确定样品特征向量来自患有癌症的对象的癌症预测。在一个实施方案中,当癌症预测超过阈值时,会开立适当的(例如,切除手术或(therapeutic))。例如,在一个实施方案中,如果癌症预测大于或等于60,则开立一个或多个适当的。在另一个实施方案中,如果癌症预测大于或等于65、大于或等于70、大于或大于75、大于或小于80、大于或等于85、大于或等于90、或大于或等于95,则开立一个或多个适当的。在其他实施方案中,癌症预测可以指示疾病的严重性。然后可以开立与疾病严重程度相匹配的适当。
[0239]
在一些实施方案中,是选自于由化疗剂、靶向癌症剂、分化剂、激素剂及免疫剂所组成的组中的一个或多个癌症剂。例如,所述可以是选自于由烷基化剂(alkylating agent)、抗代谢剂、蒽环类、抗肿瘤抗生素、细胞骨架干扰物(taxans)、拓扑异构酶抑制剂(topoisomerase inhibitor)、有丝分裂抑制剂、皮质类固醇、激酶抑制剂、核苷酸类似物、铂类药物及其任何组合所组成的组中的一个或多个化疗剂。在一些实施方案中,是选自于由信号转导抑制剂(例如:酪氨酸激酶及生长因子受体抑制剂)、组蛋白脱乙酰酶(histone deacetylase,hdac)抑制剂、视黄酸受体激动剂、蛋白体抑制剂、血管生成抑制剂及单克隆抗体偶联物所组成的组中的的一个或多个靶向癌症剂。在一些实施方案中,是一个或多个分化剂,包括维生素a酸(retinoid),如维甲酸(tretinoin)、alitretinoin及蓓萨罗丁(bexarotene)。在一些实施方案中,是选自于由抗雌激素、芳香化酶抑制剂、孕酮、雌激素、抗雄激素及gnrh激动剂或类似物所组成的组中的一个或多个激素剂。在一个实施方案中,是一个或多个免疫剂,所述免疫剂选自于由单克隆抗体(例如:利妥昔单抗(rituximab)(rituxan)及alemtuzumab(campath))、非特异性免疫及佐剂(例如:卡介苗、白细胞介素-2(il-2)及干扰素α)及免疫调节药物(例如:沙利度胺(thalidomide)及来那度胺(lenalidomide)(revlimid)所组成的组。根据诸如肿瘤类型、癌症分期、先前暴露于癌症或剂以及癌症的其他特征的特征来选择适当的癌症剂是在熟练的医生或是肿瘤学家的能力
范围内的。
[0240]
癌症分类器的示例结果:
[0241]
样品收集及处理:
[0242]
研究设计及样品:ccga(nct02889978)是一项具有纵向随访的前瞻性、多中心、病例对照、观察性研究。从142个地点的约15000名参与者中收集了未鉴定的生物样品。样品分为训练集(1785)及测试集(1015);样品被选择以确保每个组中各个位置的癌症类型及非癌症的预先指定分布,并且癌症及非癌症样品按性别进行频率年龄匹配。
[0243]
全基因组亚硫酸盐定序:从血浆中分离cfdna,并使用全基因组亚硫酸盐定序(wgbs;30x深度)分析cfdna。使用改良的qiaamp循环核酸试剂盒(qiagen;germantown,md),从每位患者的两管血浆(合并体积最多10ml)中提取cfdna。使用ez-96dna甲基化试剂盒(zymo research,d5003)对高达75ng的血浆cfdna进行亚硫酸盐转化。转化的cdna用于通过accel-ngs甲基序列dna文库制备试剂盒(swift biosciences;密歇根州安娜堡)制备双索引定序文库,并使用illumina平台的kapa文库定量试剂盒(kapa biosystems;马萨诸塞州威尔明顿)对构建的文库进行定量。将4个文库以及10%phix v3文库(illumina,fc-110-3001)池化并且聚集在illuminonovaseq 7000s2流动细胞上,随后进行150bp双端定序(paired-end sequencing)(30x)。
[0244]
对于每个样品,wgbs片段集被减少为具有异常甲基化模式的片段的一小部分。此外,选择高甲基化或低甲基化的cfdna片段。选择具有异常甲基化模式并高度或高度甲基化的cfdna片段,即ufxm。在没有癌症的个体中或甲基化不稳定的个体中出现的频率较高的片段不太可能产生用于癌症状态分类的高度歧视性特征。因此,我们使用来自ccga研究的108名非吸烟无癌症参与者(年龄:58
±
14岁,79(73%)女性)(即参考基因组)的独立参考集,产生了典型片段的统计模型及数据构建体。这些样品用于训练马尔可夫链(markov-chain)模型(3阶),以估计上文所述片段内给定cpg甲基化状态序列的似然。此模型被证明在正常片段范围内(p值》0.001)进行校准,并且被用于拒绝马尔可夫模型中p值》=0.001的片段,因为其不够异常。
[0245]
如上所述,进一步的数据缩减步骤仅选择覆盖至少5个cpg的片段,并且平均甲基化大于0.9(高甲基化)或小于0.1(低甲基化)。此程序在训练中产生了无癌症的参与者中位数(范围)为2800(1500-12000)的ufxm片段,以及在训练中患有癌症的参与者中位数(范围)为3000(1200-220000)的ufxmm片段。由于此数据缩减程序仅使用参考集数据,因此此阶段仅需对每个样品应用一次。
[0246]
癌症分类:
[0247]
图8至图11说明了根据示例实现显示训练的癌症分类器的癌症预测准确性的图表。用于产生结果的癌症分类器显示在图8至图11中,其是根据上述方法的示例实现或其某种组合进行训练的。
[0248]
分析系统选择要在癌症分类器中考虑的cpg位点。与所有其他样品相比,计算具有给定癌症类型的训练样品的信息增益。例如,使用了两个随机变量“异常片段”(anomalous fragment,af)及“癌症类型”(cancer type,ct)。ct是一个随机变量,表明癌症是否属于特定类型。分析系统计算关于给定af的ct的互信息。也就是说,如果知道是否存在与特定cpg位点重叠的异常片段,则会获得多少位有关癌症类型的信息。对于给定的癌症类型,分析系
统使用此信息根据cpg位点的癌症特异性对cpg位点进行排序。对所有正在考虑的癌症类型重复此过程。贪婪地添加每种癌症类型的排序cpg位点(例如,以达到大约3,000个cpg位点),以用于癌症分类器。
[0249]
对于样品的特征化,分析系统识别每个样品中具有异常甲基化模式的片段以及ufxm片段。对于一个样品,分析系统计算每个选定的cpg位点的异常分数,以供考虑(~3,000)。分析系统根据样品是否具有包含cpg位点的ufxm片段,使用二元评分来定义异常分数。
[0250]
图8示出了显示根据示例实现的针对各种癌症类型的多类癌症分类器的癌症预测准确度的图表。在这个说明性实施例中,多类癌症分类器被训练以根据11个癌症类型区分特征向量:乳癌类型、结肠直肠癌类型、食道癌类型、头/颈癌类型、肝胆癌类型、肺癌类型、淋巴瘤癌类型、卵巢癌型、胰脏癌型、非癌型、及其他癌症型。本例中使用的样品来自已知患有多个癌症类型的每个的对象。例如,一组乳癌类型样品被用来验证癌症分类器在调用乳癌类型时的准确性。此外,使用的样品来自癌症不同阶段的对象。
[0251]
对于乳癌组、结肠直肠癌组及肺癌组,癌症分类器在准确预测癌症后续阶段的癌症类型方面逐渐更加准确。对于头颈组、卵巢组及胰脏组,癌症分类器在晚期阶段(即iii期及/或iv期)的准确性有所提高。对于食道组及肝胆组,癌症分类器也具有晚期准确性,即iii期及iv期。对于非癌症组,癌症分类器在预测非癌症样品不太可能患有癌症方面非常准确。最后但同样重要的是,淋巴瘤组在不同阶段都取得了成功,在准确预测癌症ii期样品方面取得了最大成功。
[0252]
图9示出了显示根据示例实现的在首先使用二元癌症分类器之后针对各种癌症类型的多类癌症分类器的癌症预测准确性的图表。在此实施例中,分析系统首先将来自许多癌症类型组的样品输入到二元癌症分类器中,以确定这些样品是否可能患有癌症。然后,分析系统将确定可能患有癌症的样品输入到多类癌症分类器中,以预测这些样品的癌症类型。考虑的癌症类型包括:乳癌类型、结直肠癌类型、食道癌类型、头颈癌类型、肝胆癌类型、肺癌类型、淋巴瘤癌类型、卵巢癌类型、胰脏癌类型及其他癌症类型。
[0253]
与图8中的实施例相比,当首先使用二元癌症分类器,然后使用多类癌症分类器时,分析系统的准确性有所提高。在乳癌组、结直肠癌组、肺癌组及淋巴瘤组中,分析系统的准确性总体上有所提高。特别是,分析系统对癌症早期阶段(即i期、ii期甚至iii期)中每个癌症类型的预测准确度显着提高。
[0254]
图10示出了根据示例实现的呈现训练的癌症分类器的性能的混淆矩阵(confusion matrix)。在根据方法500的训练的一个实施例中,具有岭回归惩罚(ridge regression penalty)的多类核逻辑回归(kernel logistic regression,klr)分类器在导出的特征向量上被训练,其中对权重进行惩罚,并且对每种癌症类型的偏差项进行固定惩罚。岭回归惩罚在未用于选择高相关位置的部分训练数据上进行了优化(使用对数损失),并且一旦到最佳参数,就在整个局部训练折的集上重新训练逻辑分类器。然后,将选定的高相关性位点及分类器权重应用于新数据。在ccga训练集中,重复1折,选择9折中8折的相关位点,klr分类器的超参数在第9集进行了优化,并且10折中的9折对klr进行重新训练,并且应用于保持折。重复10次以估计ccga训练集中的too。对于ccga测试集,在ccga训练的9/10折上选择相关位点,在第10折优化超参数,并且在所有ccga训练数据上重新训练klr分类
器,并且将所选位点及klr分类器应用于测试集。考虑的癌症类型包括:多发性骨髓瘤类型、结直肠癌类型、淋巴瘤类型、卵巢癌类型、肺头/颈部癌类型、胰脏癌类型、乳癌类型、肝胆癌类型、食道癌类型及其他癌症类型。其他癌症类型包括在ccga内收集的样品少于5个的癌症,例如肛门直肠癌、膀胱癌、原发性too癌、子宫颈癌、胃癌、白血病、黑素瘤、前列腺癌、肾癌、甲状腺癌、子宫癌及其他其他癌症。
[0255]
混淆矩阵显示具有已知癌症too(沿x轴)及预测癌症too(沿y轴)的样品的癌症类型之间的一致性。为了验证经过训练的klr分类器的性能,使用klr分类器对每种癌症类型的一组样品(在每种癌症类型的y轴上用括号表示)进行分类。x轴表示每个组中有多少样品被分类为每种癌症类型。例如,肺癌组有25个已知肺癌样品,klr分类器预测1个样品患有卵巢癌,19个样品患有肺癌,2个样品患有头颈癌,1个样品患有胰脏癌,一个样品患有乳癌,以及一个样品被标记为其他癌症类型。值得注意的是,对于除其他癌症类型之外的所有癌症类型,klr分类器准确预测了每个组中一半以上的癌症类型,包括多发性骨髓瘤(2/2或100%)、结直肠癌(18/20或90%)、淋巴瘤(8/9或88.8%)、卵巢癌(4/5或80%)、肺(19/25或76%)及头颈部(3/4或75%)。这些结果证明了klr分类器的预测准确性。
[0256]
图11示出了根据一些示例实现的比较使用合成训练样品训练的癌症分类器的性能的表格。分类器a使用根据图6b生成的特征向量进行训练。分类器b使用根据美国专利申请第16/579,805号中描述的方法生成的特征向量进行训练,所述申请的标题为“靶向定序的混合模型(mixture model for targeted sequencing)”。分类器b+是指在分类器b中添加合成训练样品的特征化的实现。使用98%特异性阈值的测试集(holdout set)对经过各种训练的分类器进行评估。分类器b+总体表现最好,灵敏度为0.48。在癌症的各个阶段,分类器b+的表现也优于其他分类器,i期样品的灵敏度为0.15,ii期样品的灵敏度0.38,iii期样品的灵敏度为0.75,iv期样品的灵敏度为0.91。
[0257]
在以下实施例中呈现的分析中使用的数据是作为ccga临床研究的一部分收集的。ccga[nct02889978]是一项前瞻性、多中心、观察性的基于cfdna的早期癌症检测研究,在140多个地点招募了超过15,000名人口平衡(demographically-balanced)的参与者。从入组时定义的新诊断的未接受过的癌症(c,病例)及未诊断为癌症(非癌症[nc],对照组)的参与者收集血液样品。
[0258]
对从每个参与者抽取的血液进行了三个定序分析:(1)配对cfdna及白细胞(wbc)靶向定序(60,000x,507基因组)(art定序分析),用于单核苷酸变体/插入缺失(indel)(the art定序分析);联合调用者移除了wbc衍生的体细胞变异及残留的技术噪音;(2)配对cfdna及wbc全基因组定序(wgs;35x),用于拷贝数变异;一种生成癌症相关的信号分数的新颖机器学习算法;联合分析确定了共享事件;(3)cfdna全基因组亚硫酸盐定序(wgbs;34x),用于甲基化;使用异常甲基化片段生成标准化分数。此外,组织样品仅从患有癌症的参与者处获得,使得(4)对配对肿瘤及wbc gdna进行全基因组定序(wgs;30x),以识别肿瘤变异体,以进行比较。
[0259]
实施例1:将癌症信号在计算机(silico)中添加(spiking)到来自非癌症对象的数据中:
[0260]
计算机数据添加(spiking)实验旨在测试将相同数量的各种癌症信号添加(spiking)到不同生物背景中的效果。在此实验中,将映射到来自已知患有各种类型癌症的
对象的多个基因组区域中的相应基因组区域的核酸片段序列的箱计数的增加百分比连续添加(spiking)到为映射到具有非常低肿瘤分数的对象的样品多个基因组区域的核酸片段序列确定的对应的箱计数中。有利地,不需要已知遗传基因座或携带癌症信号的这些基因座的等位基因。
[0261]
以这种方式,在计算机中创建了癌症的时间序列发展。对每个添加(spiking)数据样品评估如由针对相对箱值(图12a至图12c中每个图中的y轴)训练的癌症分类器得出的癌症概率所报告的癌症信号的发展。本实验中使用的分类器在美国专利申请公开第2019/0287649号中进行了描述,此专利申请通过引用并入本文。
[0262]
将22名具有不可检测水平的游离肿瘤分数的ccga低肿瘤分数对象与22名已知患有不同类型癌症的高肿瘤分数对象相匹配,高肿瘤分数对象中的每名对象的游离dna肿瘤分数至少为10%,癌症分类器所提供的患癌概率至少为90%,并且从ccga研究数据中选择。将来自每个高肿瘤分数对象的越来越多的箱计数添加到低肿瘤分数对象的相应箱计数中,形成484组具有增加的箱计数的癌症系列数据,如图12a至图12c中显示的每个图表的x轴。这样的箱计数表示在样品中观察到的映射到特定箱的序列数量,其中每个箱代表参考人类基因组的独特部分。因此,此类箱计数被视为拷贝数变异133的一种形式(图1b)。为了说明,在图12a至图12cc中,个体2813是22名ccga低肿瘤分数对象之一。对于所述对象,图示图表中有22条线。图表中每条相应的线代表二十二名高肿瘤分数对象组中相应高肿瘤分数对象的对应等位基因计数的渐进尖峰(spiking)(x轴)。例如,线702表示低肿瘤分数对象2813与第一个高肿瘤分数对象的箱计数的渐进性尖峰(spiking),线704表示低肿瘤分数对象2813与第二高肿瘤分数对象癌症的箱计数的渐进性尖峰(spiking),线706表示低肿瘤分数对象2813与第三高肿瘤分数对象的箱计数的渐进性尖峰等。484组癌症系列数据中的每组都包括多个二维点(x,y),其中x=标的_tf,y是在将相应点的箱计数数据输入到经过训练的分类器时,由经过训练的分类器返回的患有癌症的概率,并且箱计数数据包括多个箱中每个箱i的相应箱计数(计数_newi),计算如下:
[0263]
计数_newi[0264]
=(标的_tf/实际_tf)*计数_高tfi+(1
–
标的_tf/实际tf)*计数_低tfi,其中,
[0265]
计数_newi是在与来自匹配的高肿瘤分数对象的箱计数相加(spiking)时,低肿瘤分数对象(例如:个体16)的箱i的调整后的计数,
[0266]
标的_tf是在与匹配的高肿瘤分数对象的箱计数相加(spiking)时,低肿瘤分数对象(例如:个体2813)的目标肿瘤分数(图的x轴),
[0267]
实际_tf是在与匹配的高肿瘤分数对象的箱计数相加(spiking)前,低肿瘤分数对象(例如:个体2813)的实际肿瘤分数,
[0268]
计数_hightfi是匹配的高肿瘤分数对象中箱i的箱计数,并且
[0269]
计数_lowtfi是低肿瘤分数对象(例如:个体2813)中箱i的箱计数。因此,以这种方式,图7c的图表中的每条线都可以显示在图中,显示了将不同的高肿瘤分数对象逐渐添加(spike)到个体2813的核酸片段序列计数中,因此表示肿瘤部分的进展。如上所述,对于每个取样的肿瘤分数,对于每个癌症,组合的等位基因计数(例如,具有匹配的添加(spike)等位基因计数的个体2813)经受分类以确定患有癌症状况的概率(y轴)。换言之,添加(spike)箱计数的每个实例(对于图12a至图12cc中的每个图表中的每条线)由癌症分类器评估,以
生成从患有癌症的对象获得添加(spike)数据的概率(y轴)。在图12a至图12c所示的图表中,这些概率被绘制为肿瘤分数的函数。
[0270]
如图12a至图12c中的图表所示,为给定模拟样品计算的癌症概率取决于:(i)模拟肿瘤分数;(ii)癌症类型;以及(iii)参考对象(数据中添加(spike)癌症信号的对象)提供的背景信号。例如,参考参考个体2813,其图在图12a至12c中被放大,在由22名高肿瘤分数对象代表的不同类型的癌症中,在已识别的癌症概率中产生峰值所需的肿瘤分数有近10倍的差异。例如,当来自第一癌症的信号被添加(spike)到参考个体2813的背景中(由系列702表示)时,在模拟的肿瘤分数刚好大于0.001(0.1%)时可以看到识别出的癌症概率显着增加。然而,当来自其他两种癌症的信号分别添加(spike)相同的背景(分别由系列704及706表示)时,直到模拟的肿瘤分数增加到0.01(1%)以上时,才会看到已识别癌症概率的增加。这证明了癌症类型对计算出的癌症概率的依赖性。类似地,图12a至图12c表明个体背景信号对计算出的癌症概率的依赖性相当显着。例如,在大多数参考背景中,直到模拟样品的肿瘤分数达到0.01(1%)以上,才观察到一种特定癌症类型的添加(spike-in)计算癌症概率。然而,当癌症的癌症信号被添加(spike)到个体510的数据中时,在显着低于0.01的肿瘤分数处观察到了添加(spike)癌症概率。事实上,对于几乎所有不同的癌症类型,参考个体510的计算癌症概率中可检测到的峰值(spike)明显更早。相比之下,当将癌症类型的癌症信号添加到个体1314的数据中时,直到肿瘤分数显着高于0.01(1%)才观察到癌症概率的增加。事实上,对于大多数癌症类型,参考个体1314的计算的癌症概率中可检测到的峰值(spike)似乎显着延迟。
[0271]
实施例2:逻辑回归模型的过度拟合:
[0272]
随着分类算法变得越来越复杂,使用越来越大的特征集,训练所需的训练构建体的数量也在扩大。特别地,随着疾病分类器的特征数量的增加,具有至少一个作为异常值的特征值(例如,存在于定义分类器的特征空间的超立方体的表面上)的训练构建体的数量也增加。这进而导致分类器的过度拟合及灵敏度的损失,特别是在分类器中给定疾病信号的检测水平(level of detection,lod)附近。例如,图15显示了当模型针对2000(1002)、5000(1004)、10,000(1006)、20,000(1008)、50,000(1010)及100,000(1012)构建体进行训练时,随着分类器中使用的特征数量的增加,沿某个维度最大化或最小化的特征空间百分比的曲线。如点1014所示,使用2000个样品的训练集训练具有2500个特征的分类器会导致几乎所有超立方体体积都位于特征空间的边缘。
[0273]
观察到使用来自上述ccga研究的数千个特征训练的机器学习分类器是过拟合的。假设切换到更简单的逻辑回归模型可以解决问题,因为逻辑回归是一个更严格的模型。然而,当使用相同的大特征集来训练逻辑回归模型时,会观察到相同的过拟合问题。图14所示为逻辑回归模型的留一验证(leave out cross-validation)的九折的结果。如图14所示,除了交叉验证(cross-validation)的一折之外,模型对所有交叉验证都过度拟合,这可以从训练部分(0.9-1.0)的灵敏度显着高于测试折(0.6-0.7)中得到证明。
[0274]
可索赔的标的:
[0275]
在一个方面,训练用于检测癌症的模型的方法包括接收多个训练样品的定序数据,每个训练样品标记为癌症和非癌症之一,并且每个训练样品包含多个异常cfdna片段;对标记为癌症的第一个训练样品以及标记为非癌症的第二个训练样品进行采样;通过对来
自第一训练样品的异常cfdna片段的第一子集以及来自第二训练样品的异常cfdna片段的第二子集进行采样,生成第一合成训练样品,第一合成训练样品被标记为癌症;基于每个训练样品的多个异常cfdna片段,针对包括第一合成训练样品的每个训练样品生成特征向量;并且使用包括第一合成训练样品的训练样品的特征向量以及标记来训练模型,模型配置为基于测试样品的定序数据生成测试样品的癌症预测。
[0276]
在另一方面,用于检测癌症的方法可以包括接收包含多个异常cfdna片段的测试样品的定序数据;根据测试样品的异常cfdna片段生成测试特征向量;并且将测试特征向量输入到分类模型中,以生成测试样品的癌症预测,其中分类模型通过以下方式训练:接收多个训练样品的定序数据,每个训练样品标记为癌症和非癌症之一,并且每个训练样品包含多个异常cfdna片段,对被标记为癌症的第一训练样品及被标记为非癌症的第二训练样品进行采样,通过对来自第一训练样品的异常cfdna片段的第一子集以及来自第二训练样品的异常cfdna片段的第二子集进行采样,生成第一合成训练样品,第一合成训练样品被标记为癌症,基于每个训练样品的多个异常cfdna片段,为包括第一合成训练样品的每个训练样品生成特征向量,并使用包括第一合成训练样品的训练样品的特征向量及标记来训练模型。
[0277]
在另一方面,本公开提供了一种生成有助于区分疾病状况的多个补充数据构建体的方法。方法可以包括获得电子形式的训练数据集,包括具有疾病状况的第一状态的第一组训练对象的第一多个基因组数据构建体,其中对于第一组训练对象中的每个相应的训练对象,第一多个基因组数据构建体包括相应的基因组数据构建体,其包括从相应的训练对象获得的对应的生物样品中对应的多个核酸片段的多个基因组特征的值。方法然后可以包括使用训练数据集来生成多个补充数据构建体,其中多个补充基因组数据构建体中的每个相应的补充基因组数据构建体对应于来自第一多个基因组数据构建体的至少一个相应的基因组数据构建体,并且对于多个基因组特征中的每个相应基因组特征,多个补充基因组数据构建体中的每个相应补充基因组数据构建体包括增强值,所述增广值源自对来自第一多个基因型数据构建体的至少相应基因组数据构建体中的相应基因组特征的值有贡献的核酸片段的概率采样。
[0278]
在一些实施方案中,训练数据集包括第二组训练对象的第二多个基因组数据构建体,所述第二组训练对象具有不同于疾病状况的第一状态的疾病状况的第二状态。对于第二组训练对象中的每个相应的训练对象,第二多个基因组数据构建体可以包括相应的基因组数据构建体,其包括从相应的训练对象获得的相应生物样品中的对应的多个核酸片段的多个基因型特征的值。在一些实施方案中,方法包括至少通过以下训练测试分类器,以区分疾病状况的状态:(i)第一多个基因组数据构建体;(ii)第二多个基因组数据构建体;(iii)多个基因组数据构建体;以及(iv)对于第一多个基因组数据构建体、第二多个基因组数据构建体及多个补充基因组数据构建体中的每个相应基因组数据构建体,疾病状况状态的指示。
[0279]
在另一方面,本公开提供了一种用于区分测试对象的疾病状况的方法。方法可以包括获得电子形式的测试基因组数据构建体。测试基因组数据构建体可以包括从测试对象获得的生物样品中对应的多个核酸片段的多个测试基因组特征中的每个基因组特征的值。然后,方法可以包括将测试基因组数据构建体应用到如上所述训练的测试分类器,从而确
定测试对象的疾病状况的状态。在此方法中,多个测试基因组特征可以包括多个基因型特征,测试分类器针对所述多个基因型特征进行训练。
[0280]
在另一方面,本公开提供了一种生成有助于区分疾病状况的时间序列数据的方法。方法可以包括获得电子形式的第一训练数据集,其包括第一组训练对象的第一多个基因组数据构建体。然后,方法可以包括针对第一组训练对象中的每个相应训练对象,使用第一训练数据集生成相应的第一增强基因组数据构建体,其包括在相应的第二时间点代表相应训练对象的多个基因组特征的值。相应的第一增强基因组数据构建体对应于相应的第一对基因组数据构建体,第一对基因组数据构建体包括:(i)相应训练对象的相应第一基因组数据构建体;以及(ii)来自一个或多个添加(spike-in)基因组数据构建体的集中的相应添加(spike-in)基因型数据构建体。对于多个基因组特征中的每个相应基因组特征,相应的第一增强基因组数据构建体可以包括增强值,所述增强值源自对对应的第一对基因组数据构建体的每个基因组数据构建体中的相应基因组特征的值有贡献的核酸片段的第一概率抽样。方法由此针对第一组训练对象中的每个相应训练对象生成包括相应第一基因组数据构建体及相应第一增强基因组数据构建体的相应时间序列数据集。
[0281]
在一些实施方案中,方法还包括至少通过以下来训练时间分类器,以区分疾病状况的状态:(i)对于第一组训练对象中的每个相应的训练对象,相应的时间序列数据集;(ii)对于第一组训练对象中的每个相应的训练对象,相应的多个时间点,包括相应时间序列数据集中的每个相应基因组数据构建体或其推导的相应时间点,以及(iii)对于第一组训练对象中的每个对应训练对象,在相应的多个时间点中的至少最早的相应时间点及最晚的相应时间点的疾病状况的指示。
[0282]
在一个方面,本公开提供了一种训练时间分类算法,以从一组疾病状况状态中区分测试对象的疾病状况状态的方法。方法包括于多个训练对象中的每个相应的训练对象,获得电子形式的训练数据集,包括:(1)相应的训练对象的相应的第一基因组数据构建体,相应的第一基因组数据构造包括在相应的第一时间点从相应的训练对象获得的第一生物样品中的第一相应的多个核酸片段的多个基因型特征的值;(2)相应的训练对象的相应的第二基因组数据构建体,相应的第二基因组数据构建体包括多个基因组特征的值,其代表在相应的第一时间点之后发生的相应的第二时间点的相应的训练对象;(3)相应的第一时间点及相应的第二时间点,或其推导,以及(4)在相应的第一时间及相应的第二时间点,在相应的训练对象的疾病状况的集中的疾病状况的指示。然后,方法可以包括,针对每个相应的训练对象,至少针对以下训练时间分类算法:(a)相应的第一基因组数据构建体;(b)相应的第二基因组数据构建体;(c)相应的第一时间点及相应的第二时间点或其推导;以及(d)在相应的第一时间及相应的第二时间点的疾病状况的指示。对于多个训练对象中的至少一个相应的训练对象,相应的第二基因组数据构建体可以包括多个基因组特征的值,来自从相应的训练对象获得的第二生物样品的相应的第二多个核酸片段;以及来自从添加(spike-in)生物样品的相应第三多个核酸片段,所述添加(spike-in)生物样品获自具有在疾病状况状态的集中疾病状况的相应状态的添加(spike-in)对象。
[0283]
在另一方面,本公开提供了一种用于区分测试对象的疾病状况的方法。方法可以包括以针对测试对象获得电子形式的测试时间序列数据集。测试时间序列数据集可以包括:(i)对于多个时间点中的每个相应时间点,相应的测试基因组数据构建体包括在相应时
间点从测试对象获得的对应的生物样品中的对应的多个核酸片段的多个测试基因组特征的值;以及(ii)对于多个时间点中的每对相应的连续时间点,每对相应的连续时间点之间的时间长度的指示。方法然后可以包括将测试时间序列数据集应用到如上所述训练的分类器,从而确定测试对象的疾病状况的状态。在此方法中,多个测试基因组特征包括多个基因组特征,分类器针对所述多个基因组特征进行训练。
[0284]
在一个方面,本公开提供了一种评估分类器的性能的方法,所述分类器被训练以区分测试对象的疾病状况。方法可以包括获得经过训练以通过评估测试基因组数据构建体来区分疾病状况的第一分类器,其中测试基因组数据构建体包括从测试对象获得的第一对应生物样品中对应的第一多个核酸片段的多个基因组特征的值。然后,方法可以包括获得包括多个增强的基因组数据构建体的增强的评估数据集。多个增强的基因型数据构建体中的每个相应增强的基因型数据构建体可以包括对应的多个核酸片段的多个基因组特征的值,其代表从在疾病状况的多个状态中具有相应的疾病状况状态的对象获得的对应的生物样品。增强的评估数据集可以包括在多个增强的基因型数据构建体中的相应的增强的基因组数据构建体,代表疾病状况的多个状态中的疾病状况的每个相应的状态。方法还可以包括将增强评估数据集中的每个相应增强基因组数据构建体独立地应用到分类器,以生成每个相应增强的基因型数据构建体的疾病状态分类,从而产生多个疾病状态分类。然后,方法可以包括评估多个疾病状态分类中的每个相应的疾病状态分类,作为由对应的增强的基因组数据构建体表示的疾病状态的相应状态的函数,从而评估分类器的性能。
[0285]
本公开的另一方面提供了一种生成有助于区分疾病状况的多个补充数据构造的方法,方法包括:在计算机系统中,其中所述计算机系统包括至少一个处理器以及存储用于通过至少一个处理器执行的至少一个程序的存储器,所述至少一个程序包括以下指令:(a)获得电子形式的训练数据集,包括:具有疾病状况的第一疾病状态的第一组训练对象的第一多个基因型数据构建体,其中对于第一组训练对象中的每个相应的训练对象,第一多个基因型数据构建体包括相应的基因型数据构建体,其包括从相应的训练对象获得的对应的生物样品中对应的多个核酸片段的多个基因型特征的值;以及(b)使用训练数据集生成多个补充数据构建体,其中多个补充基因型数据构建体中的每个相应补充基因型数据构建体对应于来自第一多个基因型数据构建体的至少一个相应基因型数据构建体;其中对于多个基因型特征中的每个相应基因型特征,多个补充基因型数据构建体中的每个相应补充基因型数据构建体包含增强值,其源自对来自第一多个基因型数据构建体的至少相应基因型数据构建体中的相应基因型特征的值有贡献的核酸片段的概率采样。
[0286]
在一些实施方案中,训练数据集还包含第二组训练对象的第二多个基因型数据构建体,所述训练对象具有不同于疾病状况的第一状态的疾病状况的第二状态,其中对于第二组训练对象中的每个相应的训练对象,第二多个基因型数据构建体包括包括相应的基因型数据构建体,其包括从相应的训练对象获得的对应的生物样品中对应的多个核酸片段的多个基因型特征的值,方法还包括:(c)至少通过以下训练测试分类器以区分疾病状况的状态:(i)第一多个基因型数据构建体;(ii)第二多个基因型数据构建体;(iii)多个补充基因型数据构建体;以及(iv)对于第一多个基因型数据构建体、第二多个基因型数据构建体及多个补充基因型数据构建体中的每个相应基因型数据构建体,疾病状况的状态的指示。
[0287]
在一些实施方案中,训练(c)对第三组训练对象使用第三组多个基因型数据构建
体,其中对于第三组训练对象中的每个相应训练对象,第三组多个基因型数据构建体包括,相应的基因型数据构建体,其包含从相应的训练对象获得的对应的生物样品中对应的多个核酸片段的多个基因型特征的值,其中第三组中的每个训练对象具有疾病状况的第三状态。
[0288]
在一些实施方案中,训练(c)使用相应训练对象的一个或多个个人特征。
[0289]
在一些实施方案中,疾病状况是癌症。
[0290]
在一些实施方案中,癌症的第一状态是癌症的存在;并且癌症的第二状态是癌症的不存在。
[0291]
在一些实施方案中,癌症的第一状态是第一类型的癌症;并且癌症的第二状态是第二类型的癌症。
[0292]
在一些实施方案中,癌症的第一状态是特定癌症的第一阶段;并且癌症的第二状态是特定癌症的第二阶段。
[0293]
在一些实施方案中,癌症的第一状态是癌症的第一预后;并且癌症的第二状态是癌症的第二预后。
[0294]
在一些实施方案中,疾病状况是心血管疾病。
[0295]
在一些实施方案中,心血管疾病的第一状态是心血管疾病的存在,心血管疾病的第二状态是心血管疾病的不存在。
[0296]
在一些实施方案中,心血管疾病的第一状态是心血管疾病的第一预后;并且心血管疾病的第二状态是心血管疾病的第二预后。
[0297]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括相应基因组位置的甲基化状态。
[0298]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括对变异等位基因的支持。
[0299]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括相对拷贝数。
[0300]
在一些实施方案中,多个基因型特征包括至少5000个基因型特征。
[0301]
在一些实施方案中,多个基因型特征包括至少50,000个基因型特征。
[0302]
在一些实施方案中,训练数据集包含少于20,000个基因型数据构建体。
[0303]
在一些实施方案中,训练数据集包含少于2000个基因型数据构建体。
[0304]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值通过全基因组定序获得。
[0305]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值使用多个核酸探针通过靶向定序来富集对应的生物样品中的多个基因组区域的核酸。
[0306]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值通过以下方式来获得:(i)全基因组甲基化定序;或是(ii)使用多个核酸探针通过靶向dna甲基化定序来富集对应的生物样品中的多个基因组区域的核酸。
[0307]
在一些实施方案中,每个对应的生物样品是液体生物样品。
[0308]
在一些实施方案中,液体生物样品是血液样品。
[0309]
在一些实施方案中,对应的生物样品中的多个核酸片段是游离dna。
[0310]
在一些实施方案中,概率抽样是简单随机抽样、分层随机抽样(stratified random sampling)、系统随机抽样、聚类随机抽样(clustered random sampling)以及多阶段随机抽样(multi-stage random sampling)。
[0311]
在一些实施方案中,概率抽样包括对对多个基因型特征的值有贡献的多个核酸片段的预定部分的加权随机抽样,其中选择对对应的基因型特征的值有贡献的相应的核酸片段的概率与对对应的基因型特征有贡献的核酸片段的丰度相对于对多个基因型特征的值有贡献的核酸片段的总数成比例。
[0312]
在一些实施方案中,对于多个补充数据构建体中的每个相应补充数据构建体:概率抽样从第一多个基因型数据构建体中选择对相应的数据构建体中的多个基因型特征的值有贡献的多个核酸片段的相应部分;并且核酸片段的相应部分的量值独立于为其他补充数据构建体选择的核酸片段的相应部分的量值来被确定。
[0313]
在一些实施方案中,对于多个补充数据构建体中的每个相应补充数据构建体:概率抽样从第一多个基因型数据构建体中选择对相应的数据构建体中的多个基因型特征的值有贡献的多个核酸片段的相应部分,并且选择核酸片段的相应部分的量值(magnitude),使得相应的补充数据构建体代表模拟的信息性核酸片段分数,其落入信息性核酸片段分数的范围,在此范围内,探索性分类器满足对由基因型数据构建体表示的信息性核酸片段分数的变化的阈值敏感性,其中探索性分类器被训练以基于多个基因型特征来区分疾病状况的状态。
[0314]
在一些实施方案中,信息性核酸片段分数的范围通过以下方式来确定:(a)使用训练数据集生成多个增强的探索性基因型数据构建体,其中:多个增强的探索性基因型数据构建体中的每个相应增强探索性基因型数据构建体对应于来自第一多个基因型数据构建体的至少一个相应的基因型数据构建体,对于多个基因型特征中的每个相应基因型特征,多个增强的探索性基因型数据构建体中的每个相应增强的探索性基因型数据构建体包括一增强值,其源自对来自第一多个基因型数据构建体的至少相应基因型数据构建体的相应基因型特征的值有贡献的核酸片段的概率抽样,多个增强的探索性基因型数据构建体中的每个相应增强的探索性基因型数据构建体表示模拟的信息性核酸片段分数,所述信息性核酸片段分数是基于由来自第一多个基因型数据构建体的相应基因型数据构建体表示的信息性核酸片段分数,并且由多个增强的探索性基因型数据构建体表示的模拟信息核酸片段分数的分布从低于探索性分类器的检测水平的第一信息性核酸片段分数到高于探索性分类器的检测水平的第二信息性核酸片段分数;(b)将多个增强的探索性基因型数据构建体应用到探索性分类器,以生成多个模拟的疾病状况概率,其中探索性分类器被训练以至少使用以下方法来区分疾病状况的状态:(1)第一多个探索性基因型数据构建体,其中对于具有疾病状况的第一状态的探索性对象的第一组中的每个相应探索性对象,第一多个探索性基因型数据构建体包括相应的基因型数据构建体,其包括从相应探索性对象获得的对应的生物样品中的对应多个核酸片段的多个基因型特征的值;(2)第二多个探索性数据构建体,其中对于具有疾病状况的第二状态的第二组探索性对象中的每个相应探索性对象,第二多个探索性基因型数据构建体包括相应的基因型数据构建体,其包括从相应的探索性对象获得的对应的生物样品中的对应的多个核酸片段的多个基因型特征的值;以及(3)对于第及和第二多个探索性基因型数据构建体中的每个相应基因型数据构建体,疾病状况状态
的指示;以及(c)识别信息性核酸片段部分的范围,在此范围内模拟的疾病状况概率对由相应的增强的探索性基因型数据构建体表示的信息性核酸片段部分的变化最为敏感。
[0315]
在一些实施方案中,从第一组探索性对象中的探索性对象获得的每个相应生物样品是对象的实体患病组织的样品。
[0316]
在一些实施方案中,多个补充基因型数据构建体中的每个相应补充基因型数据构建体对应于基因型构建体的对应对,所述基因型构建体的对应对由以下组成:(i)来自第一多个基因型数据构建体;以及(ii)来自第二多个基因型数据构建体的相应基因型数据构建体;并且针对多个基因型特征中的每个相应的基因型特征,补充多个基因型数据构建体中的每个相应的补充基因型数据构建体包括增强值,所述增强值源自对基因型数据构建体的对应对的每个基因型数据构建体中的相应基因型特征的值作出贡献的核酸片段的概率抽样。
[0317]
在一些实施方案中,针对多个补充基因型数据构建体中的至少一个相应的补充基因型数据构建体,在导出相应补充基因型数据构建体的多个基因型特征的增强值之前,来自第二多个基因型数据构建体的相应基因型数据构建体被增强。
[0318]
在一些实施方案中,对于多个补充基因型数据构建体中的每个相应补充基因型数据构建体,多个基因型特征中每个相应基因型特征的增强值由以下形成:(i)来自第一多个基因型数据构建体的相应基因型数据构建体的相应基因型特征的第一加权贡献;以及(ii)来自第二多个基因型数据构建体的相应基因型数据构建体的相应基因型特征的第二加权贡献。
[0319]
在一些实施方案中,对于多个补充基因型数据构建体中的每个相应补充基因型数据构建体,基于共享的个人特征,(i)对应于来自第一多个基因型数据构建体的相应基因型数据构建体的相应训练对象;与(ii)对应于来自第二多个基因型数据构建体的相应基因型数据构建体的相应训练对象,对应于基因型构建体对进行匹配。
[0320]
在一些实施方案中,方法进一步包括:通过以下方式获得多个增强的假阳性基因型数据构建体:从第二多个基因型数据构建体中识别基因型数据构建体的子集,由测试分类器的前体区分,其性能未达到性能阈值;并且使用基因型数据构建体的子集来生成多个增强的假阳性基因型数据构建体,其中:多个增强的假阳性基因型数据构建体中的每个相应增强的假阳性基因型数据构建体对应于来自基因型数据构建体的子集的至少一个相应的基因型数据构建体,并且对于多个基因型特征中的每个相应基因型特征,多个增强的假阳性基因型数据构建体中的每个相应基因型数据构建体包括一增强值,其源自对来自基因型数据构建体的子集的至少相应基因型数据构建体中的相应基因型特征的值具有贡献的核酸片段的概率抽样,其中训练测试分类器(c)使用(v)多个增强的假阳性基因型数据构建体;以及(vi)对于多个增强的假阳性基因型数据构建体中的每个相应的基因型数据构建体,疾病状况状态的指示。
[0321]
在一些实施方案中,测试分类器是逻辑回归算法。
[0322]
在一些实施方案中,测试分类器是神经网络算法、支持向量机算法、朴素贝叶斯算法、最邻近搜索算法、提升树算法、随机森林算法、决策树算法、多分类逻辑回归算法、线性模型或线性回归算法。
[0323]
在一些实施方案中,测试分类器是时间分类器,其至少需要:(i)从在第一时间点
从测试对象获得的第一生物样品产生的第一测试基因型数据构建体;以及(ii)从在第二时间点从测试对象获得的第二生物样品产生的第二测试基因型数据构建体。
[0324]
在一些实施方案中,方法还包括:(d)获得电子形式的测试基因型数据构建体,其包括从测试对象获得的生物样品中对应的多个核酸片段的多个基因型特征中的每个基因型特征的值;以及(e)将测试基因型数据构建体应用于测试分类器,从而确定测试对象的疾病状况的状态。
[0325]
在一些实施方案中,在应用(e)之前,测试对象之前没有被诊断出患有疾病状况。
[0326]
本公开的另一方面提供了一种用于辨别测试对象的疾病状况的方法,方法包括:在计算机系统中,其中所述计算机系统包括至少一个处理器以及存储用于通过至少一个处理器执行的至少一个程序的存储器,所述至少一个程序包括以下指令:(a)获得电子形式的测试基因型数据构建体,其包括从测试对象获得的生物样品中对应的多个核酸片段的多个测试基因型特征中的每个基因型特征的值;以及(b)将测试基因型数据构建体应用于根据权利要求2至39中任一项的方法训练的测试分类器,从而确定测试对象的疾病状况的状态,其中多个测试基因型特征包括多个基因型特征,测试分类器针对所述多个基因型特征进行训练。
[0327]
在一些实施方案中,从测试对象获得的生物样品是液体生物样品。
[0328]
在一些实施例中,液体生物样品是血液样品。
[0329]
在一些实施方案中,从测试对象获得的生物样品中的多个核酸片段是游离dna。
[0330]
本公开的另一方面提供了一种生成有助于区分疾病状况的时间序列数据的方法,所述方法包括:在计算机系统中,其中所述计算机系统包括至少一个处理器及存储器,所述存储器存储至少一个程序,所述至少一个程序通过所述至少一个处理器执行,并且所述至少一个程序包括以下指令:(a)获得电子形式的第一训练数据集,其包括:第一组训练对象的第一多个基因型数据构建体,其中对于第一组训练对象中的每个相应的训练对象,第一多个基因型数据构建体包括相应的第一基因型数据构建体,其包含在相应的第一时间点,从相应的训练对象获得的对应的第一生物样品中对应的第一多个核酸片段的多个基因型特征的值,其中相应的训练对象在相应的第一时间点具有疾病状况的第一状态,以及一组一个或多个添加(spike-in)对象的一个或多个添加(spike-in)基因型数据构建体的集,其中所述一个或多个添加(spike-in)基因型数据构建体的集包括:对于所述集中的每个相应的添加(spike-in)对象或一个或多个添加(spike-in)对象,相应的添加(spike-in)基因型数据构建体,其包含从相应的添加(spike-in)对象获得的对应的生物样品中对应的多个核酸片段的多个基因型特征的值,其中当对应的生物样品从相应的添加(spike-in)对象获得时,相应的添加(spike-in)对象具有疾病状况的第二状态,并且疾病状况的第一状态和疾病状况的第二状态通过疾病状况的进展而相关;以及(b)针对第一组训练对象中的每个相应的训练对象,使用第一训练数据集生成相应的第一增强基因型数据构建体,其包括代表在相应的第二时间点相应训练对象的多个基因型特征的值;其中:相应的第一增强基因型数据构建体对应于对应的第一对基因型数据构建体,所述第一对基因型数据构建体由以下构成:(i)相应训练对象的相应第二基因型数据构建体;以及(ii)来自一个或多个添加(spike-in)基因型数据构建体的集中的相应添加(spike-in)基因型数据构建体;并且对于多个基因型特征中的每个相应基因型特征,相应的第一增强基因型数据构建体包括一增强
值,所述增强值源自对对应的第一对基因型数据构建体的每个基因型数据构建体中的相应基因型特征的值有贡献的核酸片段的第一概率抽样,从而为第一组训练对象中的每个相应训练对象生成包括相应第一基因型数据构建体及相应第一增强基因型数据构建体的相应时间序列数据集。
[0331]
在一些实施方案中,对于第一组训练对象中的至少一个相应的训练对象,相应的第二基因型数据构建体是相应的第一基因型数据构建体。
[0332]
在一些实施方案中,对于第一组训练对象中的至少一个相应的训练对象,相应的第二基因型数据构建体包含在第二时间点从相应的训练对象获得的对应的第二生物样品中对应的第二多个核酸片段的多个基因型特征的值。
[0333]
在一些实施方案中,方法进一步包括:针对第一组训练对象中的每个相应的训练对象,使用第一训练数据生成包含多个基因型特征的值的相应的第二增强基因型数据结构,所述值代表在相应的第三时间点相应的训练对象,其中相应的第二增强基因型数据构建体对应于对应的第二对基因型构建体,其由以下组成:(i)相应训练对象的相应第三基因型数据构建体;以及(ii)来自一个或多个添加(spike-in)基因型数据构建体的集中的相应添加(spike-in)基因型数据构建体;并且对于多个基因型特征中的每个相应基因型特征,相应的第二增强基因型数据构建体包含增强值,所述增强值源自对对应的第二对基因型数据构建体的每个基因型数据构建体中相应基因型特征的值有贡献的核酸片段的第二次概率抽样,从而通过包含相应的第二增强基因型数据构建体,为第一组训练对象中的每个相应训练对象扩展相应的时间序列数据集。
[0334]
在一些实施方案中,对于第一组训练对象中的至少一个相应的训练对象,相应的第三基因型数据构建体是相应的第一基因型数据构建体。
[0335]
在一些实施方案中,对于第一组训练对象中的至少一个相应的训练对象:相应的第二基因型数据构建体包含在第二时间点从相应的训练对象获得的对应的第二生物样品中对应的第二多个核酸片段的多个基因型特征的值,并且相应的第三基因型数据构建体是相应的第二基因型数据构建体。
[0336]
在一些实施方案中,对于第一组训练对象中的至少一个相应的训练对象,相应的第三基因型数据构建体包含在第三时间点从相应的训练对象获得的第三对应的生物样品中对应的第三多个核酸片段的多个基因型特征的值。
[0337]
在一些实施方案中,对于第一组训练对象中的每个相应的训练对象:相应的第一时间序列数据集用于对从第一疾病状态到第二疾病状态的发展进行建模;第二时间点对应于第一时间点之后的时间点,第三时间点对应于第二时间点之后的时间点,并且与第一次概率抽样相比,核酸片段的第二次概率抽样更倾向于选择对相应添加(spike-in)基因型数据构建体中的基因型特征的值有贡献的核酸片段进行加权。
[0338]
在一些实施方案中,方法进一步包括:(c)至少通过以下各项来训练时间分类器,以区分疾病状况的状态:(i)对于第一组训练对象中的每个相应的训练对象,相应的时间序列数据;(ii)对于第一组训练对象中的每个相应的训练对象,相应的多个时间点,其包括相应时间序列数据集中的每个相应基因型数据构建体的相应时间点或其推导;以及(iii)对于第一组训练对象中的每个对应训练对象,在相应的多个时间点中的至少最早的对应时间点及最晚的对应时间点的疾病状况的指示。
[0339]
在一些实施方案中,训练(c)使用相应训练对象的一个或多个个人特征。
[0340]
在一些实施方案中,对于第一组训练对象中的至少一个相应的训练对象:相应的基因型数据构建体对中的相应的添加(spike-in)基因型数据构建体包括对于在第一对应时间点之后的第四对应时间点从相应的训练对象获得的对应的生物样品中对应的多个核酸片段的多个基因型特征的值;并且第二对应时间点介于第一对应时间点与第四对应时间点之间。
[0341]
在一些实施方案中,对于第一组训练对象中的每个相应的训练对象,对应于基因型数据构建体的对应对中的相应的添加(spike-in)基因型数据构建体的添加(spike-in)对象是与相应训练对象不同的对象。
[0342]
在一些实施方案中,对于第一组训练对象中的每个相应的训练对象,基于共同的个人特征,对应于基因型数据构建体的对应对中的相应的添加(spike-in)基因型数据构建体的添加(spike-in)对象与相应的训练对象匹配。
[0343]
在一些实施方案中,疾病状况是癌症。
[0344]
在一些实施方案中,癌症的第一状态是存在癌症;并且癌症的第二状态是不存在癌症。
[0345]
在一些实施方案中,癌症的第一状态是第一类型的癌症;并且癌症的第二状态是第二类型的癌症。
[0346]
在一些实施方案中,癌症的第一状态是特定癌症的第一阶段;并且癌症的第二状态是特定癌症的第二阶段。
[0347]
在一些实施方案中,癌症的第一状态是癌症的第一预后;并且癌症的第二状态是癌症的第二预后。
[0348]
在一些实施方案中,对于第一组训练对象中的至少一个相应的训练对象:相应的训练对象在相应的第一时间点未患有癌症,并且当从相应的添加(spike-in)对象获得对应的生物样品时,基因型数据构建体对中的相应添加(spike-in)基因型数据构建体是从患有至少2期癌症的对应的添加(spike-in)对象获得的。
[0349]
在一些实施方案中,疾病状况是心血管疾病。
[0350]
在一些实施方案中,心血管疾病的第一状态是患有心血管疾病;并且心血管疾病的第二状态是未患有心血管疾病。
[0351]
在一些实施方案中,心血管疾病的第一状态是心血管疾病的第一预后;并且心血管疾病的第二状态是心血管疾病的第二预后。
[0352]
在一些实施方案中,对于第一组训练对象中的至少一个相应的训练对象:相应的训练对象在相应的第一时间点未患有心血管疾病,并且当从相应的添加(spike-in)对象获得对应的生物样品时,基因型数据构建体对中的相应添加(spike-in)基因型数据构建体是从患有心血管疾病的对应的添加(spike-in)对象获得的。
[0353]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括相应基因组位置的甲基化状态。
[0354]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括对变异等位基因的支持。
[0355]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型
特征包括相对拷贝数。
[0356]
在一些实施方案中,多个基因型特征包括至少5000个基因型特征。
[0357]
在一些实施方案中,多个基因型特征包括至少50,000个基因型特征。
[0358]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值通过全基因组定序获得。
[0359]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值使用多个核酸探针通过靶向定序来富集对应的生物样品中多个基因组区域的核酸。
[0360]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值通过以下方式获得:(i)全基因组甲基化定序;或(ii)使用多个核酸探针通过靶向dna甲基化定序,以富集对应的生物样品中多个基因组区域的核酸。
[0361]
在一些实施方案中,对于多个训练对象中的每个相应的训练对象,第一对应的生物样品是液体生物样品。
[0362]
在一些实施方案中,液体生物样品是血液样品。
[0363]
在一些实施方案中,对应的生物样品中的多个核酸片段是游离dna。
[0364]
在一些实施方案中,概率抽样是简单随机抽样、分层随机抽样(stratified random sampling)、系统随机抽样、聚类随机抽样(clustered random sampling)以及多阶段随机抽样(multi-stage random sampling)。
[0365]
在一些实施方案中,概率抽样包括,对于每个相应的基因型数据构建体对中的每个相应的基因型数据构建体,对对于多个基因型特征的对应值有贡献的对应的多个核酸片段的一预定部分进行加权随机抽样,其中选择对对应的基因型特征的值有贡献的相应核酸片段的概率与对对应的基因型特征有贡献的核酸片段的丰度相对于对多个基因型特征的值有贡献的核酸片段的总数成比例。
[0366]
在一些实施方案中,对于对应于第一组训练对象中的每个相应训练对象的第二相应基因型数据构建体:概率抽样选择对第一相应基因型构建体中的多个基因型特征的值有贡献的多个核酸片段中的一相应第一部分;以及对相应添加(spike-in)基因型数据构建体中的多个基因型特征的值有贡献的多个核酸片段中的一相应第二部分;并且核酸片段的相应第一部分以及核酸片段的相应第二部分的量值至少是基于以下被确定:(i)第一时间点与第二时间点之间的时间长度;以及(ii)从疾病状况的第一状态发展到疾病状况的第二状态的时间模型。
[0367]
在一些实施方案中,从疾病状况的第一状态发展到疾病状况的第二状态的时间模型至少基于相应对象的个人特征。
[0368]
在一些实施方案中,疾病状况是癌症,并且从癌症的第一状态发展到癌症的第二状态的时间模型至少基于癌症的类型。
[0369]
在一些实施方案中,疾病状况是癌症,并且从癌症的第一状态发展到癌症的第二状态的时间模型至少基于癌症是转移性的还是非转移性的。
[0370]
在一些实施方案中,疾病状况是癌症,并且从癌症的第一状态发展到癌症的第二状态的时间模型被分成多个阶段。
[0371]
在一些实施方案中,时间分类器是逻辑回归算法。
[0372]
在一些实施方案中,时间分类器是神经网络算法、支持向量机算法、朴素贝叶斯算
法、最邻近搜索算法、提升树算法、随机森林算法、决策树算法、多分类逻辑回归算法、线性模型或线性回归算法。
[0373]
在一些实施方案中,时间分类器是循环神经网络(recurrent neural network)。
[0374]
在一些实施方案中,方法还包括:(d)获得电子形式的测试对象的测试时间序列数据集,其中测试时间序列数据集包括:对于多个时间中的每个相应时间点点,对应的测试基因型数据构建体,其包含以下的值:在相应时间点从测试对象获得的对应生物样品中的对应的多个核酸片段的多个基因型特征;以及对于多个时间点中的每一对相应的连续时间点,每一对相应的连续时间点之间的时间长度的指示;以及(e)将测试时间序列数据集应用于时间分类器,从而确定测试对象的疾病状况的状态。
[0375]
在一些实施方案中,在应用(e)之前,测试对象之前没有被诊断出患有疾病状况。
[0376]
本公开的另一方面提供了一种用于辨别测试对象的疾病状况的方法,所述方法包括:在计算机系统中,其中所述计算机系统包括至少一个处理器及存储至少一个由所述至少一个处理器执行的程序的存储器,所述至少一个程序包括以下指令:(a)获得电子形式的测试对象的测试时间序列数据集,其中所述测试时间序列数据集包括:对于多个时间点中的每个相应时间点,相应的测试基因型数据构建体,其包含在相应时间点从测试对象获得的相应生物样品中的对应的多个核酸片段的多个测试基因型特征的值;以及对于多个时间点中的每一对相应的连续时间点,每一对相应的连续时间点之间的时间长度的指示;以及(b)将测试时间序列数据集应用到根据训练方法之一的一训练的分类器,从而确定测试对象的疾病状况的状态,其中多个测试基因型特征包括多个基因型特征,分类器针对所述多个基因型特征进行训练。
[0377]
在一些实施方案中,从测试对象获得的每个相应的生物样品是液体生物样品。
[0378]
在一些实施方案中,液体生物样品是血液样品。
[0379]
在一些实施方案中,从测试对象获得的每个生物样品中的核酸片段是游离dna。
[0380]
本公开的另一方面提供了一种训练时间分类算法,以从一组疾病状况的状态中区分测试对象的疾病状况的方法,所述方法包括:在计算机系统中,其中所述计算机系统包括至少一个处理器及存储至少一个由所述至少一个处理器执行的程序的存储器,所述至少一个程序包括以下指令:(a)以电子形式获得训练数据集,所述训练数据集包括,对于多个训练对象中的每个相应的训练对象:(1)相应训练对象的相应第一基因型数据构建体,相应第一基因型数据构建体包括在相应的第一时间点从相应的训练对象获得的第一生物样品中的第一相应的多个核酸片段的多个基因型特征的值;(2)相应的训练对象的相应的第二基因型数据构建体,相应的第二基因型数据构建体包括代表在相应的第一时间点之后发生的相应的第二时间点的相应的训练对象的多个基因型特征的值;(3)相应的第一时间点及相应的第二时间点,或其推导,以及(4)在相应的第一时间及相应的第二时间点,相应的训练对象的多个疾病状况的集中的疾病状况的指示;以及(b)对于每个相应的训练对象,至少针对以下来训练时间分类算法:(a)相应的第一基因型数据构建体;(b)相应的第二基因型数据构建体;(c)相应的第一时间点及相应的第二时间点,或其推导;以及(d)在相应的第一时间及相应的第二时间点的疾病状况的指示;其中对于多个训练对象中的至少一个相应的训练对象,相应的第二个基因型数据构建体包含多个基因型特征的值,其来自:从相应的训练对象获得的第二生物样品的相应的第二多个核酸片段;以及添加(spiking)生物样品的相
应第三多个核酸片段,所述添加(spiking)生物样品获自患有在疾病状况的状态的集中相应的疾病状况的一相应的状态的一添加(spiking)对象。
[0381]
在一些实施方案中,训练(b)使用相应训练对象的一个或多个个人特征。
[0382]
在一些实施方案中,对于多个训练对象中的每个相应的训练对象,训练数据集还包括:(5)相应的训练对象的相应的第三基因型数据构建体,相应的第三基因型数据构建体包括多个基因型特征的值,所述多个基因型特征的值代表在相应的第二时间点之后发生的相应的第三时间点相应的训练对象;(6)相应的第三时间点,或相应的第二时间点及相应第三时间的推导;(7)在相应的第三时间点,相应的训练对象的疾病状况的状态的集中的疾病状况的状态的指示;时间分类算法针对以下被进一步训练:(b1)相应的第三基因型数据构建体;(c1)相应的第三时间点,或相应的第二时间点及相应的第二时间点的推导;以及(d1)在相应第三时间点,相应的训练对象的疾病状况的状态的集中疾病状况的状态的指示;并且,对于多个训练对象中的至少一个相应的训练对象,相应的第三基因型数据构建体包含多个基因型特征的值,其来自:从相应的训练对象获得的第三生物样品的相应的第四多个核酸片段;以及从添加(spiking)对象获得的添加(spiking)的生物样品的相应的第五多个核酸片段,其中所述添加(spiking)对象具有在疾病状况的状态的集中的疾病状况的相应的状态。
[0383]
在一些实施方案中,相应的第二多个核酸片段及相应的第四多个核酸片段是来自从相应的训练对象获得的相同生物样品的相同的游离核酸。
[0384]
在一些实施方案中,相应的第三多个核酸片段及相应的第五多个核酸片段是来自从添加(spiking)对象获得的相同添加(spiking)生物样品的相同游离核酸。
[0385]
在一些实施方案中,相应的第三多个核酸片段及相应的第五多个核酸片段是来自从添加(spiking)对象获得的相同添加(spiking)生物样品的相同游离核酸;相应的第二基因型数据构建体中的多个基因型特征的值包括以下的相应的第一加权混合:(i)相应的第二多个核酸片段的多个基因型特征的值;以及(ii)相应的第三多个核酸片段的多个基因型特征的值;相应的第三基因型数据构建体中的多个基因型特征的值包括以下的相应的第二加权混合:(i)相应的第二多个核酸片段的多个基因型特征的值;以及(ii)第三多个核酸片段的多个基因型特征的值;并且与相应的第一加权混合相比,相应的第二加权混合物对相应第三多个核酸片段的多个基因型特征的值的有更大的加权。
[0386]
在一些实施方案中,对于至少一个相应的训练对象的相应的训练对象,相应的第三多个核酸片段是在相应的第二时间点之后发生的相应的第三时间点从相应的训练对象获得的生物样品中的游离核酸。
[0387]
在一些实施方案中,对于至少一个相应的训练对象的相应的训练对象,添加(spiking)对象是与相应的训练对象不同的对象。
[0388]
在一些实施方案中,对于至少一个相应的训练对象的相应的训练对象,添加(spiking)对象基于共享的个人特征与相应的训练对象匹配。
[0389]
在一些实施方案中,疾病状况是癌症。
[0390]
在一些实施方案中,在状态的集中,癌症的第一状态是存在癌症,并且在状态的集中,癌症的第二状态是不存在癌症。
[0391]
在一些实施方案中,在状态的集中,癌症的第一状态是第一类型的癌症,并且在状
态的集中,癌症的第二状态是第二类型的癌症。
[0392]
在一些实施方案中,在状态的集中,癌症的第一状态是特定癌症的第一阶段,并且在状态的集中,癌症的第二状态是特定癌症的第二阶段。
[0393]
在一些实施方案中,在状态的集中,癌症的第一状态是癌症的第一预后,并且在状态的集中,癌症的第二状态是癌症的第二预后。
[0394]
在一些实施方案中,对于第一组训练对象中的至少一个相应的训练对象:相应的训练对象在相应的第一时间点未患有癌症;相应的训练对象的相应第二基因型数据构建体代表在相应的第二时间点患有癌症的相应的训练对象;并且当获得添加(spiking)的生物样品时,添加(spiking)对象至少患有2期癌症。
[0395]
在一些实施方案中,疾病状况是心血管疾病。
[0396]
在一些实施方案中,心血管疾病的状态的集中的第一状态是存在心血管疾病,心血管疾病的状态的集中的第二状态是不存在心血管疾病。
[0397]
在一些实施方案中,在状态的集中,心血管疾病的第一状态是心血管疾病的第一预后,并且在状态的集中,心血管疾病的第二状态是心血管疾病的第二预后。
[0398]
在一些实施方案中,对于第一组训练对象中的至少一个相应的训练对象:相应的训练对象在相应的第一时间点未患有患心血管疾病;并且相应的训练对象的相应的第二基因型数据构建体代表在相应的第二时间点患有心血管疾病的相应训练对象;并且在获得添加(spiking)生物样品时,添加(spiking)对象患有心血管疾病。
[0399]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括相应基因组位置的甲基化状态。
[0400]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括对变异等位基因的支持。
[0401]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括相对拷贝数。
[0402]
在一些实施方案中,多个基因型特征包括至少5000个基因型特征。
[0403]
在一些实施方案中,多个基因型特征包括至少50,000个基因型特征。
[0404]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值通过全基因组定序获得。
[0405]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值使用多个核酸探针通过靶向定序,以富集对应的生物样品中多个基因组区域的核酸来获得。
[0406]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值通过以下方式获得:(i)全基因组甲基化定序;或是(ii)使用多个核酸探针通过靶向dna甲基化定序,以富集对应的生物样品中多个基因组区域的核酸。
[0407]
在一些实施方案中,每个生物样品是液体生物样品。
[0408]
在一些实施方案中,液体生物样品是血液样品。
[0409]
在一些实施方案中,对应的生物样品中的多个核酸片段是游离dna。
[0410]
在一些实施方案中,对于至少一个相应训练对象的每个相应训练对象,对于多个基因型特征中的每个相应基因型特征,相应第二基因型数据构建体包括从以下各项的概率
采样导出的增强值:(i)对第二多个核酸片段中的相应基因型特征值有贡献的核酸片段;以及(ii)对第三多个核酸片段中的相应基因型特征的值有贡献的核酸片段。
[0411]
在一些实施方案中,概率抽样是简单随机抽样、分层随机抽样(stratified random sampling)、系统随机抽样、聚类随机抽样(clustered random sampling)以及多阶段随机抽样(multi-stage random sampling)。
[0412]
在一些实施方案中,概率抽样包括,对于相应的第二多个核酸片段及相应的第三多个核酸片段中的每一个,对对多个基因型特征的对应值有贡献的对应多个核酸片段的一预定部分进行加权随机抽样,其中选择对对应基因型特征的值有贡献的相应核酸片段的概率与对对应基因型特征的核酸片段的丰度相对于对多个基因型特征的值的核酸片段总数成正比。。
[0413]
在一些实施方案中,对于对应于至少一个相应训练对象中的每个相应训练对象的相应第二基因型数据构建体:概率抽样选择:相应第二多个核酸片段的相应第一部分,其对多个基因型特征的值是有贡献的;以及相应第三多个核酸片段的相应第二部分,其对多个基因型特征的值有贡献的;以及核酸片段的相应第一部分及核酸片段的相应第二部分的量值至少基于以下被确定:(i)第一时间点与第二时间点之间的时间长度;以及(ii)在疾病状况的状态的集中,添加(spike-in)对象所患有的疾病状况的相应状态的发展的时间模型。
[0414]
在一些实施方案中,对于至少一个相应的训练对象的每个相应的训练对象,相应的第二基因型数据构建体通过以下方式形成:(i)将来自第二生物样品的第一量的第二多个核酸片段与来自添加(spike-in)生物样品的第二量的游离核酸混合在一起,从而形成游离核酸的混合物;(ii)对来自游离核酸混合物的核酸片段进行定序;(iii)基于定序(ii)确定多个基因组特征的值。
[0415]
在一些实施方案中,第一量以及第二量至少是基于以下而被确定:(i)第一时间点与第二时间点之间的时间长度;以及(ii)在疾病状况的状态集中,发展添加(spike-in)对象遭受的疾病状况的相应状态的时间模型。
[0416]
在一些实施方案中,用于发展疾病状况的相应第二状态的时间模型至少是基于相应训练对象的个人特征。
[0417]
在一些实施方案中,疾病状况是癌症,并且发展癌症的相应状态的时间模型至少是基于癌症的类型。
[0418]
在一些实施方案中,疾病状况是癌症,并且发展癌症的相应状态的时间模型至少是基于癌症是转移性的或是非转移性的。
[0419]
在一些实施方案中,疾病状况是癌症,并且发展癌症的相应状态的时间模型被分成阶段(stage)。
[0420]
在一些实施方案中,时间分类器是逻辑回归算法。
[0421]
在一些实施方案中,时间分类器是神经网络算法、支持向量机算法、朴素贝叶斯算法、最邻近搜索算法、提升树算法、随机森林算法、决策树算法、多分类逻辑回归算法、线性模型或线性回归算法。
[0422]
在一些实施方案中,时间分类器是循环神经网络(recurrent neural network)。
[0423]
在一些实施方案中,方法进一步包括:(c)以电子形式获得测试对象的测试时间序列数据集,其中测试时间序列数据集包括:对于多个时间中的每个相应时间点点,对应的测
试基因型数据构建体,其包含以下的值:在相应的时间点从测试对象获得的对应的生物样品中的对应的多个核酸片段的多个基因型特征;以及对于多个时间点中的每一对相应连续时间点,每一对相应连续时间点之间的时间长度的指示;(d)将测试时间序列数据集应用于时间分类器,从而确定测试对象的疾病状况的状态。
[0424]
在一些实施方案中,在应用(d)之前,测试对象之前没有被诊断出患有疾病状况。
[0425]
本公开的另一方面提供了一种用于区分测试对象的疾病状况的方法,方法包括:在包括至少一个处理器及存储器的计算机系统中,其中存储器存储由至少一个处理器执行的至少一个程序,所述至少一个程序包括以下各项的指令:(a)针对测试对象获得电子形式的测试时间序列数据集,其中所述测试时间序列数据集包括:对于多个时间点中的每个相应时间点,一相应的测试基因型数据构建体,其包含以下的值:在相应时间点从测试对象获得的对应的生物样品中的对应的多个核酸片段的多个基因型特征;以及对于多个时间点中的每一对相应连续时间点,每一对相应连续时间点之间的时间长度的指示;(b)将测试时间序列数据集应用到根据权利要求96至138中任一项所述的方法训练的分类器,从而确定测试对象的疾病状况的状态,其中多个测试基因型特征包括训练分类器所针对的多个基因型特征。
[0426]
在一些实施方案中,从测试对象获得的每个相应的生物样品是液体生物样品。
[0427]
在一些实施方案中,液体生物样品是血液样品。
[0428]
在一些实施方案中,从测试对象获得的每个生物样品中的核酸片段是游离dna。
[0429]
本公开的另一方面提供了一种评估分类器的性能的方法,分类器被训练以区分测试对象的疾病状况,方法包括:在计算机系统中,其中所述计算机系统包括至少一个处理器及存储由所述至少一个处理器执行的至少一个程序的存储器,所述至少一个程序包括以下指令:(a)获得第一分类器,所述第一分类器被训练以通过评估测试基因型数据构建体来区分疾病状况,其中测试基因组数据构建体包括从测试对象获得的第一对应生物样品中对应的第一多个核酸片段的多个基因型特征的值;(b)获得包含多个增强基因型数据构建体的增强评估数据集,其中多个增强基因型数据构建体中的每个相应增强基因型数据构建体包含对应的多个核酸片段的多个基因型特征的值,其代表从在疾病状况的多种状态中具有相应疾病状况的状态的对象获得的对应的生物样品,其中增强的评估数据集包括在多个增强的基因型数据构建体中的相应增强的基因型数据构建体,其代表疾病状况的多个状态中的疾病状况的每个相应状态;(c)独立地将增强的评估数据集中的每个相应增强的基因型数据构建体应用于分类器,以生成每个相应的增强基因型数据构建体的疾病状态分类,从而生成多个疾病状态分类;以及(d)评估多个疾病状态分类中的每个相应疾病状态分类,作为由对应的增强基因型数据构建体表示的疾病状况的相应状态的函数,从而评估分类器的性能。
[0430]
本公开的另一方面提供了一种评估分类器的性能的方法,分类器被训练以区分测试对象的疾病状况,方法包括:在计算机系统中,其中所述计算机系统包括至少一个处理器及存储由所述至少一个处理器执行的至少一个程序的存储器,所述至少一个程序包括以下指令:(a)获得第一分类器,所述第一分类器被训练以通过评估测试基因型数据构建体来区分疾病状况,其中测试基因组数据构建体包括从测试对象获得的第一对应生物样品中对应的第一多个核酸片段的多个基因型特征的值;(b)获得包含多个增强基因型数据构建体的
增强评估数据集,其中多个增强基因型数据构建体中的每个相应增强基因型数据构建体包含对应的多个核酸片段的多个基因型特征的值,其代表从在疾病状况的多种状态中具有相应疾病状况状态的对象获得的对应生物样品,其中增强评估数据集包括在多个增强基因型数据构建体中的相应增强基因型数据构建体,其代表疾病状况的多个状态中的疾病状况的每个相应状态,其中增强评估数据集是通过根据前述方法中的任一种的方法获得的;(c)将增强评估数据集中的每个相应增强基因型数据构建体独立地应用到分类器,以生成每个相应增强基因型数据构建体的疾病状态分类,从而生成多个疾病状态分类;(d)评估多个疾病状态分类中的每个相应疾病状态分类,作为由对应的增强基因型数据构建体表示的疾病状况的相应状态的函数,从而评估分类器的性能。
[0431]
在一些实施方案中,分类器是逻辑回归算法。
[0432]
在一些实施方案中,分类器是神经网络算法、支持向量机算法、朴素贝叶斯算法、最邻近搜索算法、提升树算法、随机森林算法、决策树算法、多分类逻辑回归算法、线性模型或线性回归算法。
[0433]
在一些实施方案中,时间分类器是循环神经网络(recurrent neural network)。
[0434]
在一些实施方案中,疾病状况是癌症。
[0435]
在一些实施方案中,癌症的多个状态中的每个状态包含:在至少从比分类器的检测水平低至少25%的游离dna肿瘤分数的一基线百分比到至少比分类器的检测水平高25%的游离dna肿瘤分数的上限百分比的游离dna肿瘤分数的一范围中的游离dna肿瘤分数的一子范围。
[0436]
在一些实施方案中,疾病状况是心血管疾病。
[0437]
在一些实施方案中,心血管疾病的多个状态中的每个状态包括在至少从比分类器的检测水平低至少25%的游离dna心血管组织分数的一基线百分比到至少比分类器的检测水平高25%的游离dna心血管组织分数的上限百分比的游离dna心血管组织分数的一范围中的游离dna心血管组织分数的一子范围。
[0438]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括相应基因组位置的甲基化状态。
[0439]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括对变异等位基因(variant allele)的支持。
[0440]
在一些实施方案中,对于多个基因组位置中的每个相应基因组位置,多个基因型特征包括相对拷贝数。
[0441]
在一些实施方案中,多个基因型特征包括至少5000个基因型特征。
[0442]
在一些实施方案中,多个基因型特征包括至少50,000个基因型特征。
[0443]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值通过全基因组定序获得。
[0444]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值通过靶向定序使用多个核酸探针以富集对应的生物样品中的多个基因组区域的核酸而获得。
[0445]
在一些实施方案中,对于每个生物样品,对应的多个核酸片段的多个基因型特征的值通过(i)全基因组甲基化定序或(ii)靶向dna甲基化定序使用多个核酸探针以富集对
应的生物样品中多个基因组区域的核酸而获得。
[0446]
在一些实施方案中,每个生物样品是液体生物样品。
[0447]
在一些实施方案中,液体生物样品是血液样品。
[0448]
在一些实施方案中,对应的生物样品中的多个核酸片段是游离dna。
[0449]
其他注意事项:
[0450]
上述实施方案的详细描述参考了附图,其说明了本公开的具体的实施方案。具有不同结构及操作的其他实施方案不脱离本公开的范围。“本发明”等术语用于参考本说明书中阐述的申请人发明的许多替代方面或实施方案的某些具体实施例,其使用或不存在均不旨在限制申请人的发明范围或权利要求的范围。
[0451]
本发明的实施方案还可以涉及一种用于执行本文的操作的装置。此装置可以为所需目的专门构造,及/或其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算装置。这种计算机程序可以存储在非瞬态的、有形的计算机可读存储介质或适合存储电子指令的任何类型的介质中,其可以耦合到计算机系统总线。此外,本说明书中提及的任何计算系统可以包括单个处理器或是可以是采用多个处理器设计以增加计算能力的架构。
[0452]
本文描述为由分析系统执行的任何步骤、操作或方法可以单独或与其他计算装置结合使用设备的一个或多个硬件或软件模块来执行或实现。在一个实施方案中,软件模块使用计算机程序产品实现,所述计算机程序产品包括包含计算机程序代码的计算机可读介质,所述计算机程序代码可以通过计算机处理器执行以执行所描述的任何或所有步骤、操作或方法。
技术特征:
1.一种训练用于检测癌症的模型的方法,其特征在于,所述方法包含:接收多个训练样品的定序数据,每个训练样品被标记为癌症及非癌症中的一个,并且每个训练样品包括多个异常cfdna片段;对被标记为癌症的一第一训练样品以及被标记为非癌症的一第二训练样品进行抽样;通过对来自所述第一训练样品的多个异常cfdna片段的一第一子集以及来自所述第二训练样品的多个异常cfdna片段的一第二子集进行抽样,来生成一第一合成训练样品,所述第一合成训练样品被标记为癌症;基于每个训练样品的所述多个异常cfdna片段来为包括所述第一合成训练样品的所述多个训练样品中的每一个生成一特征向量;以及使用多个所述特征向量以及包括所述第一合成训练样品的所述多个训练样品的多个所述标记来训练所述模型,所述模型配置为基于一测试样品的定序数据生成所述测试样品的一癌症预测。2.如权利要求1所述的方法,其特征在于:生成所述第一合成训练样品包括:对于多个基因组区域的每个基因组区域,以一第一抽样概率从与所述基因组区域重叠的所述第一训练样品中抽样多个异常cfdna片段,并且以与所述第一抽样概率互补的一第二抽样概率从与所述基因组区域重叠的所述第二训练样品中抽样多个异常cfdna片段。3.如权利要求2所述的方法,其特征在于:所述第一抽样概率以及所述第二抽样概率是根据所述训练模型的检测的一限度来进行设置的。4.如权利要求1所述的方法,其特征在于:所述方法还包含:对被标记为非癌症的一第三训练样品进行抽样;以及通过对来自所述第一训练样品的多个异常cfdna片段的一第三子集以及来自所述第三训练样品的多个异常cfdna片段的一第四子集进行抽样,来生成一第二合成训练样品,其中所述第三子集不同于所述第一子集,所述第二合成训练样品被标记为癌症;以及基于所述第二合成训练样品的所述多个异常cfdna片段为所述第二合成训练样品生成一第二特征向量,其中使用所述第二特征向量以及多个所述第二合成训练样品的所述标记来进一步训练所述模型。5.如权利要求1所述的方法,其特征在于:所述方法还包含:对被标记为癌症的一第三训练样品以及被标记为非癌症的一第四训练样品进行抽样;通过对来自所述第三训练样品的多个异常cfdna片段的一第三子集以及来自所述第四训练样品的多个异常cfdna片段的一第四子集进行抽样,来生成一第二合成训练样品,所述第二合成训练样品被标记为癌症;以及基于所述第二合成训练样品的所述多个异常cfdna片段为所述第二合成训练样品生成一第二特征向量,其中使用所述第二特征向量以及多个所述第二合成训练样品的所述标记来进一步训练所述模型。6.如权利要求5所述的方法,其特征在于:所述第一训练样品以及所述第一合成训练样品具有一第一癌症类型的一标记,并且所述第三训练样品以及所述第二合成训练样品具有一第二癌症类型的一标记。
7.如权利要求1所述的方法,其特征在于:一特征向量的每个特征对应于多个cpg位点中的一cpg位点,并且为所述多个训练样品中的每一个生成一特征向量包括:对于每个异常cfdna片段,通过将一概率模型应用于在所述异常cfdna片段的多个cpg位点处的多个甲基化状态,来确定所述异常cfdna片段源自一癌症生物样品的一似然;以及根据与所述特征对应的所述cpg位点重叠并且具有高于一阈值似然的一似然的多个异常cfdna片段的一计数,来确定所述特征向量的每个特征。8.如权利要求7所述的方法,其特征在于:每个特征向量根据所述训练样品的一定序深度进行归一化。9.如权利要求1所述的方法,其特征在于:所述方法还包含:使用p值过滤为每个训练样品过滤多个cfdna片段的初始集,以生成多个异常片段的集,所述过滤包括从所述初始集中移除相对于其他多个片段具有低于一阈值p值的多个片段,以产生多个异常片段的集。10.如权利要求1所述的方法,其特征在于:所述训练模型是神经网络算法、支持向量机算法、朴素贝叶斯算法、最邻近搜索算法、提升树算法、随机森林算法、决策树算法、多分类逻辑回归算法、线性模型或是线性回归算法。11.一种系统,其特征在于,所述系统包含:一计算机处理器;以及一非暂时性计算机可读存储介质,用于存储多个指令,当所述计算机处理器执行所述多个指令时,使所述处理器执行如权利要求1至10中任一项所述的方法。12.一种检测癌症的方法,其特征在于,所述方法包含:接收包括多个异常cfdna片段的一测试样品的定序数据;基于所述测试样品的所述多个异常cfdna片段生成一测试特征向量;以及将所述测试特征向量输入一分类模型,以生成所述测试样品的一癌症预测,其中所述分类模型通过以下方式来被训练:接收多个训练样品的定序数据,每个训练样品被标记为癌症及非癌症中的一个,并且每个训练样品包括多个异常cfdna片段;对被标记为癌症的一第一训练样品以及被标记为非癌症的一第二训练样品进行抽样;通过对来自所述第一训练样品的多个异常cfdna片段的一第一子集以及来自所述第二训练样品的多个异常cfdna片段的一第二子集进行抽样,来生成一第一合成训练样品,所述第一合成训练样品被标记为癌症;基于每个训练样品的所述多个异常cfdna片段来为包括所述第一合成训练样品的所述多个训练样品中的每一个生成一特征向量;以及使用多个所述特征向量以及包括所述第一合成训练样品的所述多个训练样品的多个所述标记来训练所述模型。13.如权利要求12所述的方法,其特征在于:所述癌症预测是癌症与非癌症之间的二元预测。14.如权利要求12所述的方法,其特征在于:所述癌症预测是多个癌症类型之间的一多类癌症预测。15.如权利要求12所述的方法,其特征在于:一特征向量的每个特征对应于多个cpg位
点中的一cpg位点,并且为所述多个训练样品中的每一个生成一特征向量包括:对于每个异常cfdna片段,通过将一概率模型应用于在所述异常cfdna片段的多个cpg位点处的多个甲基化状态,来确定所述异常cfdna片段源自一癌症生物样品的一似然;以及根据与所述特征对应的所述cpg位点重叠并且具有高于一阈值似然的一似然的多个异常cfdna片段的一计数,来确定所述特征向量的每个特征。16.如权利要求15所述的方法,其特征在于:每个特征向量根据所述训练样品的一定序深度进行归一化。17.如权利要求12所述的方法,其特征在于:所述分类模型进一步通过以下方式来被训练:使用p值过滤为每个训练样品过滤多个cfdna片段的初始集,以生成多个异常片段的集,所述过滤包括从所述初始集中移除相对于其他多个片段具有低于一阈值p值的多个片段,以产生多个异常片段的集。18.一种系统,其特征在于,所述系统包含:一计算机处理器;以及一非暂时性计算机可读存储介质,用于存储多个指令,当所述计算机处理器执行所述多个指令时,使所述处理器执行如权利要求12至17中任一项所述的方法。
技术总结
公开了多种用于检测癌症及/或确定癌症起源组织的方法及系统。公开了一种多类癌症分类器,所述多类癌症分类器通过含有多个cfDA片段的多个生物样品以及从所述多个生物样品产生的至少一合成训练样品来被训练。分析系统通过从被标记为癌症的一训练样品中抽样多个片段以及从另一个被标记为非癌症的训练样品中抽样多个片段来生成合成训练样品。抽样概率是基于所述癌症分类器的检测的一限度来被确定的,例如,以便生成具有接近检测的限度的癌症肿瘤分数的合成训练样品。肿瘤分数的合成训练样品。肿瘤分数的合成训练样品。
