本文作者:kaifamei

评估核酸的方法和材料

更新时间:2025-12-21 05:41:00 0条评论

评估核酸的方法和材料


评估核酸的方法和材料
1.本技术要求于2020年2月14日提交的美国临时申请系列号62/977,066的优先权,其全部内容通过引用方式纳入本文。
2.关于联邦资金的声明
3.本发明是在政府支持下由国家卫生研究院(national institutes of health)授予的基金号ca062924、ca152753和ca230691资助完成。政府对本发明享有一定的权利。
技术领域
4.本发明涉及核苷酸测序领域。具体地,其涉及用于鉴定突变的测序文库制备和测序工作流程。


背景技术:



5.罕见突变的鉴定在基础生物学方面以及改善患者的临床管理方面很有用。使用领域包括传染病、免疫组库分析、古遗传学、法医学、衰老、非侵入性产前检测和癌症。下一代测序(ngs)技术在理论上适用于该应用,并且存在用于检测罕见突变的多种ngs方法。然而,对于传统的ngs方法,测序本身的错误率过高,无法可靠地检测突变,尤其是原始样品中低频存在的那些突变。
6.分子条形码对原始模板分子加标签的应用旨在克服检测罕见突变的各种障碍。使用分子条形码,对每个带标签分子的pcr产生的后代进行冗余测序,并且容易识别测序错误(kinde等,proc natl acad sci u s a 108:9530-9535(2011))。例如,如果条形码模板分子的后代的给定阈值包含相同的突变,则该突变被认为是真实的(“超突变体”)。如果小于后代的给定阈值包含感兴趣的突变,则该突变被认为是伪影。已经描述了两种类型的分子条形码:外源性和内源性。外源性条形码(本文也称为外源性uid)包含预先指定的或随机的核苷酸,并在文库制备或pcr期间是附加的。内源性条形码(本文也称为内源性uids)由待评估的模板dna的片段(例如,由dna随机剪切产生的片段或无细胞流体生物样品中存在的片段)的5'和3'端的序列形成。这样的条形码已被证明可用于将扩增子追溯到原始起始模板,从而允许进行分子计数并改进临床相关样品中真实突变的鉴别。
7.已经开发了用于双端测序的分叉衔接子以实现“双链体测序”,其中原始dna双链体的两条链(watson和crick)中的每一条都可以通过测序时显示的5'到3'方向性来辨别。双链体测序减少了测序错误,因为如果在文库制备或测序期间错误地产生了相同的突变,则两条dna链将极不可能包含相同的突变。
8.然而,存在许多问题限制了分子条码化的应用范围和临床适用性。例如,将大部分初始模板分子转化为各链上具有相同条形码的双链体分子是一项挑战(schmitt等,proc natl acad sci u s a 109:14508-14513(2012);schmitt等,nat methods 12:423-425(2015);和newman等,nat biotechnol 34:547-555(2016))。当初始dna的量有限(例如《33ng)时,这个问题尤其突显,例如在通常用于液体活检物的无细胞血浆dna中所见那样。
9.靶向测序文库的制备通常涉及测序模板的衔接子连接、文库的扩增和杂交捕获以
富集用于感兴趣的靶标的文库。虽然对于富集大的感兴趣区域有效,但杂交捕获无法很好地扩展到小靶区域(springer等,elife 7:doi:10.7554/elife.32143(2018))并且表现出较差的双链体回收(duplex recovery)(wang等,proc natl acad sci u s a 112:9704-9709(2015);和wang等,elife 5:doi:10.7554/elife.15175(2016))。连续几轮捕获可以部分克服这些限制,但即使有了这样的改进,双链体回收率通常为约1%。crispr-ds可以实现高达15%的回收率,但不适用于无细胞dna。当靶区域非常小(例如特别感兴趣的基因组中一个或几个位置,例如血浆中疾病监测所需的那样),或可用的dna量有限(例如《33ng,通常见于血浆中),基于捕获的方法是次优的。
10.因此,需要改进测序文库制备和工作流程,以能够准确鉴别临床相关样品如液体活检样品中的突变,例如罕见突变。


技术实现要素:



11.通过提供对两条模板链进行等同条码化的方法,且通过提供一种不需要杂交捕获的基于pcr的富集各链的方法,本文提供了解决这些问题的方法和材料。
12.本文涉及可用于检测在双链核酸(例如,dna)的两条链上是否均存在的一个或多个突变的方法和材料。在一些情况下,用于检测双链核酸的两条链上均存在的一个或多个突变的方法可以包括:生成双链体测序文库,其在该文库的各核酸的各端(例如,5'端和3'端)上具有双链体分子条形码,从双链体测序文库产生单链watson链衍生序列文库和单链crick链衍生序列文库,和,在各单链文库中检测双链核酸的两条链上是否均存在一个或多个突变。
13.如本文所证明的,对应于双链核酸模板的watson链的单链dna文库和对应于双链核酸模板的crick链的单链dna文库可以从纳入双链体分子条形码的测序文库中产生,各单链dna文库可采用链特异性锚定pcr方法对靶区域进行富集,并且靶区域可经测序以检测核酸靶区域内的一个或多个突变的存在与否。例如,本文所述的可用于检测双链核酸的两条链上是否均存在一个或多个突变的方法和材料可称为序列确定无错测序系统(saferseqs),并且可以包括例如这样的文库构建,采用原位生成双链体分子条形码(参见例如图22a),经锚定pcr的靶标富集(参见例如图22b),和模板分子的计算机重建(参见例如图22c)。可以通过要求在相同初始核酸分子的两条链上都发现变化来鉴定原始起始模板中存在的真突变(bona fide mutations)。
14.能够检测双链核酸的两条链上均存在的一个或多个突变(例如,真正的体细胞突变)提供了以可承受的成本同时准确和有效地评估多个突变的独特且尚未实现的机会。使用本文所述的方法和材料来检测双链核酸的两条链上均存在的一个或多个突变的存在(例如,saferseqs方法)可允许以高置信度鉴定罕见突变,同时最小化dna损伤的量,要进行的pcr的数量,和/或dna损伤伪影的数量。注意,术语“watson链”和“crick链”仅用于区分双链起始核酸序列的两条链。任何一条链都可以表示为“watson”或“crick”,然后另一条链用另一个名称表示。
15.在一些实施方式中,本文提供的方法包括:a)形成反应混合物,其包含:i)去磷酸化和钝端的多个双链dna片段,其中各双链dna片段包含watson和crick链;ii)多个衔接子,其中各衔接子在5'到3'方向上包含:a)条形码,和b)通用3'衔接子序列;和iii)连接酶;和
b)孵育反应混合物,从而使得:i)衔接子被连接至watson和crick链的3'端,并且ii)衔接子不被连接至watson或crick链的5'端,由此产生双链连接产物。
16.在某些实施方式中,多个衔接子中的各衔接子都包含独特的条形码。在进一步的实施方式中,双链连接产物各自包含仅具有一个条形码的watson链和仅具有一个不同于watson链上的条形码的条形码的crick链。在进一步的实施方式中,所述方法还包括以下步骤:c)对至少部分双链连接产物进行测序。
17.在具体实施方式中,本文提供的方法包括:a)将部分双链3'衔接子(3'pdsa)连接至分析物dna样品中双链dna片段的watson和crick链两者的3'末端,其中3'pdsa的第一链在5'至3'方向上包含(i)第一区段,(ii)外源uid序列,(iii)5'衔接子的退火位点,和(iv)包含r2测序引物位点的通用3'衔接子序列,并且其中3'pdsa的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和任选地(ii)3'封闭基团,b)将5'衔接子退火至退火位点,其中5'衔接子在5'至3'方向上包含(i)通用5'衔接子序列,其不与通用3'衔接子序列互补且包含r1测序引物位点,和(ii)与5'衔接子的退火位点互补的序列;c)将5'衔接子延伸贯穿外源uid序列和第一区段,由此产生外源uid序列的互补序列和第一区段的互补序列,和d)将第一区段的互补序列的3'端共价连接至双链dna片段的watson和crick链的5'端,由此产生多个衔接子连接的双链dna片段。
18.在一些实施方式中,本文提供的方法包括:a)将部分双链3'衔接子(3'pdsa)连接至分析物dna样品中双链dna片段的watson和crick链两者的3'末端,其中3'pdsa的第一链在5'至3'方向上包含(i)第一区段,(ii)外源uid序列,(iii)5'衔接子的退火位点,和(iv)包含r2测序引物位点的通用3'衔接子序列,并且其中3'pdsa的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和任选地(ii)3'封闭基团,b)将5'衔接子退火至退火位点,其中5'衔接子在5'至3'方向上包含(i)通用5'衔接子序列,其不与通用3'衔接子序列互补且包含r1测序引物位点,和(ii)与5'衔接子的退火位点互补的序列;c)将5'衔接子延伸贯穿外源uid序列,由此产生外源uid序列的互补序列,和d)将外源uid序列的互补序列的3'端共价连接至与双链dna区段的watson和crick链各自的第一区段互补的区段的5'端,由此产生多个衔接子连接的双链dna片段。
19.在一些实施方式中,本文提供的方法包括:a)将部分双链3'衔接子(3'pdsa)连接至分析物dna样品中双链dna片段的watson和crick链两者的3'末端,其中3'pdsa的第一链在5'至3'方向上包含(i)第一区段,(ii)外源uid序列,(iii)5'衔接子的退火位点,和(iv)包含r2测序引物位点的通用3'衔接子序列,并且其中3'pdsa的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和任选地(ii)3'封闭基团,b)将5'衔接子退火至退火位点,其中5'衔接子在5'至3'方向上包含(i)通用5'衔接子序列,其不与通用3'衔接子序列互补且包含r1测序引物位点,和(ii)与5'衔接子的退火位点互补的序列;c)将5'衔接子延伸贯穿3'pdsa的外源uid序列和第一区段,由此产生3'pdsa的外源uid序列的互补序列和第一区段的互补序列,和d)将3'pdsa的第一区段的互补序列的3'端共价连接至双链dna片段的watson和crick链的5'端,由此产生多个衔接子连接的双链dna片段。
20.在一些实施方式中,本文提供的系统和试剂盒和组合物包含:a)部分双链3'衔接子(3'pdsa),其被设置为连接至双链dna片段的watson和crick链两者的3'端,其中3'pdsa的第一链在5'至3'方向上包含(i)第一区段,(ii)外源uid序列,(iii)5'衔接子的退火
位点,和(iv)包含r2测序引物位点的通用3'衔接子序列,并且其中3'pdsa的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和(ii)3'封闭基团;和b)设置为退火至退火位点的5'衔接子,其中5'衔接子在5'到3'方向上包含(i)通用5'衔接子序列,其不与通用3'衔接子序列互补且包含r1测序引物位点,和(ii)与3'衔接子的退火位点互补的序列。
21.在进一步的实施方式中,系统、试剂盒和组合物还包含:c)来自生物样品的双链dna片段,和/或c)用于降解3'pdsa的第二链以产生单链3'衔接子(3'ssa)的试剂;和/或c)与通用3'衔接子序列互补的第一引物,和与通用5'衔接子序列的互补序列互补的第二引物;和/或c)测序系统;和/或c)与通用3'衔接子序列互补(complimentary)的watson锚定引物,和d)与通用5'衔接子序列的互补序列互补的crick锚定引物;和/或c)第一组watson靶标选择性引物对,其包含(i)一个或多个第一watson靶标选择性引物,其包含与通用3'衔接子序列的部分互补的序列,和(ii)一个或多个第二watson靶标选择性引物,所述一个或多个第二watson靶标选择性引物各自包含靶标选择性序列;和/或c)第一组crick靶标选择性引物对,其包含(i)一个或多个crick靶标选择性引物,其包含与通用5'衔接子序列的部分互补的序列,和(ii)一个或多个第二crick靶标选择性引物,所述一个或多个第二crick靶标选择性引物各自与第二watson靶标选择性引物序列包含相同的靶标选择性序列。
22.在一些实施方式中,所述方法还包括:用与通用3'衔接子序列互补的第一引物和与通用5'衔接子序列的互补序列互补的第二引物扩增多个衔接子连接的双链dna片段,由此产生扩增子,其中所述扩增子包含多个双链watson模板和多个双链crick模板。在某些实施方式中,所述方法还包括:用第一组watson靶标选择性引物对选择性扩增所述双链watson模板,所述第一组watson靶标选择性引物对包含:(i)第一watson靶标选择性引物,其包含与通用3'衔接子序列的部分互补的序列,和(ii)第二watson靶标选择性引物,其包含靶标选择性序列,由此产生靶标watson扩增产物。在进一步的实施方式中,所述方法还包括:用第一组crick靶标选择性引物对选择性地扩增所述双链crick模板,所述第一组crick靶标选择性引物对包含:(i)第一crick靶标选择性引物,其包含与通用5'衔接子序列的部分的互补序列互补的序列,和(ii)第二crick靶标选择性引物,其与第二watson靶标选择性引物序列包含相同的靶标选择性序列,由此产生靶标crick扩增产物。在某些实施方式中,在连接任何衔接子之前,将双链dna片段与尿嘧啶-dna糖基化酶和dna糖基化酶-裂解酶核酸内切酶viii的混合物一起孵育。
23.在一些实施方式中,所用的聚合酶(例如,用于延伸5'衔接子序列)具有5'至3'核酸外切酶活性(例如,其可以消化3'pdsa的第二链)。在其它实施方式中,所用的聚合酶(例如,用于延伸5'衔接子序列)不具有5'至3'核酸外切酶活性。
24.在其它实施方式中,所述方法还包括:去除3'pdsa的第二链以产生单链3'衔接子(3'ssa)。在其它实施方式中,其中去除第二链发生在步骤b)之后,或步骤b)之前,或步骤b)期间。在一些实施方式中,去除3'pdsa的第二链包括使3'双链体衔接子与尿嘧啶-dna糖基化酶(udg)接触以降解第二链。在进一步的实施方式中,去除第二链是通过具有核酸外切酶活性的聚合酶完成的,其中聚合酶将5'衔接子延伸贯穿外源性uid序列和第一区段。
25.在进一步的实施方式中,所述方法还包括:确定一种或多种扩增子的序列读数。在其它实施方式中,所述方法还包括:将序列读数分配到uid家族中,其中uid家族的各成员包含相同的外源性uid序列。在特定实施方式中,所述方法还包括:基于外源性uid序列与r1和
r2读数序列的空间关系,将各uid家族的序列读数分配到watson亚家族和crick亚家族。在其它实施方式中,所述方法还包括:当至少50%(例如,50...75...95%)的watson亚家族包含该序列时,将核苷酸序列鉴定为准确地代表分析物dna片段的watson链。在其它实施方式中,所述方法还包括:当至少50%(例如,50...75...90%)的crick亚家族包含该序列时,将核苷酸序列鉴定为准确地代表分析物dna片段的crick链。
26.在一些实施方式中,所述方法还包括:当准确代表watson链的序列与缺乏突变的参考序列不同时,将核苷酸序列中的突变鉴定为准确地代表watson链。在其它实施方式中,所述方法还包括:当准确代表crick链的序列与缺乏突变的参考序列不同时,将核苷酸序列中的突变鉴定为准确地代表crick链。在其它实施方式中,所述方法还包括:当准确代表watson链的核苷酸序列中的突变和准确代表crick链的核苷酸序列中的突变为相同突变时,鉴定分析物dna片段中的突变。在一些实施方式中,uid家族的各成员还包含相同的内源性uid序列,其中内源性uid序列包含来自该的双链dna片段的末端。在其它实施方式中,双链dna片段具有钝端。
27.本文提供了用于检测从哺乳动物样品获得的双链dna模板的靶区域中突变存在与否,以及确定该突变是否均存在于双链dna模板的两条链上的方法,其中所述方法包括:a)产生双链dna片段,其各自在双链dna片段的各端具有双链体分子条形码;b)扩增在双链dna片段的各端包含双链体分子条形码的双链dna片段以产生扩增的双链体测序文库,其中所述扩增包括在全基因组pcr条件下,使在双链dna片段各端上包含双链分子表形码的双链dna片段与通用引物对接触;c)任选地,从扩增的双链体测序文库生成watson链的单链dna文库;d)任选地,从扩增的双链体测序文库中产生crick链的单链dna文库;e)使用由能够与靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物组成的引物对,扩增watson链的dna文库(例如,单链dna文库)的靶区域;f)使用由能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物组成的引物对,扩增crick链的dna文库(例如,单链dna文库)的靶区域;g)对从watson链的dna文库(例如,单链dna文库)(例如,dna文库(例如,单链dna文库))扩增的靶区域进行测序,以产生测序读数并检测靶区域的watson链中突变的存在与否;h)对从crick链的dna文库(例如,单链dna文库)(例如,单链dna文库(例如,单链dna文库))扩增的靶区域进行测序,以产生测序读数并检测靶区域的crick链中突变的存在与否;和i)通过各测序读数中存在的分子条形码对测序读数进行分组,以确定突变是否均存在于双链dna模板的两条链上。在一些实施方式中,产生各自在双链dna片段的各端都具有双链体分子条形码的双链dna片段包括:i)将3'双链体衔接子连接至从双链dna模板获得的双链dna片段的各3'端,其中3'双链体衔接子包含a)包含5'磷酸的第一寡核苷酸、第一分子条形码,和3'寡核苷酸,其退火至b)含有可降解3'封闭基团的第二寡核苷酸,其中3'寡核苷酸和第二寡核苷酸序列是互补的;ii)降解可降解的3'封闭基团;iii)将5'衔接子连接至从双链dna模板获得的双链dna片段的各去磷酸化5'端,其中5'双链体衔接子包含含有第二分子条形码的寡核苷酸,其中第二分子条形码不同于第一分子条形码,其中5'衔接子被连接至第一分子条形码上游的双链dna片段上,并留下双链dna片段的5'端和5'衔接子之间的单链核酸缺口;和iv)填充双链dna片段5'端和5'衔接子之间的单链核酸缺口,以产生双链dna片段,该双链dna片段在双链dna片段的各端包含双链体分子条形码。在一些实施方式中,从扩增的双链体测序文库产生watson链的dna文库(例如,单链dna文库)(例如,dna文库
(例如,单链dna文库))包括:i)使用由第一引物和第二引物组成的引物对,扩增扩增的双链体测序文库的第一等分部分(aliquot),其中第一引物能够杂交至watson链,且其中第一引物包含标签,以产生具有带标签的watson链的双链扩增产物;ii)使具有带标签的watson链的双链扩增产物变性,以产生单链带标签watson链和单链crick链;和iii)回收单链带标签watson链,以从扩增的双链体测序文库产生watson链的dna文库(例如,单链dna文库)。
28.在一些实施方式中,双链dna模板获自哺乳动物的样品,从扩增的双链体测序文库产生crick链的dna文库(例如,单链dna文库)包括:i)使用由第一引物和第二引物组成的引物对,扩增扩增的双链体测序文库的第二等分部分,其中第一引物能够与crick链杂交,并且其中第一引物包含标签,以产生具有带标签crick链的双链扩增产物;ii)使具有带标签crick链的双链扩增产物变性,以产生单链带标签crick链和单链watson链;和iii)回收单链带标签crick链,以从扩增的双链体测序文库产生crick链的dna文库(例如,单链dna文库)。在一些实施方式中,哺乳动物是人。
29.在一些实施方式中,所述方法还包括,在产生在双链dna片段各端具有双链体分子条形码的双链dna片段之前:将双链dna片段化,以产生双链dna片段;使双链dna片段的5'端去磷酸化;和使双链dna片段的末端钝化。在一些实施方式中,将3'双链体衔接子连接至从双链dna模板获得的双链dna片段的各3'端包括:在连接酶的存在下,使3'双链体衔接子和从双链dna模板获得的双链dna片段接触。在一些实施方式中,连接酶是t4 dna连接酶。
30.在一些实施方式中,降解可降解的3'封闭基团包括:使3'双链体衔接子与尿嘧啶-dna糖基化酶(udg)接触。在一些实施方式中,将5'衔接子连接至从双链dna模板获得的双链dna片段的各去磷酸化5'端包括:在连接酶的存在下,使5'衔接子和从双链dna模板获得的双链dna片段接触。在一些实施方式中,连接酶是大肠杆菌(escherichia coli)连接酶。
31.在一些实施方式中,填充双链dna片段的5'端和5'衔接子之间的单链核酸缺口包括:在聚合酶和dntp的存在下,使双链dna片段的5'端和5'衔接子接触。在一些实施方式中,聚合酶是taq聚合酶。
32.在一些实施方式中,将5'衔接子连接至双链dna片段的各5'端和填充双链dna片段的5'端和5'衔接子之间的缺口同时进行。在一些实施方式中,扩增在双链dna片段各端包含双链体分子条形码的双链dna片段以产生扩增的双链体测序文库包括:在pcr条件下,使在双链dna片段各端包含双链体分子条形码的双链dna片段与通用引物对接触。在一些实施方式中,扩增包括全基因组pcr。在一些实施方式中,带标签引物是生物素化的引物,并且其中生物素化的引物可以产生生物素化单链watson链和生物素化单链crick链。在一些实施方式中,变性步骤包括naoh变性、热变性或两者的组合。
33.在一些实施方式中,回收步骤包括使带标签watson链与链霉亲和素功能化珠接触,并且使带标签crick链与链霉亲和素功能化珠接触。在一些实施方式中,回收步骤还包括使未带标签watson链变性和使未带标签watson链变性。在一些实施方式中,回收步骤还包括从链霉亲和素功能化珠释放生物素化单链watson链和从链霉亲和素功能化珠释放生物素化单链crick链。在一些实施方式中,带标签引物是磷酸化引物,并且磷酸化引物可产生磷酸化单链watson链和磷酸化单链crick链。在一些实施方式中,变性步骤包括λ核酸外切酶消化。
34.在一些实施方式中,从watson链的dna文库(例如,单链dna文库)扩增靶区域还包
括:使用第二引物对进行的第二扩增,所述第二引物对由能够与靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物组成;并且其中,从crick链的dna文库(例如,单链dna文库)扩增靶区域还包括:使用第二引物对进行第二扩增,所述第二引物对由能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物组成。在一些实施方式中,测序步骤包括双端测序。
35.本文还提供了用于检测从哺乳动物样品获得的双链dna模板的靶区域中突变存在与否,以及确定该突变是否均存在于双链dna模板的两条链上的方法,其中所述方法包括:a)产生双链dna片段,其各自在双链dna片段的各端具有双链体分子条形码;b)从在双链dna片段各端具有双链体分子条形码的双链dna片段产生来自扩增的双链体测序文库的watson链的dna文库(例如,单链dna文库)和crick链的dna文库(例如,单链dna文库);c)使用引物对从单链watson链扩增靶区域,所述引物对由能够与靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物组成;d)使用引物对从单链crick链扩增靶区域,所述引物对由能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物组成;e)对从watson链的dna文库(例如,单链dna文库)扩增的靶区域进行测序,以产生测序读数并检测靶区域的watson链中突变的存在与否;f)对从crick链的dna文库(例如,单链dna文库)扩增的靶区域进行测序,以产生测序读数并检测靶区域的crick链中突变的存在与否;和g)通过各测序读数中存在的分子条形码对测序读数进行分组,以确定突变是否均存在于双链dna模板的两条链上。
36.在一些实施方式中,双链dna模板是基因组dna样品,并且产生各自在双链dna片段各端具有双链体分子条形码的双链dna片段包括:i)将3'双链体衔接子连接至从双链dna模板获得的双链dna片段的各3'端,其中3'双链体衔接子包含a)第一寡核苷酸,其包含5'磷酸,第一分子条形码,和3'寡核苷酸,其退火至b)第二寡核苷酸,其包含可降解的3'封闭基团,其中3'寡核苷酸与第二寡核苷酸序列互补;ii)降解可降解的3'封闭基团;iii)将5'衔接子连接至从双链dna模板获得的双链dna片段的各去磷酸化5'末端,其中5'双链体衔接子包含含有第二分子条形码的寡核苷酸,其中第二分子条形码不同于第一分子条形码,其中5'衔接子连接在第一分子条形码上游的双链dna片段上,并在双链dna片段的5'端和5'衔接子之间留下单链核酸的缺口;和iv)填充双链dna片段5'端与5'衔接子之间的单链核酸的缺口,以产生双链dna片段,其在双链dna片段各端包含双链体分子条形码。
37.在一些实施方式中,双链dna模板是无细胞dna样品,并且从在双链dna片段各端具有双链体分子条形码的双链dna片段产生来自扩增的双链体测序文库的watson链的dna文库(例如,单链dna文库)和crick链的dna文库(例如,单链dna文库)包括:i)使用由第一引物和第二引物组成的通用引物对扩增在双链dna片段各端具有双链体分子条形码的双链dna片段,其中所述扩增包括:在全基因组pcr条件下,使在双链dna片段各端包含双链体分子条形码的双链dna片段与引物对接触,其中第一引物能够与watson链杂交,并且其中第一引物是生物素化的,以产生具有生物素化watson链的双链扩增产物;ii)在其中生物素化watson链与链霉亲和素功能化珠结合的条件下,使具有生物素化watson链的双链扩增产物与链霉亲和素功能化珠接触;iii)使具有生物素化watson链的双链扩增产物变性,以留下与链霉亲和素功能化珠结合的单链生物素化watson链并释放单链crick链;iv)收集单链crick链;v)从链霉亲和素功能化珠释放单链生物素化watson链;和vi)收集单链生物素化watson链。
38.在一些实施方式中,双链dna模板获自哺乳动物样品。在一些实施方式中,哺乳动物为人。
39.在一些实施方式中,所述方法还包括,在产生在双链dna片段各端具有双链体分子条形码的双链dna片段之前:将双链dna片段化,以产生双链dna片段;使双链dna片段的5'端去磷酸化;和使双链dna片段的末端钝化。
40.在一些实施方式中,将3'双链体衔接子连接至从双链dna模板获得的双链dna片段的各3'端包括:在连接酶的存在下,使3'双链体衔接子和从双链dna模板获得的双链dna片段接触。在一些实施方式中,连接酶是t4 dna连接酶。在一些实施方式中,可降解的3'封闭基团包括:使3'双链体衔接子与尿嘧啶-dna糖基化酶(udg)接触。在一些实施方式中,将5'衔接子连接至从双链dna模板获得的双链dna片段的各去磷酸化5'端包括:在连接酶的存在下,使5'衔接子和从双链dna模板获得的双链dna片段接触。在一些实施方式中,连接酶是大肠杆菌(escherichia coli)连接酶。
41.在一些实施方式中,填充双链dna片段的5'端和5'衔接子之间的单链核酸缺口包括:在聚合酶和dntp的存在下,使双链dna片段的5'端和5'衔接子接触。在一些实施方式中,聚合酶是taq-b聚合酶。在一些实施方式中,将5'衔接子连接至双链dna片段的各5'端和填充双链dna片段的5'端和5'衔接子之间的缺口同时进行。
42.在一些实施方式中,扩增在双链dna片段各端具有双链体分子条形码的双链dna片段包括:在pcr条件下,使在双链dna片段各端包含双链体分子条形码的双链dna片段与引物对接触。在一些实施方式中,扩增包括全基因组pcr。在一些实施方式中,从watson链的dna文库(例如,单链dna文库)扩增靶区域还包括:使用第二引物对进行的第二扩增,所述第二引物对由能够与靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物组成;并且其中,从crick链的dna文库(例如,单链dna文库)扩增靶区域还包括:使用第二引物对进行第二扩增,所述第二引物对由能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物组成。在一些实施方式中,测序步骤包括双端测序或单端测序。
43.本文还提供了用于检测从哺乳动物样品获得的双链dna模板的靶区域中突变的存在与否,以及确定该突变是否均存在于双链dna模板的两条链上的方法,其中所述方法包括:a)产生双链dna片段,其各自在双链dna片段各端具有双链体分子条形码;b)使用通用引物对,扩增在双链dna片段各端均具有双链体分子条形码的双链dna片段,其中所述扩增包括在全基因组pcr条件下,使在双链dna片段各端包含双链体分子条形码的双链dna片段接触引物对;c)使用引物对,从各自在双链dna片段各端具有双链体分子条形码的扩增的双链dna片段的watson链扩增靶区域,所述引物对由能够与靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物组成;d)使用引物对,从各自在双链dna片段各端具有双链体分子条形码的扩增的双链dna片段的crick链扩增靶区域,所述引物对由能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物组成;e)对从watson链扩增的靶区域进行测序,以产生测序读数并检测靶区域的watson链中突变的存在与否;f)对从crick链扩增的靶区域进行测序,以产生测序读数并检测靶区域的crick链中突变的存在与否;g)通过各测序读数中存在的分子条形码对测序读数进行分组,以确定突变是否均存在于双链dna模板的两条链上。
44.在一些实施方式中,双链dna模板是基因组dna样品,并且产生各自在双链dna片段
各端具有双链体分子条形码的双链dna片段包括:i)将3'双链体衔接子连接至从双链dna模板获得的双链dna片段的各3'端,其中3'双链体衔接子包含a)第一寡核苷酸,其包含5'磷酸,第一分子条形码,和3'寡核苷酸,其退火至b)第二寡核苷酸,其包含可降解的3'封闭基团,其中3'寡核苷酸与第二寡核苷酸序列互补;ii)降解可降解的3'封闭基团;iii)将5'衔接子连接至从双链dna模板获得的双链dna片段的各去磷酸化5'末端,其中5'双链体衔接子包含含有第二分子条形码的寡核苷酸,其中第二分子条形码不同于第一分子条形码,其中5'衔接子连接在第一分子条形码上游的双链dna片段上,并在双链dna片段的5'端和5'衔接子之间留下单链核酸的缺口;和iv)填充双链dna片段5'端与5'衔接子之间的单链核酸的缺口,以产生双链dna片段,其在双链dna片段各端包含双链体分子条形码。在一些实施方式中,双链dna模板是无细胞dna样品。在一些实施方式中,双链dna模板是基因组dna样品。在一些实施方式中,哺乳动物是人。
45.在一些实施方式中,所述方法还包括,在产生在双链dna片段各端具有双链体分子条形码的双链dna片段之前:将双链dna片段化,以产生双链dna片段;使双链dna片段的5'端去磷酸化;和使双链dna片段的末端钝化。
46.在一些实施方式中,将3'双链体衔接子连接至从双链dna模板获得的双链dna片段的各3'端包括:在连接酶的存在下,使3'双链体衔接子和从双链dna模板获得的双链dna片段接触。在一些实施方式中,连接酶是t4 dna连接酶。在一些实施方式中,降解可降解的3'封闭基团包括:使3'双链体衔接子与尿嘧啶-dna糖基化酶(udg)接触。在一些实施方式中,将5'衔接子连接至从双链dna模板获得的双链dna片段的各去磷酸化5'端包括:在连接酶的存在下,使5'衔接子和从双链dna模板获得的双链dna片段接触。在一些实施方式中,连接酶是大肠杆菌(escherichia coli)连接酶。
47.在一些实施方式中,填充双链dna片段的5'端和5'衔接子之间的单链核酸缺口包括:在dna聚合酶和dntp的存在下,使双链dna片段的5'端和5'衔接子接触。在一些实施方式中,dna聚合酶是taq-b聚合酶。
48.在一些实施方式中,将5'衔接子连接至双链dna片段的各5'端和填充双链dna片段的5'端和5'衔接子之间的缺口同时进行。在一些实施方式中,扩增在双链dna片段各端具有双链体分子条形码的双链dna片段包括:在pcr条件下,使在双链dna片段各端包含双链体分子条形码的双链dna片段与引物对接触。在一些实施方式中,扩增包括全基因组pcr。在一些实施方式中,从watson链的dna文库(例如,单链dna文库)扩增靶区域还包括:使用第二引物进行的第二扩增,所述第二引物对由能够与靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物组成;并且其中,从crick链的dna文库(例如,单链dna文库)扩增靶区域还包括:使用第二引物对进行第二扩增,所述第二引物对由能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物组成。在一些实施方式中,测序步骤包括双端测序。
49.本文还提供了方法,包括:
50.a.使部分双链3'衔接子连接至分析物dna样品中双链dna片段的watson和crick链两者的3'端,其中部分双链3'衔接子的第一链在5'至3'方向上包含,(i)第一段,(ii)外源性uid序列,(iii)5'衔接子的退火位点,和(iv)通用3'衔接子序列,其包含r2测序引物位点,并且其中所述部分双链3'衔接子的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和(ii)3'封闭基团,任选地其中所述第二链可降解;
51.b.通过退火位点使5'衔接子退火至3'衔接子,其中5'衔接子在5'到3'方向上包含:(i)通用5'衔接子序列,其不与通用3'衔接子序列互补,并且包含r1测序引物位点,和(ii)与5'衔接子的退火位点互补的序列;
52.c.进行切口(nick)平移样反应以使5'衔接子延伸贯穿3'衔接子的外源性uid序列(例如,使用dna聚合酶),并将延伸的5'衔接子共价连接至双链dna片段的watson和crick链的5'端(例如,使用连接酶);
53.d.进行初始扩增,以扩增衔接子连接的双链dna片段,以产生扩增子;
54.e.确定一个或多个衔接子连接的双链dna片段的一个或多个扩增子的序列读数;
55.f.将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;
56.g.根据外源性uid序列与r1和r2读数序列的空间关系,将各uid家族的序列读数分配到watson亚家族和crick亚家族;
57.h.当阈值百分数的watson亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的watson链;
58.i.当阈值百分数的crick亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的crick链;
59.j.当准确代表watson链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表watson链的序列中的突变;
60.k.当准确代表crick链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表crick链的序列中的突变;和
61.l.当准确代表watson链的核苷酸序列中的突变和准确代表crick链的核苷酸序列中的突变为相同突变时,鉴定分析物dna片段中的突变。
62.在一些实施方式中,uid家族的各成员还包含相同的内源性uid序列,其中内源性uid序列包含来自该的双链dna片段的末端。在一些实施方式中,包含双链dna片段的末端的内源性uid序列包含至少8、10或15个碱基。在一些实施方式中,外源性uid序列对于各双链dna片段是独特的。在一些实施方式中,外源性uid序列对于各双链dna片段不是独特的。在一些实施方式中,uid家族的各成员包含相同的内源性uid序列和相同的外源性uid序列。在一些实施方式中,步骤(d)包括不多于11个循环的pcr扩增。在一些实施方式中,步骤(d)包括不多于7个循环的pcr扩增。在一些实施方式中,步骤(d)包括不多于5个循环的pcr扩增。在一些实施方式中,步骤(d)包括至少1个循环的pcr扩增。
63.在一些实施方式中,在确定序列读数之前,针对一种或多种靶多核苷酸富集扩增子。在一些实施方式中,富集包括:
64.a.用第一组watson靶标选择性引物对选择性扩增包含靶多核苷酸序列的watson链的扩增子,第一组watson靶标选择性引物对包含:(i)第一watson靶标选择性引物,其含有与通用3'衔接子序列的部分互补的序列,任选地其中通用3'衔接子序列的部分是通用3'衔接子序列的r2测序引物位点,和(ii)第二watson靶标选择性引物,其含有靶标选择性序列,由此产生靶标watson扩增产物;和
65.b.用第一组crick靶标选择性引物对选择性扩增包含相同靶多核苷酸序列的crick链的扩增子,第一组crick靶标选择性引物对包含:(i)第一crick靶标选择性引物,其含有与通用5'衔接子序列的部分互补的序列,任选地其中通用5'衔接子序列的部分是通用
5'衔接子序列的r1测序引物位点,和(ii)第二crick靶标选择性引物,其与第二watson靶标选择性引物序列含有相同的靶标选择性序列,由此产生靶标crick扩增产物。
66.在一些实施方式中,所述方法还包括从非靶标多核苷酸纯化靶标watson扩增产物和靶标crick扩增产物。在一些实施方式中,所述方法还包括纯化,包括将靶标watson扩增产物和靶标crick扩增产物连接至固体支持物。在一些实施方式中,第一watson靶标选择性引物和第一crick靶标选择性引物包含亲和结合对的第一成员,并且其中固体支持物包含亲和结合对的第二成员。在一些实施方式中,第一成员是生物素并且第二成员是链霉亲和素。在一些实施方式中,固体支持物包括珠、孔、膜、管、柱、板、琼脂糖、磁珠或芯片。在一些实施方式中,所述方法还包括去除未连接至固体支持物的多核苷酸。
67.在一些实施方式中,所述方法还包括:
68.a.用第二组watson靶标选择性引物进一步扩增靶标watson扩增产物,第二组watson靶标选择性引物包含(i)第三watson靶标选择性引物,其含有与通用3'衔接子序列的部分互补的序列,任选地,其中通用3'衔接子序列的部分是通用3'衔接子序列的r2测序引物位点,和(ii)第四watson靶标选择性引物,其在5'至3'方向上包含:r1测序引物位点和选择性针对相同靶标多核苷酸的靶标选择性序列,由此产生靶标watson文库成员;
69.b.用第二组crick靶标选择性引物进一步扩增靶标crick扩增产物,第二组crick靶标选择性引物包含(i)第三crick靶标选择性引物,其含有与通用5'衔接子序列的部分互补的序列,任选地,其中通用5'衔接子序列的部分是通用5'衔接子序列的r1测序引物位点,和(ii)第四crick靶标选择性引物,其在5'至3'方向上包含:r2测序引物位点和选择性针对第四watson靶标选择性引物的相同靶标多核苷酸的靶标选择性序列,由此产生靶标crick文库成员。
70.在一些实施方式中,第三watson和crick靶标选择性引物还包含样品条形码序列。在一些实施方式中,第三watson靶标选择性引物还包含能够实现与测序仪上的第一移接引物(grafting primer)的杂交的第一移接序列,并且其中第三crick靶标选择性引物还包括能够实现与测序仪上的第二移接引物的杂交的第二移接序列。在一些实施方式中,第四watson靶标选择性引物还包含第二移接序列,并且其中第四crick靶标选择性引物还包含第一移接序列。在一些实施方式中,第一移接序列是p7序列,并且其中第二移接序列是p5序列。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表双链dna片段中靶标多核苷酸的至少50%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表双链dna片段中靶标多核苷酸的至少70%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表双链dna片段中靶标多核苷酸的至少80%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表双链dna片段中靶标多核苷酸的至少90%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表总dna片段的至少50%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表总dna片段的至少70%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表总dna片段的至少80%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表总dna片段的至少90%。
71.本文还提供了方法,包括:
72.a.将衔接子连接至分析物dna样品中的双链dna片段,其中衔接子包含双链部分
和分叉部分,所述双链部分含有外源uid,且所述分叉部分含有(i)包含r2测序引物位点的单链3'衔接子序列和(ii)包含r1测序引物位点的单链5'衔接子序列;
73.b.进行初始扩增,以扩增衔接子连接的双链dna片段,以产生扩增子;
74.c.用第一组watson靶标选择性引物对选择性扩增包含靶多核苷酸序列的watson链的扩增子,第一组watson靶标选择性引物对包含:(i)第一watson靶标选择性引物,其含有与通用3'衔接子序列的部分互补的序列,任选地其中通用3'衔接子序列的部分是通用3'衔接子序列的r2测序引物位点,和(ii)第二watson靶标选择性引物,其含有靶标选择性序列,由此产生靶标watson扩增产物;
75.d.用第一组crick靶标选择性引物对选择性扩增包含相同靶多核苷酸序列的crick链的扩增子,第一组crick靶标选择性引物对包含:(i)第一crick靶标选择性引物,其含有与通用5'衔接子序列的部分互补的序列,任选地其中通用5'衔接子序列的部分是通用5'衔接子序列的r1测序引物位点,和(ii)第二crick靶标选择性引物,其与第二crick靶标选择性引物序列含有相同的靶标选择性序列,由此产生靶标crick扩增产物。
76.e.确定靶标watson扩增产物和靶标crick扩增产物的序列读数;
77.f.将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;
78.g.根据外源性uid序列与r1和r2读数序列的空间关系,将各uid家族的序列读数分配到watson亚家族和crick亚家族;
79.h.当阈值百分数的watson家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的watson链;
80.i.当阈值百分数的crick家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的crick链;和
81.j.当准确代表watson链的核苷酸序列和准确代表crick链的核苷酸序列均包含相同突变时,鉴定分析物dna片段中的突变。
82.在一些实施方式中,所述方法还包括从非靶标多核苷酸纯化靶标watson扩增产物和靶标crick扩增产物。在一些实施方式中,所述方法还包括将靶标watson扩增产物和靶标crick扩增产物连接至固体支持物。在一些实施方式中,第一watson靶标选择性引物和第一crick靶标选择性引物包含亲和结合对的第一成员,并且其中固体支持物包含亲和结合对的第二成员。在一些实施方式中,第一成员是生物素并且第二成员是链霉亲和素。在一些实施方式中,固体支持物包括珠、孔、膜、管、柱、板、琼脂糖、磁珠或芯片。在一些实施方式中,所述方法还包括去除未连接至固体支持物的多核苷酸。
83.在一些实施方式中,所述方法还包括:
84.a.用第二组watson靶标选择性引物进一步扩增靶watson扩增产物,第二组watson靶标选择性引物包含(i)第三watson靶标选择性引物,其包含与通用3'衔接子序列的r2测序引物位点互补的序列,和(ii)第四watson靶标选择性引物,其在5'到3'方向上包含r1测序引物位点和选择性针对相同靶多核苷酸的靶标选择性序列,由此产生靶标watson文库成员;
85.b.用第二组crick靶标选择性引物进一步扩增靶标crick扩增产物,第二组crick靶标选择性引物包含(i)第三crick靶标选择性引物,其包含与通用3'衔接子序列的rl测序引物位点互补的序列,和(ii)第四crick靶标选择性引物,其在5'至3'方向上包含r2测序引
物位点和选择性针对第四watson靶标选择性引物的相同靶标多核苷酸的靶标选择性序列,由此产生靶标crick文库成员,由此产生靶标crick文库成员。
86.在一些实施方式中,第三watson和crick靶标选择性引物还包含样品条形码序列。在一些实施方式中,第三watson靶标选择性引物还包含能够实现与测序仪上的第一移接引物的杂交的第一移接序列,并且其中第三crick靶标选择性引物还包括能够实现与测序仪上的第二移接引物的杂交的第二移接序列。在一些实施方式中,第四watson靶标选择性引物还包含第二移接序列,并且其中第四crick靶标选择性引物还包含第一移接序列。在一些实施方式中,第一移接序列是p7序列,并且其中第二移接序列是p5序列。在一些实施方式中,连接包括将a尾衔接子连接至双链dna片段。在一些实施方式中,连接包括将a尾衔接子连接至中dna片段的两端。
87.在一些实施方式中,连接包括:
88.a.使部分双链3'衔接子连接至双链dna片段的watson和crick链两者的3'端,其中部分双链3'衔接子的第一链在5'至3'方向上包含,(i)第一段,(ii)任选地,外源性uid序列,(iii)5'衔接子的退火位点,和(iv)通用3'衔接子序列,其包含r2测序引物位点,并且其中所述部分双链3'衔接子的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和(ii)3'封闭基团,任选地其中所述第二链可降解;和
89.b.通过退火位点使5'衔接子退火至3'衔接子,其中5'衔接子在5'到3'方向上包含:(i)通用5'衔接子序列,其不与通用3'衔接子序列互补,并且包含r1测序引物位点,和(ii)与5'衔接子的退火位点互补的序列;和
90.c.进行切口(nick)平移样反应以使5'衔接子延伸贯穿3'衔接子(例如,使用dna聚合酶),并将延伸的5'衔接子共价连接至双链dna片段的watson和crick链的5'端(例如,使用连接酶)。
91.在一些实施方式中,uid序列包含内源性uid序列,其包含来自的双链dna片段的末端。在一些实施方式中,包含双链dna片段的末端的内源性uid序列包含至少8、10或15个碱基。在一些实施方式中,外源性uid序列对于各双链dna片段是独特的。在一些实施方式中,外源性uid序列对于各双链dna片段不是独特的。在一些实施方式中,uid家族的各成员包含相同的内源性uid序列和相同的外源性uid序列。
92.在一些实施方式中,扩增衔接子连接的双链dna片段以产生扩增子包括不超过11个循环的pcr扩增。在一些实施方式中,扩增衔接子连接的双链dna片段以产生扩增子包括不超过7个循环的pcr扩增。在一些实施方式中,扩增衔接子连接的双链dna片段以产生扩增子包括不超过5个循环的pcr扩增。在一些实施方式中,扩增衔接子连接的双链dna片段以产生扩增子包括至少1个循环的pcr扩增。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表双链dna片段中靶标多核苷酸的至少50%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表双链dna片段中靶标多核苷酸的至少70%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表双链dna片段中靶标多核苷酸的至少80%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表双链dna片段中靶标多核苷酸的至少90%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表总dna片段的至少50%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表总dna片段的至少70%。在一些实施方式中,靶标watson文库成
员和靶标crick文库成员代表总dna片段的至少80%。在一些实施方式中,靶标watson文库成员和靶标crick文库成员代表总dna片段的至少90%。
93.在一些实施方式中,序列读数的确定能够实现模板分子两端的序列确定。在一些实施方式中,模板分子两端的确定包括双端测序。在一些实施方式中,序列读数的确定包括跨模板长度的单读数测序以产生序列读数。在一些实施方式中,序列读数的确定包括用大规模平行测序仪测序。在一些实施方式中,大规模平行测序仪被设置为确定来自模板多核苷酸两端的序列读数。在一些实施方式中,双链dna片段包含长度为约50-600nt的一个或多个片段。在一些实施方式中,双链dna片段包含长度小于2000、小于1000、小于500、小于400、小于300或小于250nt的一个或多个片段。
94.在一些实施方式中,本文提供的方法还包括,在初始扩增之后和选择性扩增之前,制备对应于扩增子的正义链和反义链的单链(ss)dna文库。在一些实施方式中,ssdna文库制备包括:
95.a.使用两个引物进行扩增反应,其中两个引物中只有一个包含亲和结合对的第一成员,由此产生扩增产物,所述扩增产物包含含有亲和结合对的第一成员的链和不含有亲和结合对的第一成员的链;
96.b.使扩增产物与固体支持物接触,其中固体支持物包含亲和结合对的第二成员;
97.c.使扩增产物变性,以将包含亲和结合对的第一成员的链与不包含亲和结合对的第一成员的链分开;和
98.d.纯化包含亲和结合对的第一成员的分离的链和不包含亲和结合对的第一成员的分离的链。
99.在一些实施方式中,亲和结合对的第一成员是生物素,且亲和结合对的第二成员是链霉亲和素。在一些实施方式中,ssdna文库制备包括:
100.a.将扩增子划分成两个扩增反应,各扩增反应使用正向引物和反向引物,其中两个引物中只有一个被磷酸化,由此产生包含磷酸化链和非磷酸化链的扩增产物;
101.b.使扩增产物与核酸外切酶接触,所述核酸外切酶选择性地消化具有5'磷酸的链。
102.在一些实施方式中:
103.a.在第一扩增反应中,正向引物是磷酸化的,且反向引物是非磷酸化的;
104.b.在第二扩增反应中,反向引物是磷酸化的,且正向引物是非磷酸化的。
105.在一些实施方式中,核酸外切酶是λ核酸外切酶。在一些实施方式中,磷酸化在5'位点。
106.在一些实施方式中,初始扩增包括:
107.a.采用引物对进行扩增,其中引物对中的两个引物中只有一个包含亲和结合对的第一成员,由此产生扩增产物,其包含含有亲和结合对的第一成员的链和不含有亲和结合对的第一成员的链;
108.b.使扩增产物与固体支持物接触,其中固体支持物包含亲和结合对的第二成员;
109.c.使扩增产物变性,以将包含亲和结合对的第一成员的链与不包含亲和结合对的第一成员的链分开;和
110.d.纯化包含亲和结合对的第一成员的分离的链和不包含亲和结合对的第一成员
的分离的链。
111.在一些实施方式中,亲和结合对的第一成员是生物素,且亲和结合对的第二成员是链霉亲和素。在一些实施方式中,当外源性uid序列位于r2序列下游和r1序列上游时,将uid家族的序列读数分配至watson亚家族。在一些实施方式中,当外源性uid序列位于r1序列下游和r2序列上游时,将uid家族的序列读数分配至crick亚家族。在一些实施方式中,当外源性uid序列与r2序列接近度更高,且与r1序列接近度更低时,将uid家族的序列读数分配至watson亚家族。在一些实施方式中,当外源性uid序列与r1序列接近度更高,且与r2序列接近度更低时,将uid家族的序列读数分配至crick亚家族。在一些实施方式中,当外源性uid序列紧邻r2序列下游或与r2序列距离1-300、1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5个核苷酸之内时,将uid家族的序列读数分配至watson亚家族。在一些实施方式中,当外源性uid序列紧邻r1序列下游或与r1序列距离1-300、1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5个核苷酸之内时,将uid家族的序列读数分配至crick亚家族。
112.在一些实施方式中,双链dna片段来自生物样品。在一些实施方式中,生物样品获自对象。
113.在一些实施方式中,对象是人对象。在一些实施方式中,生物样品是流体样品。在一些实施方式中,流体样品选自全血、血浆、血清痰、尿液、汗液、泪液、腹水、精液和支气管肺泡灌洗液。在一些实施方式中,流体样品是无细胞或基本上无细胞的样品。在一些实施方式中,生物样品是固体生物样品。在一些实施方式中,固体生物样品是肿瘤样品。
114.在一些实施方式中,所鉴定的突变以0.1%或更低的频率存在于双链dna片段中。在一些实施方式中,所鉴定的突变以0.1%至0.00001%的频率存在于双链dna片段中。在一些实施方式中,所鉴定的突变以0.1%至0.01%的频率存在于双链dna片段中。在一些实施方式中,序列读数的确定包括确定来自分析物dna样品中包含靶多核苷酸的至少50%的双链dna片段的watson和crick链两者的序列读数。在一些实施方式中,序列读数的确定包括确定来自分析物dna样品中包含靶多核苷酸的至少70%的双链dna片段的watson和crick链两者的序列读数。在一些实施方式中,序列读数的确定包括确定来自分析物dna样品中包含靶多核苷酸的至少80%的双链dna片段的watson和crick链两者的序列读数。在一些实施方式中,序列读数的确定包括确定来自分析物dna样品中包含靶多核苷酸的至少90%的双链dna片段的watson和crick链两者的序列读数。在一些实施方式中,序列读数的确定包括确定来自分析物dna样品中至少50%的双链dna片段的watson和crick链两者的序列读数。在一些实施方式中,序列读数的确定包括确定来自分析物dna样品中至少70%的双链dna片段的watson和crick链两者的序列读数。在一些实施方式中,序列读数的确定包括确定来自分析物dna样品中至少80%的双链dna片段的watson和crick链两者的序列读数。在一些实施方式中,序列读数的确定包括确定来自分析物dna样品中至少90%的双链dna片段的watson和crick链两者的序列读数。
115.在一些实施方式中,相比于不要求检测分析物dna片段的watson和crick链两者中的突变的鉴定突变的替代性方法,与根据前述权利要求中任一项所述的所述方法的分析dna片段中一个或多个突变的鉴定相关联的错误率减少至少2倍,4倍,5倍,10倍,20倍,30倍,40倍,50倍,60倍,70倍,80倍,90倍,或100倍。在一些实施方式中,替代性方法包括标准分子条码化(barcoding)或基于pcr的标准分子条码化。在一些实施方式中,替代性方法包
括:
116.a.将衔接子连接至分析物dna样品中的双链dna片段,其中衔接子包含独特的外源性uid;
117.b.进行初始扩增,以扩增衔接子连接的双链dna片段,以产生扩增子;
118.c.确定一个或多个衔接子连接的双链dna片段的一个或多个扩增子的序列读数;
119.d.将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;
120.e.当阈值百分数的uid家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段;和
121.f.当鉴定为准确代表分析物dna片段的序列与缺乏突变的参考序列不同时,鉴定分析物dna片段中的突变。
122.在一些实施方式中,与根据前述权利要求中任一项所述的方法的分析物dna片段中一个或多个突变的鉴定相关联的错误率不多于1x10-2
,不多于1x10-3
,不多于1x10-4
,不多于1x10-5
,不多于1x10-6
,不多于5x10-6
,或不多于1x10-7

123.本文还提供了计算机可读介质,其包含用于分析来自核酸样品的序列读数数据的计算机可执行指令,其中所述数据通过前述权利要求中任一项所述的方法产生。在一些实施方式中,计算机可读介质包括用于以下的可执行指令
124.a.将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;
125.b.根据外源性uid序列与r1和r2读数序列的空间关系,将各uid家族的序列读数分配到watson和crick亚家族;
126.c.当阈值百分数的watson亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的watson链;
127.d.当阈值百分数的crick亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的crick链;
128.e.当准确代表watson链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表watson链的序列中的突变;
129.f.当准确代表crick链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表crick链的序列中的突变;
130.g.当准确代表watson链的核苷酸序列中的突变和准确代表crick链的核苷酸序列中的突变为相同突变时,鉴定分析物dna片段中的突变。
131.在一些实施方式中,计算机可读介质包含可执行指令,其用于在外源性uid序列紧邻r2测序引物结合位点下游或距离r2测序引物结合位点1-300个核苷酸内时将uid家族成员分配至watson亚家族。在一些实施方式中,计算机可读介质包含可执行指令,其用于在外源性uid序列紧邻r1测序引物结合位点下游或距离r1测序引物结合位点1-300个核苷酸内时将uid家族成员分配至crick亚家族。在一些实施方式中,计算机可读介质包含用于将序列读数映射到参考基因组的可执行指令。在一些实施方式中,参考基因组是人类参考基因组。
132.在一些实施方式中,计算机可读介质还包括计算机可执行指令,以基于样品中突变的存在、不存在或突变量生成选择的报告。在一些实施方式中,计算机可读介质还包括能够通过网络传输数据的计算机可执行代码。
133.本文还提供了计算机系统,包括:
134.a.存储单元,其被设置为接收来自核酸样品的序列数据,其中所述数据通过前述权利要求中任一项所述的方法产生;
135.b.一种可通信地耦合到所述存储单元的处理器,其中所述处理器包括根据前述权利要求中任一项所述的计算机可读介质。
136.在一些实施方式中,计算机系统还包括被设置为将数据传送到存储单元的测序系统。在一些实施方式中,计算机系统还包括设置为向用户传达或显示报告的用户界面。在一些实施方式中,计算机系统还包括数字处理器,其被设置为通过网络传输数据分析的结果。
137.本文还提供了系统,包括:
138.a.来自生物样品的双链dna片段;
139.b.如前述权利要求中任一项所述的3'衔接子;
140.c.如前述权利要求中任一项所述的5'衔接子;
141.d.用于进行切口平移样反应的试剂(例如,使用dna聚合酶、粘端特异性连接酶和尿嘧啶-dna糖基化酶);
142.e.用于针对一种或多种靶多核苷酸富集扩增子的试剂;和
143.f.一个测序系统。
144.在一些实施方式中,所述系统还包括根据前述权利要求中任一项所述的计算机系统。
145.本文还提供了试剂盒,其包括:
146.a.第一组watson靶标选择性引物对,其包含(i)一个或多个第一watson靶标选择性引物,其包含与通用3'衔接子序列的部分互补的序列,任选地其中通用3'衔接子序列的部分是通用3'衔接子序列的r2测序引物位点,和(ii)一个或多个第二watson靶标选择性引物,所述一个或多个第二watson靶标选择性引物各自包含靶标选择性序列;
147.b.第一组crick靶标选择性引物对,其包含(i)一个或多个crick靶标选择性引物,其包含与通用5'衔接子序列的部分互补的序列,任选地其中通用5'衔接子的部分序列是通用5'衔接子序列的r1测序引物位点,和(ii)一个或多个第二crick靶标选择性引物,所述一个或多个第二crick靶标选择性引物各自与第二watson靶标选择性引物序列包含相同的靶标选择性序列;
148.c.第二组watson靶标选择性引物对,其包含(i)一个或多个第三watson靶标选择性引物,其包含与通用3'衔接子序列的r2测序引物位点互补的序列,和(ii)一个或多个第四watson靶标选择性引物,所述一个或多个第四watson靶标选择性引物各自在5'至3'方向上包含r1测序引物位点和选择性针对相同靶多核苷酸的靶标选择性序列;和
149.d.第二组crick靶标选择性引物,其包含(i)一个或多个第三crick靶标选择性引物,其包含与通用3'衔接子序列的r1测序引物位点互补的序列,和(ii)一个或多个第四crick靶-选择性引物,所述一个或多个第四crick靶标选择性引物各自在5'至3'方向上包含r2测序引物位点和选择性针对相同靶多核苷酸的靶标选择性序列。
150.除非另外定义,本发明使用的所有技术和科学术语的意义与本发明所属领域普通技术人员通常所理解的相同。虽然在本发明的实施可以采用类似于或等同于本发明所述的那些方法和材料,但下文描述了合适的方法和材料。本发明中述及的所有出版物、专利申
请、专利和其它参考文献都通过引用全文纳入本发明。若有抵触,以本包括定义在内的本技术说明书为准。此外,材料、方法和实施例都仅是说明性的,并不意在构成限制。
151.附图和以下说明进一步详细说明了本发明的一种或多种实施方式。从说明书、附图以及权利要求中可以明显看出本发明的其他特征、目的和优点。
附图说明
152.图1包含示例性双链锚定pcr方法的示意图。具有分子条形码的双链体衔接子被连接至具有钝端的核酸片段的末端,以生成双链体测序文库,并对双链体测序文库进行pcr以生成扩增的双链体测序文库。扩增的双链体测序文库中的扩增产物被分成两个等分部分,且对各等分部分进行pcr,其中watson链从第一等分部分扩增,且crick链从第二等分部分扩增。
153.图2包含了示例性第二轮文库扩增的示意图,其中使用引物对对从图1中的第一等分部分扩增的watson链进行pcr,其中第一引物是生物素化的,第二引物是非生物素化的,以产生可用于扩增和评估watson链的单链dna文库。
154.图3包含了示例性第二轮文库扩增的示意图,其中使用引物对对从图1中的第一等分部分扩增的crick链进行pcr,其中第一引物是非生物素化的,第二引物是生物素化的,以产生可用于扩增和评估crick链的单链dna文库。
155.图4包含示例性watson扩增的示意图。
156.图5包含示例性crick扩增的示意图。
157.图6包含示例性扩增watson链和示例性扩增crick链的示意图。
158.图7包含示例性巢式watson扩增的示意图。
159.图8包含示例性巢式crick扩增的示意图。
160.图9包含示例性去除5'磷酸的示意图。
161.图10包含示例性填充具有5'突出端的扩增片段的3'端以产生钝端扩增产物的示意图。
162.图11包含示例性3'双链体衔接子的示意图,其包括3spc3间隔区、含有分子条形码的外源性uid序列和与可被尿嘧啶-dna糖基化酶(udg)降解的3'封闭基团杂交的3'寡核苷酸(dt)。
163.图12包含使用3'双链体衔接子的示例性3'衔接子连接的示意图。3'双链体衔接子的5'磷酸连接至核酸模板的3'端。
164.图13包含示例性5'衔接子连接的示意图。在单个反应中,3'双链体衔接子的封闭基团被降解,并且含有5'衔接子的5'衔接子通过切口平移反应连接至核酸模板的5'端。
165.图14包含示例性文库pcr扩增的示意图。
166.图15包含示例性watson扩增的示意图。
167.图16包含示例性巢式watson扩增的示意图。
168.图17包含示例性crick扩增的示意图。
169.图18包含示例性巢式crick扩增的示意图。
170.图19包含由示例性双链锚定pcr产生的最终扩增产物的示意图。
171.图20包含显示如何采用由示例性双链锚定pcr产生的最终扩增产物,使用双端测
序来区分输入核酸的watson链和crick链的示意图。
172.图21包含显示如何采用由示例性双链锚定pcr产生的最终扩增产物,使用双端测序来区分输入核酸的watson链和crick链的示意图。
173.图22包含示例saferseqs方法的概览示意图。(a)文库制备从末端修复(步骤1)开始,其中dna模板分子被去磷酸化和钝化。接着,将包含独特标识符(uid)序列(窄或宽对角交叉影线)的3'衔接子连接至3'片段末端(步骤2)。uid序列在5'衔接子的延伸和连接后转化为双链条形码(步骤3)。最后,在文库扩增过程中生成各原始模板分子的冗余pcr拷贝(步骤4)。(b)靶标富集是通过链特异性半巢式pcr实现的。扩增后的文库被划分为watson和crick特异性反应(步骤5),这些反应选择性地扩增衍生自dna链之一的产物(步骤6)。通过第二次巢式pcr(步骤7)实现附加的中靶特异性和样品条形码的纳入。对最终的pcr产物(步骤8)进行双端测序(步骤9)。内源性条形码代表文库构建之前模板片段的末端。(c)测序后,读数确定衍生自watson或crick链。由于原始模板分子的各链都带有相同外源性条形码标签,并且具有相同的内源性条形码,因此衍生自同一亲本dna双链体的两条链中的各链的读数可以组合在一起成为双链体家族。链右端的不同交叉影线和点画图案代表不同的条形码。在所示示例中,各双链家族有8个成员,其中4个代表watson链,4个代表crick链。在本文描述的实际实验中,各家族至少包含两个来自watson链的成员和两个来自crick链的成员,实际数量取决于测序深度。由真实突变(bona fide mutation)家族中的星号表示的真实突变存在于dna双链体的两条亲本链中,因此在watson和crick家族中都存在。相反,由测序错误(sequencing error)家族的pcr中的星号表示的pcr或测序错误受限于来自两条链之一的读数的子集。watson链特异性(受损watson链家族中的星号)和crick链特异性(受损crick链家族中的星号)伪影(artifact)见于watson或crick家族的所有拷贝中,但非两者同时。
174.图23包含显示saferseqs分析性能的图表。在来自含已知突变的癌症的dna与来自健康供体的白细胞dna以从10%低至0.001%的比率混合时,由saferseqs测定的突变等位基因频率(maf)对比预期频率。还测定了0%对照样品以确定感兴趣的突变的特异性。实线表示线性回归模型的拟合,其中y截距固定为零(斜率=0.776,r2》0.999,p=3.95
×
10-15
)。
175.图24.采用saferseqs的高双链回收率和高效靶标富集。对于33ng的混合cfdna样品就tp53中三种不同突变(p.l264fs、p.p190l或p.r342x)之一进行了检测。每个cfdna样品制备三个文库,各自含有约11ng的cfdna。(a)双链体家族(即包含相同内源性和外源性条形码的watson和crick链两者)的中位数为原始模板分子数量的89%(范围:65%至102%)。(b)中靶读数的中位数为80%(范围:72%至91%)。上下铰链对应于第25和第75百分位,晶须延伸至四分位间距的1.5倍。为了便于可视化,各个点被随机散布覆盖。
176.图25包含显示液体活检样品中示例性突变检测的图表。分析33ng来自健康个体的血浆无细胞dna与来自癌症患者的无细胞血浆dna的混合。建立混合物以产生高频(约0.5-1%)突变、低频(约0.01-0.1%)突变或无突变。用(a)safeseqs或(b)saferseqs对混合的tp53 p.r342x样品进行分析。类似地,用(c)safeseqs和(d)saferseqs分析混合的tp53 p.l264fs样品,用(e)safeseqs和(f)saferseqs分析混合的tp53 p.p190l样品。突变数量代表使用safeseqs观察到的153种不同突变中的每一种(定义于表8中)。通过safeseqs检测的单个超准突变体(supercalimutant)(表9)位于safeseqs检测的基因组区域之外,因此未显
示。
177.图26.saferseqs中的错误与链不可知(strand-agnostic)、基于连接的分子条码化方法中那些的比较。分析33ng来自健康个体的血浆无细胞dna与来自癌症患者的无细胞血浆dna的混合。建立混合物以产生高频(约0.5-1%)突变、低频(约0.01-0.1%)突变或无突变。使用saferseqs分析混合的tp53p.r342x样品,但(a)链信息在分析中被无视以模拟链不可知、基于连接的分子条码化方法或(b)在突变访寻(calling)期间考虑链信息。类似地,在(c)不考虑链信息和(d)使用saferseqs的情况下分析了混合的tp53p.l264fs样品。在(e)不考虑链信息和(f)使用saferseqs的情况下对混合的tp53 p.p190l样品进行类似分析。突变数量在补充表3中定义。星号表示混合突变。saferseqs检测到的单个意外超准突变体显示在(e)中。
178.图27.来自癌症患者的血浆样品的评估。采用先前描述的基于pcr的分子条码化方法(“safeseqs”而不是“saferseqs”)和采用saferseqs对来自携带频率在0.01%和0.1%之间的8个已知突变的5名癌症患者的血浆无细胞dna样品进行分析。突变数量在表11中定义。星号表示预期的突变。通过safeseqs检测的单个意外超准突变体(表11)位于safeseqs检测的基因组区域之外,因此未显示。
179.图28.pcr效率和循环数对双链体回收率的影响。回收原始dna双链(y轴)两条链的概率对文库扩增循环数(x轴)作图。图中的各窗格代表窗格顶部表示的假定pcr效率。显示了用于链特异性pcr的文库扩增产物的比例。文库扩增循环数从1到11不等。pcr效率以10%的增量从100%到50%不等。在各链特异性pcr中使用的文库扩增产物的比例从50%到1.4%不等。如实施例2中所述进行概率建模。
180.图29包含显示用于检测示例性癌症驱动基因突变的多重组(panel)的图表。在多重组中成功扩增的36个扩增子的回收率和覆盖率。水平轴显示第二基因特异性引物(gsp2)3'端下游的位置。随着与3'引物末端距离的增加,覆盖率逐渐下降,这是输入dna片段化模式的结果。实施例2中讨论了关于特定扩增子长度的读数的理论回收率的详细信息。
181.图30.用于多重组的48对引物对检测癌症中常见突变驱动基因区域的性能。链特异性pcr中使用的48个saferseqs引物对各自的中靶读数的比例(即映射到预期靶标的总读数的分数)。引物在各基因特异性pcr中以等摩尔浓度使用。
182.图31.62对引物的性能。迄今为止测试的62对saferseqs引物对各自的中靶读数的比例(即映射到预期靶标的总读数的分数)。62对中的50对(81%)表现出大于50%的中靶率。呈现的结果反映了引物设计的单一尝试。
183.图32说明了适于使用户能够根据本文所述的方法分析核酸样品的示例性计算机系统。
具体实施方式
184.需注意的是,除非上下文另有明确说明,否则在本说明书和所附权利要求书中使用的单数形式的“一个”、“一种”和“该/所述”包括复数的指代对象。
[0185]“核苷酸”和“nt”在本文中可互换使用以一般指包含核酸的生物分子。核苷酸可以具有含有已知嘌呤和嘧啶碱基的部分。核苷酸可具有已经修饰的其它杂环碱基。此类修饰包括例如甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶、烷基化核糖或其它杂环。术语“多核苷酸”、“核酸”和“寡核苷酸”可以互换使用。它们可指任何长度的核苷酸聚合形式,不论是脱氧核糖核苷酸或核糖核苷酸或它们的类似物。多核苷酸可以具有任何三维结构,并且可以进行已知或未知的任何功能。以下是多核苷酸的非限制性例子:基因或基因片段的编码或非编码区域、由连锁分析定义的基因座、外显子、内含子、信使rna(mrna)、转移rna、核糖体rna、核酶、cdna、重组多核苷酸、支链多核苷酸、质粒、载体、任意序列的分离dna、任意序列的分离rna、核酸探针和引物。多核苷酸可以包含非天然产生的序列。多核苷酸可包括修饰的核苷酸,如甲基化的核苷酸和核苷酸类似物。如果存在,对核苷酸结构的修饰可在聚合物的组装之前或之后赋予。核苷酸序列可间插有非核苷酸组分。多核苷酸聚合后可被进一步修饰,如通过与标记性组分偶联。
[0186]“引物”通常是包含能与模板序列(例如靶多核苷酸或引物延伸产物)杂交的核苷酸序列(例如寡核苷酸)的多核苷酸分子,通常具有游离的3'-oh基团,并且能够促进与模板互补的多核苷酸的聚合。
[0187]
如本文所用的术语“哺乳动物”包括人类和非人类,并且包括但不限于人类、非人类灵长类动物、犬科动物、猫科动物、鼠科动物、牛科动物、马科动物和猪科动物。
[0188]
概述
[0189]
本文涉及用于准确鉴定核酸样品中存在的突变的方法和材料。在一些方面中,所述方法包括当突变均存在于双链核酸模板的watson和crick链上时鉴定突变。此类方法对于区分真正的突变与源自例如dna损伤、pcr和其它测序伪影的伪影特别有用,从而允许以高置信度鉴定突变。
[0190]
在一些情况下,本文所述的方法和材料可以以低错误率检测一个或多个突变。例如,本文所述的方法和材料可用于检测核酸模板中核酸突变的存在与否,其错误率小于约1%(例如,小于约0.1%,小于约0.05%,或小于约0.01%)。在一些情况下,本文所述的方法和材料可用于检测核酸模板中核酸突变的存在与否,错误率为约0.001%至约0.01%。在一些情况中,与根据本文所述的方法的分析物dna片段中一个或多个突变的鉴定相关联的错误率不多于1x10-2
,不多于1x10-3
,不多于1x10-4
,不多于1x10-5
,不多于1x10-6
,不多于5x10-6
,或不多于1x10-7
。在一些情况中,相比于不要求检测分析物dna片段的watson和crick链两者中的突变的鉴定突变的替代性方法,与本文所述的所述方案法的分析dna片段中一个或多个突变的鉴定相关联的错误率减少至少2倍,4倍,5倍,10倍,20倍,30倍,40倍,50倍,60倍,70倍,80倍,90倍,或100倍。
[0191]
在一些实施方式中,替代方法包括测序后的标准分子条码化(barcoding)或基于pcr的标准分子条码化。在具体实施方式中,替代性方法包括:(a)将衔接子连接至分析物dna样品中的双链dna片段,其中衔接子包含独特的外源性uid;(b)进行初始扩增,以扩增衔接子连接的双链dna片段,以产生扩增子;(c)确定一个或多个衔接子连接的双链dna片段的一个或多个扩增子的序列读数;(d)将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;(e)当阈值百分数的uid家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段;和(f)当鉴定为准确代表分析物dna片段的序列与缺乏突变的参考序列不同时,鉴定分析物dna片段中的突变。
[0192]
在一些情况下,本文所述的方法和材料可用于实现高效的双链体回收。例如,本文所述的方法可用于回收源自双链核酸模板的watson链和crick链的pcr扩增产物。在一些情
况下,本文所述的方法可用于实现至少50%(例如,约50%、约60%、约70%、约75%、约80%、约82%、约85%、约88%、约90%、约93%、约95%、约97%、约99%或100%)的双链体回收率。
[0193]
在一些情况下,本文所述的方法和材料可用于检测具有低等位基因频率的突变。例如,本文所述的方法可用于检测具有小于约1%(例如,小于约0.1%、小于约0.05%或小于约0.01%)的低等位基因频率的突变。在一些情况下,本文所述的方法可用于检测具有约0.001%的低等位基因频率的突变。
[0194]
在一些情况下,本文所述的方法可用于检测分析物核酸样品中以0.1%或更低的频率存在的突变。在一些实施方式下,本文所述的方法可用于检测分析物核酸样品中以0.1%至0.00001%的频率存在的突变。在一些实施方式下,本文所述的方法可用于检测分析物核酸样品中以0.1%至0.01%的频率存在的突变。
[0195]
在一些情况下,本文所述的方法和材料可用于检测具有最小(或没有)背景伪影突变的突变。在一些情况下,本文所述的方法可用于检测具有小于0.01%背景伪影突变的突变。在一些情况下,本文所述的方法可用于检测没有背景伪影突变的突变。
[0196]
在一些情况下,用于检测双链核酸的两条链上均存在的一个或多个突变的方法可以包括:生成双链体测序文库,其在该文库的各核酸的各端(例如,5'端和3'端)上具有双链体分子条形码的双链体测序文库,从双链体测序文库产生单链沃森链(watson strand)衍生序列文库和单链克里克链(crick strand)衍生序列文库,和,在各单链文库中检测双链核酸的两条链上是否均存在一个或多个突变。3’双链体衔接子中的第一分子条形码和5’衔接子中存在的第二分子条形码的存在可用于区分源自watson链的扩增产物和源自crick链的扩增产物。
[0197]
在一些情况下,鉴定突变的方法包括:(a)使部分双链3'衔接子连接至分析物dna样品中双链dna片段的watson和crick链两者的3'端,其中部分双链3'衔接子的第一链在5'至3'方向上包含,(i)第一段,(ii)外源性uid序列,(iii)5'衔接子的退火位点,和(iv)通用3'衔接子序列,其包含r2测序引物位点,并且其中所述部分双链3'衔接子的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和(ii)3'封闭基团,任选地其中所述第二链可降解;(b)通过退火位点使5'衔接子退火至3'衔接子,其中5'衔接子在5'到3'方向上包含:(i)通用5'衔接子序列,其不与通用3'衔接子序列互补,并且包含r1测序引物位点,和(ii)与5'衔接子的退火位点互补的序列;(c)进行切口(nick)平移样反应以使5'衔接子延伸贯穿3'衔接子的外源性uid序列(例如,使用dna聚合酶),并将延伸的5'衔接子共价连接至双链dna片段的watson和crick链的5'端(例如,使用连接酶);(d)进行初始扩增,以扩增衔接子连接的双链dna片段,以产生扩增子;(e)确定一个或多个衔接子连接的双链dna片段的一个或多个扩增子的序列读数;(f)将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;(g)根据外源性uid序列与r1和r2读数序列的空间关系,将各uid家族的序列读数分配到watson亚家族和crick亚家族;(h)当阈值百分数的watson亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的watson链;(i)当阈值百分数的crick亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的crick链;(j)当准确代表watson链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表watson链的序列中的突变;(k)当准确代表crick链的核苷酸序列与缺乏突变的参
考序列不同时,鉴定该准确代表crick链的序列中的突变;和(l)当准确代表watson链的核苷酸序列中的突变和准确代表crick链的核苷酸序列中的突变为相同突变时,鉴定分析物dna片段中的突变。
[0198]
在一些情况下,鉴定突变的方法包括:(a)将衔接子连接至双链dna片段,其中衔接子包含双链部分和分叉部分,所述双链部分含有外源uid,且所述分叉部分含有(i)包含r2测序引物位点的单链3'衔接子序列和(ii)包含r1测序引物位点的单链5'衔接子序列;
[0199]
(b)进行初始扩增,以扩增衔接子连接的双链dna片段,以产生扩增子;
[0200]
(c)用第一组watson靶标选择性引物对选择性扩增包含靶多核苷酸序列的watson链的扩增子,第一组watson靶标选择性引物对包含:(i)第一watson靶标选择性引物,其包含与通用3'衔接子序列的r2测序引物位点互补的序列,和(ii)第二watson靶标选择性引物,其包含靶标选择性序列,由此产生靶标watson扩增产物;
[0201]
(d)用第一组crick靶标选择性引物对选择性扩增包含相同靶标多核苷酸序列的crick链的扩增子,第一组crick靶标选择性引物对包含:第一crick靶标选择性引物,其包含与通用5'衔接子序列的rl测序引物位点互补的序列,和(ii)第二crick靶标选择性引物,其与第二crick靶标选择性引物序列包含相同的靶标选择性序列,由此产生靶crick扩增产物;
[0202]
(e)确定靶标watson扩增产物和靶标crick扩增产物的序列读数;
[0203]
(f)将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;
[0204]
(g)根据外源性uid序列与r1和r2读数序列的空间关系,将各uid家族的序列读数分配到watson亚家族和crick亚家族;
[0205]
(h)当阈值百分数的watson家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的watson链;
[0206]
(i)当阈值百分数的crick家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的crick链;和
[0207]
(j)当准确代表watson链的核苷酸序列和准确代表crick链的核苷酸序列均包含相同突变时,鉴定分析物dna片段中的突变。
[0208]
在一些情况下,本文所述的方法和材料可用于独立评估双链核酸的各链。例如,当在如本文所述的独立评估的双链核酸链中鉴定出核酸突变时,本文所述的材料和方法可用于确定该核酸突变源自双链核酸的哪条链。
[0209]
可以使用任何适当的方法来生成双链体测序文库。如本文所用,双链体测序文库是在文库中各核酸片段的一端(例如,5'端和/或3'端)包括双链体分子条形码的多个核酸片段,并且可以允许双链核酸的两条链都被测序。在一些情况下,核酸样品可以被片段化以产生核酸片段,并且产生的核酸片段可以用于产生双链体测序文库。用于产生双链体测序文库的核酸片段在本文中也可以称为输入核酸。例如,当用于产生双链体测序文库的核酸片段是dna片段时,dna片段在本文中也可以称为输入dna。双链体测序文库可以包括任何适当数量的核酸片段。在一些情况下,生成双链体测序文库可以包括将核酸模板片段化并将衔接子连接至文库中各核酸片段的各端。
[0210]
分析物核酸样品
[0211]
分析物核酸样品中的核酸模板可以包含任何类型的核酸(例如,dna、rna和dna/rna杂合体)。在一些情况下,核酸模板可以是双链dna模板。可用作本文所述方法的模板的核酸的示例包括但不限于基因组dna、循环游离dna(cfdna;例如循环肿瘤dna(ctdna)和无细胞胎儿dna(cffdna))。
[0212]
在一些实施方式中,核酸样品中的核酸模板是核酸片段,例如dna片段。在一些实施方式中,dna片段的末端代表可用作片段的内源性独特标识符的独特序列。在一些实施方式中,片段是手动产生的。在一些实施方式中,片段通过剪切产生,例如酶剪切、化学手段剪切、声剪切、雾化、离心剪切、点槽剪切、针剪切、超声处理、限制性核酸内切酶、非特异性核酸酶(例如,dna酶i)等。在一些实施方式中,片段不是手动产生的。在一些实施方式中,片段来自cfdna样品。
[0213]
在一些实施方式中,核酸样品中的核酸片段具有长度。长度可以是约4-1000个核苷酸。长度可以是约60-300个核苷酸。长度可以是约60-200个核苷酸。那么长度可以是约140-170个核苷酸。长度可以小于500、小于400、小于300、小于250nt或小于200nt。
[0214]
在一些实施方式中,核酸模板的末端用作内源性uid。技术人员可以使用例如总模板长度、分区或起始核酸样品中核酸模板的复杂性等因素来确定独特地鉴定核酸模板所需的内源性uid的长度。在一些实施方式中,核酸模板末端的10-500个核苷酸用作内源性uid。在一些实施方式中,核酸模板末端的15-100个核苷酸用作内源性uid。在一些实施方式中,核酸模板末端的15-40个核苷酸用作内源性uid。在一些实施方式中,核酸模板末端的至少10个核苷酸用作内源性uid。在一些实施方式中,核酸模板末端的至少15个核苷酸用作内源性uid。在一些实施方式中,仅将核酸模板的一端用作内源性uid。
[0215]
在一些实施方式中,核酸模板包含一种或多种靶多核苷酸。术语“靶标多核苷酸”、“靶区域”、“感兴趣的核酸模板”、“所需基因座”、“所需模板”或“靶标”在本文中可互换使用以指代研究中的感兴趣多核苷酸。在某些实施方式中,靶多核苷酸包含一个或多个感兴趣的和在研序列。靶多核苷酸可以包括例如基因组序列。靶多核苷酸可包含靶序列,其存在与否、量和/或核苷酸序列,或这些中的变化,是需要确定的。
[0216]
靶多核苷酸可以是与疾病相关的基因的区域。在一些实施方式中,基因是可药用(druggable)靶标。如本文所用,术语“可药用靶标”通常是指受疾病调节的基因或细胞途径。疾病可以是癌症。因此,所述基因可以是已知的癌症相关基因。
[0217]
在一些实施方式中,输入核酸(input nucleic acid),在本文中也称为核酸样品,获自生物样品。生物样品可获自对象。在一些实施方式中,对象是哺乳动物。可从中获得核酸并在本文所述的方法中用作核酸模板的哺乳动物的示例包括但不限于人类、非人类灵长类动物(例如猴子)、狗、猫、绵羊、兔子、小鼠、仓鼠,和大鼠。在一些实施方式中,对象是人对象。在一些实施方式中,对象是植物。
[0218]
生物样品包括但不限于血浆、血清、血液、组织、肿瘤样品、粪便、痰液、唾液、尿液、汗液、泪液、腹水、支气管肺泡灌洗液、精液、考古样品和法医样品。在具体实施方式中,生物样品是固体生物样品,例如肿瘤样品。在一些实施方式中,处理固体生物样品。固体生物样品可以通过在福尔马林溶液中固定,然后包埋在石蜡中来处理(例如,是ffpe样品)。处理可替代地包括在进行基于探针的测定之前冷冻样品。在一些实施方式中,样品既不是固定的也不是冷冻的。仅举例而言,未固定的、未冷冻的样品可以储存在配置用于保存核酸的储存
溶液中。
[0219]
在一些实施方式中,生物样品是液体生物样品。液体生物样品包括但不限于血浆、血清、血液、痰液、唾液、尿液、汗液、泪液、腹水、支气管肺泡灌洗液和精液。在一些实施方式中,液体生物样品不含细胞或基本上不含细胞。在特定实施方式中,生物样品是血浆或血清样品。在一些实施方式中,液体生物样品是全血样品。在一些实施方式中,液体生物样品包含外周单核血细胞。
[0220]
在一些实施方式中,核酸样品已经从生物样品分离和纯化。可以使用本领域已知的任何方法从生物样品分离和纯化核酸。例如,可以处理生物样品以从细胞释放核酸,或将核酸与生物样品的不需要的成分(例如,蛋白质、细胞壁、其它污染物)分离。例如,可以使用液体提取(例如,trizol、dnazol)技术从生物样品提取核酸。也可以使用市售试剂盒(例如,qiagen dneasy试剂盒、qiaamp试剂盒、qiagen midi试剂盒、qiaprep离心试剂盒)提取核酸。
[0221]
在一些实施方式中,生物样品包含少量核酸。在一些实施方式中,生物样品包含少于约500纳克(ng)的核酸。例如,生物样品包含约30ng至约40ng的核酸。
[0222]
可以通过已知方法浓缩核酸,包括,仅作为示例,离心。出于纯化目的,核酸可以与选择性膜(例如二氧化硅)结合。核酸也可以针对所需长度的片段(例如长度小于1000、500、400、300、200或100个碱基对的片段)进行富集。这种基于大小的富集可以使用例如peg诱导的沉淀、电泳凝胶或谱材料(huber等(1993)nucleic acids res.21:1061-6)、凝胶过滤谱、tsk凝胶(kato等(1984)j.biochem,95:83-86),这些出版物通过引用方式纳入本文。
[0223]
可以使用本领域已知的任何方法选择性地沉淀或浓集从生物样品提取的多核苷酸。
[0224]
在一些实施方式中,核酸样品包含少于约35ng的核酸。例如,核酸样品包含可以包括约1ng至约35ng的核酸(例如,约1ng至约30ng,约1ng至约25ng,约1ng至约20ng,约1ng至约15ng,约1ng至约10ng,约1ng至约5ng,约5ng至约35ng,约10ng至约35ng,约15ng至约35ng,约20ng至约35ng,约25ng至约35ng,约30ng至约35ng,约5ng至约30ng,约10ng至约25ng,约15ng至约20ng,约5ng至约10ng,约10ng至约15ng,约15ng至约20ng,约20ng至约25ng,或约25ng至约30ng的核酸)。在一些情况下,核酸样品可以包括来自包括多于大约数百个核苷酸的核酸的基因组的核酸。
[0225]
在一些情况下,核酸样品可以基本上没有污染。例如,当核酸样品是cfdna模板时,cfdna可以基本上没有基因组dna污染。在一些情况下,基本上没有基因组dna污染的cfdna样品可以包括最少量的(或没有)高分子量(例如,》1000bp)的dna。在一些情况下,本文所述的方法可以包括确定核酸样品是否基本上没有污染。可以使用任何合适的方法来确定核酸样品是否基本上没有污染。可用于确定核酸样品是否基本上没有污染的方法的示例包括,例如,tapestation系统和生物分析仪(bioanalyzer)。例如,当使用tapestation系统和/或生物分析仪来确定cfdna样品是否基本上没有基因组dna污染时,可以使用约180bp处的显著峰(例如,对应于单核小体dna)来表明核酸样品基本上没有基因组dna污染。
[0226]
在一些情况下,可用于产生双链体测序文库的核酸片段(例如,在将3'双链体衔接子连接至核酸片段的3'端之前)可以进行末端修复。可以使用任何合适的方法对核酸模板进行末端修复。例如,钝化反应(例如钝端连接)和/或去磷酸化反应可用于末端修复核酸模
板。在一些情况下,钝化可以包括填充单链区域。在一些情况下,钝化可包括降解单链区域。在一些情况下,钝化和去磷酸化反应可用于对核酸模板进行末端修复,如图9和/或图10所示。
[0227]
衔接子
[0228]
在一些实施方式中,所述方法包括将衔接子连接至双链dna片段以产生连接衔接子的双链dna片段。
[0229]
在一些实施方式中,衔接子包含含有外源性uid的双链部分和含有(i)单链3'衔接子序列和(ii)单链5'衔接子序列的分叉部分。在一些实施方式中,单链3'衔接子序列与单链5'衔接子序列不互补。在一些实施方式中,3'衔接子序列包含第二(例如,r2)测序引物位点,并且5'衔接子序列包含第一(例如,r1)测序引物位点。应理解,“r1”和“r2”测序引物位点由产生成对末端读数(例如,来自待测序的dna片段的相对末端的读数)的测序系统使用。在一些实施方式中,r1测序引物用于从dna片段的第一末端产生第一读数,并且r2测序引物用于从dna片段的相对末端产生第二读数。第一体在本文中称为“r1”或“读数1”读数。第二体在本文中称为“r2”或“读数2”读数。r1和r2读数可以对齐为“读数对”或“匹配对”,对应于双链分析物dna片段的各链。
[0230]
某些测序系统,例如illumina,使用他们所称的“r1”和“r2”引物,以及“r1”和“r2”读数。应注意,就本技术的目的而言,术语“r1”和“r2”以及“读数1”和“读数2”不限于它们如何与特定测序平台相关。例如,如果使用illumina测序仪,则本文公开的“r2”引物和相应的r2读数可以指illumina“r2”引物和读数,或者可以指illumina“r1”引物和读数,只要本文公开的“r1”引物和相应的r1读数指的是其它illumina引物和读数即可。清楚起见,在其中本文提供的“r2”引物是产生“r1”读数的illumina“r1”引物的一些实施方式中,本文提供的相应“r1”引物是产生“r2”读数的illumina“r2”引物。清楚起见,在其中本文提供的“r2”引物是提供“r2”读数的illumina“r2”引物的一些实施方式中,本文提供的“r1”引物是提供r1读数的illumina“r1”引物。
[0231]
在一些实施方式中,外源性uid对于核酸样品中的各双链dna片段是独特的。在一些实施方式中,外源性uid不是各双链dna片段独特的。
[0232]
在一些实施方式中,外源性uid具有一定长度。长度可以是大约2-4000nt。长度可以是大约6-100nt。长度可以是大约8-50nt。长度可以是大约10-20nt。长度可以是大约12-14nt。在一些实施方式中,外源性uid的长度足以对分子进行独特条码化,并且外源性uid的长度/序列不干扰下游扩增步骤。
[0233]
在一些实施方式中,外源性uid序列不存在于核酸模板中。在一些实施方式中,外源性uid序列不存在于具有所需基因座的所需模板中。这样的独特序列可以例如通过计算机可读介质随机产生,并且通过针对已知核苷酸数据库例如embl、genbank或ddbj进行blasting来选择。在一些实施方式中,外源性uid序列存在于核酸模板中。在这种情况下,外源性uid序列在序列读数中的位置用于区分外源性uid序列与核酸模板内的序列。
[0234]
在一些实施方式中,外源性uid序列是随机的。在一些实施方式中,外源性uid序列是随机n聚体(n-mer)。例如,如果外源性uid序列的长度为6个nt,那么它可能是一个随机六聚体。如果外源性uid序列的长度为12nt,那么它可能是随机的12聚体。
[0235]
可以使用随机添加核苷酸以形成具有用作标识符的长度的序列来制备外源性
uid。在各添加位置,可以使用从四种脱氧核糖核苷酸中选择一种的选择。或者,可以使用从三种、两种或一种脱氧核糖核苷酸中选择一种的选择。因此,uid在某些位置可能是完全随机的、部分随机(somewhat random)的或非随机的。
[0236]
在一些实施方式中,外源性uid不是随机的n聚体,而是选自一组预定的外源性uid序列。
[0237]
适用于本文所公开的方法的示例性外源性uid在pct/us2012/033207中进行了描述,其通过引用其全文方式纳入本文。
[0238]
本文所述的分叉衔接子可以通过本领域已知的任何方式连接至双链dna片段。
[0239]
在一些实施方式中,分叉的衔衔接子通过以下方式连接至双链dna片段:(a)将部分双链3'衔接子连接至双链dna片段的watson和crick链的3'端,其中部分双链3'衔接子的第一链在5'至3'方向上包含(i)第一区段,(ii)外源性uid序列,(iii)5'衔接子的退火位点,和(iv)包含r2测序引物位点的通用3'衔接子序列,并且其中部分双链3'衔接子的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和(ii)3'封闭基团,任选地其中第二链是可降解的;(b)通过退火位点将5'衔接子退火到3'衔接子上,其中5'衔接子在5'至3'方向包含(i)与通用3'衔接子序列不互补且包含r1测序引物位点的通用5'衔接子序列,和(ii)与5'衔接子的退火位点互补的序列;和(c)进行切口平移样反应以将5'衔接子延伸贯穿3'衔接子的外源性uid序列(例如,使用dna聚合酶)并将延伸的5'衔接子共价连接至双链dna片段的watson和crick链的5'端(例如,使用连接酶)。
[0240]
在一些实施方式中,分叉的衔接子通过以下方式连接至双链dna片段:(a)将3'双链体衔接子连接至双链dna片段的watson和crick链的3'端。如本文所述的3'双链体衔接子,在本文中也称为部分双链3'衔接子,是包括分子条形码的寡核苷酸复合物,所述分子条形码可以具有退火(杂交)至第二寡核苷酸(本文也称为“第二链”)的第一寡核苷酸(本文也称为“第一链”)),从而使得3'双链体衔接子的部分(例如第一部分)是双链的并且3'双链体衔接子的部分(例如第二部分)是单链的。在一些情况下,本文所述的3'双链体衔接子的第一寡核苷酸包含第一区段,所述第一区段包含与3'双链体衔接子的第二寡核苷酸中存在的核苷酸互补的核苷酸(例如,从而使得3'双链体衔接子的第一寡核苷酸和3'双链体衔接子的第二寡核苷酸可以在互补区退火)。3'双链体衔接子的示例性结构可以如图11所示。
[0241]
本文所述的3'双链体衔接子的第一寡核苷酸可以是包括5'磷酸和分子条形码的寡核苷酸。本文所述的3'双链体衔接子的第一寡核苷酸可以包括任何合适数量的核苷酸。任何合适的分子条形码可以包含在本文所述的3'双链体衔接子的第一寡核苷酸中。在一些情况下,分子条形码可以包括随机序列。在一些情况下,分子条形码可以包括固定序列。可包含在本文所述的3'双链体衔接子的第一寡核苷酸中的分子条形码的示例包括但不限于可从idt公司(integrated dna technologies)获得的idt8、idt10、ilmn8、ilmn10。可以使用任何适当类型的分子条形码。在一些情况下,分子条形码包含外源性uid序列。本文描述了外源性uid。包括5'磷酸和分子条形码并且可以包括在本文所述的3'双链体衔接子的第一寡核苷酸中的寡核苷酸的示例包括但不限于ataaaacgacggcnnnnnnnnnnnnnnagatcggaagagcacacgtctgaactccag*t*c(其中星号代表硫代磷酸酯键;seq id no:1),其中nnnnnnnnnnnnnn(seq id no:2)是分子条形码,并且其中分子条形码中的核苷酸数可以是从0至约25。
[0242]
在一些实施方式中,3'双链体衔接子的第一寡核苷酸包含5'衔接子的退火位点。
[0243]
在一些实施方式中,3'双链体衔接子的第一寡核苷酸包含通用3'衔接子序列。在一些实施方式中,通用3'衔接子序列包含r2测序引物位点。
[0244]
在一些情况下,本文所述的3'双链体衔接子的第一寡核苷酸还可包括一个或多个特征以防止或减少pcr期间的延伸。在pcr期间可以防止或减少延伸的特征可以是任何类型的特征(例如,化学修饰)。可以防止或减少pcr期间的延伸并且可以包括在本文所述的3'双链体衔接子的第一寡核苷酸中的特征的示例包括但不限于3spc3和3phos。可以在寡核苷酸内的任何适当位置将可以防止或减少pcr期间延伸的特征纳入本文所述的3'双链体衔接子的第一寡核苷酸中。在一些情况下,可以在pcr期间防止或减少延伸的分子可以从内部纳入寡核苷酸中。在一些情况下,可以在寡核苷酸的末端(例如,5'端)处纳入在pcr期间防止或减少延伸的分子。
[0245]
在具体实施方式中,3'双链体衔接子的第一寡核苷酸包含5'磷酸、含有与存在于3'双链体衔接子的第二寡核苷酸中的核苷酸互补的核苷酸的第一区段、外源性uid序列、用于5'衔接子的退火位点,和通用3'衔接子序列。
[0246]
本文所述的3'双链体衔接子的第二寡核苷酸可以是包括封闭的3'基团的寡核苷酸(例如,以减少或消除两个衔接子的二聚化)。本文所述的3'双链体衔接子的第二寡核苷酸可以包括任何合适数量的核苷酸。在一些实施方式中,3'双链体衔接子的第二寡核苷酸与3'双链体衔接子的第一寡核苷酸的第一区段互补。包括封闭的3'基团并且可以包括在本文所述的3'双链体衔接子的第二寡核苷酸中的示例性寡核苷酸包括但不限于gccgucguuuuadt(seq id no:3)。
[0247]
本文所述的3'双链体衔接子的第二寡核苷酸可以是可降解的。可以使用任何合适的方法来降解本文所述的3'双链体衔接子的第二寡核苷酸。例如,udg可用于降解本文所述的3'双链体衔接子的第二寡核苷酸。
[0248]
在一些情况下,本文所述的3'双链体衔接子可以包括退火至包含序列gccgucguuuuadt(seq id no:3)的第二寡核苷酸的第一寡核苷酸,所述第一寡核苷酸包含序列ataaaacgacggcnnnnnnnnnnnnnnagatcggaagagcacacgtctgaactccag*t*c/3spc3(seq id no:1)。
[0249]
在一些情况下,本文所述的3'双链体衔接子可以包括市售衔接子。可用作(或可用于产生)本文所述的3'双链体衔接子的示例性市售衔接子包括但不限于accel-ngs 2s dna文库试剂盒(swift biosciences,目录号21024)中的衔接子。在一些情况下,本文所述的3'双链体衔接子可以如实施例1中所述。
[0250]
可以使用任何合适的方法将3'衔接子连接(例如,共价连接)至双链dna片段的3'端。在一些实施方式中,3'衔接子通过连接(ligation)连接(attach)。在一些实施方式中,连接包括使用连接酶。可用于将3'衔接子连接至各核酸片段的3'端的连接酶的示例包括但不限于t4 dna连接酶、大肠杆菌连接酶(例如酶y3)、circligase i、circligase ii、taq-连接酶、t3连接酶、t7连接酶和9n连接酶。
[0251]
一旦3'双链体衔接子连接(例如,共价连接)到各核酸片段的3'端,本文所述的3'双链体衔接子的第二个寡核苷酸可以被降解,并且5'衔接子可被连接(例如,共价连接)到各核酸片段的5'端。在一些实施方式中,5'衔接子序列与3'衔接子的第一寡核苷酸不互补。
在一些实施方式中,5'衔接子序列在5'至3'方向上包含r1测序引物位点和与3'衔接子的退火位点互补的序列。
[0252]
在一些实施方式中,5'衔接子的连接包括将5'衔接子通过退火位点退火至3'衔接子。
[0253]
5'衔接子可以退火至3'双链体衔接子上的分子条形码上游的核酸片段,从而使得包含3'双链体的部分(例如,分子条形码)的缺口(例如,单链核酸片段)存在于核酸片段上。可以填充包含部分3'双链体衔接子的缺口(例如,以产生双链核酸片段)。可以使用任何合适的方法来填充单链缺口。可用于填充核酸片段上的单链缺口的方法的示例包括但不限于聚合酶,例如dna聚合酶(例如,taq聚合酶,例如taq-b聚合酶)和切口平移反应(例如,包括连接酶如大肠杆菌连接酶和聚合酶如dna聚合酶)。在填充核酸片段上的单链缺口包括提供聚合酶的情况下,所述方法还可以包括提供脱氧核糖核苷酸三磷酸(dntp;例如datp、dgtp、dctp和dttp)。在一些情况下,将5'衔接子连接至各核酸片段的5'端并填充单链缺口可以同时进行(例如,在单个反应管中)。
[0254]
在一些情况下,可以使用替代方法将衔接子连接到模板。例如,核酸片段可以用单链核酸酶处理(例如,消化突出端),然后连接可以用于制备双链测序文库。例如,可以将单核苷酸添加到各核酸片段的3'端,并且可以将在5'端包含互补碱基的衔接子(例如,包含分子条形码)连接至各核酸片段以制备衔接子连接模板的双链体测序文库。
[0255]
衔接子连接的模板的初始扩增
[0256]
在连接衔接子之后,衔接子连接的模板可以在初始扩增反应中被扩增(例如,pcr扩增)。可以使用任何合适的方法来扩增衔接子连接的模板。可用于扩增衔接子连接的模板的示例性方法包括但不限于全基因组pcr。
[0257]
任何合适的引物对都可用于扩增衔接子连接的模板。在一些情况下,可以使用通用引物对。引物可以包括但不限于约12个核苷酸至约30个核苷酸。可用于扩增如本文所述的衔接子连接的模板的引物对的示例包括但不限于实施例1和/或实施例2中描述的那些。
[0258]
任何合适的pcr条件均可用于初始扩增。pcr扩增可以包括变性阶段、退火阶段和延伸阶段。扩增循环的各阶段可以包括任何合适的条件。在一些情况下,变性阶段可包括约90℃至约105℃(例如,约94℃至约98℃)的温度和约1秒至约5分钟(例如,约10秒到约1分钟)的时间。例如,变性阶段可以包括约98℃的温度持续约10秒。在一些情况下,退火阶段可包括约50℃至约72℃的温度和约30秒至约90秒的时间。在一些情况下,延伸阶段可包括约55℃至约80℃的温度,以及约15秒/kb待生成的扩增子至约30秒/kb待生成的扩增子的时间。在一些情况下,退火和延伸阶段可以在一个循环中进行。例如,退火和延伸阶段可以包括约65℃的温度持续约75秒。
[0259]
初始扩增中使用的pcr条件可以包括任何合适数量的pcr扩增循环。在一些情况下,pcr扩增可包括约1至约50个循环。在一些实施方式中,pcr扩增包括不超过11个循环。在一些实施方式中,pcr扩增包括不超过7个循环。在一些实施方式中,pcr扩增包括不超过5个循环。
[0260]
在一些情况下,当pcr条件包括热激活聚合酶时,pcr扩增也可以包括初始化步骤。例如,pcr扩增可以包括在进行pcr扩增循环之前的初始化步骤。在一些情况下,初始化步骤可包括约94℃至约98℃的温度和约15秒至约1分钟的时间。例如,初始化步骤可以包括约98
℃的温度持续约30秒。
[0261]
在一些情况下,pcr扩增还可以包括保持步骤。例如,pcr扩增可以包括在进行pcr扩增循环之后(任选地在进行任何最终延伸步骤之后)的保持步骤。在一些情况下,保持步骤可以包括约4℃至约15℃的温度,持续不定时间。
[0262]
在一些情况下,可以纯化如本文所述产生的双链体测序文库(例如,扩增的双链体测序文库)。可以使用任何合适的方法来纯化双链测序文库。可用于纯化双链测序文库的示例性方法包括但不限于磁珠(例如固相可逆固定(spri)磁珠)。
[0263]
任选的ssdna文库制备
[0264]
在一些情况下,双链体测序文库可用于生成单链watson链衍生序列文库和单链crick链衍生序列文库。生成单链watson链衍生序列文库和单链crick链衍生序列文库可以最小化非特异性扩增(例如,扩增自与连接序列如3'双链体衔接子或5'衔接子互补的引物)。任何合适的方法可用于产生单链watson链衍生序列文库和单链crick链衍生序列文库(例如,来自如本文所述产生的双链体测序文库)。在一些情况下,单链watson链衍生序列文库和单链crick链衍生序列文库可以通过如下方式由扩增的双链体测序文库产生:将扩增产物分成至少两个等分部分,并使各等分部分经历pcr扩增,其中watson链从第一等分部分扩增,且crick链从第二等分部分扩增。例如,可以使用引物对对来自扩增的双链体测序文库的扩增产物的第一等分部分进行pcr扩增,所述引物对中,第一引物是生物素化的,且第二引物是非生物素化的,以产生watson链的单链文库,并且可以使用引物对对来自扩增的双链体测序文库的扩增产物的第二等分部分进行pcr扩增,所述引物对中,第一引物是非生物素化的,第二引物是生物素化的,以产生crick链的单链文库。在一些情况下,可以产生单链watson链衍生序列文库和单链crick链衍生序列文库,如图2和图3所示。
[0265]
可以使用任何合适的方法从扩增的双链体测序文库中产生单链watson链衍生序列文库和单链crick链衍生序列文库。例如,来自扩增的双链体测序文库的扩增产物可以分为第一pcr扩增和第二pcr扩增,其中pcr引物对中的两个引物中只有一个带标签。例如,第一pcr扩增可以使用包括带标签引物(例如,第一引物)和未带标签引物(例如,第二引物)的引物对,并且第二pcr扩增可以使用包括未带标签引物(例如,第一引物)和带标签引物(例如,第二引物)的引物对。引物标签可以是能够回收从带标签引物产生的pcr扩增产物的任何标签。在一些情况下,带标签引物可以是生物素化的引物,并且由生物素化的引物产生的pcr扩增产物可以使用链霉抗生物素蛋白来回收。例如,可以使用包括生物素化引物和非生物素化引物的引物对在pcr扩增中产生单链watson链衍生序列文库和单链crick链衍生序列文库。在一些情况下,带标签引物可以是磷酸化的引物,并且从磷酸化的引物产生的pcr扩增产物可以使用λ核酸酶来回收。例如,可以使用包括磷酸化引物和非磷酸化引物的引物对在pcr扩增中产生单链watson链衍生序列文库和单链crick链衍生序列文库。
[0266]
任何合适的引物对可用于产生单链watson链衍生序列文库和单链crick链衍生序列文库(例如,来自如本文所述产生的双链体测序文库)。引物可以包括但不限于约12个核苷酸至约30个核苷酸。在一些情况下,引物对可以包括至少一种引物,其可以靶向(例如靶向并结合至)存在于如本文所述产生的扩增产物中的衔接子序列(例如,包含分子条形码的衔接子序列)(例如,通过在扩增之前将包括第一分子条形码的3'双链体衔接子和包括第二分子条形码的5'衔接子连接至双链体测序文库中的核酸片段)。可用于产生如本文所述的
单链watson链衍生序列文库和单链crick链衍生序列文库的引物对的示例包括但不限于p5引物和p7引物。
[0267]
任何合适的pcr条件可用于产生单链watson链衍生序列文库和单链crick链衍生序列文库(例如,来自如本文所述产生的双链体测序文库)。pcr扩增可以包括变性阶段、退火阶段和延伸阶段。扩增循环的各阶段可以包括任何合适的条件。在一些情况下,变性阶段可包括约90℃至约105℃的温度和约1秒至约5分钟的时间。例如,变性阶段可以包括约98℃的温度持续约10秒。在一些情况下,退火阶段可包括约50℃至约72℃的温度和约30秒至约90秒的时间。在一些情况下,延伸阶段可包括约55℃至约80℃的温度,以及约15秒/kb待生成的扩增子至约30秒/kb待生成的扩增子的时间。在一些情况下,延伸阶段反映了所用聚合酶的持续合成能力。在一些情况下,退火和延伸阶段可以在一个循环中进行。例如,退火和延伸阶段可以包括约65℃的温度持续约75秒。
[0268]
用于产生单链watson链衍生序列文库和单链crick链衍生序列文库(例如,来自如本文所述产生的双链测序文库)的pcr条件可以包括任何合适数量的pcr扩增循环。在一些情况下,pcr扩增可包括但不限于约1至约50个循环。例如,pcr扩增可以包括大约4个扩增循环。
[0269]
在一些情况下,当pcr条件包括热激活聚合酶时,pcr扩增也可以包括初始化步骤。例如,pcr扩增可以包括在进行pcr扩增循环之前的初始化步骤。在一些情况下,初始化步骤可包括约94℃至约98℃的温度和约15秒至约1分钟的时间。例如,初始化步骤可以包括约98℃的温度持续约30秒。
[0270]
在一些情况下,pcr扩增还可以包括保持步骤。例如,pcr扩增可以包括在进行pcr扩增循环之后(任选地在进行任何最终延伸步骤之后)的保持步骤。在一些情况下,保持步骤可以包括约4℃至约15℃的温度,持续不定时间。
[0271]
可以使用任何合适的方法将双链扩增产物分离成单链扩增产物。在一些情况下,双链扩增产物可以变性以将双链扩增产物分离成两种单链扩增产物。可用于将双链扩增产物分离成单链扩增产物的方法的示例包括但不限于热变性、化学(例如naoh)变性和盐变性。
[0272]
在pcr扩增之后,可以回收带标签的pcr扩增产物。可以使用任何合适的方法来回收使用带标签引物产生的带标签pcr扩增产物。在带标签引物是生物素化的引物的情况下,生物素化的扩增产物(例如,由生物素化的引物产生)可以使用链霉亲和素(例如,链霉亲和素功能化珠)回收。例如,当扩增的双链体测序文库在使用包括第一生物素化引物和第二非生物素化引物的引物对的第一pcr扩增和使用包括第一非生物素化引物和第二生物素化引物的引物对的第二pcr扩增中进一步扩增时,由第一pcr扩增产生的生物素化扩增产物可结合至链酶亲和素功能化珠(例如,第一组链酶亲和素功能化珠)并且由第二pcr扩增产生的生物素化扩增产物可结合至链酶亲和素功能化珠(例如,第一二组链酶亲和素功能化珠),并且双链扩增产物可被分离(例如,变性)成扩增产物的单链。在一些情况下,回收生物素化的pcr扩增产物还可以包括从链霉亲和素(例如,链霉亲和素功能化珠)释放生物素化的pcr扩增产物。分离使用包括第一生物素化引物和第二非生物素化引物的引物对的第一pcr扩增和使用包括第一非生物素化引物和第二非生物素化引物的引物对的第二pcr扩增产生的双链扩增产物可允许由生物素化引物产生的单链扩增产物保持结合至链酶亲和素功能化
珠,同时由非生物素化引物产生的单链扩增产物可从链酶亲和素功能化珠变性(例如,变性和降解),由此产生双链体测序文库的单链watson链衍生序列文库和单链crick链衍生序列文库。
[0273]
在带标签引物是磷酸化的引物的情况下,磷酸化的扩增产物(例如,由磷酸化的引物产生)可以使用核酸外切酶(例如,λ核酸外切酶)回收。例如,当扩增的双链体测序文库在使用包括第一磷酸化引物和第二非磷酸化引物的引物对的第一pcr扩增和使用包括第一非磷酸化引物和第二磷酸化引物的引物对的第二pcr扩增中进一步扩增时,所述双链扩增产物可被分成所述扩增产物的单链。分离通过使用包括第一磷酸化引物和第二非磷酸化引物的引物对的第一pcr扩增和使用包括第一非磷酸化引物和第二磷酸化引物的引物对的第二pcr扩增产生的双链扩增产物可允许由非磷酸化引物产生的单链扩增产物被回收,同时由磷酸化引物产生的单链扩增产物可被λ核酸外切酶降解,由此产生所述双链体测序文库的单链watson链衍生序列文库和单链crick链衍生序列文库。
[0274]
靶标富集
[0275]
在本文中任何一种方法的一些实施方式中,通过初始扩增产生的扩增子富含一种或多种靶多核苷酸。在一些实施方式中,在靶标富集之前,由初始扩增产生的扩增子制备单链dna文库。本文描述了用于产生单链dna文库的示例性方法。
[0276]
可以使用任何合适的方法从扩增产物文库(例如,双链体测序文库、单链watson链衍生序列文库或单链crick链衍生序列文库,如本文所述生成)扩增靶区域。在一些情况下,靶区域可通过如下方式从扩增产物文库扩增:使扩增产物文库经历使用引物对的pcr扩增,所述引物对中具有:一种引物(例如第一引物),其能够靶向(例如靶向并结合至)如本文所述(例如,通过在扩增之前,将包含第一分子条形码的3'双链体衔接子和包含第二分子条形码的5'衔接子连接至双链体测序文库中的核酸片段)产生的扩增产物中存在的衔接子序列(例如,含有分子条形码的衔接子序列),和一种引物(例如第二引物),其能够靶向(例如靶向并结合至)靶区域(例如,感兴趣的区域)。在一些情况下,可以产生单链watson链衍生序列文库和单链crick链衍生序列文库,如图4和图5所示。在一些情况下,可以产生单链watson链衍生序列文库和单链crick链衍生序列文库,如实施例2所述。
[0277]
在一些情况下,靶区域可在单pcr扩增中从扩增产物文库(例如,双链测序文库、单链watson链衍生序列文库或单链crick链衍生序列文库,如本文所述产生)扩增。例如,可以使用引物对在单pcr扩增中从扩增产物文库扩增靶区域,所述引物对包括第一引物,其能够靶向如本文所述(例如,通过在扩增前将包括第一分子条形码的3'双链体衔接子和包括第二分子条形码的5'衔接子连接至双链体测序文库中的核酸片段)产生的扩增产物中存在的衔接子序列(例如,包含分子条形码的衔接子序列),和第二引物,其能够靶向靶区域。例如,可以在如图4、图5、图15和图17所示的单pcr扩增中从扩增产物文库扩增靶区域。
[0278]
在一些情况下,靶区域可在多重pcr扩增中从扩增产物文库(例如,双链测序文库、单链watson链衍生序列文库或单链crick链衍生序列文库,如本文所述产生)扩增。多重pcr扩增(例如,第一pcr扩增和随后的巢式pcr扩增)可用于增加扩增靶区域的特异性。例如,可以在一系列pcr扩增中从扩增产物文库扩增靶区域,其中第一pcr扩增使用包括第一引物和第二引物的引物对,所述第一引物能够靶向如本文所述(例如,通过在扩增前将包括第一分子条形码的3'双链体接头和包括第二分子条形码的5'接头连接到双链体测序文库中的核
酸片段)产生的扩增产物中存在的衔接子序列(例如,包含分子条形码的衔接子序列),所述第二引物能够靶向靶区域,并且使在第一pcr扩增中产生的扩增产物经历后续的巢式pcr扩增,所述巢式pcr使用包括第一引物和第二引物的引物对,所述第一引物能够靶向如本文所述(例如,通过在扩增前将包含第一分子条形码的3'双链体衔接子和包含第二分子条形码的5'衔接子连接至双链体测序文库中的核酸片段)产生的扩增产物中存在的衔接子序列(例如,包含分子条形码的衔接子序列),并且所述第二引物能够靶向第一pcr扩增中产生的扩增产物中存在的靶区域的核酸序列。例如,可以在一系列pcr扩增中从扩增产物文库中扩增靶区域,如图7、图8、图16和图18所示。
[0279]
可以使用任何合适的引物对从扩增产物文库(例如,双链体测序文库、单链watson链衍生序列文库或单链crick链衍生序列文库,如本文所述生成)扩增靶区域。引物可以包括但不限于约12个核苷酸至约30个核苷酸。在一些情况下,引物对可以包括引物(例如,第一引物),其能够靶向(例如,靶向并结合至)如本文所述(例如,通过在扩增之前将包括第一分子条形码的3'双链体衔接子和包括第二分子条形码的5'衔接子被连接至双链体测序文库中的核酸片段)产生的扩增产物中存在的衔接子序列(例如,包含分子条形码的衔接子序列),和引物(例如,第二引物),其能够靶向(例如,靶向并结合至)靶区域(例如,感兴趣的区域)。能够靶向如本文所述(例如,通过在扩增前将包括第一分子条形码的3'双链体衔接子和包括第二分子条形码的5'衔接子连接至双链测序文库中的核酸片段)产生的扩增产物中存在的含有分子条形码的衔接子序列的引物的示例包括但不限于i5索引引物和i7索引引物。能够靶向靶区域的引物可以包括与靶区域互补的序列。在靶区域是编码tp53的核酸的情况下,可以靶向编码tp53的核酸的引物的示例包括但不限于tp53_342_gsp1和tp53_gsp2。在一些情况下,当靶区域是编码tp53的核酸时,靶向编码tp53的核酸的引物可以如实施例2中所述。
[0280]
在一些情况下,用于从扩增产物文库(例如双链测序文库、单链watson链衍生序列文库或单链crick链衍生序列文库,如本文所述产生)扩增靶区域的引物对的引物之一或两者可包括一个或多个分子条形码。
[0281]
在一些情况下,用于从扩增产物文库(例如双链测序文库、单链watson链衍生序列文库或单链crick链衍生序列文库,如本文所述产生)扩增靶区域的引物对的引物之一或两者可包括一个或多个移接序列(例如,用于下一代测序的移接序列)。
[0282]
在一个方面,靶标富集包括(a)用第一组watson靶标选择性引物对选择性扩增包含靶多核苷酸序列的watson链的扩增子,所述第一组watson靶标选择性引物对包含:(i)第一watson靶标选择性引物,其包含与通用3'衔接子序列的r2测序引物位点互补的序列,和(ii)第二watson靶标选择性引物,其包含靶标选择性序列,由此产生靶watson扩增产物;和(b)用第一组crick靶标选择性引物对选择性扩增包含相同靶标多核苷酸序列的crick链的扩增子,所述第一组crick靶标选择性引物对包括:(i)第一crick靶标选择性引物,其包含与通用5'衔接子序列的r1测序引物位点互补的序列,和(ii)第二crick靶标选择性引物,其与第二watson靶标选择性引物序列包含相同的靶标选择性序列,由此产生靶标crick扩增产物。
[0283]
在一些实施方式中,所述方法还包括从非靶标多核苷酸纯化靶标watson扩增产物和靶标crick扩增产物。在一些实施方式中,所述纯化包括将靶标watson扩增产物和靶标
crick扩增产物连接至固体支持物。在一些实施方式中,第一watson靶标选择性引物和第一crick靶标选择性引物包含亲和结合对的第一成员,并且其中固体支持物包含亲和结合对的第二成员。在一些实施方式中,第一成员是生物素并且第二成员是链霉亲和素。在一些实施方式中,固体支持物包括珠、孔、膜、管、柱、板、琼脂糖、磁珠或芯片。在一些实施方式中,所述方法包括去除未连接至固体支持物的多核苷酸。
[0284]
在一些实施方式中,所述方法还包括(a)采用第二组watson靶标选择性引物进一步扩增靶标watson扩增产物,所述第二组watson靶标选择性引物包含:(i)第三watson靶标选择性引物,其包含与通用3’衔接子序列的r2测序引物位点互补的序列,和(ii)第四watson靶标选择性引物,其在5’至3’方向上包含,r1测序引物位点和对相同靶标多核苷酸具有选择性的靶标选择性序列,由此产生靶标watson文库成员;(b)采用第二组crick靶标选择性引物进一步扩增靶标crick扩增产物,所述第二组crick靶标选择性引物包含(i)第三crick靶标选择性引物,其包含与通用3’衔接子序列的r1测序引物位点互补的序列,和(ii)第四crick靶标选择性引物,其在5'至3'方向上包含,r2测序引物位点和对第四watson靶标选择性引物的相同靶标多核苷酸具有选择性的靶标选择性序列,由此产生靶标crick文库成员。
[0285]
在一些实施方式中,第三watson和crick靶标选择性引物还包含样品条形码序列。在一些实施方式中,第三watson靶标选择性引物还包含能够实现与测序仪上的第一移接引物的杂交的第一移接序列,并且其中第三crick靶标选择性引物还包括能够实现与测序仪上的第二移接引物的杂交的第二移接序列。在一些实施方式中,第四watson靶标选择性引物还包含第二移接序列,并且其中第四crick靶标选择性引物还包含第一移接序列。在一些实施方式中,第一移接序列是p7序列,并且其中第二移接序列是p5序列。
[0286]
可以使用任何合适的pcr条件来产生如本文所述的扩增靶区域(例如,来自扩增产物文库,例如双链体测序文库、单链watson链衍生序列文库或单链crick链衍生序列文库)。本文描述了示例性的pcr条件。用于产生如本文所述的扩增靶区域(例如,来自扩增产物文库,例如双链体测序文库、单链watson链衍生序列文库或单链crick链衍生序列文库)的pcr条件可包括任何合适数量的pcr扩增循环。在一些情况下,pcr扩增可包括但不限于约1至约50个循环。例如,当扩增的靶区域的pcr扩增包括单pcr扩增时,该pcr扩增可以包括约18个扩增循环。例如,当扩增的靶区域的pcr扩增包括第一pcr扩增和后续的巢式pcr扩增时,第一pcr扩增可包括约18个扩增循环,并且后续的巢式pcr扩增可包括约10个扩增循环。
[0287]
示例性靶标
[0288]
可以从扩增产物文库(例如双链体测序文库、单链watson链衍生序列文库或单链crick链衍生序列文库,如本文所述产生)扩增任何合适的靶区域(例如,感兴趣的区域),并评估一个或多个突变的存在与否。在一些情况中,靶区域可以是其中一个或多个突变与疾病或病症相关联的核酸区域。可以扩增和评估是一个或多个突变的存在与否的靶区域的示例包括但不限于:编码肿瘤蛋白p53(tp53)的核酸、编码乳腺癌1(brca1)的核酸、编码brca2的核酸、编码磷酸酶和张力蛋白同源物(pten)多肽的核酸、编码akt1多肽的核酸、编码apc多肽的核酸、编码cdkn2a多肽的核酸、编码egfr多肽的核酸、编码fbxw7多肽的核酸、编码gnas多肽的核酸、编码kras多肽的核酸、编码nras多肽的核酸、编码pik3ca的核酸多肽、编码braf多肽的核酸、编码ctnnb1多肽的核酸、编码fgfr2多肽的核酸、编码hras多肽的核酸
和编码ppp2r1a多肽的核酸。在一些情况中,可以扩增和评估一个或多个突变的存在与否的靶区域可以是编码tp53的核酸。例如,编码tp53的核酸可以如实施例2中所述进行扩增和评估。
[0289]
可以使用任何合适的方法来评估靶区域(例如,扩增的靶区域)的一个或多个突变的存在与否。在一些情况中,一种或多种测序方法可用于评估扩增的靶区域的一个或多个突变的存在与否。
[0290]
序列确定
[0291]
在一些情况中,可以使用一种或多种测序方法来评估扩增的靶区域以确定突变是否均存在于watson链和crick链上。在一些情况中,测序读数可用于评估扩增的靶区域中一个或多个突变的存在与否,并可用于确定watson链和crick链上是否均存在突变。可用于如本文所述评估扩增的靶区域中一个或多个突变的存在与否的测序方法的示例包括但不限于单读数测序、双端测序、ngs和深度测序。在一些实施方式中,单读数测序包括对模板的整个长度进行测序以产生序列读数。在一些实施方式中,测序包括双端测序。在一些实施方式中,使用大规模并行测序仪进行测序。在一些实施方式中,大规模平行测序仪被设置为确定来自模板多核苷酸两端的序列读数。
[0292]
序列读数分析
[0293]
在一些实施方式中,序列读数被映射到参考基因组。
[0294]
在一些实施方式中,序列读数被分配到uid家族中。uid家族可以包含源自原始模板的扩增子的序列读数,例如来自核酸样品的原始双链dna片段。
[0295]
在一些实施方式中,uid家族的各成员包含相同的外源性uid序列。在一些实施方式中,uid家族的各成员还包含相同的内源性uid序列。本文描述了内源性uid。
[0296]
在一些实施方式中,uid家族的各成员还包含相同的外源性uid序列和相同的内源性uid序列。在一些实施方式中,外源性uid序列和内源性uid序列的组合对于uid家族是独特的。在一些实施方式中,外源性uid序列和内源性uid序列的组合不存在于核酸样品中代表的另一个uid家族中。
[0297]
uid家族的成员数量取决于测序的深度。在一些实施方式中,uid家族包含至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500或1000个成员。在一些实施方式中,uid家族包括约2-1000个成员、约2-500个成员、约2-100个成员、约2-50个成员或约2-20个成员。
[0298]
在一些实施方式中,将个体uid家族的序列读数分配至watson亚家族和crick亚家族。在一些实施方式中,基于插入物相对于衔接子序列的方向,将个体uid家族的序列读数分配至watson和crick亚家族。在一些实施方式中,插入物相对于衔接子序列的方向通过序列读数如何排列为“读数对”或“匹配对”来解决。
[0299]
在一些实施方式中,序列读数向watson和crick亚家族的分配基于外源性uid序列与r1和r2读数序列的空间关系。在一些实施方式中,watson亚家族成员的特征在于外源性uid序列位于r2序列下游和r1序列上游。在一些实施方式中,crick亚家族成员的特征在于外源性uid序列位于r1序列下游和r2序列上游。在一些实施方式中,watson亚家族成员的特
征在于外源性uid序列更接近r2序列且距离r1序列更远。在一些实施方式中,crick亚家族成员的特征在于外源性uid序列更接近r1序列并且距离r2序列更远。在一些实施方式中,watson亚家族成员的特征在于外源性uid序列紧邻r2序列下游或在距离r2序列1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5个核苷酸内。在一些实施方式中,crick亚家族成员的特征在于外源性uid序列紧邻r1序列下游或在距离r1序列1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5个核苷酸内。
[0300]
在一些实施方式中,uid亚家族(例如,watson亚家族和/或crick亚家族)包含至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490或500个成员。在一些实施方式中,uid亚家族(例如,watson亚家族和/或crick亚家族)包含约2-500个成员、约2-100个成员、约2-50个成员、约2-20个成员或约2-10个成员。
[0301]
在一些实施方式中,当一定阈值百分数(或超阈值的百分数)的watson亚家族成员包含某一核酸序列时,该序列被确定为准确代表分析物dna片段(例如,来自核酸样品的双链dna片段)的watson链。在一些实施方式中,当一定阈值百分数(或超阈值的百分数)的crick亚家族成员包含某一核酸序列时,该序列被确定为准确代表分析物dna片段(例如,来自核酸样品的双链dna片段)的crick链。
[0302]
阈值可以由技术人员基于例如亚家族成员的数量、测序实验的特定目的和测序实验的特定参数来确定。在一些实施方式中,阈值设置为1%、5%、10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%。在具体实施方式中,阈值设置为50%。仅举例而言,在阈值设置为50%的实施方式中,当至少50%的亚家族成员包含某一核苷酸序列时,该序列被确定为准确地代表分析物dna片段(例如来自核酸样品的双链dna片段)的watson或crick链。仅另举例而言,在阈值设置为50%的实施方式中,当多于50%的亚家族成员包含某一核苷酸序列时,该序列被确定为准确地代表分析物dna片段(例如来自核酸样品的双链dna片段)的watson或crick链。
[0303]
在一些实施方式中,准确代表分析物dna片段的watson链的序列被确定为具有突变。在一些实施方式中,当准确代表分析物dna片段的watson链的序列与缺乏突变的参考序列不同时,确定该序列具有突变。
[0304]
在一些实施方式中,准确代表分析物dna片段的crick链的序列被确定为具有突变。在一些实施方式中,当准确代表分析物dna片段的crick链的序列与缺乏突变的参考序列不同时,确定该序列具有突变。
[0305]
在一些实施方式中,当准确代表watson链的序列和准确代表crick链的序列包含相同突变时,确定分析物dna片段具有突变。
[0306]
在一些情况中,分子条形码在扩增的靶区域的双端测序读数内的位置可用于区分扩增的靶区域衍生自双链核酸模板的哪条链。例如,当扩增的靶区域的第一个双端测序读数表明分子条形码被最后读取时,可将扩增的靶区域鉴定为衍生自核酸模板的有义链,并且当扩增的靶区域的第一个双端测序读数表明分子条形码被首先读取时,可将扩增的靶区域鉴定为衍生自核酸模板的反义链。例如,当扩增的靶区域的第二个双端测序读数表明分子条形码被首先读取时,可将扩增的靶区域鉴定为衍生自核酸模板的反义链,并且当扩增
的靶区域的第二个双端测序读数表明分子条形码被最后读取时,可将扩增的靶区域鉴定为衍生自核酸模板的有义链。在某些情况下,双端测序可用于区分源自watson链的扩增产物与源自crick链的扩增产物,如图20和图21所示。
[0307]
在对靶区域(例如,如本文所述扩增的靶区域)进行测序之后,测序读数可以与参考基因组比对,并通过各测序读数中存在的分子条形码进行分组。在一些情况中,包括相同分子条形码并映射到双链核酸模板的watson链和crick链(例如,靶区域的watson链和crick链)两者的测序读数可被鉴定为具有双链体支持。例如,当测序读数表明靶区域中一个或多个突变的存在包括相同的分子条形码并映射到靶区域的watson链和crick链两者时,可将所述突变鉴定为具有双链体支持。
[0308]
试剂盒
[0309]
本文还提供了试剂盒。试剂盒可包含用于扩增一种或多种靶多核苷酸的引物对的组。
[0310]
在一些实施方式中,所述试剂盒包含(a)第一组watson靶标选择性引物对,其包含(i)一个或多个第一watson靶标选择性引物,其包含与通用3'衔接子序列的r2测序引物位点互补的序列,和(ii)一个或多个第二watson靶标选择性引物,所述一个或多个第二watson靶标选择性引物各自包含靶标选择性序列;(b)第一组crick靶标选择性引物对,其包含(i)一个或多个crick靶标选择性引物,其包含与通用5'衔接子序列的r1测序引物位点互补的序列,和(ii)一个或多个第二crick靶标选择性引物,所述一个或多个第二crick靶标选择性引物各自与所述第二watson靶标选择性引物序列包含相同的靶标选择性序列;(c)第二组watson靶标选择性引物对,其包含(i)一个或多个第三watson靶标选择性引物,其包含与通用3'衔接子序列的r2测序引物位点互补的序列,和(ii)一个或多个第四watson靶标选择性引物,所述一个或多个第四watson靶标选择性引物各自在5'至3'方向上包含r1测序引物位点和对相同靶多核苷酸具有选择性的靶标选择性序列;和(d)第二组crick靶标选择性引物,其包含(i)一个或多个第三crick靶标选择性引物,其包含与通用3'衔接子序列的r1测序引物位点互补的序列,和(ii)一个或多个第四crick靶标选择性引物,所述一个或多个第四crick靶标选择性引物各自在5'至3'方向上包含r2测序引物位点和对相同靶多核苷酸具有选择性的靶标选择性序列。
[0311]
所述试剂盒可以包含用于多个靶多核苷酸的多重扩增的引物对的组。
[0312]
计算机可读介质
[0313]
本文还提供了一种计算机可读介质,其包括被设置为实现本文描述的任何方法的计算机可执行指令。所述计算机可读介质可包含用于分析来自核酸样品的序列数据的计算机可执行指令,其中所述数据通过前述权利要求中任一项所述的方法产生。
[0314]
计算机可读介质可以实现用于半自动化或自动化序列数据分析的方法。
[0315]
在一些实施方式中,计算机可读介质包含用于以下的可执行指令:(a)将序列读数分配到uid家族中,其中uid家族的各成员包含相同的外源性uid序列;(b)将各uid家族的序列读数分配给watson和crick亚家族;(c)当一定阈值百分数的watson亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的watson链;(d)当一定阈值百分数的crick亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的crick链;(e)当准确代表watson链的序列与缺乏突变的参考序列不同时,鉴定该准确代表
watson链的核苷酸序列中的突变;(f)当准确代表crick链的序列与缺乏突变的参考序列不同时,鉴定该准确代表crick链的核苷酸序列中的突变;和(g)当准确代表watson链的核苷酸序列中的突变和准确代表crick链的核苷酸序列中的突变是相同突变时,鉴定分析物dna片段中的突变。
[0316]
在一些实施方式中,计算机可读介质包括用于基于外源性uid序列与r1和r2读数序列的空间关系,将uid家族成员分配给watson亚家族或crick亚家族的可执行代码。在一些实施方式中,当外源性uid序列位于r2序列下游和r1序列上游时,计算机可执行代码将uid家族成员分配给watson亚家族。在一些实施方式中,当外源性uid序列位于r1序列下游和r2序列上游时,计算机可执行代码将uid家族成员分配给crick亚家族。在一些实施方式中,当外源性uid序列与r2序列更接近且与r1序列距离更远时,计算机可执行代码将uid家族成员分配给watson亚家族。在一些实施方式中,当外源性uid序列更接近r1序列且与r2序列距离更远时,计算机可执行代码将uid家族成员分配给crick亚家族。在一些实施方式中,当外源性uid序列紧邻r2序列下游或在距离r2序列1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5个核苷酸内时,计算机可执行代码将uid家族成员分配给watson亚家族。在一些实施方式中,当外源性uid序列紧邻r1序列下游或在距离r1序列1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5个核苷酸内时,计算机可执行代码将uid家族成员分配给crick亚家族。
[0317]
一些实施方式中,计算机可读介质包含用于将序列读数映射到参考基因组的可执行代码。在一些实施方式中,参考基因组是人类参考基因组。
[0318]
在一些实施方式中,计算机可读介质包括用于基于样品中突变的存在、不存在或突变量,生成疾病状态、预后或诊断的报告的可执行代码。在一些实施方式中,所述疾病是癌。
[0319]
在一些实施方式中,计算机可读介质包括用于基于样品中突变的存在、不存在或突变量,生成选择报告的可执行代码。
[0320]
在一些实施方式中,计算机可读介质包括用于通过网络传输数据的可执行代码。
[0321]
计算机系统
[0322]
本文还提供了计算机系统。在一些实施方式中,计算机系统包括设置为接收和存储来自核酸样品的序列数据的存储器单元,所述数据由本文所述的方法产生;以及处理器,其以通信方式耦合至所述存储存储器(storage memory),其中所述处理器包括本文公开的计算机可读介质。
[0323]
图32说明了适于使用户能够根据本文所述的任一方法分析核酸样品的示例性计算机系统900。系统900包括中央计算机服务器901,其被编程以实施本文所述的示例性方法。服务器901包括中央处理单元(cpu,也称为“处理器”)905,其可以是单核处理器、多核处理器或用于并行处理的多个处理器。服务器901还包括存储器910(例如随机存取存储器、只读存储器、闪存);电子存储单元915(例如硬盘);用于与一个或多个其它系统(例如,排序系统)通信的通信接口920(例如网络适配器);以及外围设备925,其可以包括高速缓存、其它存储器、数据存储和/或电子显示适配器。存储器910、存储单元915、接口920和外围设备925通过通信总线(实线)(例如主板)与处理器905通信。存储单元915可以是用于存储数据的数据存储单元。在通信接口920的帮助下,服务器901操作性地耦合到计算机网络(“网络”)930。网络930可以是互联网、内联网和/或外联网、与互联网通信的内联网和/或外联网、电
信或数据网络。在一些情况中,在服务器901的帮助下,网络930可以实现对等网络(peer-to-peer network),这可以使耦合到服务器901的设备能够充当客户端或服务器。
[0324]
存储单元915可以存储文件,例如序列数据、条形码序列数据或与本发明相关的任何方面的数据。数据存储单元915可以与和虚拟网格中的单元位置有关的数据耦合。
[0325]
服务器可以通过网络930与一个或多个远程计算机系统通信。一个或多个远程计算机系统可以是例如个人计算机、笔记本电脑、平板电脑、电话、智能电话或个人数字助理。
[0326]
在一些情况中,系统900包括单个服务器901。在其它情况下,系统包括通过内联网、外联网和/或互联网相互通信的多个服务器。
[0327]
服务器901可以适于存储序列数据、关于核酸样品的数据、关于生物样品的数据、关于对象的数据和/或其它潜在相关信息。这样的信息可以存储在存储单元915或服务器901上,并且这样的数据可以通过网络传输。
[0328]
本文所述的方法可以通过存储在服务器901的电子存储位置(例如存储器910或电子存储单元915)上的机器(例如计算机处理器)计算机可读介质(或软件)来实现。在使用过程中,代码可以由处理器905执行。
[0329]
在一些情况中,可以从存储单元915中获取代码并将其存储在存储器910上以供处理器905随时访问。在一些情况中,可以排除电子存储单元915,并且将机器可执行指令存储在存储器910上。或者,代码可以在第二计算机系统940上执行。
[0330]
本文提供的系统和方法的多个方面,例如服务器901,可以体现在编程中。该技术的各个方面可以被认为是“产品”或“制品”,通常是机器(或处理器)可执行代码和/或在一类机器可读介质(例如,计算机可读介质)中携载或实现的相关数据的形式。机器可执行代码可以存储在电子存储单元上,例如存储器(例如,只读存储器、随机存取存储器和闪存)或硬盘。“存储”型介质可以包括计算机、处理器等或其相关模块的任何或全部有形存储器,例如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以随时提供非暂时性存储以供软件编程。软件的全部或部分有时可以通过互联网或各种其它电信网络进行通信。例如,这样的通信可以实现将软件从一台计算机或处理器加载到另一台计算机或处理器中,例如,从管理服务器或主机计算机加载到应用服务器的计算机平台中。因此,可以承载软件元素的另一种类型的媒体包括光波、电波和电磁波,例如跨本地设备之间的物理接口、通过有线和光陆线网络以及通过各种空中链路使用。携带这种波的物理元素,例如有线或无线类、光链路等,也可以被认为是承载软件的介质。如本文所用,除非限于非暂时的、有形的“存储”介质,例如计算机或机器“可读介质”之类的术语是指参与向处理器提供指令以供执行的任何介质。
[0331]
因此,例如计算机可执行代码之类的机器可读介质可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质可以包括例如光盘或磁盘,例如任何计算机等中的任何存储设备,这样可以用于实现该系统。有形传输介质可以包括:同轴电缆、铜线和光纤(包括构成计算机系统内总线的线)。载波传输介质可以采用电或电磁信号的形式,或声波或光波的形式,例如在射频(rf)和红外(ir)数据通信期间产生的那些。因此,计算机可读介质的常见形式包括,例如:软盘、软盘、硬盘、磁带、任何其它磁性介质、cd-rom、dvd、dvd-rom、任何其它光学介质、穿孔卡、纸质、任何其它带有孔图案的物理存储介质、ram、rom、aprom和eprom、flash-eprom、任何其它存储芯片或盒、传输数据或指令
的载波、传输此类载波的电缆或链路,或计算机可以从中读取程序代码和/或数据的任何其它介质。这些形式的计算机可读介质中的许多可能涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。
[0332]
可以借助例如图形用户界面的用户界面将分析结果呈现给用户。
[0333]
本发明将在以下实施例中进一步描述,其不限制权利要求中描述的本发明的范围。
[0334]
实施例
[0335]
实施例1:双链体锚定pcr
[0336]
材料和方法
[0337]
双链体锚定pcr文库制备
[0338]
该方案可使用swift accel-ngs 2s pcr自由文库试剂盒(目录号20024和20096)和特定的截短衔接子和引物来制备双链体文库。在一些情况下,可以通过分开的pcr将全长p5和p7移接序列添加至文库中,以便在illumina仪器上进行测序。
[0339]
该方案适用于pcr管,但可以扩展到pcr板。
[0340]
材料:
[0341]
1.swift accel-ngs 2s pcr自由文库试剂盒(目录号20024和20096)
[0342]
2. 3'swift n14衔接子1v3a
[0343]
a.
[0344]
/5phos/ataaaacgacggcnnnnnnnnnnnnnnagatcggaagagcacacgtctgaactccag*t*c/3spc3/(seq id no:1)
[0345]
b.订购从idt纯化的page,1微摩尔合成规模,冻干
[0346]
c./3spc3/可以用/3phos/取代,不需要硫代磷酸酯键,寡核苷酸可以通过hplc纯化
[0347]
3. 3'swift衔接子2v3'dt
[0348]
a.gccgucguuuua/33dt/(seq id no:3)
[0349]
b./33dt/是对3'-脱氧t的idt非目录修饰
[0350]
c.订购从idt纯化的page,1微摩尔合成规模,冻干
[0351]
4. 5’swift衔接子
[0352]
a./5spc3/a*c*actctttccctacacgacgctcttccgatct(seq id no:4)
[0353]
b.订购从idt纯化的page,1微摩尔合成规模,冻干
[0354]
c./5spc3/和硫代磷酸酯键为非必需,且寡核苷酸应经hplc纯化
[0355]
d.可用来自2s双重索引试剂盒(目录号28096)的trub2试剂进行替换
[0356]
5.neb ultra ii q5主混物(目录号m0544l)
[0357]
6.截短p5引物
[0358]
a.acactctttccctacacgacgctcttccgatct(seq id no:4)
[0359]
b.不需要修饰,由idt脱盐处理,idte中100μm
[0360]
7.截短的p7引物
[0361]
a.gactggagttcagacgtgtgctcttccgatct(seq id no:5)
[0362]
b.不需要修饰,由idt脱盐处理,idte中100μm
[0363]
8.spriselect珠(beckman coulter,目录号b23317/b23318/b23319)
[0364]
9.80% etoh(约2ml/样品)
[0365]
10.pcr管条(例如,genemate vwr目录号490003-710)
[0366]
11.磁架(例如,permagen msrlv08)
[0367]
12.user酶(neb目录号m5505l)

其为尿嘧啶-dna糖基化酶和dna糖基化酶-裂解酶核酸内切酶viii的混合物。
[0368]
制备定制衔接子(可以供大批量一次进行):
[0369]
1.如果不使用swift的trub2试剂,则将5'swift衔接子重悬至42μm低edta te(包含在swift2s试剂盒中)
[0370]
2.将3'swift n14衔接子1v3a重悬至100μm低edta te(包含在swift2s试剂盒中)。-20℃储存以备后用。
[0371]
3.将3'swift衔接子2v3'dt重悬至100μm低edta te(包括在swift 2s试剂盒中)。-20℃储存以备后用。
[0372]
4.通过在室温混合100μl各寡核苷酸,将3'swift n14衔接子1v3a退火至3'swift衔接子2v3'dt。将管标为3'swift n14 v3'dt双链体衔接子,50μm。3'双链体衔接子的最终浓度为50μm。使用前室温孵育至少5分钟。-20c储存以备后用。
[0373]
技术说明:
[0374]
酶管可以从-20℃的储存中取出并置于冰上约10分钟,以使酶在移液前达到4℃。在-20℃移取酶可能会导致酶试剂短缺。
[0375]
将试剂解冻至4℃后,可将试剂(酶除外)短暂涡旋以充分混合。离心离心机中的所有管子,在打开之前收集内容物。
[0376]
在冰上组装所有试剂主混物并酌情缩放体积,使用5%的过量体积来补偿移液损失。
[0377]
试剂应按照整个方案中所述的指定顺序添加到主混物中。
[0378]
可以提前准备试剂(例如,以确保磁珠在尺寸选择步骤中不会变干)。
[0379]
步骤1:模板修复
[0380]
1.将11ng cfdna样品转移至0.2ml pcr管中,必要时,使用低edta te将样品体积调整至终体积37μl。
[0381]
2.向各样品添加3μl user酶。
[0382]
3.涡旋混合,轻轻离心以将所有液体收集到管底。
[0383]
4.将样品放入热循环仪,编程为在37℃下持续15分钟,闭盖加热。
[0384]
步骤2:末端修复1
[0385]
1.轻轻离心样品以收集任何冷凝物。
[0386]
2.在各含有40μl dna样品的样品中添加20μl预混修复i主混物(参见表1)。
[0387]
表1.末端修复i主混物
[0388]
试剂体积/样品低edta te13μl缓冲液w16μl酶w21μl
总体积20μl
[0389]
3.涡旋混合,轻轻离心,放入热循环仪,并按以下顺序运行修复i热循环仪程序。
[0390]
a.37℃,5分钟,开盖加热(盖设为75℃)
[0391]
a.65℃,2分钟,开盖加热(盖设为75℃)
[0392]
c.37℃,5分钟,开盖加热(盖设为75℃)
[0393]
4.热循环仪程序完成后,轻轻离心离心管收集冷凝物。
[0394]
5.加入120μl(2.0x)的spriselect微珠,清理修复i反应。通过涡旋混合。轻轻离心以收集珠并在室温孵育5分钟。
[0395]
6.将样品置于磁架上5分钟收集珠。
[0396]
7.在不干扰沉淀的情况下移出并丢弃上清液。
[0397]
8.将180μl新鲜制备的80%乙醇溶液加至样品,同时样品仍在磁架上。小心不要搅扰沉淀。孵育30秒,然后用p20移液器小心地除去乙醇溶液。
[0398]
9.重复上述步骤,用80%乙醇溶液进行第二次洗涤。
[0399]
10.用p20移液器去除任何残留的乙醇溶液,让珠干燥约30秒。注意不要过度干燥珠,并立即进行末端修复2的步骤1。
[0400]
步骤3:末端修复2
[0401]
1.将50μl预混修复ii主混物(参见表2)添加至各样品的磁珠,并通过涡旋混合直至均匀。
[0402]
表2.末端修复ii主混物
[0403][0404][0405]
2.将样品放入热循环仪,在20℃编程20分钟,闭盖加热。
[0406]
3.热循环仪程序完成后,轻轻旋转离心管收集冷凝物。
[0407]
4.加入90μl(1.8x)的peg/nacl溶液清理修复2反应。通过涡旋混合。轻轻离心以收集珠并在室温孵育5分钟。
[0408]
5.将样品置于磁架上5分钟收集珠。
[0409]
6.在不干扰沉淀的情况下移出并丢弃上清液。
[0410]
7.将180μl新鲜制备的80%乙醇溶液加至样品,同时样品仍在磁架上。小心不要搅扰沉淀。孵育30秒,然后用p20移液器小心地除去乙醇溶液。
[0411]
8.重复上述步骤,用80%乙醇溶液进行第二次洗涤。
[0412]
9.用p20移液器去除任何残留的乙醇溶液,让珠干燥约30秒。注意不要过度干燥
珠,并立即进行连接1的步骤1。
[0413]
步骤4:连接1
[0414]
1.将30μl预混连接i主混物(参见表3)添加至各样品的珠,并通过涡旋混合直至均匀。
[0415]
表3.连接i主混物
[0416]
试剂体积/样品低edta te20μl3’swift n14v3’dt双链体衔接子,50um5μl缓冲液y13μl酶y32μl总体积30μl
[0417]
2.将样品放入热循环仪,在25℃编程15分钟,闭盖加热。
[0418]
3.热循环仪程序完成后,轻轻旋转离心管收集冷凝水。
[0419]
4.添加36μl(1.2x)的peg/nacl溶液清理连接1反应。通过涡旋混合。轻轻离心以收集珠并在室温孵育5分钟。
[0420]
5.将样品置于磁架上5分钟收集珠。
[0421]
6.在不干扰沉淀的情况下移出并丢弃上清液。
[0422]
7.将180μl新鲜制备的80%乙醇溶液加至样品,同时样品仍在磁架上。小心不要搅扰沉淀。孵育30秒,然后用p20移液器小心地除去乙醇溶液。
[0423]
8.重复上述步骤,用80%乙醇溶液进行第二次洗涤。
[0424]
9.用p20移液器去除任何残留的乙醇溶液,让珠干燥约30秒。注意不要过度干燥珠,并立即进行连接1的步骤2。
[0425]
步骤5:连接2
[0426]
1.将50μl预混连接ii主混物(参见表4)添加至各样品的珠,并通过涡旋混合直至均匀。
[0427]
表4.连接ii主混物
[0428][0429]
2.将样品放入热循环仪,在40℃编程10分钟,闭盖加热。
[0430]
3.热循环仪程序完成后,轻轻旋转离心管收集冷凝水。
[0431]
4.添加52.5μl(1.05x)的peg/nacl溶液清理连接1反应。通过涡旋混合。轻轻离心以收集珠并在室温孵育5分钟。
[0432]
5.将样品置于磁架上5分钟收集珠。
[0433]
6.在不干扰沉淀的情况下移出并丢弃上清液。
[0434]
7.将180μl新鲜制备的80%乙醇溶液加至样品,同时样品仍在磁架上。小心不要搅扰沉淀。孵育30秒,然后用p20移液器小心地除去乙醇溶液。
[0435]
8.重复上述步骤,用80%乙醇溶液进行第二次洗涤。
[0436]
9.用p20移液器去除任何残留的乙醇溶液,让珠干燥约30秒。注意不要过度干燥珠,并立即将珠重悬于24μl低edta te中。通过涡旋混合并孵育2分钟。
[0437]
10.轻轻旋转收集珠,在磁架上收集珠2分钟。
[0438]
步骤6:pcr-文库扩增
[0439]
1.将26μl预混pcr文库扩增主混物(参见表5)添加至各样品的干净试管中。
[0440]
表5.pcr文库扩增主混物
[0441]
试剂体积/样品neb ultra ii q5主混物(2x)25μl截短p5引物,100μm0.5μl截短p7引物,100μm0.5μl总体积26μl
[0442]
2.小心地将含有最终连接后文库的上清液转移至pcr文库扩增主混物。
[0443]
3.使用p20移液器转移任何残留的最终连接后文库。注意转移尽可能多的上清液。
[0444]
4.涡旋混匀,轻轻离心,放入热循环仪中,按下述顺序运行pcr文库扩增热循环仪程序。
[0445]
表6.示例性pcr文库扩增热循环仪程序
[0446][0447]
5.通过添加90μl(1.8x)的spriselect珠,清理pcr文库扩增反应。通过涡旋混合。轻轻离心以收集珠并在室温孵育5分钟。
[0448]
6.将样品置于磁架上5分钟收集珠。
[0449]
7.在不干扰沉淀的情况下移出并丢弃上清液。
[0450]
8.将180μl新鲜制备的80%乙醇溶液加至样品,同时样品仍在磁架上。小心不要搅扰沉淀。孵育30秒,然后用p20移液器小心地除去乙醇溶液。
[0451]
9.重复上述步骤,用80%乙醇溶液进行第二次洗涤。
[0452]
10.用p20移液器去除任何残留的乙醇溶液,让珠干燥约30秒。注意不要过度干燥珠,并立即将珠重悬于47μl低edta te中。通过涡旋混合并孵育2分钟。
[0453]
11.轻轻旋转收集珠,在磁架上收集珠2分钟。
[0454]
12.小心地将含有最终pcr扩增文库的上清液转移至干净的试管中,不要携带任何珠。
[0455]
13.通过tapestation分析1μl扩增的文库。突出峰应出现在约300bp,对应于衔接子连接的单核小体dna(180bp+60bp+59bp)。
[0456]
14.将文库保存在-20℃。
[0457]
使用双链体锚定pcr准确高效地检测罕见突变
[0458]
通过将两个衔接分子顺序连接至双链输入dna来生成包含双链体分子条形码的测序文库。首先,输入dna通过钝化和去磷酸化反应进行末端修复(图9和10)。末端修复后,将退火至具有封闭3'基团的短寡核苷酸(3'寡核苷酸#2)的含5'磷酸的3'衔接子(3'寡核苷酸#1)连接至输入dna的各3'端(图12)。由于寡核苷酸之一含有3'封闭基团,因此只有含5'磷酸的寡核苷酸(3'寡核苷酸#1)共价连接至输入dna于3'端。连接的3'寡核苷酸还包含分子条形码,它独特地标记各链(图11)。接下来,降解含3'封闭基团的3'寡核苷酸,并通过切口平移样反应将5'衔接子寡核苷酸连接至各5'端。具体地,5'衔接子寡核苷酸紧邻3'衔接子寡核苷酸#1上的分子条形码上游退火,留下缺口。在切口平移样反应过程中,所述缺口被填充并封口(sealed),从而在dna片段的各端原位生成双链分子条形码(图13)。得到的连接产物通过初始全基因组pcr进行纯化和扩增(图14)。
[0459]
在初始全基因组pcr之后,可以选择性地纯化产物并生成对应于正义链和反义链的单链(ss)na文库(图2和图3)。
[0460]
使用链特异性锚定pcr方法,针对所需靶标富集扩增的dna文库。这种pcr富集使用了靶向所需感兴趣区域的单引物和靶向连接的衔接子序列的第二引物(图4、5、15、17)。为了提高靶标富集的特异性,可以使用靶向所需感兴趣区域的单引物和靶向连接的衔接子序列的第二引物进行第二巢式pcr(图7、8、16、18)。为了提高靶标富集的特异性,可以使用第二巢式pcr来纳入样品条形码以及下一代测序所需的必要移接序列。然后对生成的文库进行量化、标准化和测序。
[0461]
测序后,读数与基因组对齐,并按其分子条形码分组。包含具有相同分子条形码的读数的片段(其映射至靶标的正义链和反义链两者)被设计为具有“双链体支持”。只有在两条链中均存在突变时才对突变进行评分(图20和21)。
[0462]
实施例2:dna的watson和crick链的靶向dna测序
[0463]
稀有核酸序列的鉴定和定量对于生物学和临床医学的许多领域都很重要。该实施例描述了一种方法(称为saferseqs),所述方法通过如下方式应对这一挑战:(i)在模板分子的watson和crick链中高效地引入相同的分子条形码和(ii)使用新链特异性pcr分析来富集感兴趣的基因组区域。它可用于评估单扩增子内或同时存在于多个扩增子内的突变,可评估有限数量的dna,例如血浆中存在的dna,并将现有基于pcr的分子条码化方法的错误率降低至少两个数量级。
[0464]
结果
[0465]
为了解决通常与文库构建相关的低效率和引入错误,设计了一种策略,该策略涉及将衔接子序列顺序连接至3'和5'dna片段末端并原位生成双链分子条形码(图22a)。分子条形码的原位生成是新文库制备方法的关键创新。用于原位生成双链分子条形码的酶对各dna片段进行独特的条码化,从而避免了对酶促方式制备双链体衔接子的需要(图22a,步骤2和3)。衔接子包含一段14个随机核苷酸作为外源性分子条形码(独特标识符序列[uid])。衔接子连接的片段经过有限数量的pcr循环以产生两条原始dna链的冗余拷贝(图22a,步骤4)。为清楚起见,在该示例性实施方式中,ucsc参考序列(可在genome.ucsc.edu/获得)被任意定义为“watson”链并且其反向互补链为“crick”链。
[0466]
该方案的另一项创新是使用基于半巢式pcr的方法进行富集。尽管半巢式pcr先前已用于靶标富集(参见,例如,zheng等.,2014,natmed20:1479-1484),但需要进行重大改变才能将其应用于双链体测序。具体地,进行了两次分开的pcr——一次用于watson链,一次用于crick链。两种pcr均使用相同的基因特异性引物,但各使用不同的锚定引物。源自各链的pcr重复体可以通过插入物相对于外源性uid的方向来区分(图22b)。
[0467]
测序后,对应于原始dna双链体的各链的读数被分为watson和crick家族。各家族成员都具有相同的内源性条形码,代表初始模板片段一端的序列,以及在文库构建过程中原位引入的相同外源性uid。存在于超过80%的watson链家族中的突变被称为“watson超突变体”。存在于超过80%的crick链家族中的突变被称为“crick超突变体”。存在于》80%的具有相同uid的watson和crick家族(“双链体家族”)两者中的那些被称为“超准突变体(supercalifragilisticexpialidocious mutants)”,在本文中称为“超准突变体(supercalimutant)”(图22c)。
[0468]
作为saferseqs的初步演示,进行了一项混合实验,其中具有已知突变的dna以10%到0%的比例被掺入到来自正常个体白细胞的dna中。预计这些混合物每次测定会产生
15,400、150、15、15、8或0个超准突变体。中靶读数(即,包含预期扩增子的读数)的比例为88%,远高于使用基于混合捕获的方法可实现的情况(参见例如samorodnitsky等,2015hum mutat 36:903-914)。此外,跨五个数量级证明了预期和观察到的等位基因频率之间的强相关性(图23,皮尔森相关系数》0.999,p=2.02
×
10-12
)。在来自正常个体的dna中没有观察到与预先指定的混合变体相对应的单个突变体,这表明对感兴趣的突变具有非常高的特异性。还确定了扩增子内任何碱基(而不仅仅是查询的碱基)的特异性。在所有dna样品中查询的总共37,747,670个碱基中,仅观察到6个超准突变体,代表突变频率为1.59
×
10-7
超准突变体/bp(表7)。
[0469][0470]
然后试图确定saferseqs是否可以应用于dna数量有限的临床样品。例如,用于液体活检物的10ml无细胞血浆dna样品中通常只有33ng的dna。这些样品中的绝大多数dna模
板分子是野生型,在来自低肿瘤负荷患者的样品中存在的10,000个野生型模板中,只有一或两个突变模板。为了灵敏地检测这种极少数的突变模板,该测定应该高效地回收起始分子。
[0471]
为了在如此具有挑战性的环境中评估saferseqs,将来自癌症患者的无细胞血浆dna与来自正常个体的无细胞血浆dna混合,以模拟临床样品中通常观察到的突变频率。在这些实验中,对各样品中的33ng进行了tp53中三种不同突变之一的分析。跨越27个实验条件(3个tp53扩增子
×
3个样品
×
3个等分部分/样品)的中靶读数的中位数为80%(范围:72%至91%)(图24a)。双链体家族(即包含相同内源性和外源性条形码的watson和crick链两者)的中位数为原始模板分子数量的89%(范围:65%至102%)(图24b)。此外,在所有六个混合样品中,以预期频率鉴定了感兴趣的超准突变体(图25b、d、e,表9)。使用先前描述的分子条码化方法(“safeseqs”而不是“saferseqs”)在这些相同的样品中也鉴定了该预期频率的突变(图25a、b、c,表8)。saferseqs的一个优势是其特异度。用先前描述的方法观察到的共有1,406个超突变体(supermutant),代表153个不同的突变,反映了9.39
×
10-6
个超突变体/bp的平均错误率(图25a、b、c,表8)。这些突变中的绝大多数可能是聚合酶错误,它们仅在两条链中的一条链的早期条码化循环中出现。类似地,如果只考虑watson超突变体或crick超突变体(即仅在两条链之一中观察到的那些,图22c),而不是超准突变体,则观察到的错误率为6.56
×
10-6
个超突变体/bp(图26,表9)。相比之下,在使用saferseqs查询的4,947,725个碱基中仅检测到一个超准突变体,代表总突变率为2.02
×
10-7
(表9)。saferseqs与先前描述的分子条码化方法(即在测序前使用直接pcr或衔接子连接来纳入分子条形码的方法)之间的这些特异度差异非常显著(p《3.5
×
10-10
,比较saferseqs与其它各方法的比率的双边z检验)。
[0472]
表8.safeseqs和saferseqs鉴定的突变比较。
[0473]
(见附录a)
[0474]
表9.由链不可知分子条形码和saferseqs鉴定的突变的比较。
[0475]
(见附录b)
[0476]
作为saferseqs临床适用性的进一步证明,评估了具有极小肿瘤负荷的5名癌症患者。在各情况中,原发性肿瘤(而不是血浆)中的突变都按照他处的描述进行鉴定(tie等,sci transl med 8:346ra392(2016))。将这些患者的血浆分成两等份,一份使用他处描述的条码化方法(kinde等,proc natl acad sci u s a 108:9530-9535(2011))评估,另一份使用saferseqs评估。在这两种情况下,都设计了导致靶向感兴趣突变的小扩增子的引物。使用先前描述的条码化方法进行的评估表明,血浆样品总共含有最初鉴定于原发性肿瘤中的8个突变。血浆中这些突变的频率从0.01%到0.1%不等(图27,表10)。除8个已知突变外,先前描述的方法还发现了334个不同的突变,频率高达0.013%,这些突变在这些患者的原发性肿瘤中均未被发现。这334个突变包含10,347个超突变体,反映了1.23
×
10-5
个超突变体/bp的平均错误率(图27,表10)。使用saferseqs,在全部5名患者中检测到在原发性肿瘤中发现的8个突变,其频率与使用先前描述的方法发现的频率相似(图27,表10)。然而,在8,707,755个查询的碱基中,用saferseqs仅鉴定了一个另外的超准突变体(而不是334个突变),代表平均错误率为1.15
×
10-7
(表10)。与先前描述的分子条码化方法相比,这种》100倍的特异度提高是高度显著的(p《2.2
×
10-16
,对比率进行双边z检验)。
[0477]
表10.safeseqs和saferseqs在癌症患者血浆样品中鉴定的突变。
[0478]
(见附录c)
[0479]
接下来测试了saferseqs能否同时检测多个靶标,这对于各种测序应用都很有用。saferseqs允许两种类型的多重检测,一种是在分开的pcr反应中检测多个靶标,另一种是在同一个pcr反应中检测多个靶标。由于在文库扩增过程中会产生冗余的watson和crick链衍生拷贝,因此可以将文库划分为多个pcr反应,而不会对样品回收产生不利影响。例如,假设pcr效率为70%,如果用11个pcr循环扩增dna文库,则最多可以分别分析多达22个靶标,而回收率损失《10%(图28)。在实践中,检测了100%或4.4%的文库。无论是使用100%还是4.4%的文库,82%和92%的读数正确映射到预期区域,命中率都相似。回收的双链体家族的数量也相似,在100%和4.4%的文库分区中回收了7,825和6,769。
[0480]
虽然上述多重化方法可用于同时测定有限数量的靶标,但评估许多基因组区域的应用可以包括多重化到少量pcr反应中。为了评估saferseqs在这种情况下的多重化能力,设计了48种引物来查询在癌症中通常发生突变的驱动基因区域(表11)。这些引物在两个反应中组合:一个靶向25个区域,另一个靶向23个区域。48个引物对中的各对都特异性地扩增了它们的预期靶标(图30),其中36个被判断为成功,因为双链体家族的数量至少是单链体反应鉴定的那些的50%。在这36个中,watson衍生读数的中位命中率为95%(范围:39%至97%),crick衍生读数的中位命中率为95%(范围:39%至98%)。最重要的是,靶标显示出相对均一的输入分子的回收,变异系数仅为17%(图29)。测序的扩增子的长度(中位数为77bp,四分位距:71-83bp)在所有扩增子中也相似,并且与无细胞血浆dna的初始大小一致,其约为167bp
±
10.4bp(图29)。
[0481]
[0482]
[0483]
[0484]
[0485]
[0486]
[0487][0488]
可以使用两种示例性方法来评估多个扩增子。第一个涉及不同孔中的平行扩增子特异性pcr。对于监测疾病复发的液体活检物,当通常只观察到少数驱动基因突变时,这种
策略可以很容易地应用,而无需担心引物之间的交叉杂交或多重pcr反应中常见的其它问题。对于液体活检物的其它应用,例如在感兴趣的突变未知时进行筛查,对更多扩增子的评估是有用的;例如,各pcr孔中多个引物对的组合。该实施例表明,使用saferseqs在一个孔中可以有效地分析至少18个扩增子,并且不涉及双链测序的半巢式pcr策略表明可以共同扩增多达313个扩增子。
[0489]
通过有效检测和量化罕见遗传变化,saferseqs可以开发高敏感度和特异度的基于dna的分子诊断法,并协助探明各种重要的基础科学问题。
[0490]
方法
[0491]
血浆和外周血dna样品
[0492]
使用制造商指定的cfpuremax无细胞dna提取试剂盒(biochain,目录号k5011625ma)从10ml血浆纯化dna。使用制造商指定的qiasymphony dsp dna midi试剂盒(qiagen,目录号937255)纯化来自外周wbc的dna。如他处所述对来自所有样品的纯化dna进行量化(参见例如,douville等,2019biorxiv,660258)。
[0493]
文库制备
[0494]
开发了一个定制的文库制备工作流程,可以有效地回收输入的dna片段并同时纳入双链分子条形码。简而言之,使用具有以下修改的accel-ngs 2s dna文库试剂盒(swift biosciences,目录号21024)用无细胞dna或外周wbc dna制备双链体测序文库:1)用三个单位的user酶(new england biolabs,目录号m5505l)在37℃预处理dna 15分钟以切除尿嘧啶碱基;2)对于末端修复1、末端修复2、连接1和连接2,每次反应后使用的spri珠/peg nacl比例分别为2.0x、1.8x、1.2x和1.05x;3)用定制的50μm 3'衔接子(表12)代替试剂y2;4)用定制的42μm 5'衔接子(表12)代替试剂b2。随后使用靶向连接的衔接子的引物在50μl反应中对文库进行pcr扩增(表12)。反应条件如下:1x nebnext ultra ii q5主混物(new england biolabs,目录号m0544l)、2μm通用正向引物和2μm通用反向引物(表12)。文库通过5、7或11个pcr循环进行扩增,具体取决于计划的实验数量,根据以下方案:98℃30秒,98℃10秒,65℃75秒,和4℃保持循环。如果使用5或7个循环,则文库在单个50μl反应中被扩增。如果使用11个循环,则将文库分成8个等分部分,并在8个50μl反应中扩增,各反应添加0.5单位的热启动高保真dna聚合酶(new england biolabs,目录号m0493l),1μl的10mm dntp(new england biolabs,目录号n0447l),和0.4μl的25mm mgcl
2 solution(new england biolabs,目录号b9021s)。产物用1.8x spri珠(beckman coulter目录号b23317)纯化并洗脱到eb缓冲液(qiagen)中。
[0495]
[0496]
[0497][0498]
文库构建
[0499]
为了解决与文库构建相关的低效率问题,设计了一种策略,该策略涉及将衔接子
序列顺序连接至3'和5'dna片段末端并原位生成双链分子条形码(图22a)。在dna末端去磷酸化和修复(图22a,步骤1)后,衔接子被连接至dna片段的3'端(图22a,步骤2)。衔接子是部分双链dna片段,具有选择性连接至3'dna末端并防止衔接子二聚体形成的末端修饰。具体而言,该衔接子由含有5'磷酸末端修饰的一个寡核苷酸组成(表12,3'n14衔接子寡核苷酸#1),其与含有3'封闭基团和用脱氧尿苷取代脱氧胸苷的另一个寡核苷酸(表12,3'n14衔接子寡核苷酸#2)杂交。这种设计允许在连接反应中使用高浓度的衔接子,这促进了与3'端的高效连接,而没有显著二聚体或多联体形成的风险。此外,衔接子在两个寡核苷酸之一中包含14个随机核苷酸的一段序列,这会损害双链体uid的一条链。连接3'衔接子后,第二个衔接子(表12,5'衔接子)通过由dna聚合酶、粘性末端特异性连接酶和尿嘧啶-dna糖基化酶组成的切口平移样反应连接至5'dna片段末端(图22a,步骤3)。这些酶的协作合成了uid的互补链,降解了3'衔接子的封闭部分,并将延伸的衔接子连接至5'dna片段末端。双链分子条形码的原位生成独特地对各dna片段进行了条码化,并消除了酶促制备双链体衔接子(这已被认为会对输入dna回收产生不利影响)的需要。最后,衔接子连接的片段经过有限数量的pcr循环,以产生两条原始dna链的冗余拷贝(uid“家族”)(图22a,步骤4)。
[0500]
文库扩增循环数的作用和效率
[0501]
可以调整文库扩增期间的pcr循环数和复制效率以优化saferseqs参数。因为saferseqs可以涉及将冗余watson和crick链衍生拷贝划分为特定链特异性pcr以用于靶标富集,所以在优选实施方式中,应生成必需数量的拷贝以确保双链体回收的高概率。例如,假设100%的效率,在一个pcr循环后,各模板dna双链体被转化为两个双链拷贝(一个代表各链),并且只有25%的概率正确分布这两个拷贝,以使得一个watson链衍生的拷贝被划分进入watson特异性pcr,一个crick链衍生的拷贝被划分进入crick特异性pcr。增加pcr循环数或增加扩增效率会产生更多的冗余拷贝,从而增加回收原始dna双链体的可能性。
[0502]
开发了一个概率模型来估计高效双链体回收所需的pcr循环数和扩增效率。该模型由三个步骤组成:1)模拟文库扩增过程中产生的pcr后代数量;2)将这些pcr拷贝随机分入watson和crick链特异性反应;和3)确定双链体回收率——即原始dna双链体的比例,其中至少一个watson链衍生的拷贝被划分进入watson链特异性反应,并且至少一个crick链衍生的拷贝被划分进入crick链特异性反应。
[0503]
在各文库扩增循环期间产生的原始模板链的pcr拷贝数遵循二项分布。对于第一pcr循环,链特异性拷贝数被初始化为一。应注意,计数被初始化为一(而不是二),因为第一文库扩增循环仅用于使两条原始模板链变性并将它们转化为物理上不同的双链形式。在随后的第i个pcr循环中,ni个pcr拷贝各自都可以以概率p(即扩增效率)复制,从而产生总共n
i+1
个pcr拷贝,等于ni+二项(ni,p)。反复重复该过程以模拟i个pcr循环后产生的后代数量。形式上,产生的总pcr拷贝数可以表示如下:
[0504][0505]
文库扩增后,各原始dna双链体已被扩增以产生如上所述的watson链的n
i,w
个拷贝和crick链的n
i,c
个拷贝。n
i,w
和n
i,c
拷贝各自被随机分配到watson和crick链特异性pcr反应中,概率q等于用于各反应的文库的分数。当文库分为单个watson和单个crick链特异性pcr
时,q等于50%。如果文库分为两个watson和crick链特异性pcr,q等于25%。分配到合适的链特异性pcr中的pcr拷贝数(n
k,w
或n
k,c
,分别用于第k个watson特异性或crick特异性pcr)从对于watson和crick拷贝分别具有n
i,w
或n
i,c“试验”和“成功”概率q的二项分布得出。因此,将至少一个watson衍生的pcr拷贝分配到第k个watson特异性pcr反应的概率为:
[0506][0507]
类似地,将至少一个crick衍生的pcr拷贝分配到第k个crick特异性pcr反应的概率为:
[0508][0509]
只有当n
k,w
和n
k,c
大于零时,才能回收原始dna双链的两条链。由于pcr后代的划分是独立的,因此预测双链体回收的概率为:
[0510][0511]
我们将pcr效率从100%变化到50%,文库扩增循环数从1到11,以及用于各反应的文库分数从50%到1.4%。对于各条件,我们对上述过程进行了10,000次模拟,并在图28中报告了平均双链体回收率。
[0512]
锚定半巢式pcr的片段大小和回收率
[0513]
锚定半巢式pcr理论上证明模板分子的回收率高于传统的扩增子pcr。在传统的扩增子pcr中,模板分子必须同时包含正向和反向引物结合位点以及定义扩增子的插入序列。相反,在锚定半巢式pcr中,模板分子只需要结合两个基因特异性引物结合位点即可被回收。safeseqs中使用的巢式基因特异性引物的组合足迹约为30bp,而safeseqs用于分析cfdna的扩增子长度通常为70-80bp。形式上,假设均匀随机片段起始/结束定位,回收长度为l的模板分子的概率是其中r是传统pcr情况下的扩增子长度或锚定半巢式pcr情况下基因特异性引物的组合足迹的长度。因此,对于大小约为167bp的无细胞dna片段,锚定半巢式pcr理论上可以比传统的扩增子pcr多回收约25%的原始模板片段。此外,与产生由正向和反向引物的位置决定的预定义产物大小的传统扩增子pcr不同,锚定半巢式产生不同长度的片段,其中只有一个片段末端由基因特异性引物的位置决定。假设模板分子长度为l,在均匀随机的起始/结束定位下,锚定半巢式pcr后观察到的片段长度将为其中r是基因特异性引物的组合足迹的长度。
[0514]
saferseqs生物信息流水线的示例性实施方式
[0515]
在saferseqs生物信息学流水线的示例性实施方式中,将各样品的watson和crick读数合并到单个bam文件中,并使用samtools按读数名称排序,以便可以容易地提取匹配配对。自定义python脚本用于随后重建双链体家族和鉴定watson超突变体、crick超突变体和超准突变体。
[0516]
首先,将读数分组到uid族中,同时通过检查其按位标志(即flag字段)的值来记录哪些读数来自watson和crick链。包含按位标志值99和147的读数来自watson链,而那些包含按位标志83和163的读数来自crick链。具有任何其它按位标志值的读数被排除在后续分析之外。按位标志是在映射期间分配给读数对的数值。它们的值表明读数配对如何与基因
组相对于彼此对齐。例如,如果一个读数映射到参考链,而它的配对映射到反向(互补)链,那么这个读数对来自watson链。类似地,如果读数映射到反向(互补)链,并且它的配对映射到参考链,那么这个读数对来自crick链。
[0517]
其次,在uid家族分组期间另实施了两个质量控制标准,以改进内源性分子条形码(即片段末端坐标)的确定:1)排除片段末端5'或3'处带有软修剪体(clipping)的读数,2)读数需要在外源性uid之后立即包含预期的恒定标签序列(gccgtcgttttat;seq id no:117),且错配不超过一个。
[0518]
第三,因为在该实施例中,可能的外源性uid序列的数量大大超过了起始模板分子的数量,所以两个分子共享相同的外源性uid序列但具有不同的内源性uid的“条形码冲突”应该是非常罕见的。具体而言,可以从经典的“生日问题”中计算出预期的条码碰撞次数,即:
[0519][0520]
其中n等于模板分子的数量,n等于可能的条形码数量。对于14bp外源性uid序列(总共包含268,435,456个可能的序列)和10,000个基因组等价物,预期的碰撞次数为0.37,或输入的0.0037%。因此对于该实施例,要求各外源性uid序列只能与一个内源性uid相关联。在外源性uid与多个内源性uid相关联的情况下,最大的家族被保留,所有其它的被丢弃。
[0521]
需注意,在其它实验设计参数中,可以使用非唯一外源性uid,并且可以将非唯一外源性uid与内源性uid结合使用以分配到uid家族中。
[0522]
最后,由于外源性条形码本身容易受到pcr和测序错误的影响,我们使用umi-tools网络邻接方法对uid序列进行了错误校正并重新分组了uid系列。
[0523]
在将读数组装成uid家族后,watson超突变体、crick超突变体和超准突变体如本文他处所述被访寻。为了排除常见的多态性,基因组聚合数据库(gnomead)中以大于0.1%的等位基因频率存在的所有突变都被排除在外。对包含超准突变体的读数进行最终手动检查,以排除可能的对齐伪影。
[0524]
非克隆体细胞突变率的估计
[0525]
本研究中使用的dna来自平均年龄为30岁的一组个体。因此,这些样品中非克隆体细胞单碱基替换的预期频率为各二倍体基因组426个,或大约7
×
10-8
个突变/bp。在这项研究中,我们使用来自健康对照对象的dna的saferseqs评估了总共42,695,395个碱基。在这42,695,395个碱基中,检测到5个单碱基取代超准突变体,其突变频率为12
×
10-8
。为了确定观察到的超准突变体的频率是否与先前对健康血细胞中非克隆体细胞突变率的估计一致,计算了以下精确的单边二项式p值:
[0526][0527]
因此,观察到的超准突变体的数量与健康造血干细胞产生的与年龄相关的非克隆体细胞突变的预测数量之间没有统计学上的显著差异。
[0528]
锚定半巢式pcr
[0529]
使用双链测序所需的锚定半巢式pcr的关键修改来实现感兴趣区域的靶标富集。在开发这种定制支架特异性测定的过程中,优化了各种反应条件,包括循环次数、引物浓度和聚合酶配方。最终优化方案如下:第一轮pcr在50μl反应中进行,条件如下:1x nebnext ultra ii q5主混物(new england biolabs,目录号m0544l),2μm gsp1引物,和2μm p7短锚定引物,用于watson链扩增。gsp1引物对各扩增子具有特异性,p7短锚定引物用作所有扩增子的watson链的锚定引物(表11和12)。crick链以相同的方式在单孔中扩增,除了p5短引物锚定引物替代p7短引物之外。注意,用于扩增watson链的gsp1引物与用于crick链的gsp1引物相同;watson和crick链pcr之间的唯一区别是锚定引物。根据上述热循环方案,两种反应(watson和crick链)都被扩增19个循环。
[0530]
对于watson链,使用与第一轮pcr相同的反应条件,在50μl反应中形成第二轮pcr。差异是(i)模板:来自第一锚定watson链pcr的1%产物用作模板(而不是用作第一pcr的模板的文库),和(ii)引物:基因特异性引物gsp2被替换为gsp1基因特异性引物,锚定p5索引引物被替换为p7短锚定引物。crick链的第二轮pcr以相同方式进行,除了(i)模板:第一条crick链pcr用作模板和(ii)引物:锚定p7索引引物替代锚定p5索引引物。根据前述热循环方案,两种反应(watson和crick链)都被扩增了17个循环。第二轮pcr所用引物序列见表12。第二轮pcr的产物在测序前用1.8x spri珠汇集和纯化。
[0531]
对于在单个反应中同时扩增多个靶标的实验,pcr条件与上述条件相同,除了:(i)各基因特异性引物的最终浓度为0.25μm,和(ii)锚定引物的最终浓度为各靶标0.25μm(例如,如果共扩增25个靶标,最终浓度为6.25μm)。
[0532]
测序
[0533]
如制造商所述,使用kapa文库量化试剂盒(kapa biosystems,目录号kk4824)确定文库浓度。在illumina miseq仪器上使用具有8个碱基双索引的2x75双末端读数进行测序。双索引phix对照库(seqmatic目录号tm-502-nd)被掺入到总模板的25%以确保所有循环中的碱基多样性。定制读数1、索引和读数2测序引物(表12)与标准illumina测序引物以1μm的终浓度组合。
[0534]
突变访寻和saferseqs分析流水线
[0535]
使用定制python脚本如别处所述(参见例如,kinde等,2011proc natl acad sci u s a 8:9530-9535)对safeseqs数据进行分析。通过提取前14个核苷酸作为uid序列并使用picard的illuminabasecallstosam(broadinstitute.github.io/picard)遮蔽衔接子序列,测序读数经历了初始处理。然后使用bwa-mem(版本0.7.17)将读数映射到hg19参考基因组,并使用samtools按uid序列排序。如果uid家族由2个或更多读数组成,并且》90%的读数映射到具有预期引物序列的参考基因组,则对它们进行评分。“超级突变体”被鉴定为存在于》95%的映射读数中并且平均phred得分大于25的突变。
[0536]
为分析saferseqs开发了定制分析流程。简言之,对读数进行解多重化,并使用索引序列鉴定衍生读数的链。为了清楚和简洁起见,源自watson链的读数称为“watson读数”,源自crick链的读数称为“crick读数”。对于watson读取,读数1的前14个碱基被提取为uid序列。由于crick链的插入方向相反,因此将读数2的前14个碱基提取为crick读数的uid序列。使用picard的illuminabasecallstosam(broadinstitute.github.io/picard)遮蔽衔接子序列,并使用bwa-mem(版本0.7.17)将所得的模板特异性部分读数映射到hg19参考基
因组。对齐后,映射的watson和crick读数使用samtools合并和排序。
[0537]
python脚本用于随后重建双链体家族和鉴定watson超突变体、crick超突变体和超准突变体。在如别处所述校正分子条形码序列内的pcr和测序错误后(参见例如,smith等,genome res 27:491-499),属于同一双链体家族的watson和crick读数被分组在一起以重建原始模板分子的序列。为了排除源自文库构建的最终修复步骤的伪影,不考虑对3'衔接子序列中少于10个碱基的碱基进行突变分析。watson和crick超突变体被定义为分别存在于双链体家族的watson或crick读数中》80%的突变。超准突变体被定义为在具有相同uid的watson和crick家族中》80%中存在的突变。
[0538]
统计学分析
[0539]
连续变量报告为中位数和范围,而分类变量报告为整数和百分比。所有统计测试均使用r的stats包(版本3.5.1)进行。
[0540]
这些结果表明,saferseqs可以极高特异度检测出罕见突变。该技术具有高度可扩展性、成本效益,并且适合高通量自动化。与现有的双链体测序技术相比,saferseqs的输入回收率提高了5到75倍,并且可以应用于有限数量的起始材料,并且与采用分子条形码的基于标准pcr的方法相比,误差校正提高了》50倍(图23,表8)。与仅使用watson或crick超突变体而非超准突变体的基于最佳连接的技术相比,它还提供了》50倍的误差校正改善(图26,表9)。两种减少都可用于检测以单个或非常低拷贝数存在的突变,例如在癌症筛查和最小残留疾病设定中。最后,因为它结合了双链体测序,saferseqs在分析单个扩增子时比数字微滴pcr灵敏得多,并且与数字微滴pcr不同,它可以高度多重化。
[0541]
其他实施方式
[0542]
应理解,虽然本发明已经结合具体实施方式进行了描述,但前述描述旨在说明而不是限制由所附权利要求书的范围所限定的本发明的范围。其它方面、优点和改进均在权利要求书的范围内。
[0543]
通过引用纳入
[0544]
出于所有目的,在本说明书的正文中引用的所有参考文献、授权专利和专利申请均通过引用其整体方式纳入本文。

技术特征:


1.一种方法,所述方法包括:a)a)将部分双链3'衔接子(3'pdsa)连接至分析物dna样品中双链dna片段的watson和crick链两者的3'末端,其中3'pdsa的第一链在5'至3'方向上包含(i)第一区段,(ii)外源uid序列,(iii)5'衔接子的退火位点,和(iv)包含r2测序引物位点的通用3'衔接子序列,并且其中3'pdsa的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和(ii)3'封闭基团,b)将5'衔接子退火至所述退火位点,其中5'衔接子在5'至3'方向上包含(i)通用5'衔接子序列,其不与通用3'衔接子序列互补且包含r1测序引物位点,和(ii)与5'衔接子的退火位点互补的序列;c)将5'衔接子延伸贯穿外源uid序列和所述第一区段,由此产生所述外源uid序列的互补序列和所述第一区段的互补序列,和d)将所述第一区段的所述互补序列的3'端共价连接至双链dna片段的watson和crick链的5'端,由此产生多个衔接子连接的双链dna片段。2.如权利要求1所述的方法,其还包括:用与所述通用3'衔接子序列互补的第一引物和与所述通用5'衔接子互补序列互补的第二引物扩增所述多个衔接子连接的双链dna片段序列,由此产生扩增子,其中所述扩增子包含多个双链watson模板和多个双链crick模板。3.如权利要求2所述的方法,其还包括:用第一组watson靶标选择性引物对选择性扩增所述双链watson模板,所述第一组watson靶标选择性引物对包含:(i)第一watson靶标选择性引物,其包含与通用3'衔接子序列的部分互补的序列,和(ii)第二watson靶标选择性引物,其包含靶标选择性序列,由此产生靶标watson扩增产物。4.如权利要求3所述的方法,其还包括:用第一组crick靶标选择性引物对选择性地扩增所述双链crick模板,所述第一组crick靶标选择性引物对包含:(i)第一crick靶标选择性引物,其包含与通用5'衔接子序列的部分的互补序列互补的序列,和(ii)第二crick靶标选择性引物,其包含与第二watson靶标选择性引物序列相同的靶标选择性序列,由此产生靶标crick扩增产物。5.如权利要求1所述的方法,其还包括:去除所述3'pdsa的所述第二链以产生单链3'衔接子(3'ssa)。6.如权利要求5所述的方法,其中所述去除所述第二链发生在步骤b)之后,或步骤b)之前,或步骤b)期间。7.如权利要求5所述的方法,其中所述第二链包含一个或多个脱氧尿苷,并且其中所述去除所述3'pdsa的所述第二链包括使3'双链体衔接子与尿嘧啶-dna糖基化酶(udg)接触以降解所述第二链。8.如权利要求5所述的方法,其中所述去除所述第二链通过具有核酸外切酶活性的聚合酶完成,其中所述聚合酶将所述5'衔接子延伸贯穿外源性uid序列和所述第一区段。9.如权利要求2所述的方法,其还包括:确定一个或多个所述扩增子的序列读数。10.如权利要求9所述的方法,其还包括:将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列。11.如权利要求10所述的方法,其还包括:根据外源性uid序列与r1和r2读数序列的空
间关系,将各uid家族的序列读数分配到watson亚家族和crick亚家族。12.如权利要求11所述的方法,其还包括:当至少50%的watson亚家族包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的watson链。13.如权利要求12所述的方法,其还包括:当至少50%的crick亚家族包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的crick链。14.如权利要求12所述的方法,其还包括:当准确代表watson链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表watson链的序列中的突变。15.如权利要求14所述的方法,其还包括:当准确代表crick链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表crick链的序列中的突变。16.如权利要求15所述的方法,其还包括:当准确代表watson链的核苷酸序列中的突变和准确代表crick链的核苷酸序列中的突变为相同突变时,鉴定分析物dna片段中的突变。17.如权利要求10所述的方法,其中uid家族的各成员还包含相同的内源性uid序列,其中所述内源性uid序列包含来自的双链dna片段的末端。18.如权利要求1所述的方法,其中,所述双链dna片段具有钝端。19.一种系统,其包括:a)部分双链3'衔接子(3'pdsa),其被设置为连接至双链dna片段的watson和crick链两者的3'端,其中3'pdsa的第一链在5'至3'方向上包含(i)第一区段,(ii)外源uid序列,(iii)5'衔接子的退火位点,和(iv)包含r2测序引物位点的通用3'衔接子序列,并且其中3'pdsa的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和(ii)3'封闭基团;和b)设置为退火至所述退火位点的5'衔接子,其中5'衔接子在5'到3'方向上包含(i)通用5'衔接子序列,其不与通用3'衔接子序列互补且包含r1测序引物位点,和(ii)与3'衔接子的退火位点互补的序列。20.如权利要求19所述的系统,还包括:c)来自生物样品的所述双链dna片段。21.如权利要求20所述的系统,其中,所述双链dna片段具有钝端。22.如权利要求19所述的系统,还包括:c)用于降解所述3'pdsa的所述第二链以产生单链3'衔接子(3'ssa)的试剂。23.如权利要求19所述的系统,还包括:c)与所述通用3'衔接子序列互补的第一引物,和与所述通用5'衔接子序列的互补序列互补的第二引物。24.如权利要求19所述的系统,还包括:c)与所述通用3'衔接子序列互补的watson锚定引物,和d)与所述通用5'衔接子序列互补的crick锚定引物。25.如权利要求19所述的系统,还包括:c)第一组watson靶标选择性引物对,所述引物对包含(i)一个或多个第一watson靶标选择性引物,其包含与通用3'衔接子序列的部分互补的序列,和(ii)一个或多个第二watson靶标选择性引物,所述一个或多个第二watson靶标选择性引物各自包含靶标选择性序列,和d)第一组crick靶标选择性引物对,所述引物对包含(i)一个或多个crick靶标选择性引物,其包含与通用5'衔接子序列的部分的互补序列互补的序列,和(ii)一个或多个第二
crick靶标选择性引物,所述一种或多种第二crick靶标选择性引物各自包含与第二watson靶标选择性引物序列相同的靶标选择性序列。26.一种方法,其包括:a)形成反应混合物,其包含:i)去磷酸化和钝端的多个双链dna片段,其中各所述双链dna片段包含watson和crick链;ii)多个衔接子,其中各所述衔接子在5'到3'方向上包含:a)条形码,和b)通用3'衔接子序列;和iii)连接酶;和b)孵育所述反应混合物,从而使得:i)衔接子被连接至watson和crick链的3'端,并且ii)衔接子不被连接至watson或crick链的5'端,由此产生双链连接产物。27.如权利要求26所述的方法,其中,所述多个衔接子各自包含独特条形码。28.如权利要求27所述的方法,其中所述双链连接产物各自包含具有仅一个条形码的watson链和具有与所述watson链上的所述条形码不同的仅一个条形码的crick链。29.一种用于检测从哺乳动物样品获得的双链dna模板的靶区域中突变存在与否,以及确定该突变是否均存在于双链dna模板的两条链上的方法,其中所述方法包括:a)产生双链dna片段,其各自在双链dna片段的各端具有双链体分子条形码;b)扩增在双链dna片段的各端包含双链体分子条形码的双链dna片段以产生扩增的双链体测序文库,其中所述扩增包括在全基因组pcr条件下,使在双链dna片段各端上包含双链体分子条形码的双链dna片段与通用引物对接触;c)任选地,从扩增的双链体测序文库生成watson链的单链dna文库;d)任选地,从扩增的双链体测序文库中产生crick链的单链dna文库;e)使用包含能够与靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物的引物对,扩增watson链的dna文库的靶区域;f)使用包含能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物的引物对,扩增crick链的dna文库的靶区域;g)对从watson链的dna文库扩增的靶区域进行测序,以产生测序读数并检测靶区域的watson链中突变的存在与否;h)对从crick链的dna文库扩增的靶区域进行测序,以产生测序读数并检测靶区域的crick链中突变的存在与否;i)通过各测序读数中存在的分子条形码对测序读数进行分组,以确定突变是否均存在于双链dna模板的两条链上。30.如权利要求29所述的方法,其中产生在所述双链dna片段的各端均具有双链体分子条形码的双链dna片段包括:i)将3'双链体衔接子连接至由双链dna模板获得的双链dna片段的各3'端,其中3'双链体衔接子包含a)含有5'磷酸的第一寡核苷酸,第一分子条形码,和退火至b)包含可降解3'封闭基团的第二寡核苷酸的3'寡核苷酸,其中3'寡核苷酸和第二寡核苷酸序列互补;ii)降解可降解的3'封闭基团;iii)将5'衔接子连接至由双链dna模板获得的双链dna片段的各去磷酸化5'端,其中5'
双链体衔接子包含含有第二分子条形码的寡核苷酸,其中第二分子条形码不同于第一分子条形码,其中5'衔接子连接在第一分子条形码上游的双链dna片段上,并在双链dna片段的5'端和5'衔接子之间留下单链核酸的缺口;和iv)填充双链dna片段的5'端和5'衔接子之间的单链核酸的缺口,以产生在双链dna片段的各端包含双链分子条形码的双链dna片段。31.如权利要求29所述的方法,其中从扩增的双链体测序文库产生watson链的dna文库包括:i)使用由第一引物和第二引物组成的引物对扩增扩增的双链体测序文库的第一等分部分,其中第一引物能够与watson链杂交,并且其中第一引物包含标签,以产生具有带标签watson链的双链扩增产物;ii)使具有带标签watson链的双链扩增产物变性,以产生单链带标签watson链和单链crick链;和iii)回收单链带标签watson链,以从扩增的双链体测序文库产生watson链的dna文库。32.如权利要求29-31中任一项所述的方法,其中所述双链dna模板由来自哺乳动物的样品获得,从扩增的双链体测序文库产生crick链的dna文库包括:i)使用包含第一引物和第二引物的引物对扩增扩增的双链体测序文库的第二等分部分,其中第一引物能够与crick链杂交,并且其中第一引物包含标签,以产生具有带标签crick链的双链扩增产物;ii)使具有带标签crick链的双链扩增产物变性,以产生单链带标签crick链和单链watson链;和iii)回收单链带标签crick链,以从扩增的双链体测序文库产生crick链的dna文库。33.如权利要求29-32中任一项所述的方法,其中,所述哺乳动物是人。34.如权利要求29-33中任一项所述的方法,其中所述方法还包括,在产生在双链dna片段的各端具有双链分子条形码的双链dna片段之前:使双链dna片段化以产生双链dna片段;使双链dna片段的5'端去磷酸化;和使双链dna片段的末端钝化。35.如权利要求29-34中任一项所述的方法,其中将3'双链体衔接子连接至从双链dna模板获得的双链dna片段的各3'端包括:在连接酶的存在下,使3'双链体衔接子和从双链dna模板获得的双链dna片段接触。36.如权利要求35所述的方法,其中所述连接酶是t4 dna连接酶。37.如权利要求29-36中任一项所述的方法,其中所述降解可降解的3'封闭基团包括使3'双链体衔接子与尿嘧啶-dna糖基化酶(udg)接触。38.如权利要求29-37中任一项所述的方法,其中将5'衔接子连接至从双链dna模板获得的双链dna片段的各去磷酸化的5'端包括,在连接酶存在下,使所述5'衔接子和从双链dna模板获得的所述双链dna片段接触。39.如权利要求38所述的方法,其中所述连接酶是大肠杆菌连接酶。40.如权利要求29-39中任一项所述的方法,其中填充双链dna片段的5'端和5'衔接子之间的单链核酸缺口包括:在聚合酶和dntp的存在下,使双链dna片段的5'端和5'衔接子接
触。41.如权利要求40所述的方法,其中所述聚合酶是taq聚合酶。42.如权利要求29-31中任一项所述的方法,其中将5'衔接子连接至双链dna片段的各5'端和填充双链dna片段的5'端和5'衔接子之间的缺口同时进行。43.如权利要求29-42中任一项所述的方法,其中扩增在双链dna片段各端包含双链体分子条形码的双链dna片段以产生扩增的双链体测序文库包括:在pcr条件下,使在双链dna片段各端包含双链体分子条形码的双链dna片段与通用引物对接触。44.如权利要求43所述的方法,其中所述扩增包括全基因组pcr。45.如权利要求29-44中任一项所述的方法,其中带标签引物是生物素化的引物,并且其中所述生物素化的引物能够产生生物素化的单链watson链和生物素化的单链crick链。46.如权利要求45所述的方法,其中所述变性步骤包括:naoh变性、热变性或两者的组合。47.如权利要求45或46所述的方法,其中回收步骤包括使带标签watson链与链霉亲和素功能化珠接触并且使带标签crick链与链霉亲和素功能化珠接触。48.如权利要求47所述的方法,其中回收步骤还包括使未带标签watson链变性和使未带标签watson链变性。49.如权利要求47或48所述的方法,其中回收步骤还包括从链霉亲和素功能化珠释放生物素化单链watson链和从链霉亲和素功能化珠释放生物素化单链crick链。50.如权利要求29-44中任一项所述的方法,其中带标签引物是磷酸化的引物,并且其中所述磷酸化的引物可以产生磷酸化单链watson链和磷酸化单链crick链。51.如权利要求50所述的方法,其中所述变性步骤包括λ核酸外切酶消化。52.如权利要求29-51中任一项所述的方法,其中从watson链的dna文库扩增靶区域还包括使用第二引物对进行第二扩增,所述第二引物对包括:能够与所述靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物;并且其中从crick链的dna文库扩增靶区域还包括使用第二引物对进行第二扩增,所述第二引物对包括能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物。53.如权利要求29-52中任一项所述的方法,其中所述测序步骤包括双端测序。54.一种用于检测从哺乳动物样品获得的双链dna模板的靶区域中突变存在与否,以及确定该突变是否均存在于双链dna模板的两条链上的方法,其中所述方法包括:a)产生双链dna片段,其各自在双链dna片段的各端具有双链体分子条形码;b)从来自在双链dna片段的各端具有双链分子条形码的双链dna片段的扩增双链体测序文库产生watson链的dna文库和crick链的dna文库;c)使用由能够与靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物组成的引物对,扩增来自单链watson链的靶区域;d)使用由能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物组成的引物对,扩增来自单链crick链的靶区域;e)对从watson链的dna文库扩增的靶区域进行测序,以产生测序读数并检测靶区域的watson链中突变的存在与否;f)对从crick链的dna文库扩增的靶区域进行测序,以产生测序读数并检测靶区域的
crick链中突变的存在与否;g)通过各测序读数中存在的分子条形码对测序读数进行分组,以确定突变是否均存在于双链dna模板的两条链上。55.如权利要求54所述的方法,其中所述双链dna模板是基因组dna样品并且产生在双链dna片段的各端均具有双链体分子条形码的双链dna片段包括:i)将3'双链体衔接子连接至由双链dna模板获得的双链dna片段的各3'端,其中3'双链体衔接子包含a)含有5'磷酸的第一寡核苷酸,第一分子条形码,和退火至b)包含可降解3'封闭基团的第二寡核苷酸的3'寡核苷酸,其中3'寡核苷酸和第二寡核苷酸序列互补;ii)降解可降解的3'封闭基团;iii)将5'衔接子连接至由双链dna模板获得的双链dna片段的各去磷酸化5'端,其中5'双链体衔接子包含含有第二分子条形码的寡核苷酸,其中第二分子条形码不同于第一分子条形码,其中5'衔接子连接在第一分子条形码上游的双链dna片段上,并在双链dna片段的5'端和5'衔接子之间留下单链核酸的缺口;和iv)填充双链dna片段的5'端和5'衔接子之间的单链核酸的缺口,以产生在双链dna片段的各端包含双链体分子条形码的双链dna片段。56.如权利要求54所述的方法,其中所述双链dna模板是无细胞dna样品,并且从来自在双链dna片段各端均具有双链体分子条形码的双链dna片段的扩增的双链体测序文库产生watson链的dna文库和crick链的dna文库包括:i)使用由第一引物和第二引物组成的通用引物对扩增在双链dna片段的各端具有双链体分子条形码的双链dna片段,其中所述扩增包括,在全基因组pcr条件下,使在双链dna片段的各端均包含双链体分子条形码的双链dna片段与所述引物对接触,其中第一引物能够与watson链杂交,并且其中第一引物被生物素化,以产生具有生物素化的watson链的双链扩增产物;ii)在生物素化的watson链与链霉亲和素功能化珠结合的条件下,使具有生物素化的watson链的双链扩增产物与链霉亲和素功能化珠接触;iii)使具有生物素化watson链的双链扩增产物变性,以使单链生物素化watson链与链霉亲和素功能化珠保持结合并释放单链crick链;iv)收集单链crick链;v)从链霉亲和素功能化珠释放单链生物素化watson链;和vi)收集单链生物素化watson链。57.如权利要求54-56中任一项所述的方法,其中双链dna模板获自哺乳动物的样品。58.如权利要求54-57中任一项所述的方法,其中,所述哺乳动物是人。59.如权利要求54-58中任一项所述的方法,其中所述方法还包括,在产生在双链dna片段的各端具有双链体分子条形码的双链dna片段之前:使双链dna片段化以产生双链dna片段;使双链dna片段的5'端去磷酸化;和使双链dna片段的末端钝化。60.如权利要求54-59中任一项所述的方法,其中将3'双链体衔接子连接至从双链dna模板获得的双链dna片段的各3'端包括:在连接酶的存在下,使3'双链体衔接子和从双链
dna模板获得的双链dna片段接触。61.如权利要求60所述的方法,其中所述连接酶是t4 dna连接酶。62.如权利要求54-61中任一项所述的方法,其中所述降解可降解的3'封闭基团包括使3'双链体衔接子与尿嘧啶-dna糖基化酶(udg)接触。63.如权利要求54-62中任一项所述的方法,其中将5'衔接子连接至从双链dna模板获得的双链dna片段的各去磷酸化的5'端包括,在连接酶存在下,使所述5'衔接子和从双链dna模板获得的所述双链dna片段接触。64.如权利要求63所述的方法,其中所述连接酶是大肠杆菌连接酶。65.如权利要求54-64中任一项所述的方法,其中填充双链dna片段的5'端和5'衔接子之间的单链核酸缺口包括:在聚合酶和dntp的存在下,使双链dna片段的5'端和5'衔接子接触。66.如权利要求65所述的方法,其中所述聚合酶是taq-b聚合酶。67.如权利要求54-66中任一项所述的方法,其中将5'衔接子连接至双链dna片段的各5'端和填充双链dna片段的5'端和5'衔接子之间的缺口同时进行。68.如权利要求54-67中任一项所述的方法,其中扩增在双链dna片段的各端具有双链体分子条形码的双链dna片段包括:在pcr条件下,使在双链dna片段的各端包含双链体分子条形码的双链dna片段与所述引物对接触。69.如权利要求68所述的方法,其中扩增包括全基因组pcr。70.如权利要求54-69中任一项所述的方法,其中从watson链的dna文库扩增靶区域还包括使用第二引物对进行第二扩增,所述第二引物对包括:能够与所述靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物;并且其中从crick链的dna文库扩增靶区域还包括使用第二引物对进行第二扩增,所述第二引物对包括能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物。71.如权利要求54-70中任一项所述的方法,其中所述测序步骤包括双端测序或单端测序。72.一种用于检测从哺乳动物样品获得的双链dna模板的靶区域中突变存在与否,以及确定该突变是否均存在于双链dna模板的两条链上的方法,其中所述方法包括:a)产生双链dna片段,其各自在双链dna片段的各端具有双链体分子条形码;b)使用通用引物对扩增在双链dna片段的各端均具有双链体分子条形码的双链dna片段,其中所述扩增包括:在全基因组pcr条件下,使在双链dna片段的各端包含双链体分子条形码的双链dna片段接触所述引物对;c)使用由能够与靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物组成的引物对,扩增来自各自在双链dna片段的各端上具有双链体分子条形码的扩增的双链dna片段的watson链的靶区域;d)使用由能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物组成的引物对,扩增来自各自在双链dna片段的各端上具有双链体分子条形码的扩增的双链dna片段的crick链的靶区域;e)对从watson链扩增的靶区域进行测序,以产生测序读数并检测靶区域的watson链中突变的存在与否;
f)对从crick链扩增的靶区域进行测序,以产生测序读数并检测靶区域的crick链中突变的存在与否;g)通过各测序读数中存在的分子条形码对测序读数进行分组,以确定突变是否均存在于双链dna模板的两条链上。73.如权利要求72所述的方法,其中所述双链dna模板是基因组dna样品并且产生在双链dna片段的各端均具有双链分子条形码的双链dna片段包括:i)将3'双链体衔接子连接至由双链dna模板获得的双链dna片段的各3'端,其中3'双链体衔接子包含a)含有5'磷酸的第一寡核苷酸,第一分子条形码,和退火至b)包含可降解3'封闭基团的第二寡核苷酸的3'寡核苷酸,其中3'寡核苷酸和第二寡核苷酸序列互补;ii)降解可降解的3'封闭基团;iii)将5'衔接子连接至由双链dna模板获得的双链dna片段的各去磷酸化5'端,其中5'双链体衔接子包含含有第二分子条形码的寡核苷酸,其中第二分子条形码不同于第一分子条形码,其中5'衔接子连接在第一分子条形码上游的双链dna片段上,并在双链dna片段的5'端和5'衔接子之间留下单链核酸的缺口;和iv)填充双链dna片段的5'端和5'衔接子之间的单链核酸的缺口,以产生在双链dna片段的各端包含双链分子条形码的双链dna片段。74.如权利要求73所述的方法,其中双链dna模板是无细胞dna样品。75.如权利要求72-74中任一项所述的方法,其中双链dna模板是基因组dna样品。76.如权利要求72-75中任一项所述的方法,其中,所述哺乳动物是人。77.如权利要求72-76中任一项所述的方法,其中所述方法还包括,在产生在双链dna片段的各端具有双链分子条形码的双链dna片段之前:使双链dna片段化以产生双链dna片段;使双链dna片段的5'端去磷酸化;和使双链dna片段的末端钝化。78.如权利要求72-77中任一项所述的方法,其中将3'双链体衔接子连接至从双链dna模板获得的双链dna片段的各3'端包括:在连接酶的存在下,使3'双链体衔接子和从双链dna模板获得的双链dna片段接触。79.如权利要求50所述的方法,其中所述连接酶是t4 dna连接酶。80.如权利要求72-79中任一项所述的方法,其中所述降解可降解的3'封闭基团包括使3'双链体衔接子与尿嘧啶-dna糖基化酶(udg)接触。81.如权利要求72-80中任一项所述的方法,其中将5'衔接子连接至从双链dna模板获得的双链dna片段的各去磷酸化的5'端包括,在连接酶存在下,使所述5'衔接子和从双链dna模板获得的所述双链dna片段接触。82.如权利要求81所述的方法,其中所述连接酶是大肠杆菌连接酶。83.如权利要求72-82中任一项所述的方法,其中填充双链dna片段的5'端和5'衔接子之间的单链核酸缺口包括:在dna聚合酶和dntp的存在下,使双链dna片段的5'端和5'衔接子接触。84.如权利要求83所述的方法,其中所述dna聚合酶是taq-b聚合酶。85.如权利要求72-84中任一项所述的方法,其中将5'衔接子连接至双链dna片段的各
5'端和填充双链dna片段的5'端和5'衔接子之间的缺口同时进行。86.如权利要求72-85中任一项所述的方法,其中扩增在双链dna片段的各端具有双链体分子条形码的双链dna片段包括:在pcr条件下,使在双链dna片段的各端包含双链体分子条形码的双链dna片段与所述引物对接触。87.如权利要求86所述的方法,其中所述扩增包括全基因组pcr。88.如权利要求72-87中任一项所述的方法,其中从watson链的dna文库扩增靶区域还包括使用第二引物对进行第二扩增,所述第二引物对包括:能够与所述靶区域杂交的第一引物和能够与3'双链体衔接子杂交的第二引物;并且其中从crick链的dna文库扩增靶区域还包括使用第二引物对进行第二扩增,所述第二引物对包括能够与靶区域杂交的第一引物和能够与5'衔接子杂交的第二引物。89.如权利要求72-88中任一项所述的方法,其中所述测序步骤包括双端测序。90.一种方法,其包括:a.使部分双链3'衔接子连接至分析物dna样品中双链dna片段的watson和crick链两者的3'端,其中部分双链3'衔接子的第一链在5'至3'方向上包含,(i)第一段,(ii)外源性uid序列,(iii)5'衔接子的退火位点,和(iv)通用3'衔接子序列,其包含r2测序引物位点,并且其中所述部分双链3'衔接子的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和(ii)3'封闭基团,任选地其中所述第二链可降解;b.通过退火位点使5'衔接子退火至3'衔接子,其中5'衔接子在5'到3'方向上包含:(i)通用5'衔接子序列,其不与通用3'衔接子序列互补,并且包含r1测序引物位点,和(ii)与5'衔接子的退火位点互补的序列;c.进行切口平移样反应以使5'衔接子延伸贯穿3'衔接子的外源性uid序列,并将延伸的5'衔接子共价连接至双链dna片段的watson和crick链的5'端;d.进行初始扩增,以扩增衔接子连接的双链dna片段,以产生扩增子;e.确定一个或多个衔接子连接的双链dna片段的一个或多个扩增子的序列读数;f.将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;g.根据外源性uid序列与r1和r2读数序列的空间关系,将各uid家族的序列读数分配到watson亚家族和crick亚家族;h.当阈值百分数的watson亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的watson链;h.当阈值百分数的crick亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的crick链;j.当准确代表watson链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表watson链的序列中的突变;k.当准确代表crick链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表crick链的序列中的突变;和l.当准确代表watson链的核苷酸序列中的突变和准确代表crick链的核苷酸序列中的突变为相同突变时,鉴定分析物dna片段中的突变。91.如权利要求90所述的方法,其中uid家族的各成员还包含相同的内源性uid序列,其中所述内源性uid序列包含来自的双链dna片段的末端。
92.如权利要求91所述的方法,其中包含双链dna片段的末端的内源性uid序列包含至少8、10或15个碱基。93.如权利要求90-92中任一项所述的方法,其中所述外源性uid序列对于各双链dna片段是独特的。94.如权利要求90-92中任一项所述的方法,其中所述外源性uid序列对于各双链dna片段不是独特的。95.如权利要求91-94中任一项的方法,其中uid家族的各成员包含相同的内源性uid序列和相同的外源性uid序列。96.如前述权利要求中任一项所述的方法,其中步骤(d)包括不多于11个pcr扩增循环。97.如权利要求96所述的方法,其中步骤(d)包括不多于7个pcr扩增循环。98.如权利要求97所述的方法,其中步骤(d)包括不多于5个pcr扩增循环。99.如前述权利要求中任一项所述的方法,其中步骤(d)包括至少1个pcr扩增循环。100.如前述权利要求中任一项所述的方法,其中在确定序列读数之前,所述扩增子针对一个或多个靶多核苷酸进行富集。101.如权利要求100所述的方法,其中所述富集包括:a.用第一组watson靶标选择性引物对选择性扩增包含靶多核苷酸序列的watson链的扩增子,第一组watson靶标选择性引物对包含:(i)第一watson靶标选择性引物,其含有与通用3'衔接子序列的部分互补的序列,任选地其中通用3'衔接子序列的部分是通用3'衔接子序列的r2测序引物位点,和(ii)第二watson靶标选择性引物,其含有靶标选择性序列,由此产生靶标watson扩增产物;和b.用第一组crick靶标选择性引物对选择性扩增包含相同靶多核苷酸序列的crick链的扩增子,第一组crick靶标选择性引物对包含:(i)第一crick靶标选择性引物,其含有与通用5'衔接子序列的部分互补的序列,任选地其中通用5'衔接子序列的部分是通用5'衔接子序列的r1测序引物位点,和(ii)第二crick靶标选择性引物,其与第二watson靶标选择性引物序列含有相同的靶标选择性序列,由此产生靶标crick扩增产物。102.如权利要求101所述的方法,其包括从非靶多核苷酸纯化靶watson扩增产物和靶crick扩增产物。103.如权利要求102所述的方法,其中所述纯化包括将所述靶watson扩增产物和所述靶crick扩增产物附着至固体支持物。104.如权利要求103所述的方法,其中第一watson靶标选择性引物和第一crick靶标选择性引物包含亲和结合对的第一成员,并且其中固体支持物包含亲和结合对的第二成员。105.如权利要求104所述的方法,其中第一成员是生物素并且第二成员是链霉亲和素。106.如权利要求102-105中任一项所述的方法,其中所述固体支持物包括珠、孔、膜、管、柱、板、琼脂糖、磁珠或芯片。107.如权利要求102-106中任一项所述的方法,其包括去除未附着至所述固体支持物的多核苷酸。108.如权利要求101-107中任一项所述的方法,其包括:a.用第二组watson靶标选择性引物进一步扩增靶标watson扩增产物,第二组watson靶标选择性引物包含(i)第三watson靶标选择性引物,其含有与通用3'衔接子序列的部分互
补的序列,任选地,其中通用3'衔接子序列的部分是通用3'衔接子序列的r2测序引物位点,和(ii)第四watson靶标选择性引物,其在5'至3'方向上包含:r1测序引物位点和选择性针对相同靶标多核苷酸的靶标选择性序列,由此产生靶标watson文库成员;b.用第二组crick靶标选择性引物进一步扩增靶标crick扩增产物,第二组crick靶标选择性引物包含(i)第三crick靶标选择性引物,其含有与通用5'衔接子序列的部分互补的序列,任选地,其中通用5'衔接子序列的部分是通用5'衔接子序列的r1测序引物位点,和(ii)第四crick靶标选择性引物,其在5'至3'方向上包含:r2测序引物位点和选择性针对第四watson靶标选择性引物的相同靶标多核苷酸的靶标选择性序列,由此产生靶标crick文库成员。109.如权利要求108所述的方法,其中所述第三watson和crick靶标选择性引物还包含样品条形码序列。110.如权利要求108或109所述的方法,其中第三watson靶标选择性引物还包含能够实现与测序仪上的第一移接引物的杂交的第一移接序列,并且其中第三crick靶标选择性引物还包括能够实现与测序仪上的第二移接引物的杂交的第二移接序列。111.如权利要求108-110中任一项所述的方法,其中第四watson靶标选择性引物还包含所述第二移接序列,并且其中第四crick靶标选择性引物还包含所述第一移接序列。112.如权利要求110或111所述的方法,其中第一移接序列是p7序列并且其中第二移接序列是p5序列。113.如权利要求101-112中任一项所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表所述双链dna片段中至少50%的靶多核苷酸。114.如权利要求113所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表所述双链dna片段中至少70%的靶多核苷酸。115.如权利要求114所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表所述双链dna片段中至少80%的靶多核苷酸。116.如权利要求115所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表所述双链dna片段中至少90%的靶多核苷酸。117.如权利要求101-112中任一项所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表总dna片段体的至少50%。118.如权利要求117所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表总dna片段体的至少70%。119.如权利要求118所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表总dna片段体的至少80%。120.如权利要求119所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表总dna片段体的至少90%。121.一种方法,其包括:a.将衔接子连接至分析物dna样品中的双链dna片段,其中衔接子包含双链部分和分叉部分,所述双链部分含有外源uid,且所述分叉部分含有(i)包含r2测序引物位点的单链3'衔接子序列和(ii)包含r1测序引物位点的单链5'衔接子序列;b.进行初始扩增,以扩增衔接子连接的双链dna片段,以产生扩增子;
c.用第一组watson靶标选择性引物对选择性扩增包含靶多核苷酸序列的watson链的扩增子,第一组watson靶标选择性引物对包含:(i)第一watson靶标选择性引物,其含有与通用3'衔接子序列的部分互补的序列,任选地其中通用3'衔接子序列的部分是通用3'衔接子序列的r2测序引物位点,和(ii)第二watson靶标选择性引物,其含有靶标选择性序列,由此产生靶标watson扩增产物;d.用第一组crick靶标选择性引物对选择性扩增包含相同靶多核苷酸序列的crick链的扩增子,第一组crick靶标选择性引物对包含:(i)第一crick靶标选择性引物,其含有与通用5'衔接子序列的部分互补的序列,任选地其中通用5'衔接子序列的部分是通用5'衔接子序列的r1测序引物位点,和(ii)第二crick靶标选择性引物,其与第二crick靶标选择性引物序列含有相同的靶标选择性序列,由此产生靶标crick扩增产物。e.确定靶标watson扩增产物和靶标crick扩增产物的序列读数;f.将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;g.根据外源性uid序列与r1和r2读数序列的空间关系,将各uid家族的序列读数分配到watson亚家族和crick亚家族;h.当阈值百分数的watson家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的watson链;i.当阈值百分数的crick家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的crick链;和j.当准确代表watson链的核苷酸序列和准确代表crick链的核苷酸序列均包含相同突变时,鉴定分析物dna片段中的突变。122.如权利要求121所述的方法,其包括从非靶多核苷酸纯化靶watson扩增产物和靶crick扩增产物。123.如权利要求122所述的方法,其中所述纯化包括将所述靶watson扩增产物和所述靶crick扩增产物附着至固体支持物。124.如权利要求123所述的方法,其中第一watson靶标选择性引物和第一crick靶标选择性引物包含亲和结合对的第一成员,并且其中固体支持物包含亲和结合对的第二成员。125.如权利要求124所述的方法,其中第一成员是生物素并且第二成员是链霉亲和素。126.如权利要求122-125中任一项所述的方法,其中所述固体支持物包括珠、孔、膜、管、柱、板、琼脂糖、磁珠或芯片。127.如权利要求122-126中任一项所述的方法,其包括去除未附着至所述固体支持物的多核苷酸。128.如权利要求121-127中任一项所述的方法,其包括:a.用第二组watson靶标选择性引物进一步扩增靶watson扩增产物,第二组watson靶标选择性引物包含(i)第三watson靶标选择性引物,其包含与通用3'衔接子序列的r2测序引物位点互补的序列,和(ii)第四watson靶标选择性引物,其在5'到3'方向上包含r1测序引物位点和选择性针对相同靶多核苷酸的靶标选择性序列,由此产生靶标watson文库成员;b.用第二组crick靶标选择性引物进一步扩增靶标crick扩增产物,第二组crick靶标选择性引物包含(i)第三crick靶标选择性引物,其包含与通用3'衔接子序列的rl测序引物位点互补的序列,和(ii)第四crick靶标选择性引物,其在5'至3'方向上包含r2测序引物位
点和选择性针对第四watson靶标选择性引物的相同靶标多核苷酸的靶标选择性序列,由此产生靶标crick文库成员,由此产生靶标crick文库成员。129.如权利要求128所述的方法,其中所述第三watson和crick靶标选择性引物还包含样品条形码序列。130.如权利要求128或129所述的方法,其中第三watson靶标选择性引物还包含能够实现与测序仪上的第一移接引物的杂交的第一移接序列,并且其中第三crick靶标选择性引物还包括能够实现与测序仪上的第二移接引物的杂交的第二移接序列。131.如权利要求128-130中任一项所述的方法,其中第四watson靶标选择性引物还包含所述第二移接序列,并且其中第四crick靶标选择性引物还包含所述第一移接序列。132.如权利要求130或131所述的方法,其中第一移接序列是p7序列并且其中第二移接序列是p5序列。133.如权利要求121-131中任一项所述的方法,其中所述连接包括将a尾衔接子连接至双链dna片段。134.如权利要求133所述的方法,其中所述连接包括将a尾衔接子连接至中dna片段的两端。135.如权利要求121-131中任一项所述的方法,其中所述连接包括:a.使部分双链3'衔接子连接至双链dna片段的watson和crick链两者的3'端,其中部分双链3'衔接子的第一链在5'至3'方向上包含,(i)第一段,(ii)任选地,外源性uid序列,(iii)5'衔接子的退火位点,和(iv)通用3'衔接子序列,其包含r2测序引物位点,并且其中所述部分双链3'衔接子的第二链在5'至3'方向上包含(i)与第一区段互补的区段,和(ii)3'封闭基团,任选地其中所述第二链可降解;和b.通过退火位点使5'衔接子退火至3'衔接子,其中5'衔接子在5'到3'方向上包含:(i)通用5'衔接子序列,其不与通用3'衔接子序列互补,并且包含r1测序引物位点,和(ii)与5'衔接子的退火位点互补的序列;和c.进行切口平移样反应以使5'衔接子延伸贯穿3'衔接子,并将延伸的5'衔接子共价连接至双链dna片段的watson和crick链的5'端。136.如权利要求121-135中任一项所述的方法,其中所述uid序列包含内源性uid序列,所述内源性uid序列包含来自所述的双链dna片段的末端。137.如权利要求136所述的方法,其中包含双链dna片段的末端的内源性uid序列包含至少8、10或15个碱基。138.如权利要求121-136中任一项所述的方法,其中所述外源性uid序列对于各双链dna片段是独特的。139.如权利要求121-136中任一项所述的方法,其中所述外源性uid序列对于各双链dna片段不是独特的。140.如权利要求136-139中任一项的方法,其中uid家族的各成员包含相同的内源性uid序列和相同的外源性uid序列。141.如权利要求121-140中任一项所述的方法,其中扩增衔接子连接的双链dna片段以产生扩增子包括不多于11个pcr扩增循环。142.如权利要求141所述的方法,其中扩增衔接子连接的双链dna片段以产生扩增子包
括不多于7个pcr扩增循环。143.如权利要求142所述的方法,其中扩增衔接子连接的双链dna片段以产生扩增子包括不多于5个pcr扩增循环。144.前述权利要求中任一项的方法,其中扩增衔接子连接的双链dna片段以产生扩增子包括至少1个pcr扩增循环。145.如权利要求121-143中任一项所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表所述双链dna片段中至少50%的靶多核苷酸。146.如权利要求145所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表所述双链dna片段中至少70%的靶多核苷酸。147.如权利要求146所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表所述双链dna片段中至少80%的靶多核苷酸。148.如权利要求147所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表所述双链dna片段中至少90%的靶多核苷酸。149.如权利要求121-143中任一项所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表总dna片段体的至少50%。150.如权利要求149所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表总dna片段体的至少70%。151.如权利要求150所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表总dna片段体的至少80%。152.如权利要求151所述的方法,其中所述靶watson文库成员和所述靶crick文库成员代表总dna片段体的至少90%。153.如前述权利要求中任一项所述的方法,其中序列读数的确定能够确定模板分子两端的序列。154.如权利要求153所述的方法,其中模板分子两端的确定包括双端测序。155.如前述权利要求中任一项所述的方法,其中序列读数的确定包括跨模板长度的单读数测序以产生所述序列读数。156.如前述权利要求中任一项所述的方法,其中所述序列读数的确定包括用大规模平行测序仪测序。157.如权利要求156所述的方法,其中所述大规模平行测序仪被设置为确定来自模板多核苷酸两端的序列读数。158.如前述权利要求中任一项所述的方法,其中所述双链dna片段包含长度为约50-600nt的一个或多个片段。159.如前述权利要求中任一项所述的方法,其中双链dna片段包含长度小于2000、小于1000、小于500、小于400、小于300或小于250nt的一个或多个片段。160.如权利要求101-159中任一项所述的方法,其还包括在初始扩增之后和选择性扩增之前,制备对应于所述扩增子的正义链和反义链的单链(ss)dna文库。161.如权利要求160所述的方法,其中ssdna文库制备包括:a.使用两个引物进行扩增反应,其中两个引物中只有一个包含亲和结合对的第一成员,由此产生扩增产物,所述扩增产物包含含有亲和结合对的第一成员的链和不含有亲和
结合对的第一成员的链;b.使扩增产物与固体支持物接触,其中固体支持物包含亲和结合对的第二成员;c.使扩增产物变性,以将包含亲和结合对的第一成员的链与不包含亲和结合对的第一成员的链分开;和d.纯化包含亲和结合对的第一成员的分离的链和不包含亲和结合对的第一成员的分离的链。162.如权利要求161所述的方法,其中亲和结合对的第一成员是生物素,亲和结合对的第二成员是链霉亲和素。163.如权利要求160所述的方法,其中ssdna文库制备包括:a.将扩增子划分成两个扩增反应,各扩增反应使用正向引物和反向引物,其中两个引物中只有一个被磷酸化,由此产生包含磷酸化链和非磷酸化链的扩增产物;b.使扩增产物与核酸外切酶接触,所述核酸外切酶选择性地消化具有5'磷酸的链。164.如权利要求163所述的方法,其中:a.在第一扩增反应中,正向引物是磷酸化的,且反向引物是非磷酸化的;b.在第二扩增反应中,反向引物是磷酸化的,且正向引物是非磷酸化的。165.如权利要求163所述的方法,其中所述核酸外切酶是λ核酸外切酶。166.如权利要求163-165中任一项所述的方法,其中所述磷酸化在5'位点。167.如权利要求90-153中任一项所述的方法,其中初始扩增包括:a.采用引物对进行扩增,其中引物对中的两个引物中只有一个包含亲和结合对的第一成员,由此产生扩增产物,其包含含有亲和结合对的第一成员的链和不含有亲和结合对的第一成员的链;b.使扩增产物与固体支持物接触,其中固体支持物包含亲和结合对的第二成员;c.使扩增产物变性,以将包含亲和结合对的第一成员的链与不包含亲和结合对的第一成员的链分开;和d.纯化包含亲和结合对的第一成员的分离的链和不包含亲和结合对的第一成员的分离的链。168.如权利要求167所述的方法,其中亲和结合对的第一成员是生物素,亲和结合对的第二成员是链霉亲和素。169.如前述权利要求中任一项所述的方法,其中当外源性uid序列位于r2序列下游和r1序列上游时,将uid家族的序列读数分配给watson亚家族。170.如前述权利要求中任一项所述的方法,其中当外源性uid序列位于r1序列下游和r2序列上游时,将uid家族的序列读数分配给crick亚家族。171.如前述权利要求中任一项所述的方法,其中当外源性uid序列与r2序列更接近而与r1序列距离更远时,将uid家族的序列读数分配给watson亚家族。172.如前述权利要求中任一项所述的方法,其中当外源性uid序列与r1序列更接近而与r2序列距离更远时,将uid家族的序列读数分配给crick亚家族。173.如前述权利要求中任一项所述的方法,当外源性uid序列紧邻r2序列下游或与r2序列距离1-300、1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5个核苷酸之内时,将uid家族的读数序列分配至watson亚家族。
174.如前述权利要求中任一项所述的方法,当外源性uid序列紧邻r1序列下游或与r2序列距离1-300、1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5个核苷酸之内时,将uid家族的读数序列分配至crick亚家族。175.如前述权利要求中任一项所述的方法,其中所述双链dna片段来自生物样品。176.如权利要求175所述的方法,其中所述生物样品获自对象。177.如权利要求176所述的方法,其中所述对象是人对象。178.如权利要求175-177中任一项所述的方法,其中所述生物样品是流体样品。179.如权利要求178所述的方法,其中所述流体样品选自全血、血浆、血清痰、尿、汗液、泪液、腹水、精液和支气管肺泡灌洗液。180.如权利要求178所述的方法,其中所述流体样品是无细胞或基本上无细胞的样品。181.如权利要求175-177中任一项所述的方法,其中所述生物样品是固体生物样品。182.如权利要求181所述的方法,其中所述固体生物样品是肿瘤样品。183.如前述权利要求中任一项所述的方法,其中所鉴定的突变以0.1%或更低的频率存在于双链dna片段中。184.如权利要求183所述的方法,其中所述鉴定的突变以0.1%至0.00001%的频率存在于双链dna片段中。185.如权利要求183所述的方法,其中所述鉴定的突变以0.1%至0.01%的频率存在于所述双链dna片段中。186.如前述权利要求中任一项所述的方法,其中确定序列读数包括确定分析物dna样品中至少50%的包含靶多核苷酸的双链dna片段的watson和crick链的序列读数。187.如权利要求186所述的方法,其中确定序列读数包括确定分析物dna样品中至少70%的包含靶多核苷酸的双链dna片段的watson和crick链的序列读数。188.如权利要求187所述的方法,其中确定序列读数包括确定分析物dna样品中至少80%的包含靶多核苷酸的双链dna片段的watson和crick链的序列读数。189.如权利要求188所述的方法,其中确定序列读数包括确定分析物dna样品中至少90%的包含靶多核苷酸的双链dna片段的watson和crick链的序列读数。190.如前述权利要求中任一项所述的方法,其中确定序列读数包括确定分析物dna样品中至少50%的双链dna片段的watson和crick链的序列读数。191.如前述权利要求中任一项所述的方法,其中确定序列读数包括确定分析物dna样品中至少70%的双链dna片段的watson和crick链的序列读数。192.如前述权利要求中任一项所述的方法,其中确定序列读数包括确定分析物dna样品中至少80%的双链dna片段的watson和crick链的序列读数。193.如前述权利要求中任一项所述的方法,其中确定序列读数包括确定分析物dna样品中至少90%的双链dna片段的watson和crick链的序列读数。194.根据前述权利要求中任一项所述的方法,其中与不要求突变在分析物dna片段的watson和crick链两者中均检测到的鉴定突变的替代方法相比,与根据前述权利要求中任一项所述的方法鉴定分析物dna片段中的一个或多个突变相关联的错误率降低至少2倍,4倍、5倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍或100倍。195.如权利要求194所述的方法,其中所述替代方法包括标准分子条码化或标准的基
于pcr的分子条码化。196.如权利要求195所述的方法,其中所述替代方法包括:a.将衔接子连接至分析物dna样品中的双链dna片段,其中衔接子包含独特的外源性uid;b.进行初始扩增,以扩增衔接子连接的双链dna片段,以产生扩增子;c.确定一个或多个衔接子连接的双链dna片段的一个或多个扩增子的序列读数;d.将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;e.当阈值百分数的uid家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段;和f.当鉴定为准确代表分析物dna片段的序列与缺乏突变的参考序列不同时,鉴定分析物dna片段中的突变。197.如前述权利要求中任一项所述的方法,其中与根据前述权利要求中任一项所述的方法鉴定分析物dna片段中的一个或多个突变相关联的错误率不超过1x10-2
,不超过不超过1x10-3
,不超过1x10-4
,不超过1x10-5
,不超过1x10-6
,不超过5x10-6
,或不超过1x10-7
。198.一种计算机可读介质,其包含用于分析来自核酸样品的序列读数数据的计算机可执行指令,其中所述数据通过前述权利要求中任一项所述的方法产生。199.如权利要求198所述的计算机可读介质,包括用于以下的可执行指令a.将序列读取分配到uid家族,其中uid家族的各成员包含相同的外源性uid序列;b.根据外源性uid序列与r1和r2读数序列的空间关系,将各uid家族的序列读数分配到watson和crick亚家族;c.当阈值百分数的watson亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的watson链;d.当阈值百分数的crick亚家族成员包含某一核苷酸序列时,将该序列鉴定为准确代表分析物dna片段的crick链;e.当准确代表watson链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表watson链的序列中的突变;f.当准确代表crick链的核苷酸序列与缺乏突变的参考序列不同时,鉴定该准确代表crick链的序列中的突变;g.当准确代表watson链的核苷酸序列中的突变和准确代表crick链的核苷酸序列中的突变为相同突变时,鉴定分析物dna片段中的突变。200.如权利要求199所述的计算机可读介质,其包括在外源性uid序列紧邻r2测序引物结合位点下游或距离r2测序引物结合位点1-300个核苷酸内时,将uid家族成员分配至watson亚家族。201.如前述权利要求中任一项所述的计算机可读介质,其包括当外源性uid序列紧邻r1测序引物结合位点下游或距离r1测序引物结合位点1-300个核苷酸内时,将uid家族成员分配给crick亚家族。202.前述权利要求中任一项所述的计算机可读介质,其包括将所述序列读数映射到参考基因组。203.如权利要求202所述的计算机可读介质,其中所述参考基因组是人类参考基因组。
204.如前述权利要求中任一项所述的计算机可读介质,其还包括计算机可执行指令以基于所述样品中突变的存在、不存在或突变量来生成选项的报告。205.如前述权利要求中任一项所述的计算机可读介质,其还包括能够通过网络传输所述数据的计算机可执行代码。206.一种计算机系统,其包括:a.存储单元,其被设置为接收来自核酸样品的序列数据,其中所述数据通过前述权利要求中任一项所述的方法产生;b.一种可通信地耦合到所述存储单元的处理器,其中所述处理器包括根据前述权利要求中任一项所述的计算机可读介质。207.如权利要求206所述的计算机系统,其还包括被设置为将所述数据传送到所述存储器单元的测序系统。208.如前述权利要求中任一项所述的计算机系统,其还包括用户界面,所述用户界面被设置为向用户传达或显示所述报告。209.如前述权利要求中任一项所述的计算机系统,其还包括数字处理器,所述数字处理器被设置为通过网络传输所述数据分析的结果。210.一种系统,其包括:a.来自生物样品的双链dna片段;b.如前述权利要求中任一项所述的3'衔接子;c.如前述权利要求中任一项所述的5'衔接子;d.用于进行切口平移样反应的试剂;e.用于针对一种或多种靶多核苷酸富集扩增子的试剂;和f.测序系统。211.如权利要求210所述的系统,其还包括如前述权利要求中任一项所述的计算机系统。212.一种试剂盒,包括:a.第一组watson靶标选择性引物对,其包含(i)一个或多个第一watson靶标选择性引物,其包含与通用3'衔接子序列的部分互补的序列,任选地其中通用3'衔接子序列的部分是通用3'衔接子序列的r2测序引物位点,和(ii)一个或多个第二watson靶标选择性引物,所述一个或多个第二watson靶标选择性引物各自包含靶标选择性序列;b.第一组crick靶标选择性引物对,其包含(i)一个或多个crick靶标选择性引物,其包含与通用5'衔接子序列的部分互补的序列,任选地其中通用5'衔接子的部分序列是通用5'衔接子序列的r1测序引物位点,和(ii)一个或多个第二crick靶标选择性引物,所述一个或多个第二crick靶标选择性引物各自与第二watson靶标选择性引物序列包含相同的靶标选择性序列;c.第二组watson靶标选择性引物对,其包含(i)一个或多个第三watson靶标选择性引物,其包含与通用3'衔接子序列的r2测序引物位点互补的序列,和(ii)一个或多个第四watson靶标选择性引物,所述一个或多个第四watson靶标选择性引物各自在5'至3'方向上包含r1测序引物位点选择性针对相同靶多核苷酸的靶标选择性序列;和d.第二组crick靶标选择性引物,其包含(i)一个或多个第三crick靶标选择性引物,其
包含与通用3'衔接子序列的r1测序引物位点互补的序列,和(ii)一个或多个第四crick靶-选择性引物,所述一个或多个第四crick靶标选择性引物各自在5'至3'方向上包含r2测序引物位点和选择性针对相同靶多核苷酸的靶标选择性序列。

技术总结


本文提供了用于测序文库制备和测序工作流程(例如,用于鉴定突变)的系统、试剂盒、组合物和方法。在某些实施方式中,本文提供了对两条模板链等同地进行条码化的系统和方法,以及不要求杂交捕获的各链的基于PCR的富集。不要求杂交捕获的各链的基于PCR的富集。


技术研发人员:


受保护的技术使用者:

约翰斯霍普金斯大学

技术研发日:

2021.02.12

技术公布日:

2022/12/23


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-63199-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-12-26 08:37:23

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论