一種高通量核酸分析方法及其應用的制作方法
【專利摘要】本發明涉及一種高通量基因分析方法及其應用,具體地,包括步驟:對于待分析的n種目的核酸片段,針對每個目的核酸片段,提供結合于所述目的核酸片段的不同結合區的至少2個特異探針,所述的各特異探針具有特異結合區和通用序列區,并且所述的特異結合區的序列與目的核酸片段的結合區的序列互補,而所述通用序列區的序列對應于高通量單分子或單分子擴增簇測序平臺的測序引物序列,其中n為≥40的正整數;將含待分析的目的核酸片段的核酸樣本與所述探針雜交,并連接所述探針,從而獲得探針連接產物的混合物;用所述測序引物對探針連接產物混合物或其擴增產物進行測序,并進行分析,從而實現高通量目的基因片段的定量分析的目的。
【專利說明】—種高通量核酸分析方法及其應用
【技術領域】
[0001]本發明屬于生物【技術領域】和分子診斷領域,具體地,本發明涉及一種高通量核酸分析方法及其應用。
【背景技術】
[0002]基因是遺傳的物質基礎,是DNA或RNA分子上具有遺傳信息的特定核苷酸序列。除了部分病毒遺傳物質是RNA外,幾乎所有非病毒生物的遺傳物質是DNA。不同物種都有其特異的基因序列,因此通過檢測樣品中的基因序列可以判斷樣品中存在的生物種性。
[0003]生命過程中,基因通過DNA轉錄成mRNA,然后以mRNA為模板,翻譯出有生物活性的蛋白質分子,從而將貯存在DNA序列中遺傳信息表現出來。通過分析不同組織中各mRNA的量,并結合不同組織的生理功能差異,可以了解基因的功能,因此基因的表達分析是分子生物學研究基因功能最基本的研究手段之一。
[0004]基因的表達受到多種調控因子的共同協調作用,其中DNA的甲基化是調控基因表達的重要方式之一。DNA甲基化能引起染色質結構、DNA構象、DNA穩定性及DNA與蛋白質相互作用方式的改變,從而達到控制基因表達的目的。絕大多數情況下,甲基化主要發生在CpG序列中的胞喃唳核苷酸的胞喃唳環的5位碳原子上。
[0005]另外,基因在復制過程中也會出現差錯產生“突變”,這種突變包括點突變、大片段缺失/重復(稱為拷貝數多態,CNV)、基因倒位或基因易位等。有的突變會嚴重影響關鍵基因的功能從而導致疾病,由于受到選擇作用,盡管這類突變在群體中的頻率非常低,相當一部分突變由于并未嚴重影響基因功能或影響的基因并不對個體造成生存壓力,它們在群體中會保留下來并由于受到隨機漂變以及奠基者效應發生頻率的改變,從而成為群體中的一種遺傳多態,對于單堿基或寡堿基改變的多態被稱之為單核苷酸多態(SNP),而對于大區段的缺失或重復多態被稱之為拷貝數多態(CNP)。遺傳多態以及基因突變分析是研究基因功能以及遺傳性疾病的致病機理最常見的遺傳分析方法。
[0006]因此,基因鑒定、基因表達分析、DNA甲基化分析、突變篩查、SNP分型、CNP分型以及CNV檢測是重要的分子遺傳學研究手段,而且在臨床分子診斷上也有著廣泛的應用。正因為這些遺傳分析的重要性,對于每一種分析,科學家及工程師們都開發出了多種檢測方法。
[0007]早期的檢測方法主要針對有限的目的片段分析。采用PCR擴增對目標基因鑒定,或采用實時熒光定量PCR進行基因表達水平、病毒含量、基因拷貝數以及甲基化水平的鑒定。常見的DNA甲基化分析主要針對亞硫酸處理后的DNA進行甲基化測序或甲基化特異PCR分析。突變篩查主要是采用PCR擴增和Sanger法測序,然后通過比較測序序列與參照序列獲得突變情況。用于SNP檢測的方法也很多,如TaqMan探針等位基因檢測技術、限制性內切酶反應(RFLP)、高分辨率融解曲線反應、單堿基延伸技術(飛行時間質譜平臺、MultiplexSNaPshot)、高溫 連接酶檢測技術(LDR,SNPscan)等。中小通量CNV的檢測方法主要包括實時定量PCR、FISH、多重連接探針擴增技術(MLPA)、多重熒光競爭PCR技術(AccuCopy)等。上述方法靈活性很高,但最大的缺陷是通量太低,對于需要檢測大量基因位點的研究項目或診斷需求時顯得無能為力。
[0008]微陣列芯片(Microarray)以高密度探針陣列為特征,這些微陣列上〃印〃有大量已知部分序列的DNA探針,利用分子雜交原理,將各種處理過的熒光標記樣本與微陣列探針進行雜交,然后經過洗滌去除非特異雜交信號,最后用掃描儀進行熒光檢測,根據熒光信號的強弱以及熒光信號所在的陣列位置確認目的基因相關的信號量。該芯片能夠同時實現成千上萬甚至是數百萬基因片段或多態位點的分析,被廣泛應用于物種鑒定、表達譜分析、高通量SNP分析、全基因組甲基化水平分析以及全基因組拷貝數分析等等。微陣列芯片最大的優勢就是高通量,能夠在整個基因組水平上分析基因的變化,但其缺陷是由于普遍存在非特異性雜交,定量的準確性較差,同時需要昂貴的雜交及掃描儀器,成本高而且定制芯片時間長費用高,對未知基因無法實現檢測。
[0009]第二代測序技術的出現給基因檢測領域帶來個革命性的變化。第二代測序技術的主要原理為芯片單分子PCR擴增后測序,如Illumina公司的MiSeq、GAIIx、Hiseq2000測序儀、ABI公司的1n PGM、Solid測序儀、Roche公司的454 GSFLX測序儀等。第二代測序技術能夠同時實現數百萬個甚至是數億個單分子擴增產物的測序,它廣泛應用于基因組重測序快速鑒定致病基因、轉錄組分析、甲基化譜、miCToRNA鑒定、全基因組水平的蛋白-DNA相互作用研究以及新物種的基因組測序等等。
[0010]新一代以單分子直接測序的技術也在快熟研究發展中,主要代表公司為PacificBiosciences及Helicos。這種高通量測序技術的最大的優勢就是通量很大,而且能夠同時實現對已知或未知基因進行鑒定并定量,應此特異性及效率都非常高。但也存在一些不足之處,主要是相對于常規測序,下一代測序的準確性稍差,單分子擴增引入的突變對最后的結果分析會造成影響,再則該技術平臺適合整個基因組或轉錄組的檢測,如果要實現對目的區域或一組基因的檢測分析,需要事先對樣本進行目的基因區段的富集。目前采用的富集方法有針對有限基因區域的多重PCR及微流體數字PCR等技術,而針對大量基因區域方法主要是利用覆蓋目的區域的高密度探針序列與樣本進行固相或液相雜交將目的區域富集。這些富集技術主要用于候選基因的突變檢測,但由于這些富集過程在一定程度上消除了產物與原始模板量的正比關系,因此不能準確實現對富集的候選基因片段進行定量分析,如表達量以及拷貝數分析。
[0011]因此目前本領域對于基因的檢測,特別是基因鑒定、基因表達分析、DNA甲基化分析、突變篩查、SNP分型、CNP分型以及CNV檢測中,尚缺乏有效的檢測方法,因此迫切需要開發一種有效的高通量基因分析方法。
【發明內容】
[0012]本發明的主要目的就是提供一種高通量基因分析方法及其應用。
[0013]在本發明的第一方面,提供了一種高通量核酸分析方法,包括步驟:
[0014](I)對于待分析的η種目的核酸片段,針對每個目的核酸片段,提供結合于所述目的核酸片段的不同結合區的至少2個特異探針,所述的各特異探針具有特異結合區和通用序列區,并且所述的特異結合區的序列與目的核酸片段的結合區的序列互補,而所述通用序列區的序列對應于測序引物的序列,其中η為> 40的正整數;[0015](2)將含有待分析的目的核酸片段的核酸樣本與步驟(1)所述的探針雜交,并連接所述探針,從而獲得探針連接產物的混合物,其中各探針連接產物的3’和5’端都是序列對應于測序引物序列的通用序列區;
[0016](3)對步驟(2)的探針連接產物的混合物進行測序,和/或分析,從而獲得目的核酸的信息。
[0017]在另一優選例中,所述的測序引物為高通量單分子或單分子擴增簇測序平臺的測序引物。
[0018]在另一優選例中,η為≤100的正整數,較佳地為:選自1000-10000的正整數。
[0019]在另一優選例中,所述通用序列區的序列對應于測序引物序列表示:通用序列區的序列與測序引物序列完全相同或至少8bp相同,或通用序列區的序列與測序引物序列完全互補或至少8bp互補。
[0020]在另一優選例中,所述特異探針還具有選自下組的一個或多個特征:
[0021](I)所述特異探針的長度< lOObp,優選地為30_70bp,更優選為40_50bp。
[0022](2)所述特異探針的特異結合區的長度為≤50bp,優選地為15_35bp,更優選為20_25bpo
[0023](3)特異探針的通用序列區長度為≥8bp,優選地為15-35bp,更優選為20_25bp。
[0024](4)所述特異探針的通用序列區的序列還對應于擴增引物序列;
[0025]( 5 )所述特異探針包括標簽序列。
[0026]在另一優選例中,所述的標簽序列為一段(優選3個一30個,更優選6個-9個)特異堿基組成的序列,用于區別不同樣本來源的探針連接產物。
[0027]在另一優選例中,每個目的核酸片段對應的2個探針為:5’端探針和3’端探針,所述的5’端探針能夠與位于待分析的目的核酸片段3’端的結合區互補,所述的3’端探針能夠與位于待分析的目的核酸片段5’端的結合區互補。
[0028]在另一優選例中,所述5’端探針或3’端探針的結構如式I所示:
[0029]5’ -A—L—B-3,
[0030]式I
[0031]在式I中,
[0032]A代表通用序列區;
[0033]B代表特異結合區;
[0034]L代表A與B的核酸連接序列;
[0035]其中,A與B位置可以互換。
[0036]在另一優選例中,所述的L為O個堿基。
[0037]在另一優選例中,5’端探針和3’端探針之間的連接關系選自以下其中一組或多組:
[0038](a) 5’端探針和3’端探針為緊鄰探針:即所述的5’端探針和3’端探針與待分析的目的核酸片段雜交后,二者之間距離O個堿基,在連接酶的作用下進行連接,從而獲得探針連接產物;
[0039](b) 5’端探針和3’端探針距離1-500個堿基:所述的5’端探針和3’端探針與待分析的目的核酸片段雜交后,在DNA聚合酶和連接酶的作用下進行間隙聚合和連接,從而獲得探針連接產物;
[0040](c)雜交體系除了 5’端探針和3’端探針外,還包括探針3,探針3分別與5’端探針和3’端探針緊鄰,所述的三個探針與待分析的目的核酸片段雜交后,在連接酶的作用下連接,從而獲得探針連接產物。
[0041 ] 在另一優選例中,所述探針3長度為l_500bp,優選地15_35bp,更佳地為20_25bp。
[0042]在另一優選例中,對(a)中所述的3’端探針的5’端進行磷酸化修飾。
[0043]在另一優選例中,對(a)中所述的3’端探針的3’端和5’端探針的5’端進行抗核酸外切酶的修飾保護。
[0044]在另一優選例中,所述的抗核酸外切酶修飾為硫代修飾。
[0045]在另一優選例中,在(b)中,5’端探針和3’端探針優選距離為1-10個堿基。
[0046]在另一優選例中,在(b)中,所述的DNA聚合酶沒有5’ -3’外切酶活性。
[0047]在另一優選例中,步驟(2)和步驟(3)之間還包括步驟:對步驟(2)的獲得的探針連接產物進行擴增。
[0048]在另一優選例中,在步驟(3)中,對步驟(2)獲得的探針連接產物的混合物,直接利用高通量單分子或單分子擴增簇測序平臺進行測序;或對探針連接產物的混合物的擴增產物,利用高通量單分子或單分子擴增簇測序平臺進行測序。
[0049]在另一優選例中,在步驟(3)中,用第三代測序技術或第二代測序技術對探針連接產物的混合物或其擴增產物進行測序和分析。
[0050]在另一優選例中,步驟(3)中,所述的獲得目的核酸的信息是指任選自下組的一個或多個信息=SNP分型信息、DNA甲基化信息、突變篩查信息、CNP分型信息、CNV信息、病原微生物基因信息、轉基因動植物產品基因信息、基因表達水平。
[0051]在本發明的第二方面,提供了一種高通量SNP分型方法,包括步驟:使用第一方面所述的方法對來源于待測樣本的探針連接產物的混合物進行測序和SNP分析,獲得目的核酸的SNP分型信息。
[0052]在另一優選例中,所述的高通量SNP分型方法包括步驟:
[0053](1)對于待分析的η種目的核酸片段,針對每個目的核酸片段,提供結合于所述目的核酸片段的不同結合區的3個特異探針:2個5’端探針和1個3’端探針,所述的5’端探針為等位基因特異性探針,并且最后一個喊基對應相應的等位基因喊基,所述的3’端探針為共用探針,其中η為> 40的正整數;
[0054](2)將含有待分析的目的核酸片段的核酸樣本與步驟(1)所述的探針雜交,并連接所述探針,從而獲得探針連接產物的混合物,其中各探針連接產物的3’和5’端都是序列對應于測序引物序列的通用序列區;
[0055](3)用所述測序引物,對步驟(2)的探針連接產物的混合物進行測序和分析,獲得目的核酸的SNP分型信息。
[0056]在本發明的第三方面,提供了一種檢測CNV的方法,包括步驟:使用第一方面所述的方法對來源于待測樣本的探針連接產物的混合物進行測序和CNV分析,獲得目的核酸的CNV信息。
[0057]在另一優選例中,所述的檢測CNV的方法包括步驟:[0058](I)每個目的基因片段設計特異性探針(優選地設計2條探針,I個5’端探針以及I個3’端探針);
[0059](2)將所有目的基因片段的連接探針與DNA模板變性_復性_連接(優選進行多次變性-復性-連接循環);
[0060](3)連接產物PCR擴增或不擴增直接用核酸酶消化,將不同樣本的擴增產物混合后進行下一代高通量芯片測序;
[0061](4)測序數據分析,獲得樣本的目的基因拷貝數。
[0062]在本發明的第四方面,提供了一種高通量甲基化分析方法,包括步驟:使用第一方面所述的方法對來源于待測樣本的探針連接產物的混合物進行測序和甲基化分析,獲得目的核酸的甲基化信息。
[0063]在另一優選例中,所述高通量甲基化分析方法包括步驟:對基因組DNA采用甲基化敏感的限制性內切酶進行處理,針對切點處設計探針,用權利要求1所述的方法檢測未被切斷的基因組DNA量。
[0064]在另一優選例中,所述高通量甲基化分析方法包括步驟:對基因組DNA進行亞硫酸鹽處理,針對目的基因片段分別設計甲基化特異探針及非甲基化特異探針,通過檢測兩種探針的連接產物量,獲得基目的基因區段的甲基化水平。
[0065]在本發明的第五方面,提供了一種基因表達檢測方法,包括步驟:使用第一方面所述的方法進行檢測。
[0066]應理解,在本發明范圍內中,本發明的上述各技術特征和在下文(如實施例)中具體描述的各技術特征之間都可以互相組合,從而構成新的或優選的技術方案。限于篇幅,在
此不再一一累述。
【專利附圖】
【附圖說明】
[0067]下列附圖用于說明本發明的具體實施方案,而不用于限定由權利要求書所界定的本發明范圍。
[0068]圖1顯示了本發明一個具體實施例中高通量測定的技術思路I。
[0069]圖2顯示了本發明一個具體實施例中高通量測定的技術思路2。
[0070]圖3顯示基于單分子直接或擴增后測序的高通量連接產物檢測技術用于高通量SNP分型的流程。
[0071]圖4顯示基于單分子直接或擴增后測序的高通量連接產物檢測技術用于高通量CNV檢測的流程。
[0072]圖5顯示基于單分子直接或擴增后測序的高通量連接產物檢測技術用于高通量目的基因突變篩查的流程。
[0073]圖6顯示基于單分子直接或擴增后測序的高通量連接產物檢測技術用于高通量候選基因表達分析的流程。
[0074]圖7顯示基于單分子直接或擴增后測序的高通量連接產物檢測技術用于高通量基因甲基化水平分析的流程。
[0075]圖8顯示實施例2中DMD基因外顯子缺失重復的檢測結果。【具體實施方式】
[0076]本發明人經過廣泛而深入的研究,首次利用多重連接探針擴增技術的高特異性以及對目的片段的數量信息的良好保存特性,利用下一代高通量測序技術平臺對連接探針擴增產物進行測序鑒定并定量,從而實現高通量目的基因片段的定量分析。在此基礎上完成了本發明。
[0077]具體地,包括步驟:對于待分析的η種目的核酸片段,針對每個目的核酸片段,提供結合于所述目的核酸片段的不同結合區的至少2個特異探針,所述的各特異探針具有特異結合區和通用序列區,并且所述的特異結合區的序列與目的核酸片段的結合區的序列互補,而所述通用序列區的序列對應于測序引物序列,其中η為>40的正整數;將含待分析的目的核酸片段的核酸樣本與所述探針雜交,并連接所述探針,從而獲得探針連接產物的混合物,其中各探針連接產物的3’和5’端都是序列對應于測序引物序列的通用序列區;用所述測序引物,對探針連接產物的混合物進行測序,并進行分析,從而實現高通量目的基因片段的定量分析。
[0078]多重連接探針擴增(MLPA )
[0079]多重連接探針擴增是一種能準確檢測目的基因片段分子數目的技術,其基本流程包括探針和靶核酸序列進行雜交,之后通過連接、PCR擴增,產物毛細管電泳并收集數據,分析軟件對收集的數據進行分析最后得出結論。
[0080]MLPA探針是一條包括一段引物序列和一段特異性序列的寡核苷酸片段。在MLPA反應中,這兩者都與靶序列進行雜交,之后使用連接酶連接兩部分探針。連接反應高度特異,只有當兩個探針與靶序列完全雜交,即靶序列與探針特異性序列完全互補,連接酶才能將兩段探針連接成一條完整的核酸單鏈;反之,如果靶序列與探針序列不完全互補,即使只有一個堿基的差別,就會導致雜交不完全,使連接反應無法進行或連接效率大大下降。
[0081]連接反應完成后,用一對通用引物擴增連接好的探針,每個探針的擴增產物的長度都是唯一的,范圍在100~480個堿基對,然后通過毛細管電泳分離擴增產物,專用軟件分析,得出結論。
[0082]只有當連接反應完成,才能進行隨后的PCR擴增,并收集到相應探針的擴增峰,如果檢測的靶序列發生點突變或缺失、擴增突變,那么相應探針的擴增峰便會缺失、降低或增加,因此,根據擴增峰的改變就可判斷靶序列是否有拷貝數的異常或點突變存在。
[0083]多重連接探針擴增技術的優點是探針連接的特異性很高,因此在一個體系中能同時實現多個目的基因片段的分析,而且連接產物的量與原始模板量之間存在正比關系,同時由于不同基因片段的連接產物采用通用引物擴增,因此擴增產物的量很好地保留了原始模板的量的信息,利用該方法能夠通過連接PCR產物終端分析檢測原始模板目的基因的量。
[0084]多重連接探針擴增已經應用于多個領域研究,包括染色體非整倍體改變,SNP、點突變、染色體亞端粒的基因重排,以及常見的兒童遺傳性疾病的檢測。
[0085]該方法的不足之處主要在于:1、連接產物通常長度不同,而且采用一對通用PCR熒光引物進行擴增,根據熒光標記PCR產物長度不同采用電泳技術進行不同位點的擴增量進行確定,這樣大大限制了一個反應體系檢測位點的數量,同時只能檢測40-50個核苷酸序列,通量較低;2、連接探針序列通常很長OlOObp),不能直接合成,只能利用Μ13克隆制備,比較繁瑣;3、連接探針序列很長,而且不同位點的連接探針及連接產物長度差別可達數百個堿基,這樣不同位點間的連接效率及擴增效率都會存在較大差異和波動,從而影響檢測準確性。
[0086]高通量基因分析方法
[0087]本發明提供了一種高通量基因分析方法。該方法的技術思路如下:
[0088]思路1 (圖1):以分析兩個目的基因片段(Fl和F2)為例,包括下述步驟:
[0089]1.針對目的核酸片段設計特異性DNA探針,探針的設計有三種可選方法:
[0090]第一種方法是針對每一個目的片段設計兩個緊鄰探針(探針I和探針2),一個是5’端探針(即探針1),另一個是3’端探針(即探針2)。5’端探針前半部分序列(探針I的a)是后續PCR擴增引物相一致的通用序列,而后半部分(探針I的bl)為與目的核酸片段雜交的特異序列。3’端探針的5’端進行磷酸化修飾,前半部分(探針2的bl)為與目的核酸片段雜交的特異序列,后半部分(探針2的a)是后續PCR擴增引物相一致的通用序列。這兩個探針與模板DNA雜交后,在連接酶作用下進行連接。
[0091]第二種方法同樣設計兩個探針(探針I和探針2),探針的結構同方法一,但這兩個探針之間有數個至數十個堿基距離(該距離可選l_500bp,較佳地Ι-lObp),探針與模板DNA雜交后,在沒有5’->3’外切酶活性的聚合酶作用下延伸,將兩個探針之間的間隙補上,并連接酶作用下進行連接。
[0092]第三種方法是設計3對探針(探針1、探針2和探針3),5’端及3’端探針(探針I和探針2)的結構同方法一,但這兩個探針之間有數十個至數百個堿基距離(較佳地20-25bp),中間探針(探針3)的5’端磷酸化,正好與5’端及3’端探針的間隙匹配,三個探針與模板DNA雜交后在連接酶作用下進行連接。為了增加連接產物的量,優選利用高溫耐熱聚合酶如Taq DNA Iigase進行變性-復性-連接多次循環。
[0093]2.利用一對與下一代測序平臺擴增引物或測序引物相匹配的PCR引物,對連接產物進行擴增,獲得含有完整特異序列的目的基因片段。
[0094]優選地,PCR引物具有一段數個至數十個堿基長度的標簽序列(即index),不同樣本的連接產物可以用帶有不同標簽序列的PCR引物進行擴增,這樣不同樣本的擴增產物可以混合在一起,在后續測序數據中根據該標簽序列將測序序列歸類到不同樣本中去。
[0095]3.連接探針擴增產物利用下一代高通量芯片測序平臺進行單分子擴增測序或直接單分子測序;
[0096]4.對測序數據進行分析,實現測序序列的樣本歸類,基因位點歸類以及各個基因片段對應連接產物定量。
[0097]首先根據標簽序列將測序獲得的序列歸到相應的樣本上,然后根據每個序列的堿基組成將其歸到相應基因片段的連接產物上,統計每個連接產物的測序序列數目可以估計該基因片段連接產物的相對量。
[0098]思路2 (圖2):以分析兩個目的基因片段(Fl和F2)為例,包括下述步驟:
[0099]1.針對目的核酸片段設計特異性DNA探針,探針的設計有三種可選方法:
[0100]第一種方法是設計兩個緊鄰探針(探針I和探針2),一個是5’端探針(探針1),另一個3’端探針(探針2)。5’端探針前半部分序列是與下一代測序平臺擴增引物或測序引物相匹配的通用序列,而后半部分為與目的核酸片段雜交的特異序列,3’端探針的5’端進行磷酸化修飾,前半部分為與目的核酸片段雜交的特異序列,后半部分是與下一代測序平臺擴增引物或測序引物相匹配的通用序列,5’端探針的5’末端幾個堿基進行硫代修飾或其它保護基團修飾免受核算外切酶降解,3’端探針的3’末端幾個堿基進行硫代修飾或其它保護基團修飾免受核算外切酶降解,這兩個探針與模板DNA雜交后在連接酶作用下進行連接。
[0101]第二種方法同樣設計兩個探針,探針結構同方法一,但這兩個探針之間有數個至數十個堿基距離(該距離可選l_500bp,較佳地Ι-lObp)),探針與模板DNA雜交后,在沒有5’ ->3’外切酶活性的聚合酶作用下延伸,將兩個探針間隙補上,然后在連接酶作用下進行連接。
[0102]第三種方法是設計3對探針,5’端及3’端探針結構同方法一,但這兩個探針之間有數十個至數百個堿基距離(較佳地20-25bp),中間探針5’端磷酸化,正好與5’端及3’端探針的間隙匹配。通常情況下,5’端或3’端探針會加上一段數個至數十個堿基長度的標簽序列,不同樣本的連接產物帶不同標簽序列,這樣不同樣本的連接產物可以混合在一起,在后續測序數據中可以根據該標簽序列將測序序列歸類到不同樣本中去。三個探針與模板DNA雜交后在連接酶作用下進行連接,為了增加連接產物的量,可以利用高溫耐熱聚合酶如Taq DNA Iigase進行變性_復性_連接多次循環。
[0103]2.連接反應產物用各種核酸外切酶聯合作用如核酸外切酶I (exonucleasel)、核酸外切酶III (exonuclease III)及λ核酸外切酶(lamda exonuclease)共同消化處理,將所有非連接產物的單鏈或雙鏈DNA去除后純化(去除非連接產物的所有核酸序列,可不需要連接產物PCR擴增的步驟,測序結果能夠更真實反應連接產物信息)。
[0104]3.非擴增連接產物直接用下一代高通量芯片測序平臺進行單分子擴增測序或直接單分子測序。
[0105]4.對測序數據進行分析,實現測序序列的樣本歸類,基因位點歸類以及各個基因片段對應連接產物定量:首先根據標簽序列將測序獲得的序列歸到相應的樣本上,然后根據每個序列的堿基組成將其歸到相應基因片段的連接產物上,統計每個連接產物的測序序列數目可以估計該基因片段連接產物的相對量。
[0106]引物
[0107]如本文所用,術語“引物”指的是能與模板互補配對,在DNA聚合酶的作用合成與模板互補的DNA鏈的寡聚核苷酸的總稱。引物可以是天然的RNA、DNA,也可以是任何形式的天然核苷酸,引物甚至可以是非天然的核苷酸如LNA或ZNA等。
[0108]引物“大致上”(或“基本上”)與模板上一條鏈上的一個特殊的序列互補。引物必須與模板上的一條鏈充分互補才能開始延伸,但引物的序列不必與模板的序列完全互補。t匕如,在一個3’端與模板互補的引物的5’端加上一段與模板不互補的序列,這樣的引物仍大致上與模板互補。只要有足夠長的引物能與模板充分的結合,非完全互補的引物也可以與模板形成引物-模板復合物,從而進行擴增。
[0109]在本發明中,引物包括(但不限于):簡并引物、測序引物、接頭引物等。本領域的普通技術人員可以使用常規方法進行引物的設計和優化。
[0110]高通量測序
[0111]基因組的“再測序”使得人類能夠盡早地發現與疾病相關基因的異常變化,有助于對個體疾病的診斷和治療進行深入的研究。
[0112]本領域技術人員通常可以采用三種第二代測序平臺進行高通量測序:454FLX(Roche 公司)、Solexa Genome Analyzer (Illumina 公司)和 Applied Biosystems公司的SOLID等。這些平臺共同的特點是極高的測序通量,相對于傳統測序的96道毛細管測序,高通量測序一次實驗可以讀取40萬到30億條序列,根據平臺的不同,讀取長度從25bp到450bp不等,因此不同的測序平臺在一次實驗中,可以讀取IG到300G不等的堿基數。
[0113]Solexa高通量測序包括DNA簇形成和上機測序兩個步驟:PCR擴增產物的混合物與固相載體上固定的測序探針進行雜交,并進行固相橋式PCR擴增,形成測序簇;對所述測序簇用“邊合成-邊測序法”進行測序,從而得到樣本中疾病相關核酸分子的核苷酸序列。
[0114]DNA簇的形成是使用表面連有一層單鏈引物(primer)的測序芯片(flow cell),單鏈狀態的DNA片段通過接頭序列與芯片表面的引物通過堿基互補配對的原理被固定在芯片的表面,通過擴增反應,固定的單鏈DNA變為雙鏈DNA,雙鏈再次變性成為單鏈,其一端錨定在測序芯片上,另一端隨機和附近的另一個引物互補從而被錨定,形成“橋”;在測序芯片上同時有上千萬個DNA單分子發生以上的反應;形成的單鏈橋,以周圍的引物為擴增引物,在擴增芯片的表面再次擴增,形成雙鏈,雙鏈經變性成單鏈,再次成為橋,稱為下一輪擴增的模板繼續擴增;反復進行了 30輪擴增后,每個單分子得到1000倍擴增,稱為單克隆的DNA 簇。
[0115]DNA簇在Solexa測序儀上進行邊合成邊測序,測序反應中,四種堿基分別標記不同的熒光,每個堿基末端被保護堿基封閉,單次反應只能加入一個堿基,經過掃描,讀取該次反應的顏色后,該保護集團被除去,下一個反應可以繼續進行,如此反復,即得到堿基的精確序列。在Solexa多重測序(MultiplexedSequencing)過程中會使用Index(標簽orbarcode)來區分樣品,并在常規測序完成后,針對Index部分額外進行7個循環的測序,通過Index的識別,可以在I條測序甬道中區分高達1000種以上不同的樣品。
[0116]應用
[0117]本發明還提供了所述高通量基因分析方法的應用。
[0118]SNP 分型
[0119]使用本發明的方法檢測SNP,每個反應可檢測成百上千甚至是成千上萬個SNP位點。在一個具體的實施例中,步驟如下(圖3):
[0120]1.每個SNP位點優選地設計3條探針,2個5’端等位基因特異性探針以及I個3’端共用探針,每個等位基因特異性探針的最后一個堿基對應相應的等位基因堿基,為了增加連接的特異性,在該探針的倒數第2-4位中的某一處改變堿基引入額外的不匹配增加連接的特異性;
[0121 ] 2.將所有SNP位點的連接探針與DNA模板進行變性-復性-連接,為了增加連接產物的量,可進行多次變性-復性-連接循環;
[0122]3.連接產物PCR進行擴 增,或不擴增直接用核算酶消化純化,不同樣本的擴增產物混合后進行下一代高通量芯片測序;
[0123]4.測序數據分析,根據兩個等位基因連接產物的比例進行基因型判讀,或者在出現非特異連接情況下,可取多個樣本的兩個連接產物數量數據進行聚類分析(預計會有3個聚集區,對應三種基因型),根據聚類結果進行基因型判讀。
[0124]CNV 檢測
[0125]使用本發明的方法檢測CNV,每個反應可檢測成百上千甚至是成千上萬個目的基因片段。在一個具體的實施例中,步驟如下(圖4):
[0126]1.每個反應體系至少包含I個參照基因片段,參照基因片段是認為在檢測物種群體中不存在拷貝數多態的基因片段,用于校正不同樣本的取樣差異;
[0127]2.每個目的基因或參照基因片段優選地設計2條探針,I個5’端探針以及I個3’端探針;
[0128]3.將所有目的基因或參照基因片段的連接探針與DNA模板變性-復性-連接,為了增加連接產物的量,可進行多次變性-復性-連接循環;
[0129]4.連接產物PCR擴增或不擴增直接用核酸酶消化,不同樣本的擴增產物混合后進行下一代高通量芯片測序;
[0130]5.測序數據分析:將每個目的基因對應連接產物的檢測數量除以參照基因片段連接產物的檢測數量獲得校正值R如圖中NT1/NK1,然后將該R值除以參照樣本的R值后獲得校正值RR,如果參照基因多于I個,則對每個參照基因片段都計算一個RR值,然后取其中位數即為該目的基因的相對拷貝數值,將該數值乘以參照樣本的拷貝數即獲得該樣本的目的基因拷貝數如圖中CNT1。
[0131]目的基因突變篩查
[0132]使用本發明的方法篩查目的基因突變(圖5),在一個具體的實施例中,步驟如下:由于連接探針對應DNA模板如果出現顯突變會嚴重降低連接效率,針對目的區域設計高密度平鋪探針,采用CNV檢測的檢測步驟與數據分析方法獲得每個探針區域的拷貝數,對于拷貝數偏離正常值的探針區域可作為存在突變位點的候選區域,該區域可用常規測序進行驗證。
[0133]多重候選基因表達水平分析
[0134]使用本發明的方法分析多重候選基因表達水平(圖6),每個反應可檢測成百上千甚至是成千上萬個目的基因的表達水平。在一個具體的實施例中,步驟如下:針對每個基因可設計多個探針,可區分不同剪切體的表達比例,以反轉錄獲得的cDNA或直接以RNA為模板進行探針連接,連接產物擴增后進行進行下一代高通量芯片測序。測序結果進行分析,每個基因目的區域的連接產物數量經多個參照基因校正后可取中位數作為該基因相對表達水平,用于不同樣本間該基因表達水平的差異分析。
[0135]高通量甲基化分析
[0136]使用本發明的方法分析甲基化平,每個反應可檢測成百上千甚至是成千上萬個CpG島的甲基化水平。在一個具體的實施例中,方法如下(圖7):
[0137]一種方法是將基因組DNA采用甲基化敏感的限制性內切酶進行處理,針對切點處設計探針檢測未被切斷的基因組DNA量;另一種方法是將基因組DNA進行亞硫酸鹽處理后,針對目的基因片段分別設計甲基化特異探針及非甲基化特異探針,通過檢測兩種探針的連接產物量估計基目的基因區段的甲基化水平。
[0138]探針連接產物進行下一代高通量芯片測序,獲取每個探針連接產物的量。采用第一種方法是,需要選取基因組中存在的全部甲基化或半甲基化區域作為參照DNA片段,同時選取未進行限制性內切酶處理的樣本作為參照樣本。采用第二種方法是,需要選取一個參照DNA樣本,該DNA樣本在所有目標基因區域的甲基化比例已知,該樣本的制備可采用全基因擴增產物與甲基化修飾后的全基因組擴增產物按一定比例混合,通常為1:1混合獲取50%甲基化比例的參照樣本。
[0139]病原微生物或轉基因動植物鑒定
[0140]使用本發明的方法鑒定病原微生物或轉基因動植物,每個反應可檢測成百上千甚至是成千上萬個物種特異基因片段。
[0141]針對每種微生物或轉入基因設計多個特異探針,同時也針對摻入參照基因片段設計探針。探針連接產物進行下一代高通量芯片測序。對于每個探針連接產物量進行摻入參照基因片段校正后確認檢測樣本所含的病原微生物種類以及轉基因作物的種類。
[0142]本發明的主要優點在于:
[0143](I) 一個反應可同時檢測成千上萬個基因片段信息,檢測通量提高;在非專有檢測平臺上應用,不需額外設備投入,同時一個檢測反應能夠完成成千上萬個基因片段的分析,因此單個基因片段的檢測成本大大降低;針對任意需要檢測的目的基因片段能夠快速建立檢測體系,應用靈活:
[0144](2)相對傳統的芯片雜交而言,本發明采用測序進行連接產物的鑒定,采用數字計數進行定量,不存在非特異雜交以及檢測背景影響,因此大大提高準確性;
[0145](3)本發明所有連接產物長度都比較一致,采用通用引物進行擴增時不同片段之間擴增效率差異比較小,相對于采用不同長度區分連接產物的毛細管電泳來說,在該技術中,擴增產物中各連接產物比例與擴增前的比例更傾向于一致;
[0146](4)采用連接產物經各種核酸外切酶處理純化后直接進行高通量芯片測序,不經過PCR擴增,減少了由于不同連接產物的PCR擴增效率差異引入的各連接產物彼此相關比例的偏差;
[0147](5)采用單分子擴增產物測序的序列鑒定以及數字計數定量方法,大大提供靈敏度。
[0148]下面結合具體實施例,進一步闡述本發明。應理解,這些實施例僅用于說明本發明而不用于限制本發明的范圍。下列實施例中未注明具體條件的實驗方法,通常按照常規條件如 Sambrook 等人,分子克隆:實驗室手冊(New York: ColdSpring Harbor LaboratoryPress, 1989)中所述的條件,或按照制造廠商所建議的條件。
[0149]實施例1
[0150]檢測48個SNP位點的分型
[0151]針對48個SNP位點設計連接探針,每個位點各設計3條探針,2個5’端等位基因特異性探針以及I個3’端共有序列,5’端探針的前半部分加接與illumina 二代測序平臺兼容的通用PCR序列,而5’端探針的后半部分加接與illumina 二代測序平臺兼容的另一通用PCR序列。探針在與模板配對良好情況下在TaqDNA Iigase作用下進行連接,連接產物利用與illumina 二代測序平臺兼容通用PCR引物擴增,不同樣本分別用帶有不同標簽序列的通用引物進行擴增,然后均勻混合純化后上Illumina GAIIx測序儀上進行1x72測序。Sequencing reads用軟件讀出后根據標簽序列區分不同樣本來源,然后確定每個Sequencing read來源與哪個連接產物,并對每個連接產物進行那個READS統計。根據兩個等位基因特異連接產物的Sequencing reads數目比例進行基因型判讀。
[0152]實驗流程:
[0153]樣本來自上海瑞金醫院常規體檢正常個體全血樣本,全血樣本呢采用酚氯仿抽提出DNA后用IXTE溶解。
[0154]取100-200ng DNA,用IxTE稀釋到10μ 1,98°C溫浴5分鐘后,立即冰置;
[0155]用IxTE配置探針混合液(ProbeMix),每個探針0.005 μ M ;
[0156]配置2xLigation Premix, 10 μ 1:2 μ I 10*Taq ligase buffer, I μ I 40U/ μ I TaqLigase, I μ I ProbeMix, 6 μ I ddH20 ;
[0157]將ΙΟμΙ 2xLigation Premix加入到變性后的10 μ I DNA樣本中,輕微振蕩混勻;
[0158]用以下程序進行連接反應:4X (95°C 30s,58°C 4h),連接反應結束后立即冰置待用或將其存放于_20°C以下備用;
[0159]配置PCR 引物混合液 Pmixl、Pmix2 及 Pmix3,分別由 NGMPCRF 和 NGMPCRR001,NGMPCRF 和 NGMPCRR002,NGMPCRF 和 NGMPCRR003 組成,各引物濃度均為 2 μ M ;
[0160]取連接產物1μ I作為模板進行PCR反應,反應體系20μ 1,包含2μ I IOxPCRbuffer, 2 μ I 2.5mM dNTP mix, 2 μ I Pmixl for SI(或Pmix2 for S2,或Pmix3 for S3),
Iμ I Ligation product,0.2 μ I 5U/μ I Taq DNA polymerase,12.8 μ I Mill1-Q water ;其 PCR 程序為:95°C 5min ;8x(94°C 20s,54。。40s, 72°C lmin);26x(94°C 20s, 68°C 1.5min);hold at 4°C ;
[0161]電泳檢測擴增效率,然后根據產物濃度將3個PCR產物均勻混合,電泳分離割膠用QIAquick Gel Extraction Kit 純化 100bp_150bp 之間的片段;
[0162]純化產物OD定量后估計分子數,然后與其它項目樣本混和后根據TruSeqSRCluster Kit v2要求進行芯片上的橋式擴增;
[0163]擴增產物用TruSeq SBS Kit v5在Illumina GAIIX進行1x72+7測序,儀器控制及數據米集米用 Genome Analyzer Data Collection Software SCS2.8,測序選擇的 recipe為 GA2-PEM_MP_72+7Cycle_v〈#> ;
[0164]根據標簽序列將測序的讀序分到不同樣本中,然后同expected Iigationproductlibraries對照連接產物庫進行比對;每個讀序作為等位基因連接產物進行鑒定,計算每個等位基因連接產物的數目;
[0165]根據每個位點兩個連接產物測序讀序數目比例以及不同樣本的比例分布來確定該位點基因型:如果連接特異性很強,某個allele連接產物是另外一個的10倍以上或1/10以下,通常可直接判定為優勢Allele的純合子,如果不是可在多個樣本中進行比較看是否存在聚類現象(如分成3類,即對應3種基因型)。
[0166]本實施例中使用的通用引物序列如下:
[0167]NGMPCRF (SEQ ID NO:1)
[0168]AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACNGMPCRR001 (SEQ ID NO:2)
[0169]CAAGCAGAAGACGGCATACGAGATAAACTTGTGACTGGAGTTCAGACGTG
[0170]NGMPCRR002 (SEQ ID NO:3)
[0171]CAAGCAGAAGACGGCAT ACGAGATTCCGGTGTGACTGGAGTTCAGACGTG
[0172]NGMPCRR003 (SEQ ID NO:4)[0173]CAAGCAGAAGACGGCATACGAGATCCAACTGTGACTGGAGTTCAGACGTG
[0174]三個樣本SNP位點和genotype calling (基因型判讀)測序深度結果見表1。
[0175]表1
【權利要求】
1.一種高通量核酸分析方法,其特征在于,包括步驟: (1)對于待分析的η種目的核酸片段,針對每個目的核酸片段,提供結合于所述目的核酸片段的不同結合區的至少2個特異探針,所述的各特異探針具有特異結合區和通用序列區,并且所述的特異結合區的序列與目的核酸片段的結合區的序列互補,而所述通用序列區的序列對應于測序引物的序列,其中η為> 40的正整數; (2)將含有待分析的目的核酸片段的核酸樣本與步驟(1)所述的探針雜交,并連接所述探針,從而獲得探針連接產物的混合物,其中各探針連接產物的3’和5’端都是序列對應于測序引物序列的通用序列區; (3)對步驟(2)的探針連接產物的混合物進行測序,和/或分析,從而獲得目的核酸的信息。
2.如權利要求1所述的方法,其特征在于,所述特異探針還具有選自下組的一個或多個特征: (1)所述特異探針的長度≤lOObp,優選地為30-70bp,更優選為40-50bp ; (2)所述特異探針的特異結合區的長度為≤50bp,優選地為15-35bp,更優選為20_25bp ; (3)特異探針的通用序列區長度為≥8bp,優選地為15-35bp,更優選為20-25bp ; (4)所述特異探針的通用序列區的序列還對應于擴增引物序列; (5)所述特異探針包括標簽序列。
3.如權利要求1所述的方法,其特征在于,每個目的核酸片段對應的2個探針為:5’端探針和3’端探針,所述的5’端探針能夠與位于待分析的目的核酸片段3’端的結合區互補,所述的3’端探針能夠與位于待分析的目的核酸片段5’端的結合區互補。
4.如權利要求3所述的方法,其特征在于,所述5’端探針或3’端探針的結構如式I所示: 5,-A—L—B-3, 式I 在式I中, A代表通用序列區; B代表特異結合區; L代表A與B的核酸連接序列; 其中,A與B位置可以互換。
5.如權利要求3或4所述的方法,其特征在于,5’端探針和3’端探針之間的連接關系選自以下其中一組或多組: (a)5’端探針和3’端探針為緊鄰探針:即所述的5’端探針和3’端探針與待分析的目的核酸片段雜交后,二者之間距離O個堿基,在連接酶的作用下進行連接,從而獲得探針連接產物; (b)5’端探針和3’端探針距離1-500個堿基:所述的5’端探針和3’端探針與待分析的目的核酸片段雜交后,在DNA聚合酶和連接酶的作用下進行間隙聚合和連接,從而獲得探針連接產物; (c)雜交體系除了5’端探針和3’端探針外,還包括探針3,探針3分別與5’端探針和3’端探針緊鄰,所述的三個探針與待分析的目的核酸片段雜交后,在連接酶的作用下連接,從而獲得探針連接產物。
6.如權利要求1所述的方法,其特征在于,步驟⑵和步驟(3)之間還包括步驟:對步驟(2)的獲得的探針連接產物進行擴增。
7.如權利要求1所述的方法,其特征在于,在步驟(3)中,用第三代測序技術或第二代測序技術對探針連接產物的混合物或其擴增產物進行測序和分析。
8.如權利要求1所述的方法,其特征在于,在步驟(3)中,所述的獲得目的核酸的信息是指任選自下組的一個或多個信息=SNP分型信息、DNA甲基化信息、突變篩查信息、CNP分型信息、CNV信息、病原微生物基因信息、轉基因動植物產品基因信息、基因表達水平。
9.一種高通量SNP分型方法,其特征在于,包括步驟:使用權利要求1所述的方法對來源于待測樣本的探針連接產物的混合物進行測序和SNP分析,獲得目的核酸的SNP分型信息。
10.一種檢測CNV的方法,其特征在于,包括步驟:使用權利要求1所述的方法對來源于待測樣本的探針連接產物的混合物進行測序和CNV分析,獲得目的核酸的CNV信息。
11.一種高通量甲基化分析方法,其特征在于,包括步驟:使用權利要求1所述的方法對來源于待測樣本的探針連接產物的混合物進行測序和甲基化分析,獲得目的核酸的甲基化信息。
【文檔編號】C12Q1/68GK103898199SQ201210581830
【公開日】2014年7月2日 申請日期:2012年12月27日 優先權日:2012年12月27日
【發明者】姜正文, 楊鋒 申請人:上海天昊生物科技有限公司, 天昊生物醫藥科技(蘇州)有限公司