用于單分子全基因組分析的方法和相關裝置制造方法
【專利摘要】本發明提供了沿著至少一個大分子例如線性生物聚合物對特征進行標記和分析的方法,包括沿著單個解折疊的核酸分子對特定序列基序的分布和頻率或這些序列基序的化學或蛋白質組修飾狀態進行作圖的方法。本發明還提供了沿著這些被標記的大分子來鑒定序列的特征模式或表觀遺傳變異以用于直接大規模并行單分子水平分析的方法。本發明還提供了適用于這樣被標記的大分子的高通量分析的系統。
【專利說明】用于單分子全基因組分析的方法和相關裝置
[0001]與相關申請的交叉參考
[0002]本申請要求2009年10月21日提交的序號61/253,639的美國申請“用于單分子全基因組分析的方法和相關裝置(Methods and Devices for Single Molecule WholeGenome Analysis)”的優先權,所述申請的全部內容在此引為參考。
【技術領域】
[0003]本發明涉及納米【技術領域】和單分子基因組分析領域。
【背景技術】
[0004]大分子例如DNA或RNA是由核苷酸組成的長聚合物鏈,其線性序列與源生物體的基因組和后基因組基因表達信息直接相關。
[0005]序列區、基序和功能單元例如開放閱讀框(0RF)、非翻譯區(UTR)、外顯子、內含子、蛋白因子結合位點、表觀基因組位點例如CpG簇、microRNA位點、轉座子、逆轉座子以及其他結構和功能單元的直接測序和作圖,在個體的基因組組成和“健康概況”的評估中是重要的。
[0006]在某些情況下,核苷酸序列的復雜重排,包括片段復制、插入、缺失、倒置和易位,在個體的生命期內引起疾病狀態,包括遺傳畸變或細胞惡變。在其他情況下,序列差異、拷貝數變異(CNV)和不同個體的遺傳構成之間的其他差異,反映出群體遺傳構成的多樣性和對環境刺激物和其他外部影響例如藥物治療的差異響應。
[0007]其他進行過程例如DNA甲基化、組蛋白修飾、染色質折疊和改變DNA-DNA、DNA-RNA或DNA-蛋白質相互作用的其他 變化,影響基因調控、表達以及最終細胞功能,引起疾病和癌癥。
[0008]基因組結構變異(SV)甚至在健康個體中也廣泛分布。理解基因組序列信息對人類健康的重要性,已變得越來越明顯。
[0009]常規細胞遺傳學方法例如核型分析、FISH (熒光原位雜交),提供了對少至單個細胞中基因組組成的全面觀察。這些方法揭示了基因組的總體變化,例如非整倍性、數千和數百萬堿基對的大片段的獲得、丟失或重排。然而,這些方法患于在檢測中到小序列基序或病變中靈敏度和分辨率相對低,以及繁瑣、速度有限和精確性不一致。
[0010]更近的用于檢測序列區、目標序列基序和SV的方法例如aCGH(陣列比較基因組雜交)、fiberFISH或大規模末端配對測序,具有提高的分辨率和通量。這些更近的方法仍然是間接、繁瑣和不一致、昂貴的,并往往具有有限的固定分辨率,依賴于回到參比基因組進行作圖以重新裝配來提供推斷的位置信息,或提供不能揭示平衡病變事件例如倒置或易位的比較性強度比率信息。
[0011]據認為,功能單元和常見結構變異涵蓋從數十堿基至數兆堿基以上的范圍。因此,沿著大的天然基因組分子,跨越從不到千堿基(即長度小于約I千堿基)至數兆堿基的分辨率尺度揭示序列信息和SV的方法,在更多個體的測序和精細尺度作圖計劃中是非常合乎需要的,以便一覽以前未表征的基因組特征。
[0012]此外,生物系統、特別是多倍體生物例如人類的表型多態性或疾病狀態,是從母系和父系遺傳的兩個單倍體基因組之間相互作用的結果。癌癥常常是二倍體染色體病變中雜合性丟失的結果。
[0013]當前的測序分析方法多半基于源自于具有有限單倍型信息的平均化多倍體基因組材料的樣品。這大多是由于目前使用的現有前端樣品制備方法從非均質細胞群體提取混合二倍體基因組材料、然后將它們破碎成隨機的較小碎片所造成的。然而,這種方法破壞了二倍體基因組的天然結構信息。
[0014]最近開發的第二代測序方法,盡管通量提高,但由于從短得多的測序讀出結果進行裝配更加困難,因此使勾勒復雜基因組信息進一步復雜化。
[0015]一般來說,短讀出結果更難在復雜基因組內進行唯一比對,需要其他序列信息來破譯短的靶區的線性次序。需要25倍量級的測序覆蓋度才能達到在常規BAC和鳥槍法Sanger測序中需要8-10倍覆蓋率所達到的近似的裝配可信度(Wendl MC, Wilson RK,醫學DNA 測序中的覆蓋度情況(Aspects of coverage in medical DNA sequencing), BMC Bioinformatics 2008 May 16;9:239)。這對測序成本降低提出了進一步挑戰,并使將測序成本顯著降低至1000美元目標標桿以下的初始主要目標受挫。
[0016]大的完整基因組分子的單分子水平分析,通過不使用克隆過程或擴增對序列基序進行原位精細作圖,提供了保留準確的天然基因組結構的可能性。基因組片段越大,基因組分析物中樣品群體的復雜性越低。在理想情形下,只需要對46個染色體片段進行單分子水平分析,就能覆蓋整個二倍體人類基因組;從這樣的方法得到的序列在其本質上具有完整的單倍型信息。
[0017]在實踐水平上,可以從細胞提取并保存兆堿基基因組片段用于直接分析。這將降低復雜算法和裝配的負擔,并且也將處于原始背景中的基因組和/或表觀基因組信息共同與個體的細胞表型更直接地相關聯`。
[0018]大分子例如基因組DNA常為半柔性蠕蟲狀聚合鏈的形式。通常假定這些大分子在自由溶液中具有隨機卷曲構型。對于生物溶液中未修飾的dsDNA來說,持續長度(定義其剛性的參數)典型約為50nm。
[0019]為了實現對沿著大的完整大分子的標記特征進行一致分離以便定量測量,一種方法是將這樣的聚合分子在平表面、化學或拓撲學預定的表面模式、優選為長的納米軌道上或受限的微米/納米通道上拉伸成一致的線性形式。
[0020]延長和拉伸長基因組分子的方法,已通過使用外力例如光學鑷子、液體-空氣邊界對流(梳理)或流體力學層流得以演示。
[0021]分子的拉伸形式將或者在保持外力維持時暫時穩定,或者通過附著到經靜電或化學處理修飾被增強的表面上而更持久地穩定。所演示的聚合大分子在微米/納米通道內的拉伸,已通過物理熵限制被證實(參見Cao等,Applied Phys.Lett.2002a ;Cao等,AppliedPhys.Lett.2002b ;美國專利申請10/484,293號;在此以其全文引為參考)。
[0022]已顯示,直徑在IOOnm左右的納米通道將長達數十萬堿基至兆數堿基的dsDNA基因組片段線性化(Tegenfeldt等,Proc.Natl.Acad.Sc1.2004)。使用納米流體學拉伸的半柔性靶分子可以懸浮在生物離子濃度和PH值范圍內的緩沖條件下,因此更適于對這樣的分子執行生物功能分析。這種拉伸形式也相對容易操作,例如在電場或壓力梯度下,以精確受控方式的從高速度到完全靜止狀態的大范圍速度移動帶電荷核酸分子。
[0023]此外,流體在納米尺度環境中流動的性質,排除了否則可能打斷長DNA分子的湍流和許多剪切力。這對于大分子線性分析、特別是在可以使用ss-DNA的測序應用中,特別有價值。最終,有效讀取長度可以只取決于能夠維持的最大完整片段。
[0024]除了基因組學之外,由于在人類疾病例如癌癥中的作用,表觀基因組學領域也已被認為是非常重要的。隨著基因組學和表觀基因組學兩者知識的積累,主要的挑戰在于理解如何將基因組和表觀基因組因素直接或間接地與多態性或人類疾病和惡性腫瘤中的病理生理狀況相關聯。
[0025]全基因組分析的概念已經從基因組測序、表觀遺傳學甲基化分析和功能基因組學領域主要分開進行研究的劃區方法,演化到更多面的整體方法。已經以更系統的方式考慮了 DNA測序、結構變異作圖、CpG島甲基化模式、組蛋白修飾、核小體重塑、microRNA功能和轉錄表達譜。然而,檢查細胞分子狀態的上述每個方面的技術通常是孤立、繁瑣和不相容的,使需要相干實驗數據結果的系統生物學分析嚴重復雜化。
[0026]大的完整天然生物樣品的單分子水平分析能夠提供以真實有意義的整體分析方式研究靶樣品的基因組和表觀基因組信息的潛力,例如將序列結構變異與異常甲基化模式、microRNA沉默位點和其他功能性分子信息相疊加。(參見例如PCT專利申請US2009/049244,在此以其全文引為參考)。它將在理解細胞的分子功能和個性化醫學中的疾病發生機理中,提供非常強有力的工具。
[0027]發明概述
[0028]一方面,本發明涉及沿著至少一個大分子例如線性生物聚合物進行標記并分析標記特征的方法。在某些實施方案中,所述方法涉及沿著單個解折疊的核酸分子,根據特定序列基序的長度和序列,對這些 序列基序的分布和頻率(即模式、主題)或這些序列基序的化學或蛋白質組修飾狀態進行作圖的方法。
[0029]還公開了適用于對標記的大分子進行分揀和線性解折疊的流體芯片和系統。這些芯片和系統能夠以并行方式操作,用于光學和非光學信號分析。
[0030]本發明的另一方面是通過沿著DNA骨架對短序列基序的分布進行作圖,以鑒定雙鏈DNA分子。這在序列基序之間提供了高空間分辨率。根據該高分辨率圖譜,在每個序列特異性基序位點處開始測序反應并循環一段時間以獲得已知空間位置處的多堿基信息,其可以被稱為STS或時空測序。本發明還涉及這樣的標記方法和特征的使用。
[0031]在一個實施方案中,雙鏈DNA上標記的特定序列基序通過在DNA單鏈上產生切口并形成間隙(這可以通過酶來實現)來產生。然后使用者可以使用聚合酶進行鏈延伸,同時產生被稱為“瓣片(flaps)”的“被剝離的”短序列片段。這些被剝離的單鏈瓣片產生了可用于與標記的探針進行序列特異性雜交的區域。在某些實施方案中,堿基(包括標記的堿基或標記的探針)與被剝離的瓣片結合。在其他實施方案中,堿基(或探針)結合以填充形成瓣片的鏈中留下的“間隙”的至少一部分。在這些實施方案中,填充間隙的堿基或探針的存在起到在間隙中進行填充的作用,使得瓣片保持“游離”并且不返回到其原始位置。標記的堿基或探針可以結合于瓣片和由瓣片的形成所留下的間隙。
[0032]適合的標記物包括熒光染料分子例如熒光素等。熒光團的非窮舉的列舉可以在WWW.abeam. com處獲得,并且適合的突光團對于本【技術領域】的專業人員也是公知的。標記物還可以包括磁性體、放射活性體、量子點等。
[0033]當標記的基因組DNA在承載表面上或納米通道陣列內線性伸展時,來自于與序列特異性瓣片雜交的裝飾探針的信號之間的空間距離可以被定量測量(以一致的方式)。然后可以將該信息用于產生反映出該區域中特定基因組序列信息的獨特的“條形碼”特征模式。靶分子上切開的間隙適合由特定酶產生,所述酶包括但不限于Nb.BbvC1、Nb.BsmI,Nb.BsrD1、Nb.Bts1、Nt.Alw1、Nt.BbvC1、Nt.BspQ1、Nt.BstNB1、Nt.CviPII 及其組合。根據該圖譜可以執行測序。
[0034]作為一個非限制性實例,可以如下形成條形碼。一種已知的疾病狀態的特征為獨特的核苷酸序列TTT- (10個堿基)-CCC- (5個堿基)-AAA。形成三種探針:AAA_紅色染料,GGG-藍色染料和TTT-綠色染料。然后將探針與帶有瓣片的dsDNA樣品在促進探針結合的條件下相接觸,其中所述瓣片是在dsDNA的已知含有上述獨特核苷酸序列的區域中形成的。然后將DNA樣品拉伸,并由使用者測定樣品中探針的存在。如果使用者檢測到三種染料存在于樣品中,并且彼此具有適合的次序并適合地隔開(即染料次序為紅-藍-綠,并且紅色與藍色染料隔開的距離對應于10個堿基,藍色與綠色染料隔開的距離對應于約5個堿基),使用者將獲得提示所研究的dsDNA樣品可能具有所述已知疾病的信息。
[0035]上面列出的探針僅僅是說明性的。探針可以具有1-10個堿基、1-100個堿基、
1-1000個堿基或甚至更大的長度。探針可以帶有單個標簽或標記物或者多個標簽或標記物。作為一個實例,探針可以被構建成帶有兩個(或以上)熒光團、或熒光團與放射活性體。探針可以包括通過柔性或剛性間隔區相連的兩個或以上結合區(例如AAA和CGG)。
[0036]本本發明也可用于檢測特定序列或基因的拷貝。在這些實施方案中,使用者可以如本文中別處所述處理DNA以形成瓣片并將探針與該DNA相接觸。然后可以利用特定DNA序列所獨有的兩個或以上“條形碼”的存在,來表明個體可能具有特定基因或特定序列的多個拷貝。這可用于診斷或預測本身以多個基因拷貝為特征的病癥、例如各種多基因病的存在。使用者也可以利用兩個或以上條形碼之間的距離(所述距離可以通過拉伸樣品來確定)來協助dsDNA樣品的表征。例如,使用者可以在已知(或懷疑)含有對特定疾病的表達關鍵的區域的dsDNA樣品上,在區域的開始和結束處利用探針產生條形碼。
[0037]如果疾病不存在,條形碼之間的距離可能是第一距離D0。另一方面,如果疾病存在,兩個條形碼之間的距離可能被發現是更長的距離D1。在這種情況下,使用者將獲得提示目標序列(例如基因)在提供dsDNA樣品的對象中存在的信息。在其他實施方案中,“正常”個體可能具有使得針對DNA特定區域的開始和結束處的條形碼之間的“正常”距離為Dl的基因。然而,如果個體缺少該基因,兩個條形碼之間的距離可能是更短的距離D0,在這種情況下,使用者將獲得提示dsDNA供體缺少目標堿基序列(或基因)的信息。
[0038]這種信息進而可以用于為對象或患者設計保護性(或治療性)方案。作為一個實例,如果使用者確定對象具有與苯丙酮酸尿癥一致的遺傳概況,使用者可以建議對象避免攝食含苯丙氨酸的物質。
[0039]本發明還用于檢測dsDNA樣品中多個不同堿基序列的存在。這可以通過使用探針以便為不同序列產生不同條形碼來實現。例如,使用者可能已知疾病I的特征為以距離Dl彼此相隔的堿基序列Sla和Sib。疾病2的特征為以距離D2彼此相隔的堿基序列S2a和S2b。然后使用者可以產生用于疾病I的條形碼(使用Sla和Slb特異性或指示性探針)和用于疾病2的條形碼(使用S2a和S2b特異性或指示性探針)。通過將適合的探針施加到經瓣片處理過的dsDNA樣品并通過檢查樣品中兩種條形碼的存在,使用者能夠確定dsDNA樣品的供體是否被定性為患有疾病1、疾病2或兩者。通過這種方式,使用者可以測定單一樣品的多種病癥。
[0040]用于特定分析的探針在標記物、結合特異性或兩方面可以彼此相同或不同。例如,使用者可以使用帶有紅色熒光染料并與序列AAA結合的探針和與GTTC序列結合并帶有綠色熒光染料的探針來執行分析。使用者可以同時使用帶有磁性或放射活性體的探針和帶有熒光團的探針。通過這種方式,使用者可以同時測定多種探針。
[0041]使用者也可以同時測定多個樣品以檢測單一病癥。例如,使用者可以通過測定來自于多個個體的多個dsDNA樣品中特定條形碼的存在(或缺少),并行地測定那些樣品以檢測特定病癥。因此使用者也可以同時測定多個dsDNA樣品以檢測多種病癥,允許對多個個體進行高通量篩查。在一個這樣的實施方案中,使用者使用納米通道組或陣列,其中每個納米通道被用于拉伸來自于不同對象的處理過的(例如帶有瓣片的)dsDNA。然后對各個樣品進行探查(例如通過施加輻射以激發樣品中可能存在的熒光探針),以檢測表明特定序列的存在或條形碼存在的各個探針的存在。
[0042]本發明也可用于產生遺傳概況。在這樣的實施方案中,使用者可以從以特定病癥(例如疾病或失調)為特征的對象獲取dsDNA樣品。然后使用者可以在dsDNA中一個或多個位置處形成瓣片,然后將標記的探針結合于樣品中生成的瓣片或間隙。然后使用者可以探查對象的dsDNA以檢測這些探針的存在和位置,這進而產生了關于對象的dsDNA內容的信息(例如具有ACACAC序列的探針與對象dsDNA的結合,表明dsDNA在該位置處具有TGTGTG序列)。
[0043]然后使用者可以構建對象DNA的圖譜,所述圖譜由關于特定序列段的信息(由與那些序列互補的探針的結合來顯示)和那些序列的位置(由那些結合的探針的位置來顯示)構成。因此,在非限制性實例中,使用者能夠確定被鑒定為患有遺傳病X的個體所擁有的dsDNA具有在該dsDNA樣品的堿基位置10,321處開始的序列SI和在該dsDNA樣品的堿基位置11,555處開始的序列S2。
[0044]通過處理該信息作為存在遺傳病X的指示,使用者然后可以將來自于另一個對象的dsDNA與來自于第一個對象的信息進行比較。如果第二個對象分別在堿基位置10,321和11,555處顯示出序列SI和S2,那么第二個對象可能也具有遺傳病X。通過這種方式,使用者能夠根據各種序列特異性探針在從被鑒定為具有各種遺傳病癥的個體獲得的dsDNA上的結合位置,產生他們自己的信息“文庫”。然后可以按照本發明對來自于新對象的dsDNA進行處理(例如形成瓣片然后與標記的探針結合),以確定新對象是否可能具有(即攜帶)已經在使用者的結合信息文庫中分類的一種或多種疾病。
[0045]在另一個實施方案中,通過制造帶切口的單鏈間隙然后在其中摻入標記的核苷酸,來產生雙鏈DNA的標記的(例如帶有共價標簽的)特異性序列基序。對這種特異性標記的序列基序沿著單個解折疊核酸分子的物理分布和頻率進行作圖。在某些實施方案中,在這以后可以進行單喊基測序以獲得關于樣品的逐喊基序列"[目息。
[0046]在另一個實施方案中,單個的標記解折疊核酸分子被線性伸展。這通過在納米尺度通道、拓撲納米尺度溝槽或表面性質限定的納米尺度軌道內對這種拉伸的單分子進行物理限制來實現。作為一個實例,美國專利申請10/484,293中的裝置和方法被認為適合于執行線性伸展。光學鑷子和剪切-應力施加方法(例如美國專利6,696,022,在此引為參考)也被認為適合于執行這種拉伸。
[0047]在另一個實施方案中,在基材上制造極小的納米流體結構例如納米通道、柱、溝等,并將其用作大規模并行陣列,用于以單分子分辨率操作和分析生物分子例如DNA和蛋白質。適合地,通道橫截面積大小與被拉伸的生物分子的橫截面積相似,即在約I至約IO6平方納米左右,以提供可以被單個分離并可以同時分析數十、數百、數千或甚至數百萬個的拉伸的(例如以至少部分線性或部分解折疊為特征的)生物分子。
[0048]理想地(但不是必需的),通道的長度長得足以容納大分子長度的相當部分或甚至相當數量的大分子,其范圍從具有光學放大倍數的典型CCDA相機的單一視野的長度(約100微米)直到長至整個染色體,其可以大致10厘米長。最適長度取決于使用者的需要。
[0049]本發明還涉及這些標記方法和特征的應用。瓣片和單鏈DNA間隙可用于許多領域中,包括但不限于基因組學、遺傳學、臨床診斷學。
[0050]在一個實施方案中,將帶標簽的探針(例如具有熒光團)雜交到沿著長的雙鏈基因組DNA分子的瓣片或單鏈DNA間隙上,然后可以將標記的DNA分子在熒光顯微鏡下成像,以觀察標記的瓣片或單鏈DNA間隙的空間條形碼(即與核苷酸間隔、測序或兩者相關的特征)。條形碼進而可用于全基因組作圖,因為可以將來自于各個條形碼的特征拼合在一起,提供關于樣品大分子特定區域的附加信息。作為一個非限制性實例,使用者可以將DNA樣品打碎成子區段,然后測定每個子區段中特定堿基序列的存在(或缺少)以及這些序列以特定次序的存在。在對子區段進行測定 后,使用者可以將從各個子區段收集的信息匯集成整個原始樣品的總體信息“圖譜”。
[0051]作為一個非限制性實例,使用者可以獲取5kb樣品并將樣品切斷成5個Ikb子區段。然后使用者可以在這些子區段的每個中形成瓣片,并測定每個子區段以檢測已知(或懷疑)以該子區段中存在的堿基序列為特征的一種或多種遺傳病癥。例如,可以測定子區段I以檢測心臟病,其中特征性序列或序列組已知出現在0-1000堿基位置處,并且可以測定子區段2以檢測糖尿病,其中特征性序列或序列組已知出現在1001-1999位置處。然后使用者可以將該信息匯集,以獲得對個體疾病狀態的綜合評估。
[0052]在另一個實施方案中,將不同基因組區域的瓣片或單鏈DNA用產不同顏色(或發出不同信號)的探針標記,以鑒定兩個區域的關系。在BCR-ABL融合的一個這樣的實例中,兩種或以上顏色存在于相同位置,表明了結構變異,例如易位。這顯示在圖5中,所述圖顯示了 BCR和ABL染色體區段的部分的易位。
[0053]在另一個實施方案中,可以將標記的瓣片或單鏈DNA間隙的一個或多個空間條形碼模式(其可以包括含有單一顏色或多種顏色的模式)用于探查多個區域,以用于多路疾病診斷。作為一個非限制性實例,使用者可以探查多個區域以檢查多個易位。
[0054]這由例如但不限于圖6來顯示。該圖描繪了多個探針與DNA樣品上多個位置的結合,能夠讓使用者測定樣品中多種疾病的存在,所述測定可以同時進行。正如在該非限制性的圖中所示,BCR-ABL區域中顯露的特定疾病(疾病1),當在該區域中形成特定瓣片然后通過適合標記物進行標記時,呈現出獨特的條形碼或特征。同樣地,疾病2當在該區域中形成特定瓣片并標記時也呈現出獨特的條形碼或特征。因此使用者能夠同時測定兩種或以上疾病,能夠在給定對象中快速檢測多種疾病或其他狀態。通過形成瓣片,使用者獲得了進入DNA樣品結構的進入點,所述進入點隨后可用于探針的序列特異性結合。
[0055]本發明還可用于執行DNA樣品的測序。在這樣的實施方案中,使用者可以在DNA中形成瓣片(提供進入DNA結構的進入點)。然后使用者可以一次一個地導入單堿基標記的探針,以探測DNA樣品的逐堿基序列。例如,使用者可以在DNA中導入切口,然后導入用于A的紅色探針。如果隨后觀察到紅色標記物,使用者將獲得A存在于切口位點處的信息。如果沒有觀察到紅色標記物,使用者可以導入特異性用于不同核苷酸的第二種標記的探針。
[0056]在另一個實施方案中,使用者也可以將DNA樣品斷裂成片段,沿著片段的長度形成切口 /瓣片,然后在片段上的切口 /瓣片處導入堿基-或序列-特異性的探針。然后可以將從每個片段收集到的獲得的信息反向匯集在一起,產生原始的全長DNA樣品的序列圖譜。切口 /瓣片可以在DNA樣品上的特定位置或隨機位置處形成。例如,使用者可以在20個堿基的片段的第I堿基位置和第11堿基位置處形成10個堿基的瓣片/間隙。然后使用者可以向片段導入各種獨一標記的和獨一特異性的探針(包括長度最多10個堿基的探針)。然后使用者可以通過確定何種探針結合于片段(基于從結合的探針檢測到的特定信號),來獲得關于片段的序列信息。
[0057]可以將探針設計成與特定染色體上的瓣片或單鏈DNA間隙結合。存在的染色體拷貝過多或過少可用于診斷非整倍性。例如,探針可以被設計成表明特定基因或甚至染色體存在的標記序列。然后對象中多個探針(或與探針的存在相關的多個條形碼)的存在,可用于顯示對象具有所研究的基因或染色體的多個拷貝。
[0058]在另一個實施方案中,本發明鑒定病原體基因組。適合在瓣片產生過程中病原體基因組斷成預測的片段,然后使用探針(例如所謂的通用探針)探查瓣片的保守序列。然后將由此獲得的條形碼模式與預測的參比圖譜進行比較,使得使用者能夠確定所分析的基因組的結構。這被稱為雙層DNA條形碼編碼,其考慮到了 DNA片段尺寸和具有不同尺寸的每種片段上的條形碼兩者。`
[0059]在另一個實施方案中,該程序被用于鑒定病原體基因組。在瓣片產生期間病原體基因組斷成預測的片段,然后使用探針來探測瓣片保守序列。
[0060]然后將獲得的條形碼與預測的參比圖譜進行比較,以產生病原體基因組的從頭作圖。這是雙層DNA條形碼編碼流程,其將DNA片段尺寸和用于不同尺寸片段的條形碼相結
八
口 o
[0061]在另一個實施方案中,該程序鑒定病原體基因組。基于已知的病原體基因組序列,使用者可以設計病原體特異性的瓣片或單鏈DNA間隙探針,其對不同病原體產生不同條形碼,使得使用者能夠構建指示各種病原體或其他目標序列的各種條形碼的“文庫”。這顯示在非限制性的圖7中,該圖演示了向源自于乳腺癌基因組的樣品施加各種序列特異性探針,以測定該基因組內各種區段的存在。
[0062]在另一個實施方案中,瓣片或單鏈DNA間隙可用于富集特定基因組區域。例如,可以執行生物素標記的探針與含有特定瓣片序列的特定區域的雜交,以便固定所分析的區域。通過與含有親和素分子的珠子或基質結合,對雜交的DNA分子進行選擇。結合的分子被保留用于進一步基因組分析,未結合的DNA分子被洗掉。通過這種方式,使用者可以將DNA固定化以便于分析和處理。瓣片可以是樣品DNA與珠子或基質之間的附著點。在其他實施方案中,結合點可以位于主dsDNA的堿基與珠子或基質之間,而不是在瓣片與珠子或基質之間。
[0063]在另一個實施方案中,獲得瓣片序列或單鏈DNA間隙序列上的單堿基突變,以用于SNP或單倍型信息收集,正如由非限制性的圖11所顯示的。在該圖中,(分別)顯示了 SNPl和2的A和G等位基因。
[0064]附圖簡述
[0065]當結合附圖閱讀時,可以進一步理解發明概述以及下面的詳細描述。出于說明本發明的目的,在圖中顯示了本發明的示例性實施方案;然而,本發明不限于所公開的具體方法、組合物和裝置。此外,圖不是必定按比例繪制的。在所述圖中:
[0066]圖1顯示了在長的基因組區域上產生特征“條形碼”模式的示意圖,所述基因組區域具有在形成切口后產生的單鏈瓣片。序列特異性的切口內切核酸酶或切口酶在雙鏈DNA上產生單鏈切割間隙,聚合酶將結合在其中并開始鏈延伸,同時產生被置換的鏈或所謂的“被剝離的瓣片”。這些被剝離的單鏈瓣片產生了可用于與標記的探針進行序列特異性雜交以產生可鑒定信號的區域。形成切口也可以通過將樣品與輻射(例如UV輻射)、自由基或其任何組合相接觸來執行。
[0067]圖1還顯示了在納米通道陣列中被線性解折疊的標記的基因組DNA,其中來自于在序列特異性瓣片上雜交的裝飾探針的信號之間的空間距離是可測量的,因此產生了獨特的“條形碼”特征模式,其反映出該區域中存在的特定基因組序列。作為實例,顯示了在入ds-DNA (總長度48.5kbp)上通過特異性酶產生的多個形成切口位點,所述酶包括但不限于 Nb.BbvC1、Nb.Bsm1、Nb.BsrD1、Nb.Bts1、Nt.Alw1、Nt.BbvC1、Nt.BspQ1、Nt.BstNB1、Nt.CviPII以及它們的任何組合。也顯示了線性化的單個入DNA的圖像,其顯示了與預期的切口酶產生的位置雜交的熒光標記的寡核苷酸探針。這種沿著長生物聚合物記錄到的實際條形碼在本文中被命名為所謂的觀 察到的條形碼;
[0068]圖2顯示了使用ADNA分子作為模型系統,在其上執行了不同的標記方案。圖2a顯示了切口標記;圖2b顯示了在兩個瓣片結構上雜交的具有特定序列的熒光探針;圖2c顯示了從標記的形成切口位點和標記的瓣片結構產生的信號;
[0069]圖3顯示了基于Nb.BbVCI,跨22號染色體的50個堿基對的瓣片序列的6堿基滑動分析。正如所示,在瓣片序列上觀察到了顯著的保守序列。該保守序列進而可用于設計一種或多種探針以靶向多個瓣片結構:
[0070]圖4顯示了示例性通用探針TGAGGCAGGAGAAT的用途,所述探針被設計成與BAC克隆3f5上的(總共52個形成切口位點中的)21個瓣片結構雜交。其中產生的條形碼編碼模式與預測模式匹配良好,證明了人們可以將這樣的通用探針用于全基因組作圖;
[0071]圖5顯示了 BCR和ABLl基因翻譯的易位的臨床診斷,所述易位形成了所謂的費城染色體,是白血病的主要病因。在該方案中,將BCR基因在多個瓣片處用綠色探針標記,將ABLl基因在多個瓣片處用紅色探針標記。如果觀察到紅色和綠色模式,則證實了兩個基因的易位。
[0072]圖6是示意圖,顯示了所公開的多路診斷方法。每種疾病或基因區域形成其自身的特征條形碼,所述條形碼可以包括兩種(或以上)顏色。將多個條形碼置于多個瓣片上,為使用者提供了基本上無限的條形碼編碼能力:
[0073]圖7描繪了結構變異的驗證,其中通過瓣片作圖證實了 BAC克隆3f5具有多個結構重排;
[0074]圖8是使用通用探針,利用雙層條形碼、即片段尺寸和瓣片條形碼編碼進行病原體鑒定的不意圖;
[0075]圖9顯示了使用病原體特異性探針進行病原體鑒定;所述探針被設計成靶向病原體基因組的特定區域,其中標記的結構形成獨特的條形碼。在這種情況下,沙門氏菌(Salmonell)的350000-400000和1090000-1130000區域被用作實例;也顯示了大腸桿菌(E coli)的區域;
[0076]圖10是樣品富集和診斷的不意圖;和
[0077]圖11顯示了基于瓣片結構的分子單倍型分析。
[0078]說明性實施方案的詳細描述
[0079]通過參考下面的詳細描述并結合形成本公開的一部分的附圖和實施例,可以更容易地理解本發明。應該理解,本發明不限于本文中描述和/或顯示的具體裝置、方法、應用、條件或參數,并且出于描述具體實施方案的目的在本文中使用的術語僅僅是示例性的,不打算對本發明構成限制。此外,當在本說明書包括隨附的權利要求書中使用時,不帶具體數量的指稱物包括其復數形式,并且對具體數值的指稱至少包括該具體值,除非上下文明確指明不是如此。當在本文中使用時,術語“多個”是指超過一個。當表述值的范圍時,另一個實施方案包括從一個具體值和/或到另一個具體值。同樣地,當通過使用先行詞“約”將值表示為近似值時,應該理解該具體值形成了另一個實施方案。所有范圍都是包含性和可組合的。
[0080]應該認識到,本發明的某些特點為了清楚起見在本文中描述在分開的實施方案的背景中,但它們也可以組合提供在單一實施方案中。相反,為了簡單起見描述在單個實施方案的背景中的本發明的各種特點,也可以單獨或以任何子組合形式提供。此外,涉及以范圍形式陳述的值,包括該范圍內的每個和所有值。
[0081]在第一個實施方案中,本發明提供了從DNA或其他核酸樣品獲得結構信息的方法。這些方法適合包括對雙鏈DNA樣品進行處理以產生從所述雙鏈DNA樣品上被置換下來的雙鏈DNA樣品第一鏈的瓣片。瓣片適合的長度在約I至約1000個堿基、或5至750個堿基、或10至200個堿基、或50至100個堿基的范圍內。瓣片的最適長度取決于使用者的需要。正如在本文別處解釋的,瓣片的形成導致在dsDNA中形成與瓣片相對的“間隙”。
[0082]瓣片的產生在dsDNA樣品中相配地產生與瓣片位置相對應的間隙,如例如圖1所示。因此,該瓣片(和間隙)可用于暴露dsDNA的單鏈部分,以備擴增、探測或進一步標記。因此,使用者可以執行DNA或其他核酸生物聚合物樣品的遺傳分析,而不必將生物聚合物斷裂成單個核酸進行分析。此外,本發明使得使用者能夠基本上不依賴生物聚合物中的核酸序列而執行核酸生物聚合物的分析。
[0083]這是因為可以僅僅從側翼帶有兩個或以上探針的DNA區域的尺寸/長度收集遺傳信息。例如,如果將探針結合于樣品使其位于目標區域側翼,并且觀察到目標區域比在對象中正常觀察到的更長(或比應該觀察到的更長),那么使用者將了解到對象可能有以目標區域加長為特征的生理狀況或疾病的傾向,例如以特定基因的拷貝數過高為特征的病癥。[0084]將一個或多個替代堿基適當地插入到雙鏈DNA的第一鏈中以消除間隙,并將由此產生的雙鏈樣品的至少一部分用一種或多種標簽適合地標記。標簽適合是熒光標記物、放射活性標記物等。標記物可以沿著大分子的長度布置(參見例如圖2)在切口或瓣片處,或這些位置的任何組合處。標記物(例如由探針所攜帶)也可以導入到dsDNA的間隙中。
[0085]在一個或多個序列特異性位置處適當實現形成切口。這可以通過例如切口酶或切口內切核酸酶、或通過任何引起單鏈斷裂的酶、通過電磁波(例如紫外線)、通過自由基等來實現。也可以在非序列特異性位置處實現形成切口。用于產生這樣的瓣片的酶是可商購的,例如從 New England Biolabs, www.neb, com。
[0086]上面提到的替代堿基的摻入,可以通過將雙鏈DNA的第一鏈與聚合酶、一種或多種核苷酸、連接酶或其任何組合相接觸來實現。在某些實施方案中,這在一種或多種替代堿基存在下執行,所述堿基可以包括可檢測的標簽或標記物。通過這種方式,使用者可以在靶中摻入標記物或標簽,這進而允許使用者獲得關于靶大分子的結構信息。
[0087]瓣片結構的產生由聚合酶延伸和一種或多種核苷酸的摻入來適當控制,正如本【技術領域】中已知的。所述聚合酶適合具有5’-3’置換活性,并且在某些實施方案中,缺少5’-3’外切核酸酶活性。適合的聚合酶包括但不限于vent外切聚合酶(New EnglandBiolabs, www.neb, com)。
[0088]可以對聚合酶和核苷酸進行選擇以控制瓣片的長度。也可以調節反應溫度和時間以便控制產生的瓣片的長度。瓣片長度也可以通過存在的不同核苷酸的相對比例、即dATP、dCTP、dTTP和dGTP的比率來控制。核苷酸與聚合物終止物的比率也能影響瓣片長度;終止物可以包括(但不限于)ddNTP和acylo-dNTP。
[0089]適合如下實現標記:通過(a)將至少一個互補探針結合于瓣片的至少一部分上,所述探針適合包含一個或多個標簽(例如熒光團),通過(b)將兩個或以上互補探針彼此相鄰地雜交,并可以將其連接在一起,或`甚至通過(c)將兩個或以上互補探針彼此相鄰地雜交,在其間具有一個或多個堿基的間隙。然后可以用標記或未標記的核苷酸填充間隙,所述核苷酸可以通過連接酶連接。標記物可以存在于瓣片上、生成的“間隙”中或多個位置中。
[0090]還提供了從DNA樣品獲得結構信息的方法。這些方法包括對雙鏈DNA樣品進行處理以在雙鏈DNA樣品的第二鏈中產生單鏈DNA間隙。這可以通過例如在dsDNA DNA樣品的形成切口位點處對第一鏈DNA進行消化來實現。間隙的長度適合在約I至約1000個堿基、或5至750個堿基、或甚至100至500個堿基的范圍內。使用者適合對單鏈DNA間隙的至少一部分進行標記。
[0091]形成切口通過如本文中別處所述的使雙鏈DNA分子的第一鏈形成切口來實現。切口內切核酸酶Nb.BbvCI被認為是適合的。其他適合的切口內切核酸酶可以從商業來源獲得,包括 New England Biolabs (www.neb.com)和 Fermentas (www.fermentas.com)。
[0092]在某些實施方案中,通過5’ 一 3’ exo+聚合酶,使用例如dUTP dA(C,G)TP對切口下游的鏈進行延伸。Vent聚合酶是適用于此的一種酶。
[0093]然后將DNA用例如尿嘧啶DNA糖基化酶進行消化。dUTP的移除產生了單鏈DNA間隙。
[0094]在某些實施方案中,瓣片可以被部分或完全移除。然后將生成的間隙用瓣片內切核酸酶填充,所述酶產生單鏈DNA間隙結構。將延伸的序列再一次用相同的切口內切核酸酶產生切口,并將所述序列通過變性移除。
[0095]實現標記適合通過(a)將至少一個互補探針結合于瓣片的至少一部分上,所述探針包含一個或多個標簽,通過(b)將兩個或以上互補探針彼此相鄰地雜交,并可以連接在一起,和/或通過(C)將兩個或以上互補探針彼此相鄰地雜交,在其間具有一個或多個堿基的間隙。然后可以用標記或未標記的核苷酸填充間隙,并用連接酶將其連接在一起。
[0096]然后可以按照本文中別處所述對標記的樣品進行拉伸。拉伸可以通過熵限制、通過施加流動或剪切力、通過光學鑷子、通過施加磁力(例如其中樣品包括磁性材料例如珠子)等來實現。
[0097]還提供了從DNA獲得結構信息的方法。這些方法包括在第一個雙鏈DNA樣品上,標記第一個樣品上的一個或多個序列特異性位置;在第二個雙鏈DNA樣品上,標記第二個雙鏈DNA樣品上相應的一個或多個序列特異性位置;拉伸第一個雙鏈DNA樣品的至少一部分;拉伸第一個雙鏈DNA樣品的至少一部分;以及將第一個拉伸的雙鏈DNA樣品的至少一種標記物的信號強度、位置或兩者,與第二個拉伸的雙鏈DNA樣品的至少一種標記物的信號強度進行比較。
[0098]在本發明的這一方面中,使用者對兩種(或以上)樣品的條形碼或探針結合譜進行比較。這使得使用者能夠在來自于已知具有(或沒有)特定病癥的個體的樣品與來自于第二個個體的樣品之間進行遺傳概況比較,使得能夠確定第二個個體的疾病狀況。例如,使用者可以將已知對可以通過基因組分析檢測的疾病(例如糖尿病)陽性的個體的探針譜圖,與尚未進行所述疾病測試的測試個體的譜圖進行比較。如果兩種譜圖一致(例如如果測試個體顯示出與陽性對照個體相同的“條形碼”),使用者將獲得提示測試個體對所述疾病“陽性”的信息。
[0099]正如在本文別處描述的,這適合通過將一種或多種探針與至少一個DNA樣品進行雜交來實現。這可以通過本文中別處描述的基于瓣片的方法來實現。
[0100]正如本文中別處描述的,實現標記是通過在雙鏈DNA樣品的第一鏈形成切口以便產生(a)與雙鏈DNA樣品分開的第一鏈瓣片和(b)在雙鏈DNA樣品的第一鏈中對應于所述瓣片的間隙,所述間隙由形成切口的位點和瓣片與雙鏈DNA樣品的第一鏈相接的位點來確定。
[0101]所述方法適合使用被設計用于全基因組作圖的探針,其探測全基因組范圍內的保守瓣片序列。通過這種方式,利用在這些瓣片中保守的序列,可以將一個或僅僅幾個探針與成千上萬的瓣片序列雜交。雜交的探針相配地形成條形碼以鑒定每個單獨的DNA片段,其中條形碼對于特定片段是獨特的。探針可以是序列特異性的。
[0102]可以使用各種用于基因組作圖的方案。在一個實施方案中,可以使用切口標記加上瓣片標記(兩種或以上顏色)。在另一個實施方案中,可以使用一種切口酶,并用具有兩種或以上不同顏色的兩種或以上探針進行瓣片標記。在另一個實施方案中,可以使用兩種不同的切口酶以及瓣片和切口標記的各種組合。
[0103]還提供了用于從DNA獲得結構信息的其他方法。這些方法包括用帶有不同顏色的探針標記瓣片的不同(例如兩個或以上)區域,以鑒定兩個區域之間的空間關系。或者,使用者可以用不同顏色的探針和不同數量的探針標記不同區域的瓣片,以鑒定兩個區域的關系。使用者還可以用不同數量的差異(或相同)著色的探針標記不同區域的瓣片,并使用生成的顏色模式來鑒定兩個或以上區域之間的關系。可以在不同區域的瓣片上使用不同探針執行標記。也可以將探針靶向到特定染色體,用于鑒定特異性染色體。
[0104]可以部署探針以篩查單一疾病或異常的存在。也可以多路方式使用探針,以同時鑒定多個區域或甚至多種疾病。在這樣的實施方案中,使用者可以
[0105]可以通過探測瓣片或ssDNA間隙來鑒定病原性基因組物質。這種鑒定適合包括使用與在多個區域之間保守的序列結合的通用探針,并且該通用探針可用于病原體從頭鑒定。在一個實施方案中,這通過在瓣片產生期間病原體基因組斷成預測的片段、并使用通用探針探查瓣片保守序列來實現。然后將獲得的條形碼與病原體基因組的預測的參比圖譜進行比較。這被稱為“雙層” DNA條形碼編碼,其將DNA片段尺寸和條形碼信息相組合。
[0106]圖8顯示了這種雙層條形碼編碼的一個實例。如該圖中所示,通用(或其他)探針在瓣片、切口或兩個位置處結合于樣品大分子。可以將大分子細分成某些尺寸的片段,并且可以使用片段的尺寸來收集關于樣品的進一步結構信息。作為一個非限制性實例,使用者在知道原始樣品上限定給定片段的終點的位置后,可以將特定片段的尺寸與該片段在原始樣品內的位置相關聯。
[0107]還提供了使用病原體特異性探針進行多路病原體鑒定。這通過使用已知病原體基因組序列來設計病原體特異性瓣片探針來實現,其中不同病原體具有不同條形碼。正如在非限制性的圖9中所示,綠色-紅色-綠色-紅色探針以該次序的出現,表明存在沙門氏菌。在相同細菌的其他區域中可以測定到相同的條形碼。本發明的這一方面使得使用者能夠使用序列特異性探針,其進而被用于產生病原體(例如細菌)特異性條形碼。
[0108]然后可以使用這樣的條形碼來測定特定樣品中病原體(或甚至病原體基因組的一部分)的存在。正如本文中所述,使用者可以根據一種或多種探針所處區域獨有的信號來確定一種或多種探針的位置;并且將結合于DNA樣品的一種或多種探針的位置、顏色或兩者,與來自于已知對應于一種或多種病原性狀態的DNA區域的相應信號進行比較。通過這種方式,使用者可以確定對象是否患 有(或傾向于患有)病原性狀態。
[0109]另一方面,本發明提供了富集某些基因組區域的方法。這些方法包括將帶有錨定物的探針與含有特定瓣片序列的一個或多個區域進行雜交。(一種適合的這樣的探針是生物素標記的探針)。雜交的DNA分子可以結合于例如帶有接頭分子例如親和素的珠子或玻璃表面。將未結合的DNA分子洗掉,結合的分子隨后可用于進一步分析、成像等。在另一個實施方案中,磁性珠子可以結合或附著于DNA樣品,然后將樣品磁性吸引到基質,以固定化樣品。
[0110]圖10是本發明技術的示例性、非限制性實施方案。正如該圖中所示,探針可以結合于DNA樣品上形成的瓣片,以及插入到由于形成瓣片而留下的間隙中。生物素標記的探針將瓣片固定于基質。在該圖中所顯示的實例中,紅色和綠色兩種探針的出現表明BCR-ABL融合體的存在。如果只顯示綠色探針,那么只有ABL可見。如果只顯示紅色探針,那么只存在BCR。通過探查瓣片序列和單鏈DNA間隙序列上的單堿基突變,也可以實現分子單倍型分型。
[0111]還提供了適用于以大規模并行方式對如此標記的大分子進行分揀和線性解折疊以用于光學和非光學信號分析的系統。在示例性實施方案中,這些系統包括一個或多個反應區,DNA、RNA或其他樣品材料在其中經歷形成切口、瓣片形成、標記和本文中描述的其他步驟。這樣的位點可以是反應容器,例如試管、搖瓶或其他通常可獲得的實驗室物品。或者,這些步驟中的一個或多個可以在與納米通道或納米通道陣列流體連通的反應區中執行,正如本文中別處所述,所述納米通道或納米通道陣列隨后被用于拉伸大分子,以允許使用者收集與大分子相關的結構信息。拉伸可以通過物理/熵限制、通過剪切流體流、通過物理力(光學鑷子)等來實現。適合的納米通道芯片和陣列描述在美國專利申請10/484,293中,其全部內容在此引為參考。
[0112]所述系統還可以包括裝置例如成像儀,以收集關于標記樣品的可視信息。在一個實施方案中,成像儀包含一個或多個輻射(例如光、激光等)源,用于激發可能存在于按照本發明處理過的大分子上的標記物。成像儀相配地包括CXD裝置或其他圖像收集硬件。圖像可以由使用者檢查或由系統處理和進一步分析。這樣的進一步處理可以包括對從標記的大分子獲得的原始圖像進行精修,以及將從標記的大分子獲得的圖像與通過分析其他樣品材料或與所分析的樣品可比的材料而產生的模型或預測圖像進行比較。可以在從所分析的核酸生物聚合物獲取的圖像與代表疾病狀態、健康狀態或其他遺傳變異的對照圖像之間執行比較。比較可以通過計算機來實現(或協助)。
[0113]其他公開內容
[0114]本申請基于納米通道(在適合的實施方案中直徑<500nm)內單個DNA分子的直接成像和多個序列基序或多態性位點在單一 DNA分子上的定位,提出了與DNA作圖和測序相關的方法,包括用于制造長基因組DNA的方法、序列特異性標簽的方法和DNA條形碼編碼策略。這些方法在DNA圖譜的背景中獲得了連續的逐堿基測序信息。
[0115]與現有方法相比,所公開的DNA作圖方法提供了更高的標記效率、更穩定的標記、高靈敏度和更好的分辨率;所公開的DNA測序方法提供了長模板背景中的堿基讀出,易于裝配,并提供了不能從其他測序技術獲得的信息,例如單倍型和結構變異。
[0116]在DNA作圖應用中,將單個基因組DNA分子或長片段PCR的片段用熒光染料在特定序列基序處標記。然后將標記的`DNA分子在納米通道內拉伸成線性形式,并使用熒光顯微術成像。通過確定熒光標記物相對于DNA骨架的位置和顏色,可以采用與讀取條形碼類似的方式精確地建立序列基序的分布。該DNA條形碼編碼方法被應用于例如\噬菌體DNA分子和人類bac克隆的鑒定中。
[0117]在序列特異性形成切口位點處帶有瓣片序列的一個示例性實施方案包含下列步驟:
[0118]a)使用切口內切核酸酶使長的(例如>2Kb)雙鏈基因組DNA分子的一條鏈產生切口,在特定序列基序處引入切口 ;
[0119]b)使用DNA聚合酶在切口處摻入熒光染料標記的核苷酸或非熒光染料標記的核苷酸,置換下游鏈以產生瓣片序列;
[0120]c)通過標記核苷酸的聚合酶摻入、或通過熒光探針的直接雜交或通過用連接酶連接熒光探針,對瓣片序列進行標記;
[0121]d)在納米通道內,通過將樣品流過所述通道或通過將DNA的一端固定在通道內,將標記的DNA分子拉伸成線性形式;以及
[0122]e)使用熒光顯微術確定熒光標記物相對于DNA骨架的位置,以獲得DNA的圖譜或特征條形碼。[0123]在序列特異性形成切口位點處具有ssDNA間隙的另一個實施方案包括下列步驟:
[0124]a)使用切口內切核酸酶使長的(例如>2Kb)雙鏈基因組DNA分子的一條鏈產生切口,以在特定序列基序處引入切口 ;
[0125]b)通過DNA聚合酶在切口處摻入熒光染料標記的核苷酸或非熒光染料標記的核苷酸,置換下游鏈以產生瓣片序列;
[0126]c)使用相同的切口內切核酸酶在新延伸的鏈上形成切口,并用瓣片內切核酸酶切開新形成的瓣片序列(可以通過提高溫度移除脫離的ssDNA);
[0127]d)通過標記核苷酸的聚合酶摻入、或熒光探針的直接雜交或用連接酶連接熒光探針,對ssDNA間隙進行標記;
[0128]e)在納米通道內,將標記的DNA分子通過流過通道或將所述DNA的一端固定在通道內而拉伸成線性形式;以及
[0129]f )使用熒光顯微術確定熒光標記物相對于DNA骨架的位置,以獲得DNA的圖譜或條形碼。
[0130]瓣片和單鏈DNA間隙的另一種應用是全基因組作圖。對通過切口內切核酸酶(包括但不限于Nb.BbVCI)制造的全基因組DNA的瓣片和/或ssDNA間隙序列進行分析,并根據跨樣品的多個區域或跨多個樣品保守(即出現)的序列來設計雜交探針。可以使用單個或幾個(少于4個)探針,例如cy3-TGAGGCAGGAGAAT-cy3。將標記的DNA分子在納米通道內線性化(如本文別處所述),并產生DNA條形碼。
[0131]圖3是示例性實施方案,顯示了使用所謂的通用探針來結合并定位保守區。如該圖中所示,可以使用探針(在這種情況下是碰巧具有比較高GC含量的探針)沿著給定樣品大分子的長度來靶向并定位保守 序列。通用探針的使用進一步顯示在圖4中,該圖顯示了與沿著樣品大分子長度的多個位點結合的單一通用探針的使用。
[0132]使用瓣片和/或ssDNA間隙的另一個實施方案是檢測由結構變異引起的疾病。這樣的疾病的一個實例是BCR-ABL基因融合,該情況是白血病的主要病因。在這種情況下(如圖5和6所示),帶有綠色熒光團標簽的探針雜交在BCR基因的瓣片上或單鏈DNA間隙中,而帶有紅色熒光團標簽的探針將雜交在ABL基因的瓣片上或單鏈DNA間隙中。如果在相同DNA分子上觀察到綠色-紅色兩種顏色,則證實了存在BCR-ABL融合基因。
[0133]上述疾病診斷的另一個實施方案包括兩個以上區域的重排,例如鋅指乳腺癌診斷標志物,其包含來自于基因組4個不同區域的4區段重排。
[0134]在另一個實施方案中,可以使用更多顏色的組合、或使用更復雜的瓣片或ssDNA間隙空間條形碼、或顏色與著色瓣片和ssDNA間隙的空間分布兩者的多重檢測格式,來測試兩種或以上疾病。
[0135]在另一個實施方案中,所述程序被用于鑒定病原體基因組。基因組適當地用切口內切核酸酶(包括但不限于Nb.BbVC1、Nb.BsmI等)在雙鏈DNA分子的第一鏈上形成切口。兩個形成切口位點適合位于相反鏈上IOObp之內,所述鏈由于產生瓣片而相應斷裂。斷裂模式對于特定病原體基因組來說是特異性的,所述模式可用作第一層條形碼信息。
[0136]然后可以使用通用探針,將瓣片或ssDNA間隙上的每個片段亞組用熒光探針進行標記。然后用片段尺寸和內部顏色條形碼的組合鑒定病原體基因組。例如,以這種方式可以鑒定耶爾森氏菌屬(Yersinia)細菌。[0137]在另一個實施方案中,基于已知的病原體基因組序列,人們可以選擇病原體基因組的特定區域以證實病原體的存在。在這種情況下,可以設計病原體特異性的瓣片或單鏈DNA間隙探針,其對不同病原體產生特定模式。例如,沙門氏菌屬(Salmonella)細菌基因組在350000-400000bp位置處(50kb的區域)可以用Nb.BbVCI和相關探針進行切口-瓣片標記,以對基因組產生條形碼。為了增加特異性,可以使用其他這樣的區域,例如從I, 000, 000-1, 500, OOObp的50kb區域。以類似方式可以鑒定病原體基因組的混合物。
[0138]在另一個實施方案中,瓣片或單鏈DNA間隙可用于富集特定基因組區域。在這些實施方案中,使用者執行生物素標記探針與含有特定瓣片序列的特定區域的雜交。然后通過將雜交的DNA分子結合于含有親和素分子的珠子或玻璃表面,來篩選它們。結合的分子被留存用于進一步基因組分析。將未結合的DNA分子洗掉,并對固定化樣品進行進一步分析。
實施例
[0139]下面的實施例僅僅是說明性的,而不一定限制本發明的范圍。
[0140]實施例:在雙鏈DNA分子上產生單鏈DNA瓣片
[0141]將基因組DNA樣品稀釋至50ng,供用于形成切口反應。向0.2mL PCR離心管加入IOuL入0嫩(50叩/^),然后加入2^ IOX NE緩沖液#2和3 ii L切口內切核酸酶,包括但不限于 Nb.BbvC1、Nb.Bsm1、Nb.BsrD1、Nb.Bts1、Nt.Alw1、Nt.BbvC1、Nt.BspQ1、Nt.BstNB1、Nt.CviPII。將混合物在37°C溫育I小時。
[0142]在形成切口反應完成后,實驗前進到在形成切口位點處進行有限聚合酶延伸,以置換3’下游鏈并形成單鏈瓣片。瓣片生成反應混合物由15 u I形成切口產物和5 摻入混合物構成,所述摻入混合物含有2 ill IOX緩沖液、0.5 u I聚合酶和I ill從I ii M至ImM各種不同濃度的核苷酸,所述聚 合酶包括(但不限于)vent (exon-)、Bst和Phi29聚合酶。將瓣片生成反應混合物在55°C下溫育。瓣片的長度由溫育時間、所使用的聚合酶以及所使用的核苷酸的量來控制。
[0143]實施例:雙鏈DNA分子上的序列特異性切口的熒光標記
[0144]將基因組DNA樣品稀釋至50ng,供用于形成切口反應。向0.2mL PCR離心管加入IOuL入0嫩(50叩/^),然后加入2^ IOX NE緩沖液#2和3 ii L切口內切核酸酶,包括但不限于 Nb.BbvC1、Nb.Bsm1、Nb.BsrD1、Nb.Bts1、Nt.Alw1、Nt.BbvC1、Nt.BspQ1、Nt.BstNB1、Nt.CviPII。將混合物在37°C溫育I小時。
[0145]在形成切口反應完成后,實驗前進到在形成切口位點處進行聚合酶延伸,以摻入染料核苷酸。在一個實施方案中,摻入單一熒光核苷酸終止物。在另一個實施方案中,摻入多種熒光核苷酸。摻入混合物由15 Ul形成切口產物和5iU摻入混合物構成,所述摻入混合物含有2 u IlOX緩沖液、0.5 u I聚合酶包括(但不限于)vent (exon-)、以及I yl熒光染料核苷酸或核苷酸終止物,包括(但不限于)cy3、alexa標記的核苷酸。將摻入混合物在55°C下溫育30分鐘。
[0146]實施例:雙鏈DNA分子上形成切口位點和單鏈DNA瓣片的雙色標記
[0147]將形成切口位點用一種顏色的突光團標記。反應用250nM未標記的核苷酸dNTP進行,以產生瓣片。在瓣片序列產生后,將瓣片用不同顏色的熒光染料分子標記。這通過例如探針雜交、用聚合酶摻入熒光核苷酸和連接熒光探針來實現。
[0148]實施例:使用單一探針TGAGGCAGGAGAAT進行全基因組作圖
[0149]將基因組DNA樣品稀釋至50ng,供用于形成切口反應。向0.2mL PCR離心管加入IOuL入0嫩(50叩/^),然后加入2^ IOX NE緩沖液#2和3 ii L切口內切核酸酶,包括但不限于 Nb.BbvC1、Nb.Bsm1、Nb.BsrD1、Nb.Bts1、Nt.Alw1、Nt.BbvC1、Nt.BspQ1、Nt.BstNB1、Nt.CviPII。將混合物在37°C溫育I小時。
[0150]在形成切口反應完成后,實驗前進到在形成切口位點處進行有限聚合酶延伸,以置換3’下游鏈并形成單鏈瓣片。瓣片生成反應混合物由15iU形成切口產物和5iU摻入混合物構成,所述摻入混合物含有2 IOX緩沖液、0.5 u I聚合酶包括(但不限于)vent(exon-)和I ill從I ii M至ImM各種不同濃度的核苷酸。將瓣片生成反應混合物在55°C下溫育。瓣片的長度由溫育時間、所使用的聚合酶以及所使用的核苷酸的量來控制。然后將產生的瓣片用通用探針例如用于Nb.BbVCI的TGAGGCAGGAGAAT進行雜交和標記。
[0151]實施例:來自乳腺癌基因組的MCF-7 3F5 BAC克隆的重排結構的結構變異驗證
[0152]該區域由4個區段構成:3pl4.1,反向的14.1Kb區塊;20ql2,反向的22.3Kb區塊,其含有PTPRT基因的外顯子6 ;20pl3.31,45.5Kb的區塊,其含有截短的BMP7基因的外顯子I及其完整啟動子;20pl3.2,23.4Kb的區塊,其含有完整的ZNF217基因。使用與瓣片雜交的區域特異性探針來證實4個區域的存在:用于20ql2的TGCCACCTACCCCT ;用于20pl3.31的 AGAAGCCTGTCAGATGCAT ;用于 20pl3.2 的 ACTGTAGTCTTGAATTCCTGA,以及用于 3pl4.1 的TCCTTGGTTGACCTAACAACACA。
[0153]實施例:檢測方案
[0154]在檢測方案的一個實例中,通過時間延遲積分(TDI)相機捕獲以流動方式移動的DNA的視頻圖像。在這樣的實施方`案中,將DNA的移動與TDI同步。
[0155]在檢測方案的另一個實例中,通過CXD或CMOS相機捕獲以流動方式移動的DNA的視頻圖像,并通過軟件或硬件將幀集成,以鑒定和重構DNA圖像。
[0156]在檢測方案的另一個實施例中,通過在分開的一組傳感器上同時捕獲不同波長來收集DNA的視頻圖像。這可以使用一個相機或雙或多視圖分割器,或使用濾光片和多個相機來進行。相機可以是TD1、C⑶或CMOS檢測系統。
[0157]在另一個實例中,使用同時多波長視頻檢測,將骨架染料用于鑒定獨特DNA片段,并將標記物用作標志物以追蹤DNA移動。這可用于DNA長度大于相機視野的情況,并且標志物可用于協助作圖DNA的重構圖像。
【權利要求】
1.一種對雙鏈DNA樣品進行分析的方法,所述方法包含: 對雙鏈DNA樣品進行處理以產生從雙鏈DNA樣品置換下來的雙鏈DNA樣品的第一鏈的瓣片, 所述瓣片的長度在約I至約1000個堿基的范圍內,并且 所述瓣片在雙鏈DNA樣品的第一鏈中產生對應于所述瓣片的間隙; 將一個或多個堿基摻入到雙鏈DNA中,以消除間隙的至少一部分; 用一個或多個標簽標記處理過的雙鏈DNA的至少一部分;以及 將一個或多個標記物的位置與所述DNA樣品的結構特征相關聯。
2.權利要求1的方法,其中處理包含使雙鏈DNA的第一鏈形成切口。
3.權利要求2的方法,其中形成切口在雙鏈DNA上的一個或多個序列特異性位置處實現。
4.權利要求2的方法,其中形成切口在雙鏈DNA上的一個或多個非特異性位置處實現。
5.權利要求2的方法,其中形成切口通過將雙鏈DNA樣品暴露于形成切口的內切核酸酶、引起單鏈斷裂的酶、電磁輻射、自由基或其任意組合來實現。
6.權利要求1的方法,其中將一個或多個替代堿基摻入雙鏈DNA的第一鏈包含將雙鏈DNA的第一鏈與聚合酶、一種或多種核苷酸、連接酶或其任意組合相接觸。
7.權利要求1的方法,其中瓣片的產生通過聚合酶延伸、一種或多種核苷酸的摻入、反應時間、反應終止物的存在或其任意組合來調節。
8.權利要求6的方法,其中聚合酶具有5’至3’置換活性。
9.權利要求8的方法,其中聚合酶包含vent外切聚合酶。
10.權利要求7的方法,其中一種或多種核苷酸包含dATP、dCTP、dTTP、dGTP或其任意組合。
11.權利要求7的方法,其中反應終止物包含ddNTP、acylo-dNTP或其任意組合。
12.權利要求1的方法,其中標記通過將至少一種互補的標記探針與瓣片的一部分、DNA第一鏈的一部分、DNA第二鏈的一部分或其任意組合相結合來實現。
13.權利要求1的方法,其還包含將兩種以上互補探針與DNA樣品雜交并將所述探針連接在一起。
14.權利要求1的方法,其還包含將兩種以上互補探針與DNA樣品雜交,在所述探針之間有一個或多個堿基的間隙。
15.權利要求14的方法,其還包含用一個或多個核苷酸填充間隙的至少一部分。
16.權利要求14的方法,其還包含用一個或多個標記的核苷酸填充間隙的至少一部分。
17.權利要求15的方法,其中一個或多個核苷酸連接在一起。
18.權利要求16的方法,其中一個或多個標記的核苷酸連接在一起。
19.權利要求1的方法,其還包含用切口內切核酸酶移除瓣片。
20.權利要求1的方法,其還包含拉伸雙鏈DNA樣品的至少一部分。
21.權利要求1的方法,其還包含將一個或多個瓣片附著到基質上。
22.—種從DNA獲得結構信息的方法,所述方法包含: 在第一個雙鏈DNA樣品上,標記所述第一個樣品上的一個或多個序列特異性位置;在第二個雙鏈DNA樣品上,標記所述第二個雙鏈DNA樣品上相應的一個或多個序列特異性位置; 拉伸第一個雙鏈DNA樣品的至少一部分; 拉伸第二個雙鏈DNA樣品的至少一部分;以及 將第一個拉伸的雙鏈DNA樣品的所述至少一種標記物的信號的強度、位置或兩者,與第二個拉伸的雙鏈DNA樣品的所述至少一種標記物的信號的強度、位置或兩者進行比較。
23.權利要求22的方法,其中經如下實現標記:使雙鏈DNA樣品的第一鏈形成切口,以便產生(a)與雙鏈DNA樣品分離開的第一鏈的瓣片、和(b)在雙鏈DNA樣品的第一鏈中與瓣片對應的間隙,所述間隙由形成切口的位點和瓣片與雙鏈DNA樣品的第一鏈相接的位點來確定。
24.權利要求22的方法,其還包含將一種或多種探針與雙鏈DNA樣品的至少一種雜交。
25.權利要求22的方法,其中一種或多種探針與一個或多個保守的瓣片序列結合,使得所述一種或多種探針能夠與樣品的至少兩個區域雜交。
26.—種從DNA獲得結構信息的方法,所述方法包含: 用兩種以上探針標記雙鏈DNA樣品的單鏈DNA成員的瓣片上的兩個以上區域,并將探針的位置與所述兩個以上區域之間的空間關系、與一個或多個所述區域的結構、序列或兩者相關聯。
27.權利要求26的方法,其中兩種以上探針彼此不同。
28.權利要求26的方法,其中一種或多種探針是序列特異性的。
29.一種鑒定病原性遺傳物質的方法,所述方法包含: 將一種或多種標記的探針與DNA樣品的一個或多個區域相結合; 根據一種或多種探針所處區域獨有的信號確定一種或多種探針的位置;以及 將結合于DNA樣品的一種或多種探針的位置、顏色或兩者,與來自于已知對應于一種或多種病原性狀態的DNA區域的相應信號進行比較。
30.權利要求29的方法,其還包含在DNA上產生一個或多個瓣片。
31.權利要求30的方法,其還包含將DNA樣品分離成兩種以上的片段。
32.權利要求29的方法,其中一種或多種探針與DNA樣品的兩個以上區域互補。
33.權利要求29的方法,其還包含將一個或多個瓣片與基質結合。
34.權利要求33的方法,其中結合通過生物素-親和素偶聯來實現。
35.一種分析系統,其包含: 使單鏈或雙鏈核酸生物聚合物形成切口和進行標記的一個或多個區域; 適用于拉伸核酸生物聚合物的一個或多個區域;以及 適用于從標記的核酸生物聚合物收集可視信息的成像裝置。
36.權利要求35的分析系統,其還包含適用于激發布置在核酸生物聚合物上的熒光標記物的一個或多個輻射源。
37.權利要求35的分析系統,其中成像裝置包含CXD裝置。
38.權利要求37的分析系統,其還包含適用于將從標記的核酸生物聚合物獲得的圖像與對照圖像進行比較的計算機。
39.權利要求35的分析系統,其中適用于拉伸核酸生物聚合物的區域包含納米通道、光學鑷子、流動通道或其任意組`合。
【文檔編號】C12Q1/68GK103502468SQ201080056871
【公開日】2014年1月8日 申請日期:2010年10月21日 優先權日:2009年10月21日
【發明者】肖明, 索梅斯庫瑪·達斯 申請人:生物納米基因公司