專利名稱::用于多態性的高通量鑒定和檢測的策略的制作方法
技術領域:
:本發明涉及分子生物學和遺傳學領域。本發明涉及快速鑒定核酸樣品中的多個多態性。經鑒定的多態性可以用于針對測試樣品中的多態性的高通量篩選系統的開發。
背景技術:
:長期以來,基因組DNA探查被科學團體特別是醫學團體所期望。基因組DNA是鑒定、診斷和治療疾病,例如癌癥和阿爾茲氏疾病的關鍵。除疾病鑒定和治療以外,基因組DNA的探查可以在植物和動物育種研究中帶來顯著的優勢,其可以對全世界的食品及營養問題提供答案。已知許多疾病與特定的基因元件有關,特別地,與特定基因中的多態性有關。大量樣品例如基因組的多態性的鑒定,在目前是一項艱苦而耗時的工作。然而,該鑒定對于下述領域例如生物醫學的研究,開發藥學產品、組織分型、基因分型和群體研究具有重大價值。發明概述本發明提供了使用高通量方法的組合以快速而經濟的方式在復雜的例如非常大量的核酸樣品(例如DNA或RNA)中,有效地鑒定并且可靠地檢測多態性的方法。這種高通量方法的整合提供了一種平臺,其特別適用于高度復雜的核酸樣品中的多態性的快速且可靠的鑒定和檢測,其中傳統的多態性的鑒定和繪圖是艱苦且耗時的。本發明人的發現之一是用于多態性,優選單核苷酸多態性的鑒定的解決方案,而且同樣可用于(微)衛星和/或插入/缺失特別是在大基因組中(微)衛星和/或插入/缺失的鑒定的解決方案。該方法的獨特之處在于它對大的或小的基因組的適用性相同,并且對大基因組特別是多倍體物種尤其具有優勢。為了鑒定SNP(和隨后檢測經鑒定的SNP),本領域有幾種可以采用的可能方法。首選方案中,對完整基因組進行測序,并且這可以對幾個個體進行。這主要是理論上的實驗,因為這是麻煩而且昂貴的,并且,盡管技術快速發展,這雖然簡單但對用于每一個生物體是不可行的,尤其是對具有大基因組的生物體是不可行的。次選方案是利用可獲得的(片段化的)序列信息,例如EST文庫。其允許生成使PCR引物,重新測序和個體間的比較。此外,其要求初始的序列信息不可得或僅僅是有限量的。進一步必須開發分別針對各個區域的PCR-分析,其增加了巨大的成本和開發時間。第三個選擇是限定自身到各個個體的基因組的部分。困難在于,為了提供用于成功的SNP鑒定的可比較的結果,所提供的基因組的部分必須對不同個體是相同的。本發明人現在已經解決了這一難題,通過整合用于篩選部分的基因組的高度重現性方法集合和用于多態性鑒定的高通量測序,其整合于樣品制備和高通量鑒定平臺。本發明加速了多態性發現的進程并且在后續的用于所發現的多態性開發的過程中,使用相同的要件(element)可以有效且可靠地進行高通量的基因分型。進一步設想的本發明的方法的應用,包括篩選富集的微衛星文庫,進行轉錄作"i脊cDNA-AFLP(數字化Northern)、復雜基因組的測序,EST文庫測序(對完整cDNA或cDNA-AFLP)、微小RM發現(小的插入文庫的測序)、細菌人造染色體(BAC)(重疊群)的測序、批量分離分析法AFLP/cDM-AFLP、AFLP片段的常規檢測,例如,標記輔助的回交(MABC)等等。定義在下面的描述和實施例中使用了大量術語。為了提供對說明書和權利要求包括這些術語給定的范圍的清楚而一致的理解,給出下面的定義。除非在此另有定義,此處所有使用的技術和科學術語具有與本發明所屬領域的普通技術人員通常所理解的相同的意義。所有出版物、專利應用、專利和其他參考文獻的公開內容以其整體作為參與引入此處。多態性多態性指群體中核苷酸序列存在的兩個或多個變體。多態性可以包含一個或多個堿基置換、插入、重復或缺失。多態性包括,例如,簡單的序列重復(SSR)和單核苷酸多態性(SNP),其是一變異,發生于當單核苷腺噤呤(A),胸腺嗜啶(T),胞嘧啶(C)或鳥噤呤(G)-改變時。變異必需在群體中通常出現至少1°/。才被認為是SNP。SNP構成例如所有人類遺傳變異的90%,并且在人類基因組中每100至300個堿基就有發生。每三個SNP中的兩個是胸腺嘧啶(T)取代胞嘧啶(C)。例如人或植物的DNA序列中的變異可以影響它們如何應對疾病、細菌、病毒、化學制品、藥物等。核酸本發明的核酸可以包括任何嘧啶和噪呤堿基,優選分別為胞嘧啶、胸腺嘧啶、和尿嘧啶,及腺噤呤和鳥嘌呤的多聚物或低聚體,(參見AlbertL.Lehninger,PrinciplesofBiochemistry,at793-800(WorthPub.1982)其引入此處作為參考。本發明設想任何脫氧核糖核苷酸、核糖核苷酸或肽核酸組成,及其任何化學變體,例如這些堿基的甲基化、羥甲基化或糖基化形式等等。多聚物或低聚體在組合物中可以是異源的或同源的,也可以分離自天然存在的來源或可以是人工或合成生產的。另外,核酸可以是DNA或RNA或其混合物,并且可以在單鏈或雙鏈形式包括同源雙鏈、異源雙鏈和雜交形式中永久地或瞬時性地存在。復雜度降低(complexityreduction):術語復雜度降低用于表示一種方法,其中核酸樣品例如基因組DNA的復雜度通過樣品的子集的產生而降低。子集可以是對完整(即復雜的)樣品有代表性的,并且優選是可重現的子集。可重現的在上下文中的含義為,當相同樣品用相同方法在復雜度上降低時,即獲得相同的或至少可比的子集。用于復雜度降低的方法可以是本領域已知的任何用于復雜度降低的方法。復雜度降低的方法的例子包括例如AFLP(KeygeneN.V.,theNetherlands;參見例如EP0534858),Dong所描述的方法(見于例如WO03/012118,WO00/24939),索引連接(Unrauetal.,videinfra)等。本發明中所用的復雜度降低的方法的相同之處在它們是可重現的。可重現的意味著當相同樣品以相同方式在復雜度上降低時,就獲得了樣品的相同的子集,以避免更多的隨機的復雜度降低,例如顯微解剖或使用代表選擇的組織中轉錄的基因組部分的mRNA(cDNA)的使用,因為其可重現性依賴于組織、分離時間等的選擇。加標簽術語加標簽指將標簽添加到核酸樣品,以便能夠區別它與第二或更多的核酸樣品。標記能夠例如通過在復雜度降低過程中序列標識子的添加或通過任何本領域已知的方法進4亍。這樣的序列標識子可以是例如具有變化組限定了長度的唯一性地用于標識特定核酸樣品的獨特的堿基序列。其典型的例子為例如ZIP序列。用這樣的標簽,樣品的來源可以在進一步的加工中被檢測。要是組合來源于不同核酸樣品的加工的產品,不同的核酸樣品應該用不同的標簽鑒定。經標簽的文庫術語經標簽的文庫指加標簽的核酸的文庫。測序術語測序指核酸樣品,例如DNA或RNA中核苷酸的列(堿基序列)的檢測。比對和對比術語"比對"和"對比"含義為基于相同或相似的于核苷酸序列的對比的幾種方法是本
技術領域:
已知的,如將在下面進一步說明的一樣。檢測探針術語"檢測探針"用于表示為檢測特定的核酸序列而設計的探針,特別地,序列包含一個或多個多態性。高通量篩選高通量篩選,通常簡稱為HTS,是用于科學實驗的方法,尤其是與生物和化學領域相關。通過現代機器人技術和其他專業的實驗室硬件的組合,它允許研究人員可以有效地同時篩選大量樣口卩,測試樣品核酸術語"測試樣品核酸"用來指示用本發明的方法進行多態性研究的核酸樣品。限制性核酸內切酶限制性核酸內切酶或限制性酶是在雙鏈DM分子中識別特定核酸序列(目標位點)的酶,并且可以在DM分子的兩條鏈的每個目標位點處修整。限制性片段用限制性核酸內切酶消化產生的DNA分子被稱為限制性片段。任何給定的基因組(或核酸,無論其來源)將通過特定的限制性核酸內切酶消化為限制性片段的離散集(discreteset)。由限制性核酸內切酶消化產生的DM片段可以進一步用于多種技術并且例如能夠通過凝膠電泳被檢測。凝膠電泳為了檢測限制性片段,用于在尺寸基質上分級雙鏈DNA分子的方法是必須的。最常用的用于實現所述分級的方法是(毛細管)凝膠電泳。DM片段在這種凝膠中移動的速率取決于它們的分子量;因此,移動的距離隨片段長度增加而減少。通過凝膠電泳分級的DNA片段可以通過染色過程,例如銀染色或溴化乙啶染色直接可視,如果包括在圖語中的片段的數量足夠小。備選地,進一步的DNA片段的處理可以在片段中的摻入可檢測的標記,例如熒光或》文射性標記。連接通過連接酶催化的酶反應中,兩個雙鏈的DNA分子被共價連接在一起被稱為連接。一般地,兩個DNA鏈被共價連接在一起,但是通過鏈的末端之一的化學或酶修飾,兩個鏈之一的連接也可以被阻止。如果那樣的話,共價連接將只在兩個DNA鏈的一個中發生。合成的寡核苷酸具有優選大約10-大約50個堿基的單鏈DNA分子,其可以用化學方法合成而被稱為合成的寡核苷酸。一般地,這些合成DNA分子被設計為具有獨特的或期望的核苷酸序列,盡管合成具有有關的序列和其在核苷酸序列中的特定位點具有不同核苷酸組成的分子家族是可能的。術語合成的寡核苷酸可以用于指具有設計的或期望的核苷酸序列的DNA分子。接頭具有有限量的堿基對的短的雙鏈DM分子,例如,長度大約IO到大約30個堿基對,其被設計為它們可以連接到限制性片段的末端。接頭一般由兩個合成的寡核苷酸組成,其具有部分地相互互補的核苷酸序列。當在溶液中在適當條件下混合兩種合成的寡核苷酸時,它們可以相互退火形成雙鏈結構。退火后,接頭分子的一端設計為與限制性片段末端相兼容并且能夠被連接其上;接頭的另一端可以被設計為其不能被連接,但是這不是必須的(雙連接的接頭)。接頭-連接的限制性片段已經被接頭加帽的限制性片段。引物一般地,術語引物指能夠引導DNA的合成的DNA鏈。沒有引物,DNA聚合酶不能眾頭(denovo)合成DNA:其只能在反應中延伸現有的DNA鏈,在反應中互補鏈用作模板以指導被組裝的核苷酸的排列。我們可以稱用在聚合酶鏈式反應(PCR)中的合成的寡核苷酸分子為引物。DNA擴增一般,術語DNA擴增可以被用于表示使用PCR的雙鏈DNA分子的體外合成。應當注意,還存在其他擴增方法并且它們可以被用于本發明,而不違反主旨。發明詳述本發明提供了用于鑒定一個或多個多態性的方法,所述的方法包括步驟a)提供第一目的核酸樣品;b)對第一目的核酸樣品進行復雜度降低,以提供第一核酸樣品的第一文庫;c)連續地或同時地對第二或更多的目的核酸樣品進行步驟a)和b),以獲得第二或更多目的核酸樣品的第二或更多文庫;d)測序第一文庫和第二或更多的文庫的至少部分;e)比對在步驟d)中獲得的序列;f)確定在步驟e)的比對中第一核酸樣品和第二或更多核酸樣品間的一個或多個多態性;g)用在步驟f)中確定的一個或多個多態性設計一個或多個檢測探針;h)提供目的測試樣品核酸;i)對目的測試樣品進行步驟b)的復雜度降低以提供測試樣品核酸的測試文庫;j)用在步驟g)中設計的一個或多個檢測探針對測試文庫進行高通量篩選以鑒定在步驟f)中確定的多態性的存在、缺失或數量;步驟a)中,提供第一目的核酸樣品。所述的第一目的核酸樣品優選為復雜核酸樣品例如總基因組DNA或cDNA文庫。優選的,復雜核酸樣品為總基因組DNA。步驟b)中,對第一目的核酸樣品進行復雜度降低以提供第一核酸樣品的第一文庫。發明的一個具體實施方式,核酸樣品的復雜度降低的步驟包括催化性切割核酸樣品為限制性片段,分離限制性片段并選擇特殊的限制性片段庫。任選的,經選擇的片段然后與包含PCR引物模版/結合序列的接頭序列相連接。復雜度降低的具體實施方式中,lis型核酸內切酶用于消化核酸樣品并且限制性片段選擇性地連接于接頭序列。接頭序列可以在將被連接的突出端包含不同的核苷酸,并且只有具有與突出端中核苷酸匹配設置的接頭連接到該片段并且隨后被擴增。這一技術在本領域被描述為'索引連接器,。尤其,這一原理的例子可以在UnrauP.andDeugauK.V.(1994)Gene145:163—169中看到。在另一具體實施方式中,復雜度降低的方法利用兩個具有不同的目標位點和頻率的限制性核酸內切酶和兩個不同的接頭序列。發明的另一具體實施方式中,復雜度降低的步驟包括對樣品進行任意引物PCR。在發明的另一個具體實施方式中,復雜度降低的步驟包括通過變性和重退火DNA去除重復序列,然后去除雙鏈的雙鏈(double-strandedduplexes)。在發明的另一個具體實施方式中,復雜度降低的步驟包括核酸樣品與磁珠雜交,磁珠連接于包含期望的序列的寡核苷酸探針。這一具12體實施方式可以進一步包括將雜交的樣品暴露于單鏈DNA核酸酶以除去單鏈DNA,連接包含lis類限制性酶的接頭序列以釋放磁珠。這一具體實施方式可以包括或可以不包括分離的DM序列的擴增。進一步,接頭序列可以或可以不作為模版用于PCR寡核苷酸引物。在這個具體實施方式中,接頭序列可以含有或可以不含有序列標識子(identifier)或才示卡己。另一具體實施方式中,復雜度降低的方法包括將DNA樣品暴露于錯酉己結合蛋白(mismatchbindingprotein)并且用3,一5,沖l[酸夕卜切酶消化樣品,然后用單鏈核酸酶消化樣品。這一具體實施方式中可以包括或可以不包括結合于錯配結合蛋白的磁珠的使用。本發明的另一具體實施方式中,復雜度降低包括在此或在別處描述的CHIP方法或對保守基序例如SSR、NBS區(核酸結合序列)、啟動子/增強子序列、調聚物一致性序列、MADS盒基因、ATP-酶基因家族和其他基因家族的PCR引物的設計。在步驟c)中,連續地或同時地對第二或更多的目的核酸樣品進行步驟a)和b)以獲得第二或更多的目的核酸樣品的第二或更多的文庫。優選的,所述的第二或更多的目的核酸樣品也可以是復雜核酸樣品例如總基因組DNA。這同樣是優選的,所述的第二或更多的核酸樣品是與第一核酸樣品相關的。第一核酸樣品和第二或更多核酸可以是例如不同的植物品系,例如不同的胡椒品系,或不同的變體。步驟a)和b)不僅可以對第二目的核酸樣品進行,還可以對第三、第四、第五等目的核酸樣品進行。應當指出,當用相同方法和在基本相同,優選相同的條件下對第一核酸樣品和第二或更多核酸樣品進行復雜度降低時,依照本發明的方法將非常有用。在這樣的條件下,將獲得(復雜)核酸樣品的相似(可比較的)級分。在步驟d)中,測序至少部分的笫一文庫和第二或更多的文庫。來自第一文庫和第二或更多文庫的序列片段的重疊量至少是50%,更優選至少60%,更優選至少70%,甚至更優選至少80%,更優選至少90%,并且更優選至少95%。測序原則上可以通過本領域已知的任何方法進行,例如脫氧鏈終止法。不過優選測序用高通量測序方法進行。例如,在W003/004690,W003/054142,W02004/069849,WO2004/070005,WO2004/070007,和WO2005/003375(全部以454公司的名義),bySeo等人(2004)Proc.Natl.Acad.Sci.USA101:5488-93,和Helios,Solexa,USGenomics等等中描述的方法,其被引入此處作為參考。更優選地,測序用在WO03/004690,WO03/054142,WO2004/069849,WO2004/070005,WO2004/070007,和WO2005/003375(全部以454/〉司的名義)中公開的設備和/或方法進行,其被引入此處作為參考。在單個循環中,所描述的技術使得400000000堿基的測序可以進行并且比竟爭技術快100倍且便宜100倍。測序技術大概由4個步驟組成1)對單鏈DNA(ssDNA)的文庫的DNA的片斷化和特定接頭的連接;2)退火ssDM到珠子和在油包水微反應器中的珠子的乳化;3)在^0了"6"1&16中攜帶DNA的珠子的沉淀;和4)通過焦磷酸酯光信號的生產,在100000個孔中同時測序。該方法可以在下面更詳細地解釋。在步驟e)中,對在步驟d)中獲得的序列進行比對以提供對比結果。用于對比目的的序列的對比的方法是本領域公知的。不同過程和對比運算法則在下面描述SmithandWaterman(1981)Adv.Appl.Math.2:482;NeedlemanandWunsch(1970)J.Mol.Biol.48:443;PearsonandLipman(1988)Proc.Natl.Acad.Sci.USA85:2444;Higginsand.Sharp(1988)Gene73:237-244;HigginsandSharp(1989)CABIOS5:151-153;Corpetetal.(1988)Nucl.AcidsRes.16:10881-90;Huangetal.(1992)ComputerAppl.intheBiosci.8:155-65;andPearsonetal.(1994)Meth.Mol.Biol.24:307—31,其被引入引處用作參考。Altschul等人(1994)NatureGenet.6:119-29(其被引入此處用作參考)提供了序列對比方法和同源性計算的詳細描述。NCBI基礎本地對比搜索工具(BLAST)(Altschuletal.,1990)可以從幾個來源獲得,包括生物學信息國家中心(NCBI,Bethesda,Md.)和在Internet上,為了與序列分才斤禾呈序blastp,blastn,blastx,tblastn和tblastx相聯接使用。可以進入http:〃www.ncbi.nlra.nih.gov/BLAST/。<吏用這個程序如何檢測序列同一性的描述可以獲自http://www,ncbi.nlm.nih.gov/BLAST/blast—help,html。進一步可以應用在微衛星采集(參見Varshney等人(2005)TrendsinBiotechn.23(1):48-55中。通常,對已經用接頭/引物和/或標識子修飾過的序列數據進行對比,例如僅用來自來源于核酸樣品的片段的序列數據。通常,獲得的序列數據用于鑒定片段的來源(例如來自哪個樣品),衍生自接頭和/或標識子的序列被從數據中除去并且在這個修飾的位置進行比對。在步驟f)中,確定第一核酸樣品和第二或更多核酸樣品間的一個或多個多態性。所述比對可以如此完成使衍生自第一核酸樣品和第二或更多核酸樣品的序列可以進行比較。然后反映多態性的區別可以被鑒定。在步驟g)中,步驟g)中檢測到的一個或多個多態性用于設計檢測探針,例如用于通過DNA芯片上的雜交或基于珠子的檢測平臺進行的檢測。檢測探針設計成這樣使得多態性可以被其反映。在單核苷酸多態性(SNP)的情況下,檢測探針一般在中心位置含有不同的SNP等位基因,會以最大化等位基因的辨別。這樣的探針可以方便地用于篩選具有某種多態性的檢驗樣品。探針可以用本領域已知的任何方法合成。探針一般被設計為適合于高通量篩選方法。在步驟h)中,提供目的測試樣品核酸。測試樣品核酸可以是任何樣品,但是優選為用來對多態性作圖的另一林或變體。一般地,代表研究的生物體的種質的測試樣品的收集物用于實驗驗證(SN)多態性是真實的和可檢測的,并且用于計算觀察到的等位基因的等位基因發生頻率。任選的,在驗證步驟中包括基因作圖群體的樣品,以還檢測多態性的基因作圖位置。15在步驟i)中,對目的測試樣品核酸進行步驟b)的復雜度降低以提供測試樣品核酸的測試文庫。更優選的,全部依照本發明的方法的用于復雜度降低的相同方法以基本相同的,優選同一的條件使用,從而覆蓋樣品的相似級分。然而,獲得加標簽的測試文庫并非必須的,盡管標記可以存在于測試文庫中的片段上。在步驟j)中,測試文庫經高通量篩選以鑒定用步驟g)中設計的檢測探針在步驟f)中確定的多態性的存在、缺失或數量。本領域技術人員已知一些用來使用探針進行高通量篩選的方法。優選利用步驟g)中獲得的信息設計的一個或多個探針固定于陣列,例如DNA芯片上,而且上述陣列隨后在雜交條件下與測試文庫接觸。互補于一個或多個陣列中的探針的測試文庫中的DNA片段在上述條件下與上述探針雜交,并且從而可以被檢測。另一種高通量篩選方法也在本發明的范圍內,例如步驟j)中獲得的測試文庫的固定和所述固定的測試文庫與步驟h)中設計的探針在雜交條件下接觸。另一種高通量測序篩選技術除Affymetrix提供的使用基于芯片的SNP檢測外,還有Illumina提供的珠子技術。在更優的具體實施方式中,根據本發明的方法中的步驟b)進一步包括文庫的加標簽步驟以獲得加標簽的文庫,并且所述方法進一步包括組合第一加標簽的文庫和第二或更多加標簽的文庫的步驟cl)以獲得組合文庫。優選的,在復雜度降低步驟中進行加標簽以減少用于獲得第一核酸樣品的第一標簽文庫所需步驟的數量。上述同時的加標簽可以是例如通過AFLP,用含有對于每個樣品獨特的(核苷酸)標識子的接頭實現。進行標簽的目的在于區分不同來源的樣品,例如,獲自不同植物林,當使兩個或多個核酸樣品的文庫組合以獲得組合文庫時。因此,優選地,不同的標簽用于制備第一核酸樣品和第二或更多核酸樣品的加標簽的文庫。例如,當使用五個核酸樣品時,意欲獲得五個不同的加標簽的文庫,所述五種不同的標簽指示分別來源的樣品。標簽可以是本領域已知的用于區別核酸樣品的任何標簽,但是優選短的標識子序列。這樣的標識子序列可以是例如,用于指示通過復雜度降低所獲得的文庫的來源的不同長度的獨特的堿基序列。優選的具體實施方式,對第一文庫和第二或更多文庫的加標簽用不同的標簽進行。如上所述,優選的,核酸樣品的各個文庫可通過它自己的標簽來鑒定。測試樣品核酸不需要加標簽。在本發明的優選的具體實施方式中,復雜度降低通過AFU^方法(KeygeneN.V.,theNetherlands;參見例如EP0534858和Vos等人(1995)進行。AFLP:用于DNA指紋識別的新^支術,NucleicAcidsResearch,vol.23,no.21,4407—4414,在此引入全文作為參考)。AFLP是一種用于選擇性擴增限制性片斷的方法。AFLP沒有任何預先的序列信息并且能夠在任何起始DM中進行。一般而言,AFLP包括步驟(a)用一個或多個特異性限制性核酸內切酶消化核酸,特別是DNA或cDNA,以將DNA片段化為相應的一系列限制性片段;(b)將這樣獲得的限制性片段與雙鏈的合成寡核苷酸頭(它的一個末端與限制性片段的一個末端或兩個末端相兼容)連接,由此產生接頭-連接的、優選被標記的起始DNA的限制性片段;(c)在雜交條件下,使接頭-連接的,優選加標簽的,限制性片段與至少一個在其3,-末端含有至少一個選擇性核苷酸的寡核苷酸引物接觸;(d)通過PCR或類似的技術擴增與引物雜交的接頭-連接的,優選加標簽的限制性片段,以使雜交的引物沿著引物所雜交的起始DM的限制性片段進一步延伸;和(e)檢測,鑒定或回收由此獲得的擴增的或延伸的DNA片段。從而AFLP提供了可再生的接頭-連接的片段的子集。用于復雜度降低的另一種合適的方法是ChromatineImmunoPrecipitation(ChiP)。這表示核DNA被分離,同時蛋白例如轉錄因子與DNA結合。對于ChiP方法,首先抗體用于抗蛋白,得到Ab-蛋白-DNA復合體。通過純化這一復合體并沉淀它,該蛋白結合的DNA被選出。隨后,DNA可以用于文庫構建和測序。即,這是針對特定功能區域(在本實施例中是特定的轉錄因子)以非隨機的方式進行復雜度降低的方法。AFLP技術的一種有用的變形使用了非選擇性核苷酸(即+0/+0引物)并且有時被稱為連接子PCR。也提供它用來非常適合的復雜度降低。為了進一步描述AFLP,它的優點、它的具體實施方式和其中使用的技術、酶、接頭、引物和進一步的化合物和工具,參見US6,045,994,EP-B-0534858,EP976835和EP974672,WOOl/88189和Vosetal.NucleicAcidsResearch,1995,23,4407-4414,在此整體引入作為參考。因此,在本發明的方法的優選的具體實施方式中,復雜度降低通過^口下進4亍-用至少一種限制性內切酶消化核酸樣品以將其片段化為限制性片段;將獲得的限制性片段與至少一個合成的雙鏈寡核苷酸接頭(它的一個末端與限制性片段的一個末端或兩個末端相兼容)連接以產生接頭-連接限制性片段;-將所述接頭-連接的限制性片段與一個或多個寡核苷酸引物在雜交條件下接觸;和-通過一個或多個寡核苷酸引物的延伸來擴增所述接頭-連接的限制性片段,其中一個或多個寡核苷酸引物的至少一個包括具有與所述接頭-序列,包括用于所述限制性核酸內切酶的參與目標序列的形成的核苷酸并且包括在接頭中存在的核苷酸的至少一部分,其中,任選的,至少一種所述引物在其3,末端包括經選擇的序列,其包含與用于所述限制性核酸內切酶的參與目標序列的形成的核苷酸緊鄰定位的至少一個核苷酸。AFLP是用于復雜度降低的高度可重現的方法,并且因此特別適用于依照本發明的方法。在根據本發明的方法的優選的具體實施方式中,接頭或引物包含標簽。這對于多態性的實際鑒定(標簽對區分衍生自分離的文庫的序列而言很重要)的情況下更是如此。在接頭或引物中引入寡核苷酸標簽是非常方便的,因為其對文庫加標簽不需要額外的步驟。在另一個具體實施方式中,標簽為標識子序列。如上文討論的,這樣的標識子序列可以根據將要比較的核酸樣品的數量而具有不同的長度。大約4個堿基(44=256種可能的不同的標簽序列)的長度足以區別有限數量(達256)的樣品的來源,盡管優選標簽序列在將要進行區分的樣品間有一個以上堿基的不同。如需要,標簽序列的長度可以相應地調節。在一個具體實施方式中,在固相支持物,例如珠子上進行測序(參見例如W003/004690,W003/054142,WO2004/069849,WO2004/070005,WO2004/070007,和WO2005/003375(全部以4547〉司的名義),其被引入此處作為參考)。這種測序方法特別適合對多種樣品同時進行廉價且有效的測序。在優選的具體實施方式中,測序包括步驟-退火接頭-連接的片段到珠子,退火的各個珠子具有單一的接頭-連接的片段;-在油包水微反應器中使珠子乳化,各個油包水微反應器包括單個的珠子;-將珠子加載到孔中,各個孔包含單個的珠子;和-產生焦磷酸信號。在第一步中,測序接頭(seqencingadaptor)連接于組合文庫中的片段上。所述的測序接頭至少包括用于退火到珠子的"關鍵(key)"區域、測序引物區域和PCR引物區域。由此,獲得接頭連接的片段。在進一步的步驟中,接頭-連接的片段退火到珠子,各個珠子退火使之具有單一的接頭-連接的片段。對于接頭-連接的片段的集合,加19入過量的珠子以確保對于大部分珠子,每個珠子上退火一個單個的接頭-連接的片段(Poisson分布)。在下一步中,在油包水的微反應器中珠子被乳化,各個油包水微反應器包含單個的珠子。PCR試劑存在于油包水微反應器中使在微反應器中發生PCR反應。隨后,破碎微反應器,并且富集含有DNA的珠子(DNA陽性珠子)。在之后的步驟中,珠子加栽于孔中,各個孔含有單一的珠子。所述孔優選為PicoTiterPlate的部分,使得大量的片段同時地測序。力口入載醉珠子(enzyme—carryingbead)后,片段的序歹'j用焦碌酸測序檢測。在繼續的步驟中,皮克滴定板(Picotiterplate)和珠子理,并且當摻入脫氧核糖核苷酸時產生可以被記錄的光信號。摻入正確的核苷酸將會產生可以被檢測的焦磷酸測序信號。焦磷酸測序本身在本領域是已知的并且除了在www.biotagebio.com',www.pyrosequencing.com/tabtechnology上描述外,該技術還進一步在例如WO03/004690,W003/054142,WO2004/069849,W02004/070005,W02004/070007和W02005/003375(全部以454公司的名義)中使用,其被引入此處作為參考。優選的,步驟k)的高通量篩選通過步驟h)中設計的探針固定于陣列上,之后使含有探針的陣列與測試文庫在雜交條件下接觸來進行。優選的,接觸步驟在嚴格雜交條件(參見Kennedyetal.(2003)Nat.Biotech.;publishedonline7September2003:l-5)下進行。本領域技術人員知道合適的用于探針在陣列上的固定的方法并且也知道在雜交條件下接觸的方法。適用于該目的的代表性的技術參見Kennedyetal.(2003)Nat.Biotech"publishedonline7September2003:1-5。在多倍體農作物育種中,發現了一個特別有用的應用。通過用具有高覆蓋、鑒別性的SNP和不同等位基因和開發用于等位基因特異性擴增的探針進行的多倍體農作物測序,多倍體農作物的育種可以取得顯著的進步。作為發明的一部分,為了在此描述的用于有效和高通量的多態性鑒定的方法的進一步改進,已經發現對多種樣品采用選擇性擴增而生成的隨機選擇的子集和高通量測序技術的組合存在某些必須解決的復雜問題。更詳細地,已經發現當進行復雜度降低后,多個(例如第一和第二或更多的)樣品組合于集合中時出現了問題,很多片段似乎源自兩個樣品或不同的放置,很多鑒定的片段其不能被唯一地指定到一個樣品并且因此不能用在鑒定多態性的方法中。這導致方法的可靠性降低并且較少的多態性(SNP,插入/缺失,SSR)可以被充分鑒定。在仔細而詳細地分析不能被指定的片段的全部核苷酸序列后,發現這些片段含有包含兩種不同的標簽的接頭,并且可能是在復雜度降低的樣品的生成和測序接頭的連接之間形成的。該現象被描述為"混合的標簽,,。描述為"混合的標簽"的現象,如在此使用的,因此指的是這樣的片段,一方面所述片段含有與一個樣品相關的標簽,然而另一方面該片段含有與另一個樣品相關的標簽。因此,一個片段看起來源自兩個樣品(不同)。這導致錯誤的多態性的鑒定并且因此而不被期望。兩個樣品間的異源雙鏈核酸片段的形成造成這一異常已經被理論化。這一問題的解決方法已經在用于樣品轉化的策略的重新設計中被發現,其中可以在高通量測序前擴增復雜性被降低的樣品的被退火到珠子的片段。在這個具體實施方式中,各個樣品經復雜度降低和任選的純化。在此之后,使各個樣品成為平末端(末端平滑化),之后連接能夠退火到珠子的測序接頭。然后,樣品的測序接頭-連接的片段被組合并連接到用于乳液聚合和隨后的高通量測序的珠子。作為該發明的更進一步的部分,發現串聯體的片段妨礙了正確的多態性的鑒定。串聯體被看作在復雜度降低產物已經被'鈍化(blunting)'或'平滑化,(例如通過T4DNA聚合酶)后形成的片段,并且代替可以退火到珠子的接頭的連接,而相互連接,因此產生串聯體,即,串聯體是平末端片段的二聚化的結果。在某些特定的經修飾的接頭的使用中發現了這個問題的解決方案。由于不具有3,-5,核酸外切酶校對閱讀活性的某些優選的聚合酶的特征,由復雜度降低獲得的擴增的片段通常包含3,-A突出端。上述3,-A突出端的存在也是為何片段在接頭連接之前被鈍化的原因。通過提供可以退火到珠子的接頭,其中接頭含有3,-T突出端,發現可以在一個步驟中解決'混合的標簽,和串聯體這兩個問題。用這些經修飾的接頭的進一步優點在于可以省略常規的'末端鈍化,步驟和隨后的磷酸化步驟。因此,在進一步優選的具體實施方式中,各個樣品的復雜度降低步驟之后,在獲自復雜度降低步驟的擴增的接頭-連接的限制性片段上進行的一個步驟,由此,測序接頭連接到這些片段,其測序接頭包含3,-T突出端并且能夠退火到珠子。進一步發現,當在復雜度降低步驟中使用的引物被礴酸化時,可以避免在連接前的末端平滑化(鈍化)步驟和中間體磷酸化。因此,在本發明的更優選的具體實施方式中,發明涉及用于鑒定一個或多個多態性的方法,所述的方法包括步驟a)提供多個目的核酸樣品;b)對各個樣品進行復雜度降低以提供多個核酸樣品的文庫,其中復雜度降低通過-用至少一種限制性核酸內切酶消化各個核酸樣品以將其片段化為限制性片段;-將獲得的限制性片段與具有與限制性片段的一個或兩個末端相兼容的一個末端的至少一種合成的雙鏈寡核苷酸接頭連接以產生接頭-連接的限制性片段;-將所述接頭-連接的限制性片段與一個或多個磷酸化的寡核苷酸引物在雜交條件下接觸;和-通過一個或更多寡核苷酸引物的延伸擴增所述的接頭連接的限制性片段,其中一個或多個寡核苷酸引物的至少一個包括具有與所述接頭-連接的限制性片段的末端的鏈的末端部分相同的核苷酸序列的核苷酸序列,包括用于所述限制性核酸內切酶的參與目標序列的形成的核苷酸并且包括在接頭中存在的核苷酸的至少一部分,其中,任選的,至少一種所述引物在其3,末端包括經選擇的序列,其包含與用于所述限制性核酸內切酶的參與目標序列的形成的核苷酸緊鄰定位的至少一個核苷酸,并且其中接頭和/或引物包含標簽;c)組合所述文庫為組合文庫;d)用攜帶3,-T突出端的測序接頭將能夠退火到珠子的測序接頭連接到組合文庫中的擴增的接頭-加帽的片段,并且使珠子-退火的片段進行乳液聚合;e)對組合文庫的至少一部分測序;f)比對來自步驟e)中獲得的各個樣品的序列;g)確定在步驟f)比對中的多個核酸樣品間的一個或多個多態性;h)用步驟g)中確定的一個或多個多態性設計探針;i)提供目的核酸的測試樣品;j)對目的測試樣品核酸進行步驟b)的復雜度降低以提供測試樣品核酸的測試文庫;k)用步驟h)中設計的探針高通量篩選測試文庫以鑒定在步驟g)中確定的多態性的存在、缺失或數量。附圖簡述圖1A顯示了根據本發明退火到珠子('454珠子,)上的片段和用于兩種胡椒品系的預-擴增的引物序列。'DM片段,表示用限制性核酸內切酶消化后獲得的片段,'關鍵基因接頭,表示為用于產生文庫的(磷酸化的)寡核苷酸引物提供連接位點的接頭,'KRS,表示標識子序列(標簽),'454SEQ接頭,表示測序接頭,并且'454PCR接頭,表示可以用于DNA片段乳液擴增的接頭。PCR接頭可以用于退火到珠子和用于擴增并且可以含有3,-T突出端。圖1B顯示了復雜度降低步驟中使用的引物的圖示。上述引物一般23包含(2)所示的識別位點區,可以包括如(1)所示的標簽部分的恒定區和在其3,末端如(3)所示的選擇性區域中的一個或多個選擇性的核苷酸。圖2顯示了用2%瓊脂糖凝膠電泳進行的DM濃度估測。Sl表示PSP11;S2表示PI201234。對于估測的Sl和S2的DNA總量,50、100、250和500ng分別表示50ng、100ng、250ng和500ng。圖2C和2D顯示了使用Nanodrop分光光度測定法的DNA濃度檢測。圖3顯示了實施例3的中間質量分析結果。圖4顯示了序列數據加工管線的示意圖,即從測序數據的產生到推定的SNP、SSR和插入/缺失的鑒定的步驟,在修整&加標簽的去除已知的序列信息步驟后,得到經修整的序列數據,該數據被聚類&匯編以產生重疊群(contig)和單拷貝序列(不能匯編在重疊群中的片段),之后可以對推定的多態性進行鑒定和評估。圖4B進一步詳細說明了多態性釆集的方法。圖5提出了混合的標簽的問題并且在圖示1中提供了混合標簽的例子,攜帶的標簽與樣品1(MS1)和樣品2(MS2)連接。圖示2提供了該現象的示意性說明。衍生自樣品1(Sl)和樣品2(S2)的AFLP限制性片段在攜帶樣品特異性標簽Sl和S2的兩個末端與接頭("關鍵基因接頭")連接。經擴增和測序后,期望的片段是具有S1-S1標簽和S2-S2標簽的片段。另外的出乎意料地觀察到的是攜帶Sl-S2或S2-Sl標簽的片段。圖示3解釋了推想的產生混合的標簽,由此來自樣品1和2的片段形成異源雙鏈核酸產物的原因。隨后,由于T4DNA多聚酶或Klenow的3,-5,外切酶活性,使異源雙鏈核酸不具有3,-突出端。聚合過程中,用核苷酸填充該缺口,并且引入錯誤的標簽。該操作針對具有大約相同長度的異源雙鏈核酸(頂部圖示)但是也針對具有更多不同長度的異源雙鏈核酸。圖示4的左邊提供了導致混合的標簽形成的常規的實驗流程并且在右邊提供了改良的實驗流程。圖6提出了串聯體形成這一問題,由此,在圖示l中給出了典型的串聯體的例子,由此下劃線標記不同的接頭和標簽部分進行并注明它們的來源(即MS1,MS2,ES1和ES2分別對應于來自樣品1的Msel限制性位點-接頭,來自樣品2的Msel限制性位點-接頭,來自樣品1的EcoRI限制性位點-接頭,來自樣品2的EcoRI限制性位點-接頭)。圖示2闡釋了所期待的攜帶S1-S1標簽和S2-S2標簽的片段和觀察到的但并非期望的SI-Sl-S2-S2(以來自樣品1和樣品2的片段的串聯體的形式)。圖示3為避免生成串聯體和混合的標簽而推想的解決方案,其包括通過在AFLP接頭中引入突出端,修飾的測序接頭和連接測序接頭時省略末端平滑化步驟。因為ALP片段不能相互連接而發現沒有串聯體形成,并且因為省略末端平滑化步驟而沒有出現混合的片段。圖示4提供利用修飾的接頭的改良的實驗流程以避免串聯體形成和混合的標簽。圖7包含推定的單核苷酸多態性(SNP)的胡椒AFLP片段序列的"10037—CL989contig2,,多重比對。請注意SNP(通過黑色箭頭所示),由通過憑借上面兩個讀取序列的MS1標簽的存在指出的樣品l(PSP11)兩個讀取序列中的A等位基因的存在和通過憑借下面兩個讀取序列的MS2標簽的存在指出的樣品2(PI201234)中G等位基因的存在進行定義。讀取序列的名稱顯示于左邊。該多重比對的一致的序列為(5,-3,)GGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTG,圖8A用于目標單序列重復(SSR)的富集策略與用于從頭SSR發現的高通量測序相組合的圖示。圖8B:用SNPWave檢測的胡椒中的G/ASNP的確認。P1-PSP11;P2-PI201234。八種RIL后代通過數字1-8表示。實施例實施例1EcoRI/Msel限制性連接混合物(1)產生自胡4僅品系PSP-ll和PI20234的基因組DNA。限制性連接混合物被稀釋10倍并且5微升各樣品用EcoRI+1(A)和Msel+l(C)引物(組I)預擴增(2)。擴增后,兩種胡椒樣品的預擴增產物的性質用1%瓊脂糖凝膠檢測。預擴增產物被20倍稀釋,之后進行KRSEcoRI+1(A)和KRSMseI+2(CA)AFLP預擴增。下面的引物序列SEQIDl-4中將KRS(標識子)片段用下劃線標記,并且在所述序列的3,-末端的經選擇的核苷酸為粗體。擴增后,兩種胡椒樣品的預擴增產物的性質用1。/。瓊脂糖凝膠和通過EcoRI+3(A)和Msel+3(C)(3)AFLP指紋(4)檢測。兩種胡椒品系的預擴增產物分別在QiagenPCR柱(5)上純化。樣品濃度在Nanodrop中測量。將全部的5006.4ng的PSP-ll和5006.4ng的PI20234混合并測序。用于預擴增PSP-11的引物組IE01LKRS15'—CGTCAGACTGCGTACCAATTCA-3'[SEQID1]M15KKRS15'-TGGTGATGAGTCCTGAGTAACA-3'[SEQ工D2]用于預擴增PI20234的引物組IIE0lLKRS25'-CAAGAGACTGCGTACCAATTCA-3'[SEQID3]M15KKRS25'-AGCCGATGAGTCCTGAGT:^ACA-3'[SEQID4](1)EcoRI/Msel限制性連接混合物限制性混合物(40ul/樣品DNAECoRI(5U)Msel(2U)5xRLMQ總計在370C溫育1小時力口入連接混合物(10jal/樣品)6m1(土300ng)0.U10.05n18m125.85jj140n11OmMATP1jn1T4DM連接酶1M1ECoRI接頭(5pmol/M"UlMsel接頭(50pmo1/|a1)1|i15xRL2ja1M04ju1總計10m1在37°C溫育3小時EcoRI-接頭91&35/91M36:±bio-CTCGTAGACTGCGTACCCATCTGACGCATGGTTAA:91M35[SEQID5〗:91M36[SEQ工D6]Msel-接頭92A18/92A19:5-GACGATGAGTCCTGAG-33—TACTCAGGACTCAT-592A18[SEQ工D7〗:92A19[SEQID8](2)預擴增預擴增(A/C):RL-混合物(10x)5n1EcoRI-prE01L(50ng/ul)0.6jaMsel-prM02K(50ng/ul)0.6ju1dNTPs(25mM)0.16|j1Taq.pol.(5u)0.08m110XPCR2.0jul11.56|al總計20jal/反應預擴增熱反應(thermalprofile)在50jj1的反應體積中進行選擇性的預擴增。在PEGeneAmpPCR系統9700中進行PCR并且20個循環反應以30秒的94。C變性步驟開始,之后56。C退火步驟60秒和72X:延伸步驟60秒。EcoRI+KA)1E01L92R11:5-AGACTGCGTACCAATTCA-3[SEQID9]Msel+1(C)1M02k93E42:5-GMGAGTCCTGAGTAAC-3[SEQID10]預擴增A/CA:PA+l/十卜mix(20x):5m1EcoRI-pr1.5m1Msel-pr.1.5ju1dNTPs(25mM):0.4m1Taq.pol.(5U):0.2m110XPCR:5n1MQ:36.1總計50|i1在50m1反應體積中進行選擇性預擴增。PCR在PEGeneAmpPCRSystem9700中進行并且30次循環反應,開始為94。C變性步驟30秒,之后是56。C退火步驟60秒和72。C延伸步驟60秒。(3)KRSEcoRI十1(A)和KRSMseI+2(CA)205F212E01;lKRS1CGTCAGACTGCGTACCRATTCA-3,[SEQID11]05F213E01LKRS2CAAGAGACTGCGTACCAATTCA-3'[SEQID12]05F214M15KKRS1TGGTGATGAGTCCTGAGTAACA-3'[SEQID13]05F215M15KKRS2AGC.gGATGAGTCCTGAGTAACA-3'[SEQ工D14]粗體部分為選擇的核苷酸并且用下劃線表示標簽(KRS)部分樣品PSP11:E01LKRS1/M15KKRS1樣品PI120234:E01LKRS2/M15KKRS2(4)AFLP實驗流程選擇性擴增在20ja1反應體積中進行。PCR在PEGeneAmpPCR系統9700中進行。13次循環反應,開始為94。C變性步驟30秒,之后65。C退火步驟30秒,用下探階段,其中退火溫度每次循環降低0.7°C,和72。C延伸步驟60秒。該反應之后是23次循環反應,以94。C變性步驟30秒,之后56。C退火步驟30秒和72。C延伸步驟60秒。EcoRI屮3(AAC)和Msel+3(CAG)E3292S02:5-GACTGCGTACCAATTCAAC-3[SEQID15]M4992G23:5-GATGAGTCCTGAGTAACAG-3[SEQID16](5)Qiagen柱根據產品說明書進行Qiagen純化QIAquickSpin手冊(http://wwwl-qiagen.com/literature/handbooks/PDF/DNACleanupAndConcentration/QQSpin/1021422HBQQSpin072002WW.pdf)實施例2:胡椒通過使用AFLPKeygene識別位點特異性引物將來自胡椒品系PSP-11和PI20234的DNA用來產生AFLP產物。(這些AFLP引物基本上與常規AFLP引物相同,例如在EP0534858中描述的,并且一般可以含有識別位點區,恒定區和選擇性區域中的一個或多個選擇性的核苷酸。來自胡椒品系PSP-11或PI20234的150ngDNA用限制性核酸內切酶EcoRI(5U/反應)和Msel(2U/反應)在37°C消化1小時,之后在S(TC滅活10分鐘。獲得的限制性片段與合成的雙鏈寡核苷酸接頭連接,所述接頭的一個末端與EcoRI和/或Msel限制性片段的一個末端或兩個末端相兼容。對10倍稀釋的限制性連接混合物進行使用+1/+1AFLP引物的AFLP預擴增反應(20y1/反應)。PCR反應20'(30秒在94。C+60秒在56°C+120秒在72°C)。對20倍稀釋的+1/+1EcoRI/MselAFLP預擴增產物進行用不同的+1EcoRI和+2MselAFLPKeygene識別位點特異性引物的(下表,粗體為標簽,下劃線為選擇性核苷酸)另外的AFLP反應(50ju1/反應)。PCR反應30'(30秒在94°C+60秒在56°C+120秒在72°C)。AFLP產物通過用QIAquickPCR純化試劑盒(QIAGEN)純化,按照QIAquickSpin手冊07/2002第18頁并且用Nanodrop⑨ND-1000分光光度計測量濃度。5|ag+1/+2PSP-IlAFLP產物和5jiig+1/+2PI20234AFLP產物匯總到一起并溶于23.3ialTE中。最后,獲得具有430ng/M1濃度的+1/+2AFLP產物的混合物。表<table>tableseeoriginaldocumentpage30</column></row><table>實施例3:玉米來自玉米品系B73和M017的DNA用于產生AFLP產物,通過^f吏用AFLPKeygene識別位點特異性引物。(這些AFLP引物基本上與常M^的AFLP引物相同,例如EP0534858中描述的,并且一般可以包含識別位點區、恒定區和在其3'末端的一個或多個選擇性核苷酸)。來自胡椒品系B73或M017的DNA用限制性核酸內切酶Taql(5U/反應)在65。C反應1小時和MseI(2U/反應)在37。C反應1小時之后在80。C滅活10分鐘。獲得的限制性片段與雙鏈合成的寡核苷酸接頭結合,其一個末端與Taql和/或Msel限制性片段的一個或兩個末端相兼容。對10倍稀釋的限制性連接混合物進行使用+1/+1AFLP引物的AFLP預擴增反應(20ul/反應)。PCR反應20'(30秒在94°C+60秒在56°C+120秒在72°C)。用不同的+2Taql和MseIAFLP關鍵基因識別位點引物(下表,標簽用粗體表示,選擇性核苷酸用下劃線表示)對20倍稀釋的+1/+7&91/1^61AFLP擴增產物進行額外的AFLP反應(50y1/反應)。AFLP產物通過用QIAquickPCR純化試劑盒(QIAGEN)按照QIAquick⑧Spin手冊07/200218頁純化,用Nanodrop。ND-1000分光光度計測量濃度。總共1.25jag各個不同B73+2/+2AFLP產物和1.25Mg各個不同M017+2/+2AFLP產物放在一起,并溶解于30ialTE中。最后獲得具有混合物333ng/ja1濃度的+2/+2AFLP產物。<table>tableseeoriginaldocumentpage31</column></row><table>在讀取的數據的起始和末端,分析這些序列數據以得到關鍵基因識別位點(KRS)。這些KRS序列包含AFLP-接頭和樣品標簽序列并且對組合到某些樣品上的某些AFLP引物是特異的。KRS序列通過BLAST鑒定并且修整及儲存限制性位點。讀取的數據用標簽標記,用于KRS起源的鑒定。經修整的序列對長度(最小33nt)進行選擇以參加進一步的過程。聚類和匯編對全部大小-選擇性的,經修整的讀取數據進行lega^/ai^分析以獲得同源序列的群組。連續地,所有群組用CAP3匯編以得到匯編的重疊群。鑒定來自兩個步驟的單拷貝序列讀取,其不與任何其他讀取匹配。這些讀取標記為單拷貝序列。進行在此之前描述的步驟的處理流程在圖4A中表示。多態性采集和性質評估來自匯編分析的終重疊群形成多態性檢測的基礎。各個群組的對比中,各個'錯配,為潛在的多態性。定義選擇標準以獲得性質得分-每個重疊群的讀取數-每個樣品'等位基因,的頻率-同聚物序列的發生-鄰近多態性的發生鑒定性質得分在閾值之上的SNP和插入/缺失為推定的多態性。為了SSR采集,我們利用MISA(MIcroSAtellite鑒定)工具(http://pgrc.ipk-gatersleben.de/misa)。該工具用預先設定的標準識別二-、三-、四核苷酸和復合型SSR基序并且總結這些SSR的發生。多態性采集和質量評估過程示于圖4B。結果下表總結了得自組合的胡椒樣品的2個454測序和組合的玉米樣品的2個測序的序列的聯合分析的結果。<table>tableseeoriginaldocumentpage33</column></row><table>'兩者都針對鄰近SNP選擇,至少12bp的側翼序列并且不發生于大于3個核苷酸的同聚物序列中。實施例4:在胡椒中的單核苷酸多態性(SNP)的發現DNA分離基因組DM分離自胡椒重組近交(RIL)群體的兩種親本品系和IORIL后代。親本品系為PSP11和PI201234。基因組DNA分離自單獨的種苗的葉材料,其采用Stuart和Via描述的改良的CTAB方法(Stuart,CN.,JrandVia,LE.(1993)ArapidCTAB腿isolationtechniqueusefulforRAPDfingeprintingandotherPCRapplications.Biotechniques,14,748-750)。DNA樣品在TE(10mMTris-HCl'pH8.0,1mMEDTA)中稀釋到濃度為100ng/u1并且在-20。C貯存。用加標簽的AFLP引物制備AFLP模板如Zabeau&Vos,1993:Selectiverestrictionfragmentamplification;ageneralmethodforDNAfingerprinting.EP0534858-A1,Bl;USpatent6045994)和Vos等人(Vos,P.,Hogers,R.,Bleeker,M.,Reijans,M.,vandeLee,T.,Hornes,M.,Frijters,A.,Pot,J.,Peleman,J.,Kuiper,M.etal.(1995)AFLP:anewtechniqueforDNAfingerprinting.Nucl,AcidsRes.,21,4407-4414)所述,使用EcoRI/Msel限制性核酸內切酶組合制備胡椒親本品系PSP11和PI201234的AFLP才莫板。特別地,EcoRI和MseI的基因組DM限制性消化按照如下進行DNA限制性消化100-500ng5單位2單位8m140|a1酶限制性消化后,8(TC溫育10分鐘使酶失活,歸EcoRIMsel5xRL緩沖液加MilliQ水至在37。C溫育1小時接頭的連接10mMATPT4DM連接酶EcoRI接頭(5pmo1/y1)1jj1Msel接頭(50pmo1/m1)1p15xRL緩沖液2yl加MilliQ水至40ia1在37。C溫育3小時。選擇性的AFLP擴增限制性消化-連接后,限制性消化/連接反應物用L。Eu稀釋10倍并且將5jjl稀釋的混合物用作選擇性擴增步驟中的模板。注意,因為想要的是+1/+2選擇性擴增,所以首先進行+1/+1選擇性預擴增步驟(用標準AFLP引物)。+1/+1(+人/+0擴增的反應條件如下。限制性消化-連接混合物(10倍稀釋)5ja1EcoRI-引物+1(50ng/pl):0.6|a1Msel-引物+1(50ng/y1)0.6ja1dNTPs(20mM)0.2m1Taq聚合酶(5U/ni1Amplitaq,PE)0.08n1IOXPCR緩沖液2.0nl加MilliQ水到20|al引物序列為EcoRI+l:5'-AGACTGCGTACCAATTCA-3'[SEQ工D9]和Msel+1:5'-GATGAGTCCTGAGTAAC-3'[SEQID10]PCR擴增用具有金或l艮單元(block)的PE9700進^f,用以下條件20次(94°C30秒,56°C60秒和72。C120秒)。在1%瓊脂糖凝膠中檢測產生的+1/+1預擴增產物的質量,使用100堿基對分子量標記和1Kb分子量標記以檢測片段長度分布。+1/+1選擇性擴增后,反應物用T!。Eu稀釋20倍并且使用5ja1稀釋混合物作為+1/+2選擇性擴增步驟中的模板,使用加標簽的AFLP引物。最后,進行+1/+2(aak:a)選擇性aflp擴增+1/+1選擇性擴增產物(20-倍稀釋)5.0u1KRSEcoRI-引物+A(50ng/|al)1.5m1KRSMsel-引物+CA(50ng/jj1)1.5m1dNTPs(20mM)0.5|a1Taq聚合酶(5U/ja1Amplitaq,PerkinElmer)0.2|i110xpcr緩沖液5.0m1力口MQ至50ja1加標簽的AFLP引物序列為PSP11:05F212:EcoR工+l:51-CGTCAGACTGCGTACCAATTCA-3'[SEQ工D1]和05F214:Msel+2:5'-TGGTGATGAGTCCTGAGTAACA-3'[SEQ工D2]P工201234:05F213:EcoRI+1:5'-CAAGAGACTGCGTACCAATTCA-3'[SEQID3]和05F215:Msel+l:5'-AGCCGATGAGTCCTGAGTAACA-3'[SEQID4]注意,在測序過程結束時,這些引物在它們的5引物末端包含4bp標簽(tag)(上面下劃線的)用于在測序過程結束時區分源于各自的胡椒品系的擴增產物。用含有4bp5引物標記序列的AFLP引物擴增后,胡椒AFLP+1/+2擴增產物的圖示EcoRI標簽脅工標簽PSP11:5'-CGTC-------------------------------------.ACCA-3'.3'-GCAG-;---------------------------二----------TGGT-5'PI2012345,-CAAG-----------------------------------GGCT-3'3'-GTTC-----------------------------------CCGA-5'用具有金或銀單元(block)的PE9700進行PCR擴增(24每樣品),使用如下條件30次(94。C30秒+56°C60秒+72°C120秒)。在1%瓊脂糖凝膠中檢測產生的擴增產物的質量,使用IOO堿基對分子量標記和lKb分子量標記,以檢測片段長度的分布。AFLP反應物純化和量化在匯集每種胡椒樣品的兩個50微升+1/+2選擇性AFLP反應物之后,得到的12個100ju1AFLP反應產物用QIAquickPCR純化試劑盒(QIAGEN)純化,按照QIAquick'Spin手冊(18頁)。每個柱上最大填裝100|a1產物。擴增產物在LoE。」中洗脫。在1°/。瓊脂糖凝膠上檢測純化產物的質量并且在Nanodrop上測量濃度(圖2)。Nanodrop濃度測量用于調節每種純化的PCR產物的終濃度至300納克每微升。混合5微克PSP11的純化的擴增的產物和5微克PI201234以產生10微克模板材料,用于制備454測序文庫。序列文庫制備和高通量測序對來自兩種胡椒品系的混合的擴增產物高通量測序,使用454LifeSciences觀'J序4支術,i口Margulies等人戶斤述(Margulies等人,Nature437,pp.376-380andOnlineSupplements)。特另'J地,首先,AFLPPCR產物末端平滑化,隨后連接到接頭以促進乳液-PCR擴增和隨后的片段測序,如Margulies和其同事所描述的。454接頭序列,乳液PCR引物,測序引物和測序運行條件都如Margulies和其同事所述。在454測序過程中,在瓊脂糖珠上的擴增的乳液PCR片段中,功能性元件的線性順序如下面圖IA中所示例454PCR接頭-454測序接頭-4bpAFLP引物標簽1-包含選擇性核苷酸的AFLP引物序列l-AFLP片段內序列-包含選擇性核苷酸的AFLP引物序列2,4bpAFLP引物標簽2-454測序接頭-454PCR接頭-瓊脂糖珠通過454LifeSciences(Branford,CT;UnitedStatesofAmerica)進行兩個高通量454測序反應。454測序運4于數據處理來自2個454測序反應的測序數據結果用生物信息學流水線(KeygeneN.V.)處理。特別地,原始的454堿基呼叫序列讀取轉變為FASTA格式并且用BLAST運算法則檢查是否有標記的AFLP接頭序列的存在。在與已知的標記的AFLP引物序列高置信度匹配后,對序列進行修整,限制性核酸內切酶位點重建并被指定適當的標簽(分別的,樣品1EcoRI(ESI),4羊品1Msel(MS1),才羊品2EcoRI(ES2)或才羊品2Msel(MS2))。接下來,用基于全部序列同源的megaBLAST程序,聚類分析所有經修整的大于33堿基的序列。接下來,用CAP3多重對比運算法則,將聚類組合為每個聚類一個或多個重疊群和/或一個或多個單拷貝序列(singleton)。檢查包含多于一個序列的重疊群的序列錯配,代表推測的多態性。基于如下標準給予序列錯配質量分數,'重疊群中的讀取數'觀察到的等位基因分布'上述兩個標準構成了對每個推定的SNP/插入/缺失給予的所謂的Q得分的基礎。Q得分范圍為0到1;只有在兩個等位基因被觀察到至少兩次的情況下,才能得到0.3的Q得分。'某長度的同聚物中的定位(可調節的;缺失設置為避免在3堿基或更長的同聚物中存在多態性)。'聚類中的重疊群數'最近的相鄰序列錯配的距離(可調節的;對于某些種類型的基因分型分析探測側翼序列重要)'關于樣品1或樣品2的觀察到的等位基因相關水平;如果等位基因的推定的多態性與樣品l及樣品2之間一致、完美相關的情況下,多態性(SNP)表示為"優良的"推定的多態性(SNP)。如果在發現過程中使用兩種純合品系,則優良的多態性被認為具有定位于單個的或低拷貝基因組序列的高概率。相反地,樣品來源的多態性的弱相關帶來下述高風險,即已經發現的是源自重疊群中非等位基因序列的比對的假的多態性。包含SSR基序的序列用MISA搜索工具鑒定(MIcroSAtellelite鑒定工具;可得自http://pgrc.ipk-gatersleben.de/misa/反應的全部統計數據如下表所示。表對胡椒中的SNP發現的454測序反應全部統計數據<table>tableseeoriginaldocumentpage38</column></row><table>'SNP/插入/缺失采集標準如下在各側上12個堿基中具有大于0.1Q得分的非鄰近多態性在3或多個堿基的同聚物中不存在。釆集標準不考慮對樣品1和2的相關一致性。即SNP和插入/缺失不是優良的推定的SNPs/插入/缺失所必需的。含有優良的推定的單核苷酸多態性的多重比對的例子如圖7所示。實施例5通過PCR擴增和Sanger測序證實SNP為了證實在實施例1中鑒定的推定的A/GSNP,使用側翼PCR引物設計了用于這一SNP的測序加標簽位點(STS)。PCR引物序列如下引物一1.2f:5'-AAACGCAAACTCCCCCAATC-S',[SEQ工D37]和引物—1.2r:5'-AGCGGATAACAATTTCACACAGGA込TCAGTAGTCACACTGGTACAAAAATAGAGCAAAACAGTAGTG-3'[SEQID38]注意,引物1.2r包含一個M13測序引物結合位點,并且在它的5'引導端含長度填充片段。PCR擴增用如實施例4中所述制備的PSP11和PI210234的+A/十CAAFLP擴增產物作為才莫板。PCR條件如下對lPCR反應,混合如下組分5y11/10稀釋的AFLP混合物(app.10ng/m1)5m1lpmol/y1引物1.2f(直接稀釋自500MM母液)5ullpmol/ul引物1.2r(直接稀釋至500juM母液)5m1pcr混合液-2n110xPCR緩沖液-1ia15mMdNTPs-1.5m125mMMgCl2-0.5ja1H205in1酶混合液-0.5Ml10xPCR緩沖液(AppliedBiosystems)-0.15U/m1AmpliTaqDNA聚合酶(AppliedBiosystems)-4.4|i1H20使用如下PCR反應條件循環12。94°C循環2-3420";94°C30";56°C2'30〃;72°C循環357。72°Coo;4。CPCR產物用TA克隆方法克隆到載體pCR2.1中(TA克隆試劑盒;Invitrogen),并且轉化到INVccP感受態Aco7/細胞中。對轉化林進行藍/白篩選。為了用于分離質粒,選出各自針對PSPll和PI-201234的三個獨立的白色轉化林并且在液體選擇培養基中0/N培養。用QIAprepSpinMiniprep試劑盒(QIAGEN)分離質粒。隨后,對這些質粒的插入序列按照如下方法測序并且用MegaBACE1000(Amersham)分辨。檢查獲得的測序結果中SNP等位基因的存在。兩種分別的含有PI-201234插入序列的質粒和一種含有PSP11插入序列的質粒包含期望的相同的SNP側翼序列。包含期望的A(下劃線的)等位基因的衍生自PSP11片段的序列和包含期望的G等位基因(雙下劃線的)的衍生自PI-201234片段的序列PSWJ〖序列"C5'-3"CCCCACTACTGTTTTGCTCTATTTTTGT[SEQID-39]AAACCCAAACTCCCCCAATCGATTTCAAACCTAGAACAgTGTTGGTTTTGGTGCTAACTTCAACCCCACTACTGTTTTGCTCTATTTTTG[SEQID40]PI"—201234C序歹寸--〖5'—3"CCCCACTACTGTTTTGCTCTATTTTTG[SEQID41]這一結果表明推定的胡椒A/GSNP表現為可以用設計的STS分析檢測到的真正的基因組多態性。實施例6:通過SNPWave檢測證實SNP為了證實在實施例1中鑒定的推定的A/GSNP,采用一致性序列使SNPWave連接探針組界定這個SNP的兩個等位基因。連接探針的序歹寸如下SNPWave探針序歹'J(5'-3,)06A162GATGAGTCCTGAGTAACCCAATCGATTTCAAACCTAGAACAA(42個械基)SEQ工D42〕06A163GATGAGTCCTGAGTAACCACCAATCGMTTCAAACCTAGAACAG("個械基)[SEQID43]磷酸化的-TGTTGGTTTTGGTGCTAACTTCAACCAACATCTGGAATTGGTACGCAGTC(52個械基)[SEQID44〕注意,針對A和G等位基因的等位基因特異探針06A162和06A163分別在大小上相差2個堿基,這樣,連接到共同定位特異探針06A164之上,得到連接產物大小為94(42+54)和96(44+52)個堿基。進行SNPWave連接和PCR反應,如VanEijk和其同事所描述的(M.J.T.vanEijk,J.L.N.Broekhof,H.J.A.vanderPoel,R.C.J.Hogers,H.Schneiders,J.Kamerbeek,E.Verstege,J.W.vanAart,H.Geerlings,J.B.Buntjer,A.J.vanOeveren,andP.Vos.(2004)。SNPWave:—種靈活的多元的SNP基因分型方法。核酸研究32:e47),使用lOOng作為起始材料的胡椒品系PSPll和PI201234和8RIL后代的基因組DNA。PCR引物序列為93L01FAM(EOOk):5-GACTGCGTACCAATTC-3'[SEQID45]93E40(MOOk):5-GATGAGTCCTGAGTAA-3'[SEQID46]PCR擴增之后,PCR產物純化和MegaBACE1000中的檢測如vanEijk和同事(videsupra)描述的。獲自PSPll、PI201234和8RIL后代的擴增產物的偽-凝膠成^f象(pseudo-gelimage)如圖8B所示。SNPWave的結果清楚地表示A/GSNP通過SNPWave分析檢測,得到關于Pl(PSPll)和RILl、2、3、4、6和7代)的92bp產物(=AA純合子基因型),和關于P2(PI201233)和RIL5和8代的94bp產物(=GG純合子基因型)。實施例7:用于富集針對低拷貝序列的AFLP片段文庫的策略為了增加如實施例4中描述的優良的多態性的數量,該實施例描述了幾個針對獨特的基因組序列的目標低拷貝的富集方法。所述方法可以分為4類1)針對制備高質量基因組DNA(葉綠體序列除外)的方法。這里提出,制備核DM代替實施例4中所述的完整基因組DNA,排除大量葉綠體DNA共分離物,其可以使植物基因組DNA序列數量減少,依靠在片段文庫制備方法中使用的限制性核酸內切酶和選擇性AFLP引物。用于高純度番茄核DNA分離的方法已經由Peterson,DG.,Boehm,K.S.&StackS.M.(1997)描述。IsolationofMilligramQuantitiesofNuclearDNAFromTomato(Lycopersiconesculentum),APlantContainingHighLevelsofPolyphenolicCompounds.PlantMolecularBiologyReporter15(2),pages148-153。2)針對在AFLP模板制備過程中使用限制性核酸內切酶的方法,其被期望可以使低拷貝序列的水平提高在此提出,在AFLP模板制備過程中,用某種限制性核酸內切酶,其期望針對于低拷貝或獨特的基因組序列,以得到關于多態性的富集的片段文庫,其具有增強轉換為基因分型分析的能力。針對植物基因組中低拷貝序列的限制性核酸內切酶的例子為Pstl。優選地,其他曱列。3)基于相對于低拷貝序列的重復序列的重退火動力學的選擇性去除高重復的序列的方法在此提出,在選擇性擴增之前,選擇性地去除來自各個完整基因組DNA樣品或來自(cDNA-)AFLP模板材料的高復制的(重復)序列。3a)高-C。tDNA制備是一種一般用于富集來自復雜植物基因組DNA混合物的慢退火的低拷貝序列的方法(Yuan等人2003;High-Cotsequenceanalysisofthemaizegenome.PlantL34:249-255)。其表示用高-C。t而非完整基因組DNA作為起始材料用于富集定位于低拷貝序列中的多態性。3b)替代費力的高-C。t制備,可以將變性且重退火的dsDNA,與新的來自Kamchatkacrab的核酸酶一起溫育,所述酶以相比于非優選的配對的DM雙鏈更快的速度來消化短的、優選配對的DNA雙鏈,如Zhulidov和其同事(2004;SimplecDNAnormalizationusingKamchatkacrabduplex-specificnuclease.NucleicAcidsResearch32,e37)和Shagin和其同事(2006;anovelmethodforSNPdetectionusinganewduplex-specificnucleasefromcrabhepatopancreas.GenomeResearch12:1935-1942)所描述的。特別地,建議AFLP限制性/連接混合物和這個核酸內切酶溫育以減少高度復制的序列的混合物,之后進行殘留的低拷貝或獨特的基因組序列的選擇性AFLP擴增。3c)甲基過濾是一種富集低甲基化的基因組DM片段的方法,用限制性核酸內切酶McrBC,其切割甲基化DNA,在序列[A/G]C中,其中C被曱基化(參見PabloD.Rabi歸icz,RobertCitek,MuhammadA.Budiman,AndrewNunberg,JosephA.Bedel1,NathanLakey,AndrewL.0'Shaughnessy,LidiaU.Nascimento,W.RichardMcCombieandRobertA.Martienssen.Differentialmethylationofgenesandrepeatsinlandplants.GenomeResearch15:1431-1440,2005)。McrBC可以用于富集作為用于多態性發現的起始材料的基因組的低拷貝序列片段。4)為了得到目標基因序列,使用相對于基因組DNA的cDNA最后,在此建議,作為相對于多態性發現的起始材料的基因組DNA使用QligodT-引發的cDM,任選的,組合使用在上述3b中所述的Crab雙鏈-特異核酸酶用于標準化。注意使用oiigodT引發的cDNA也把葉綠體序列排除在外。可選擇地,cDNA-AFLP模板替代oligodT-引發的cDNA用來在類似于AFLP的方法中促進擴增殘留的低拷貝序列(也見于上文的3b)。實施例8:用于單個序列重復富集的策略本實施例描述了建議的用于單個序列重復序列的發現的策略,類似于在實施例4中所描述的SNP的發現。特別地,進行兩種或多種樣品的基因組DNA的限制性-連接,例如,用限制性核酸內切酶Pstl/Msel。進行如實施例4中所述的選擇性AFLP擴增。之后,通過兩種方法中的一種富集含有經選擇的SSR基序的片段l)對含有與目標SSR基序(例如(CA)n如果富集CA/GT重復)匹配的寡核苷酸的過濾物SouthernMot雜交,之后擴增結合片段,以如Armour和其同事(Armour,J.,Sismani,C.,Patsalis,P.,andCross,G.(2000)Measurementoflocuscopynumberbyhybridizationwitharaplifiableprobes.NucleicAcidsResearchvol28,no.2,pp.605-609)所描述的類似的方式;或通過2)使用生物素化的捕獲寡核苷酸雜交探針以捕獲溶液中的(AFLP)片段的富集,如Kijas和其同事所述(Kijas,J.M,.Fowler,J.C,GarbettCA.,andThomas,M.R.,(1994).Enrichmentofmicrosatel1itesfromthecitrusgenomeusingbiotinylatedoligonucleotidesequencesboundtostreptavidin-coatedmagneticparticles.Biotechniques,vol.16,pp.656—662.之后,SSR基序富集的AFLP片段用與預擴增步驟中使用的相同的AFLP引物擴增,以產生序列文庫。擴增片段的等分(aiiqout)為克隆的T/A和96克隆測序以評估陽性克隆的部分(含有目的SSR基序的克隆,例如,大于5個重復單元的CA/GT基序)。富集的AFLP片段混合物的另一個等分測試樣品通過聚丙烯酰胺凝膠電泳(PAGE)檢測,任選的,之前進一步進行選擇性擴增以獲得可讀的指纟丈,以此來可視化檢查含有SSR的片段是否被富集。成功完成這些控制步驟后,序列文庫進行高通量454測序。上述用于從頭SSR發現的策略在圖8A中示意性描述,并且可以通過相應地替換捕獲寡核苷酸序列從而適用于其他基序。實施例9用于避免混合的標簽的策略混合的標簽指的是這一現象,每個樣品除了期望的加標簽的AFLP引物組合外,還觀察到少量的序列級分,其在一個末端含有樣品1標簽,并且在另一個末端含有樣品2標簽(見實施例4中的表1)。示意性地,含有混合的標簽的序列的結構如下列所描述的。代表期望的樣品標簽組合的示意圖ECORI標簽MseI標簽PSP11:5,-CGTC-------------------------------------------ACCA-3,3'-GCAG--------------------------------------------TGGT-5'P工-2012345,-CAAG---------------------------------"------GGCT-3,3,—GTTC-----------------*----"--------1---------—CCGA-5'代表混合的標簽的示意圖EcoR工標簽MseI標簽5'-CGTC------------------------------------------GGCT-3'3'-GCAG-------------------------------------------CCGA-5'5'-C扁------------------------------------------ACCA-3'3'—GTTC-----------------------------------------TGGT—5'觀察到的混合的標簽妨礙了PSP11或PI-201234的序列的正確指定。胡椒測序中觀察到的混合的標簽序列的例子在實施例4中描述,如圖5A所示。觀察到的含有預料到的標簽和混合的標簽的片段的整體情況示于圖5A的圖示2中。關于混合的標簽的提出的分子解釋為在序列文庫制備步驟中,在接頭連接之前,用T4DNA聚合酶或Klenow使DNA片段變為平末端以去除3引物突出端(Margulies等人,2005)。處理單個的DNA樣品時,能夠很好地完成這一操作,但是如果用兩個或多個樣品加不同標簽的DNA樣品的混合物通過聚合酶來填充的時候,結果當在衍生自不同樣品的互補鏈之間形成異源雙鏈核酸分子時,引入了錯誤的標簽序列(圖5B圖示3混合的標簽)。發現在454序列文庫構建中接頭連接后的純化步驟后富集樣品的解決方法,如圖5C圖示4所示。實施例10使用454序列文庫制備的改良設計來避免混合的標簽和串聯體的策略除了觀察到如實施例9所述的含有混合的標簽的序列讀取以外,還觀察到了低頻率串聯的AFLP片段的序列讀取。衍生自串聯體的序列讀取的例子描述于圖6A圖示1中。示意性地,含有期望的標簽和串聯體的序列的結構描述于圖6A圖示2中。關于串聯的AFLP片段的發生而提出的分子解釋是454序列文庫制備步驟中,在接頭連接之前(Marguliesetal.,2005),DNA片段用T4DNA聚合酶或Klenow酶使其為平末端,以除去3引物突出端。結果,在連接步驟中,平末端樣品DM片段與接頭竟爭,并且在被連接到接頭之前可以相互連接。這一現象事實上不依賴于是否文庫制備步驟中包括的是單個DM樣品或是多個(加標簽的)樣品的混合物,并且因此也可以在常規測序方法,如Margulies和其同事所描述的方法中發生。如果使用如實施例4中所述的多個加標簽的樣品,串聯體復雜化了對基于標記信息的樣品的序列讀取的正確指定,并且因此應予消除。對串聯體(和混合的標簽)形成所提出的方法是用含有3引發T突出端的接頭的連接取代平末端接頭連接,類似于PCR產物的T/A克隆,如圖6B圖示3所述。方便地,建議在這些經修飾的含3,引發T突出端的接頭在相對的3,末端含有C突出端(其不能與樣品DNA片段連接,防止接頭序列的平末端串聯體形成(見圖6B圖示3)。使用經修飾的接頭的方法時,最終的序列文庫構建方法的適當的流程示意性地描述于圖6C圖示4中。權利要求1.鑒定一個或多個多態性的方法,所述方法包括步驟a)提供第一目的核酸樣品;b)對第一目的核酸樣品進行復雜度降低以提供第一核酸樣品的第一文庫;c)用第二或更多目的核酸樣品連續地或同時地進行步驟a)和b),以獲得第二或更多目的核酸樣品的第二或更多文庫;d)測序第一文庫和第二或更多文庫的至少一部分;e)比對在步驟d)中獲得的序列;f)確定在步驟e)的比對中第一核酸樣品和第二或更多核酸樣品間的一個或多個多態性;g)用在步驟f)中確定的所述一個或多個多態性設計檢測探針;h)提供目的測試樣品核酸;i)對目的測試樣品核酸進行步驟b)的復雜度降低以提供測試樣品核酸的測試文庫;j)用在步驟g)中設計的檢測探針對測試文庫進行高通量篩選以鑒定在步驟f)中確定的多態性的存在、不存在或數量。2.根據權利要求1的方法,步驟b)進一步包括標記文庫的步驟以獲得加標簽的文庫,并且所述方法進一步包括組合加標簽的第一文庫和加標簽的第二或更多文庫以獲得組合文庫的步驟cl)。3.根據權利要求2的方法,其中第一目的核酸樣品和第二或更多目的核酸樣品的加標簽過程利用對各個樣品不同的標簽進行。4.根據上述任一權利要求的方法,其中進行復雜度降低,通過-用至少一種限制性核酸內切酶消化核酸樣品以將其片段化為限制性片段;-用具有與限制性片段的一個或兩個末端相兼容的一個末端的至少一種合成的雙鏈寡核苷酸接頭連接獲得的限制性片段,以產生接頭-連接的限制性片段;-將所述接頭-連接的限制性片段與一個或多個寡核苷酸引物在雜交條件下接觸;和-通過所述一個或多個寡核苷酸引物的延伸來擴增所述接頭-連接的限制性片段,-其中所述一個或多個寡核苷酸引物的至少一個包括具有與在所述接頭-連接的限制性片段的末端處的鏈的末端部分的核苷酸序列相同的核苷酸序列,包括參與所述限制性核酸內切酶的目標序列的形成的核苷酸并且包括存在于接頭中的核苷酸的至少一部分,其中,任選地,至少一種所述引物在其3,末端包括經選擇的序列,其包含與參與所述限制性核酸內切酶的目標序列的形成的核普酸緊鄰的至少一個核苷酸。5.根據權利要求4的方法,其中所述接頭和/或引物包括標簽。6.根據權利要求5的方法,其中所述標簽為標識子序列。7.根據權利要求4的方法,其中至少一種所述引物被磷酸化。8.根據上述任一項權利要求的方法,其中測序在固體支持物例如珠子上進行。9.根據上述任一項權利要求的方法,其中測序基于雙脫氧鏈終止測序法。10.根據權利要求8的方法,其中測序包含步驟-將接頭-連接的片段退火到珠子,退火的各個珠子具有單一的接頭-連接的片段;-在油包水微反應器中乳化珠子,各個油包水微反應器包含單一的珠子;-將珠子加載于孔中,各個孔包含單一的珠子;和-產生焦砩酸信號。11.根據權利要求10的方法,其中,在退火步驟之前,測序接頭連接到加標簽的第一文庫和加標簽的第二文庫或組合文庫中的片段上。12.根據權利要求ll的方法,其中測序接頭攜帶3,-T突出端。13.根據上述任一項權利要求的方法,其中高通量篩選通過如此來進行,即將在步驟h)中設計的探針固定于陣列上,之后將包含探針的陣列與測試文庫在雜交條件下接觸。14.用于鑒定一個或多個多態性的方法,所述方法包括步驟a)提供多個目的核酸樣品;b)對各個樣品進行復雜度降低以提供多個核酸樣品文庫,其中進行復雜度降低,通過-用至少一種限制性核酸內切酶消化各個核酸樣品將其片段化為限制性片段;-用至少一種具有與限制性片段的一個或兩個末端相兼容的一個末端的合成的雙鏈寡核苷酸接頭連接獲得的限制性片段,以產生接頭-連接的限制性片段;-將所述接頭-連接的限制性片段與一個或多個磷酸化的寡核苷酸引物在雜交條件下接觸;和-通過所述一個或多個寡核苷酸引物的延伸來擴增所述接頭-連接的限制性片段,其中所述一個或多個寡核苷酸引物的至少一個包括具有與在所述接頭-連接的限制性片段的末端處的鏈的末端部分的核苷酸序列相同的核苷酸序列,包括參與所述限制性核酸內切酶的目標序列的形成的核苷酸并且包括存在于接頭中的核苷酸的至少一部分,其中,任選地,至少一種所述引物在其3,末端包括經選擇的序列,其包含與參與所述限制性核酸內切酶的目標序列的形成的核苷酸緊鄰的至少一個核苷酸,并且其中接頭和/或引物包含標簽;c)組合所述的文庫為組合文庫;d)將能夠與珠子退火的測序接頭與組合文庫中擴增的接頭-加帽的片段連接,使用攜帶35-T突出端的測序接頭并且使珠子-退火的片段進行乳液聚合;e)對組合文庫的至少一部分測序;f)對比來自步驟e)中獲得的各個樣品的序列;g)確定在步驟f)的對比中的多個核酸樣品間的一個或多個多態性;h)用在步驟g)中確定的所述一個或多個多態性設計檢測探針;i)提供目的測試樣品核酸;j)對目的測試樣品核酸進行步驟b)的復雜度降低以提供測試樣品核酸的測試文庫;k)用在步驟h)中設計的檢測探針高通量篩選測試文庫以鑒定在步驟g)中確定的多態性的存在、不存在或數量。15.權利要求l-ll的方法的用途,其用于篩選富集的微衛星文庫、進行轉錄作譜cDNA-AFLP(數字化Northern)復雜基因組的測序、表達序列標簽文庫的測序(對全部cDNA或cDNA-AFLP)、賴U、RNA發現(小插入片段文庫的測序)、細菌人造染色體(重疊群)的測序、與AFLP/cDM-AFLP組合的分離群體分組分析法、AFLP片段的常規檢測(標記-輔助的回交)。全文摘要本發明涉及用于高通量鑒定單核苷酸多態性的方法,該方法通過對兩個或多個樣本進行復雜度降低以生成兩個或多個文庫,對所述文庫的至少部分進行測序,比對經鑒定的序列并且測定任一假定的單核苷酸多態性,確認任一假定的單核苷酸多態性,產生用于確認單核苷酸多態性的檢測探針,對測試樣品進行相同的復雜度降低以提供測試文庫并用檢測探針篩選該測試文庫,以檢測單核苷酸多態性存在或缺失。文檔編號C12Q1/68GK101641449SQ200680025630公開日2010年2月3日申請日期2006年6月23日優先權日2005年6月23日發明者H·J·A·范德珀爾,M·J·T·范艾克申請人:科因股份有限公司