<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

用于核酸作圖和鑒定核酸的精細結構變化的方法以及用途的制作方法

文檔序號:594901閱讀:804來源:國知局
專利名稱:用于核酸作圖和鑒定核酸的精細結構變化的方法以及用途的制作方法
用于核酸作圖和鑒定核酸的精細結構變化的方法以及用途 相關申請的交叉參考
本申請要求保護基于2006年1月4日申請的美國臨時專 利申請美國序號60/756,417、 2006年4月17日申請的美國臨時專利 申請美國序號60/792,926和2006年6月15日申請的美國臨時專利申 請美國序號60/814,378的優先權。前述臨時申請的完整內容通過引用 結合到本文中。發明領域
—般地講,本發明涉及高通量分析核酸的精細結構變化的 方法。具體地說,本發明涉及產生:連接核酸的標簽對的新策略、載體 和載體組分,其中連接的核酸標簽對的組成成員處于用戶限定的分隔 距離,和/或為沿著靶核酸分子長度分界一個或多個不同限制性內切核 酸酶的鄰近切割位點的核酸位置的標記。發明背景
盡管最豐富且研究最深入的人類基因組變體類型是單核苷 酸多態性(SNP),但日益清楚的是,含有拷貝數(插入、缺失和復制) 改變、倒位、易位和其它序列重排的所謂"精細結構變化"為人類基 因組和其它基因組的整體特征。這些類型的變化似乎以比最初設想高 得多的頻率存在于一般人群中。建立的證據表明,結構變化可在每個 基因組中包含上百萬的核苦酸異質性。理解精細結構變化在基因組進 化、與環境的相互作用、表型多樣性和疾病或疾病易感性中的作用是 當前基因組研究中最活躍的研究領域之一。關于綜述,參見Bailey等 (&,e"ce "7:1001 (2002》,Check (A^w,e W7:1094 (2005》,Cheng等 (M ft^e 437:88 (2Q05》和Feuk等(W加i ev/ews 7:85 (2006), Redon等
豬(2006》。
與SNP分析相比,用于分析精細結構變化的有效高通量方 法還沒有被充分開發。重要的第一步是陣列比較基因組雜交(陣列 CGH)技術(Pinkel等,20:207 (1998); Pinkel等,美國專利第 5,S鄧,"5號和第6,759,6S5號),該技術能夠定量革巴DNA和參比DNA 之間的相對拷貝數。陣列CGH允許以單個排列的細菌人工染色體 (BAC)克隆水平的分辨率可靠地檢測DNA或基因組樣品之間的脫氧 核糖核酸(DNA)拷貝數差異(Pinkel等,7Vaf 20: 207 (1998);Albertson等,淑G匿f 25:144 (2000); Snijders等,胸":263 (2001))。針對cDNA (Heiskanen等,Ca"cw i^s 60:799 (2000); Pollack 等,23:41 (1999》和高密度寡核苷酸陣列平臺(Brennan等, Ca"cer Wm (5(4744 (2004); Lucito等,Ge"ome ":2291 (2003); Bignell等,":287 (2004); Hung等,Hww Ge"om/" /:287 (2004))修改陣列CGH進一步擴展了該方法的分辨率和應用性。通過 其應用,陣列CGH已能夠鑒定與腫瘤(Inazawa等,Ca"cer 7:559 (2004); Pinkel和Albertson, A^Gew" 37增刊:Sll (2005); Pollack等, Proc 爿cad Sc/ [/&4 99:12963 (2002); Albertson和Pinkel, /fwm Mo/ " Spec A^o 2: R145 (2003》和疾病發展(Gonzalez等,Sdewce 307:5714 (2005》相關的基因拷貝數變化。
盡管對拷貝數測定有用,但陣列CGH不適合于解決其它 類型的基因組結構變化,最顯著地,不適于倒位、易位和其它類型的 核酸重排。Tuzun等(A^ 37:727 (2005))嘗試用稱為"fosmid配對末端作圖"的方法解決這些限制。該方法依靠fosmid包裝的頭部滿 裝(head-fiill)機制,產生具有相當均一的約40 kb大小的測試者基因組 插入片段的基因組DNA文庫。隨機選擇的約40 kb文庫插入片段的末 端終止測序產生成對的短序列標簽,其中每個標簽-對標記兩個基因組 位置,這兩個基因組位置沿著靶DNA長度間隔約40kb。然后用計算 機比對標簽-對和參比基因組組裝,在它們的預期方向或它們的約40kb間隔距離方面的任何不一致性都應表明在靶和參比核酸之間跨越 該區域存在至少 一 個結構差異。作圖位置間隔4 0 kb以上的的標簽-對 表示相比于參比在靶DNA上存在缺失;間隔低于40 kb的作圖位置表 示在耙中有DNA插入片段。已作圖的標簽對方向的不一致性表示潛 在的DNA倒位或其它復雜的染色體重排。標簽-對分配給參比序列上 的兩個不同染色體表示染色體易位。Tuzun等(iVW 37:727 (2005》 分析超過1.1><106個fosmid克隆插入片段,能夠在測試者和參比基因 組組裝之間鑒定出接近300個結構變化位置。
盡管fosmid配對末端作圖是鑒定人類基因組中的精細結 構變化的有用開始,但對于每個測試者,都需要巨大的成本和后勤工 作來純化和測序百萬以上的fosmid插入片段末端,這阻礙了其在廣泛 人群和隊列調查中鑒定基因組變化的應用,所述基因組變化可能與復 雜疾病有關或響應于環境因素等。此外,fosmid載體及其變體一般以 非常低的拷貝數在宿主細胞中增殖,使得難以保持可靠的自動化DNA 生產和測序。因此,需要用于基因組和相關研究的有效的、高通量的 且低成本的鑒定精細結構變化的方法,從而將這些遺傳元件與疾病、 疾病發展和疾病易感性聯系起來。本發明提供這些和其它的基本利 益。發明概述
本發明提供篩選和鑒定核酸群的精細結構變化的改進的 高通量方法、載體和載體組分。本發明創造了稱為基因組變化標簽 (GVT)的短并列序列標簽對,其中GVT-對的組成成員處于用戶限定的 間隔距離,和/或為沿著所研究的核酸分子長度分界一個或多個不同限 制性內切核酸酶的鄰近位點的位置的標記。
當用計算機比對GVT-對的單個GVT和參比序列時,在 它們的預期同 一性、間隔距離和/或方向方面與參比序列的任何不一致 性都表示靶和參比核酸之間在GVT-對跨越的區域中存在一個或多個
精細結構差異。以此方式,GVT-對綜合文庫提供了可用于產生高分辨 率結構作圖的基因組分析,以鑒定核酸群之間的精細結構變化。本發 明的另 一方面能使用戶確定和改變以GVT-對做標簽的核酸群上的間 隔距離,使得可以產生GVT-對文庫,這些文庫適合于以不同的空間 分辨率和覆蓋率檢測精細結構變化。本發明的另一方面產生為GVT-對的位置標記,所迷位置緊鄰沿著所研究核酸長度的一個或多個不同 限制性內切核酸酶的鄰近識別位點'對'。本發明的另一方面產生為位置 標記的GVT-對,所述位置緊鄰沿著核酸長度的一個或多個不同限制 性內切核酸酶的鄰近識別位點對,所述標記沿著所研究核酸的長度間 隔用戶限定的距離。本發明的又一方面提供有效寡聚化產生的GVT-對并在優化的載體和宿主系統中穩定增殖所獲寡聚物的方法,以利于 GVT-對的有效的高通量序列測定。
按照本發明,待分析的目標群的DNA凈皮隨機地或在限定 位點被片段化。在某些實施方案中,純化片段化的DNA樣品至預定 大小,該大小限定了設置用于分析的分辨率水平的空間窗。片段化 DNA的末端連接短的合成DNA連接物,該連接物含有合適的粘性突 出端,有利于將連接物所連接的樣品DNA克隆入適宜的載體中。連 接物以某一方向摻入合適的IIS型、IIG型或III型限制性內切核酸酶 (例如Mmel、 NmeAIII、 CstMI、 EcoP15 I、 PstII、 Hpy790545P或 它們的優選功能等效物)的識別位點,使得用前述限制性內切核酸酶消 化帶有插入片段的質粒的文庫以距離每個插入末端有用和限定的距 離切割DNA插入片段,引起間插序列釋放,產生與載體連接的基因 組變異標簽(GVT)對。通過將GVT連接在一起,產生代表原始靶DNA 插入片段的兩個末端區的GVT-對,再環化新的線性化載體-GVT復合 物。將環化重組質粒轉染入宿主細胞中,產生含有各自攜帶GVT-對 的單個質粒克隆的初始GVT-對文庫。擴增初始文庫,用第二個限制 性內切核酸酶消化純化的質粒,該第二個內切核酸酶在GVT對側翼 的位點切割,以將GVT對由質粒載體中釋放出來。純化釋放的GVT-對,寡聚化至適宜的大小,并亞克隆入適宜的載體中,用于寡聚GVT-對的有效的高通量DNA序列測定。當用計算機比對GVT對的單個 GVT序列和參比序列時,在它們的預期同一性、間隔距離或方向方面 與和它們進行比對的參比的任何不一致性都標志著靶和參比核酸之 間在GVT-對跨越的區域中存在一個或多個精細結構差異。因此,相 對于參比序列,多種GVT對的列表序列構成了目標核酸群的詳細基 因組分析。本發明的這些和其它方面在參考以下的詳述時將變得顯而 易見。另外,以下標示了多個參考文獻(包括專利、專利申請和期刊文 章),這些參考文獻通過引用結合到本文中。
本發明提供的有用用途包括但不限于快速建立高分辨率 基因圖,該圖可用于(l)鑒定基因組的精細尺度變化,該精細尺度變 化促成人類多樣性,可引起疾病、'疾'病發展或疾病易感性以及所觀察 到的用作診斷劑或治療干預靶的其它性狀;(2)能設計和建立寡核苷酸 微陣列或其它測定方法,用于快速和大量地平行探詢DNA樣品的精 細結構變化,該變化用于醫學診斷、基因分型和其它這樣的有用用途; (3)有利于由完整基因組或烏槍DNA測序法精確并快速地進行DNA 組裝;(4)鑒定由差異RNA加工產生的RNA轉錄物的精細結構變化, 以幫助基因組注釋、功能基因組研究和潛在疾病診斷;(5)建立基因組 分析,以利于比較基因組和系統發生研究,幫助差異鑒定密切相關的 生物;和(6)建立相關品系、種族、生物型、變體、品種或物種的基因 組分析,以鑒定可能引起任何可觀察到的理論、醫學或商業目標表型 的基因組元件。優選實施方案的詳述
以下方法提供了實施本發明的背景,并擴展和組合了先有 技術的若干方面,以產生所述的并用于所示用途的改進新方法。1. FOSMID配對-末端作圖
Tuzun等(Ato 37:727 (2005》描述了 fosmid配對末端 作圖法,其中短序列標簽對間隔約40 kb,通過對來源于人類fosmid 基因組文庫的約40 kb隨機基因組插入片段進行末端終止測序產生。 在比對標簽-對和參比基因組組裝后,以預期的標記間隔距離和/或方 向與和它們比對的參比序列的不一致性鑒定標簽-對跨越的靶DNA中 的結構變異。Tuzan等概述的方法依靠fosmid包裝,產生在基因組 DNA上間隔距離約40 kb的標簽對(根據試驗,實際上片段在32-48 kb 的范圍內, <平均值的3個標準偏差,39.9 ± 2.76 kb)。作者沒有講述 或公開建立標簽-對、建立不同間距以改變分析的空間分辨率的標簽-對、改善插入片段長度在它們的文庫中的均一性的其它方法,他們也 沒有講述或公開生產其它類型的序列標簽-對的方法,所述其它類型的 .序列標簽-對例如為本發明的那些可基于鄰近內切核酸酶切割位點對 之間的位置和/或間隔距離而分界基因組位置的標簽-對。許多類型的精細結構變化不能由以fosmid配對末端作圖 法固定的約40kb分辨率窗來分辨。Fosmid配對末端作圖具有其它限 制。Fosmid栽體在宿主細胞中以非常低的拷貝數增殖,該特性用于使 某些基因組序列在細菌宿主中增殖的過程中遇到的潛在重組、重排和 其它人為構造最少。盡管目前應用可擴增形式的fosmid載體 (Szybalski,美國專利第5,S74,25P號),但是末端測序fosmid克隆來產 生標簽的經濟性仍非常差,原因在于與常規質粒相比DNA產量低, 使得難以保持高通量的自動化才莫板生產和測序。此外,由單個fosmid DNA才莫板產生標簽-對序列需要兩個單獨的測序反應,由此進一步降 低了經濟性。本發明通過以下幾項克服了這些限制(l)生產GVT-對 的能力,由此可將靶DNA上的標簽-對成員的間隔由50 bp以下工程 至幾百千堿基對以上,以使檢測分辨率適于分析不同類型的核酸和適 于任何給定的實驗設計;(2)標簽-對成員之間明顯更精確和均一的間 隔,用于更高的分析精度;(3)基于除了間隔距離之外的其它標準生產 基因組標簽-對的能力,例如建立基于標簽-對的鄰近內切核酸酶位點 的位置和/或相對間隔距離,用于改善靶核酸樣品的探詢;和(4)寡聚 GVT-對,并將GVT-對寡聚物亞克隆入載體中,載體針對高通量DNA 測序進行了優化,以降低操作成本,由此使本發明可用于廣泛的群體 和隊列研究。2.用于產生基因組標簽的方法
本領域已描述了多種基于DNA的、表征和對比基因組的 指紋圖譜法(Schloter等,M/cn 6,'o/ 2(647, (2000); Kozdroj和van Elsas, / A/z'cT06/0/ Mef/j 43:197, (2001); Bouillard等,Gewome i^es ":1453, (2001); Wimmer等,C7 ra脂so附e51 Ca"cer 33:285, (2002))。所有這些方法都使用靶DNA的限制性消化、PCR擴增或凝 膠電泳分離的某些組合。通常,需要.由用于DNA測序的凝膠提取4夷 選DNA片段嚴重阻礙了這些方法。Dunn等的近期工作取得進步,其 中,他們描述了一種使用IIS型/IIG型限制性內切核酸酶Mme I的方 法,以產生用于分析基因組DNA的"基因組信號標簽"(GST)(Dunn 等,i^yewcA, 72:1756 (2002))。通過將具有Mme I識別位點的 連接物連接至基因組DNA片段產生GST,所述基囚組DNA片段最 初如下產生通過用II型限制性酶初始消化靶DNA, 4妾著用屢次切 割的標簽酶進行第二次消化。用Mme I消化連接物連接的DNA,產 生21 bp的標簽(GST),該標簽在DNA中的位置相對于初始限制性酶 消化識別的位點固定。在通過PC&f增后,寡聚純化的GST,用于 克隆和測序。所述標簽及其相對豐度的鑒定用于建立基因組DNA的 高分辨率"GST序列分析",其可用于鑒定和定量給定的復雜DNA 分離物中的初始基因組。使用鼠疫耶爾森氏菌(yera"/a / e幼力作為沖莫 型系統,Dunn等能夠確定相對簡單的基因組中可經受添加或缺失限 制性位點的改變的區域。然而,Dunn等的方法在復雜的基因組如人 基因組中的用途有限,在復雜的基因組中,許多結構變化不能通過簡 單的獲得或失去所研究的少量限制性內切核酸酶位點來揭示。此外,
對于即便1個限制性位點,跨越大基因組或分析多個樣品所需要的GST的數量也是非常高的。相比于Dunn等的方法,本發明的GVT-對具備經濟性,提供了分析復雜基因組或擴展分析多個DNA樣品的 分析能力。
—種稱為基因表達的連續分析(SAGE)的方法的多種形式 首先由Velculesu等(Sc/ewce 270:484 (1995)和Kinzler等(美國專利第 5,^5,_937號)描述,也使用IIS型或IIG型限制性內切核酸酶來產生 DNA標簽(Saha等,說ofec/mo/ 20:508 (2002); Ng等,MeAod 2:105 (2005); Wei等,Prac A^/爿cadSc/ 7W:11701 (2004》。所謂 的"SAGE標簽"由cDNA模板產生,以提供對生物樣品中的cDNA 種類的復雜性和相對豐度的評價。最新形式的SAGE方法稱為 "LongSAGE",其利用Mme I消化,產生長21bp的標簽,以標記 mRNA轉錄物(Saha等,J5zofec/wo/ 20:508, (2002))。最新的精修稱 為"SuperSAGE",其利用III型限制性內切核酸酶EcoP15 I,產生 26 bp的較長標簽,用于改善mRNA對基因組的分配(Matsumura等, 尸rac A:a"c/ "&4層:15718-15723, (2003》。盡管本發明也利用IIS 型、IIG型或III型限制性內切核酸酶產生序列標簽,但就生產方法和 改善的信息內容而言,產生的本發明的GVT-對與前述SAGE和GST 標簽根本不同。就產生尤其可用于表征新基因組或注釋基因組和DNA 樣品的精細結構變化的高分辨率物理圖譜而言,相對于使用未連接標 簽,使用連接的標簽對提供了顯著的效力和分析能力的改善。
Ng等(A^^fe/2oA 2:105 (2005))的近期工作描述了 SAGE 法的進一步發展。研究者利用Collins和Weissman(尸rociVaf/JcadSd J7&4 S7:6812 (1984))倡導的方法,在該方法中,使用DNA片段環化(也 稱為分子內DNA連接)將遠端DNA區段一起連接入載體中,產生所 謂的"基因組跳躍文庫"(Collins等,5We"ce "5:2046 (1987))。 Ng等 環化單個cDNA,將其5,和3'來源的SAGE標簽連4矣在一起,產生"配 對末端雙標簽"(PET),然后將PET寡聚化,以利于有效測序。通過 鑒定轉錄單元的轉錄起始位點和聚腺苷酸化位點,以確定基因邊界和幫助鑒定它們的側翼調節序列,PET可用于基因組注釋。盡管生產本 發明的GVT-對和通過Ng等的方法生產PET均依靠分子內連接來實 現DNA標記連接,但只有本發明的GVT-對整合了 DNA標記之間的 精確物理距離和其它有用信息,由此使GVT-對可用于詳細的基因組 結構分析。Ng等沒有講述產生限定的空間間隔或其它標準的標簽-對 的方法,他們也沒有描述如何使用他們的方法獲得例如由mRNA加工 或基因組的精細結構變化產生的結構變化。3.多重測序載體
本文使用的術語多重測序載體是指為用于高通量桑格雙 脫氧測序而進行了優化的質粒載體,其具有攜帶兩個或更多個獨立插 入片段的能力,導致由單個模板產生多個測序讀數,由此通過經濟性 使用材料而節約成本。
—般實施的技術是一個質粒載體增殖一個DNA插入片 段。此構型的代表性質粒坤莫板可由DNA插入片段側翼的兩個載體引 物結合位點的每一個產生兩個測序讀數。Mead和Godiska (美國專利 第6,7W,S<57號)描述了 "多重克隆載體",借此將DNA插入片段克 隆入克隆載體的分散位點中,從而允許隨后在單個DNA測序反應中 同時測序插入序列,或者在平行反應沖使用同一才莫板制備物測序插入 序列。
Mead和Godiska描述的多重克隆載體可以pLEXX-AK (Lucigen Corporation, Middleton, WI)商購,其為CLONEPLEXTM文庫 構建系統的主要組分。質粒載體pLEXX-AK作為兩個去磷酸化的平端 載體DNA區段由銷售商提供。每個載體區段都具有單獨的藥物選擇 標記和用于DNA測序的測序引物結合位點對。提升載體系統,以降 低用于高通量測序應用的 是特別適合。原則上,將磷酸化的平端DNA插入片段加入含兩個去 磷酸化pLEXX-AK載體區段的連接反應應產生這樣的構型其中 DNA插入片段連接在兩個栽體區段的每一個之間,以產生功能性環形 分子。在實踐中,實際上產生了復雜背景的連接產物,其中只有少量 產物含有期望的環形分子,由此單個DNA插入片段連接在兩個不同 載體區段之間。盡管兩個載體區段的每一個上的藥物抗性標記都允許 由背景中選擇生產性物質,但系統先天低效,原因是組成載體和插入 片段的無方向的隨機平端連接。大量的輸出DNA插入片段在非生產 性連接事件中擴增,需要相對大量的起始DNA來彌補損失。最關鍵 的是,絕對要求將磷酸化平端DNA插入片段克隆到pLEXX-AK的兩 個位點中為應用設置了嚴重限制,其中原始DNA插入片段的序列連 續性例如對構建用于烏槍法測序的基因組DNA文庫是關鍵。對于該 應用,在文庫構建過程中連接至其它基因組插入片段的任何基因組插 入片段(所謂的嵌合插入片段)會嚴童破壞隨后由序列數據建立的基因 組組裝。此外,盡管研究者要求保護的是他們的方法可被擴展至在載 體上的3個以上分^:位點具有獨立插入片段的載體構建,以進一步增 加效力,但對平端連接的依賴以及為保留每個載體區段而需要多個選 擇標記使該權利要求在實際執行時不切實際。
本發明克服了 Mead和Godiska(美國專利第6,709,SW號) 所述用于構建多重測序載體的方法的前述局限,并提供用于直接組裝 更復雜的DNA分子、載體和載體組分的改進材料、方法和策略,以 促進有效的多重DNA測序和其它應用。具體地說,本發明描述了組 件載體系統,由此單個載體組分位于獨特的IIS型限制酶位點側翼, 產生不對稱粘性末端,以引導有序的載體組件組裝,并以高效間插 DNA元件至任何需要的構型,獲得新功能性。由本發明獲得的質粒 pSLGVT-3是高拷貝數的質粒,為進行高通量DNA測序進行了優化, 并可以攜帶至少兩個獨立插入片段,以能夠由單個才莫板獲得4個獨立 的測序讀數。第二個質粒pSLGVT-2是pSLGVT-3的低拷貝數質粒變
體,其為增殖長DNA區段或在不重排或重組的情況下在微生物宿主 中可能難以增殖的那些插入片段進行了優化。pSLGVT-2和pSLGVT-3 上的兩個獨立的克隆位點利用獨特的非不對稱互補粘性末端組,用于 在兩個克隆位點有序和特異性連接獨立的插入片^R,由此解除對平端 克隆的需要和對磷酸化DNA插入片段的需求,磷酸化DNA插入片段 是在文庫構建過程中產生插入片段嵌合體的主因。來自Mead和 Godiska (美國專利第6,7W,S6/號)的pLEXX-AK的pSLGVT系列-質 粒的另一個分辨性特征是質粒復制子作為正確質粒組裝的生物選擇 的應用,由此降低載體的材料大小,以增加攜帶插入片段大小的能力。 如有需要,pSLGVT載體的組件構建和載體組件之間的不對稱粘性末 端的應用允許快速重構載體系統,以攜帶3個或更多個獨立的DNA 插入片段。1.用于生產GVT-對的核酸的制備和片段化
如本文所述,本發明提供產生高分辨率基因組圖譜的方 法,該圖語可用于表征未知基因組或鑒定耙核酸群和參比序列之間的 精細結構變化。適于分析的靶核酸包括但不限于真核生物和原核生 物的基因組DNA、微生物DNA、質體DNA、質粒和噬菌粒DNA、 病毒DNA和RNA、來源于核糖核酸(RNA)的互補DNA (cDNA),以 及通過體外擴增如尤其通過PCR產生的DNA。用于由前述來源分離 DNA、由RNA合成cDNA和用于擴增核酸的方法是本領域技術人員 已知的。
對于本發明的某些實施方案,GVT-對跨越的基因組距離 決定了分析的分辨率水平。GVT之間的間隔越小,所獲得的用于作圖 和用于檢測靶核酸群的精細結構變化的空間分辨率就越高。大GVT 間隔需要較少的GVT-對,以涵蓋給定復雜性的DNA樣品,但空間分 辨率伴隨下降。對于mRNA加工變體的鑒定,50或100 bp的GVT 間隔提供了足以檢測cDNA群中的大部分可變剪切產物的分辨率水
平。對于人類全基因組勘測,10、 25、 50或lOOkb的GVT間隔在分 辨率和經濟性之間提供了生產力妥協。GVT間隔、檢測不同類型的 DNA結構變化所需要的分辨率水平和涵蓋給定序列復雜性至需要的 深度需要的GVT-對數量之間的功能性折衷可用計算機建才莫,以得到 對給定應用最佳的實驗設計。
如上所述,用于構建GVT-對的靶DNA插入片段的材料 長度控制GVT-對的殘余GVT之間的間隔距離,由此設定用于分析的 分辨率水平。產生和純化接近均一大小的片段化核酸群的方法在本領域已有描述。片段化靶DNA至需要的長度可在用多種限制性內切核 酸酶部分或完全消化的條件下酶促完成。使用具有6個以上石威基對的 識別位點的限制性內切核酸酶對生產更長的DNA片段有用。屢次切 割的II型內切核酸酶如Mbo I、 Hae III等平均每256 bp切割DNA — 次,這些酶在本領域已知通過部分消化生產可變大小的DNA片段。 在放寬的條件下使用限制性內切核酸酶CviJ I于GC 二核普酸位置切 割DNA (Fitzgerald等,A^c/ezc ac/di^s 20:3753 (1992)), il^在部分消 化條件下生產DNA片段大小的有用連續體特別有用。在某些實施方 案中,隨機產生的DNA片段有用。用于隨機生產DNA片段的方法包 括(l)用牛胰腺脫氧核糖核酸核酸酶I (DNA酶I)消化,該酶在鎂離 子存在下在DNA中進行隨機雙鏈切割(Melgar和GoldwaitJ說o/ C&w 2^3:4409 (1968); Heffron等,Prac A^/爿cat/Sc/ [/&4 75:6012 (1978》; (2)物理剪切(Shriefer等,M/c/e/c ac/d i^ 7S:7455 (1990》;和(3)超聲 (Deininger爿"a/ Aoc/7ew /29:216 (1983》。期望長度的隨機片段化DNA 片段還可以通過在cDNA合成過程中使用隨機引物或者通過使用單獨 的或與描述的其它片段化方法組合的PCR產生。
用于部分酶促消化的條件憑經驗確定,改變反應體積、酶 濃度以及酶對底物的比率、溫育時間或溫度的一個或多個參數。對于 需要約5 kb以下的GVT間隔的高分辨率分析,優選非序列依賴性的 片段化方法。牛胰腺DNA酶I在鎂離子存在下在DNA中進行隨機雙
鏈切割(Melgar和Goldwait J Biol Chem 243:4409 (1968); Heffron等, Proc Natl Acad Sci USA 75:6012)),可用于該用途。同樣,還可以使用 通過機械手段如超聲進行的DNA片段化或剪切力的選擇性用途。 HydroShear設備(Genomic Solutions Inc, Ann Arbor, MI)尤其可用于產 生限定大小范圍的隨機DNA片段。還可以通過在cDNA合成過程中 使用隨機引物或通過使用單獨的或與描述的其它片段化方法組合的 PCR產生隨機DNA片段。通過凝膠電泳最容易監測產生期望長度的 產物的片段化的發展。在產生適宜的DNA大小分布后,使用T4DNA 聚合酶修復或制造DNA平端,以準備平端連接GVT-連接物,用于生 產本發明的GVT-對。對于用一種或多種內切核酸酶部分或完全消化 片段化DNA而留下粘性末端的情況,修復不是必需的,但需要設計 GVT-連接物來適應片段化酶產生的粘性末端。因為插入片段與其它插 入片段的連接破壞了靶DNA的共線性,并破壞了基因組圖譜的建立, 所以通過磷酸酶去除插入DNA的5'磷酸基團,以防止插入DNA在與 GVT-連接物連接的過程中與其它插入DNA連接。2.選定大小的DNA的大小分級分離和純化
對于某些實施方案,iit凝膠電泳分級分離去磷酸化的 DNA插入片I殳,并純化,以產生目標大小的DNA插入片段。丙烯酰 胺凝膠最好用于分級分離50 bp至1 kb的DNA。對于約250 bp至20 kb 的片段大小,0.4%至3%瓊脂糖凝膠是適宜的。脈沖場凝膠電泳適于 分級分離約10 kb至幾百kb大小的DNA。這些方法描述于其中的參 考文獻(Rickwood和Hames (編輯),Gel electrophoresis of nucleid acid: A practical approach (Oxford University Press, New York, 1990);Hamelin和Yelle Appl Theor Electrophor 1:225 (1990); Birren和Lai, Pulse field electrophoresis: a practical guide (Academic Press, San Diego: 1993))。 DNA使用與樣品平行電泳的適宜尺寸標志物確定大小,并通 過染色顯現。用手術刀切下含有期望大小的DNA的凝膠切片,其后 通過電洗脫或通過酶促或化學降低凝膠基質由凝膠基質回收DNA。用 于分析的回收DNA片段應接近均一大小。用于最大化分離分辨率的 凝膠系統和電泳條件是本領域已知的。使用兩輪以上的凝膠電泳獲得 更高的樣品大小均一性。大小與平均長度偏差2.5%以上的樣品可能導 致對本發明使用不可接受的噪音。3. GVT-連接物的設計和與靶DNA的連接
本領域技術人員會認識到,存在多種適用于本發明的 GVT-連接物設計。總之,適宜的GVT-連接物包含以下材料特性(1) 不等長度的5,磷酸化寡核苷酸的短上鏈(top strand)和短下鏈(bottom strand),其能夠穩定互補堿基配對;產生雙鏈結構;(2) GVT-連接物 的一條鏈具有短非回文單鏈突出,其可與具有互補序列的載體連4^; (3)另一連接物末端具有平端結構或其它適宜的末端結構,使得能夠與 去磷酸化的輩巴DNA片段有效連接;(4)位于靶DNA側翼的連接物末 端帶有適宜的IIS型、IIG型或m型限制性內切核酸酶識別位點,其 方向使得該位點引導在耙DNA上以固定和有用的距離切割,以產生 GVT;和(5)鄰近的或重疊的IIS型、IIG型或III型酶識別位點是第二 個限制性內切核酸酶位點,用于由載體切下產生的GVT-對。適宜的 GVT連接物的說明性實例如下所示(實施例1-4)。實施例1:用于平端連接去磷酸化靶DNA的GVT(MmeI)-連接物。 5,-pGACACAGAGGA TCCAAC (Seq ED No: 1)GTCTCCTAGGTTGp-5' (Seq ID No: 2) Mme I
說明性實施例1 (Seq ID No l)的序列5,pGACA-3,為粘性 末端,用于將連接物連接的DNA插入片段亞克隆入具有一對突出的 5'-TGTC-3,序列的載體中。粘性末端是非回文的,以防止形成連接物 二聚體和帶有連接的連接物的DNA多聚體,并防止產生沒有插入片 段的載體。Seq ID No 1的5,-CAGAGGA-3,序列及其在Seq ID No 2 的反向互補物5'-TCCTCTG-3'描述了能夠穩定互補磁羞配對以幫助 形成功能性雙鏈連接物的短序列。Seq ID No 1的5,-TCCAAC-3 '序列 及其Seq ID No 2的反向互補物5'-GTTGGA-3'為IIS型內切核酸酶 Mme I的識別位點(Boyd等,M/c/e,W Am 7(5255 (1986))。 Mme I 切割其5'-TCCAAC-3,識別位點下游('即為5,至3'方向)20 bp的DNA 和在相對鏈上其反向互補物上游(即為3,至5'方向)18 bp的DNA,以 產生具有2bp的突出3'突出端的20bp GVT。與Mme I識別位點重疊 的是BamH I的識別位點5,-GGATTC-3,。 BamH I切割用于由載體釋 放產生的GVT-對。BamHI位點重疊MmeI位點,以便最小化外來的 連接物序列,使寡聚化GVT-對序列測定過程中的經濟性更強。為在 其它連接物設計中獲得相同末端,重疊的BspT I位點可用于切除通過 CstMI消化產生的GVT-對。同樣,Kasl可用于切除通過用NmeAIII 消化產生的GVT-對。實施例2: GVT (Mme I)-連接物連接Xba I消化的去磷酸化耙DNA。 5,-pGACACAGAGGA TCCAAG (Seq ID No: 1)GTCTCCTGGTTGGATCp-5,(Seq ID No: 3) Mme I說明性實施例2的GVT (Mme I)-連接物的顯著特征與說明性實 施例1的連接物特征相同,額外摻入5,-pCTAG-3,突出端(Seq ID No 3),以引導連接物與Xba I消化的去磷酸化靶DNA片段連接。本領域 技術人員會認識到,實施例2的連接物只是一個變體。存在通過摻入 適宜的突出端產生的其它功能性連接物變體,這些變體與用其它限制 性內切核酸酶消化的靶DNA連接,以適于不同的實驗設計。實施例3:用于平端連接去;壽酸化靶DNA的GVT (EcoP15 I)-連接物。 5'-pGACACAGACTGCAGCAG (Seq ID No: 4)GTCTGACGTCGTCp-5' (Seq ID No: 5)EcoP15I
實施例4:用于粘性末端連接用Xba I消化的去磷酸化靶DNA的 GVT(EcoP15I)-連接物。5'-pGACACAGACTG CAGCAG (Seq ED No: 4)GTCTGACGTCGTCGATCp畫5' (Seq ID No: 6) EcoP15 I說明性實施例3和4描述了使用III型限制性內切核酸酶EcoP15 I產生27 bp GVT的連接物設計。用于切除GVT-對的Pst I的限制性 內切核酸酶位點(5,-CTGCAG-3,)重疊EcoP15I位點(5,-CAGCAG-3')。 Pstl位點與EcoP15 I位點重疊使GVT-對中的外來連接物序列最小, 使測序過程中的經濟性更強。說明性實施例4的連接物摻入Xba I粘 性末端,以引導連接物與Xba I消化的去磷酸化靶DNA片段連接。本 領域技術人員會認識到,實施例4的連接物僅是一個變體。存在通過 摻入適宜的突出端產生的其它功能性連接物變體,這些變體與用其它 限制性內切核酸酶消化的耙DNA連接,以適于不同的實驗i殳計。
說明性實施例1和2的說明性GVT-連接物通過用Mme I 消化可以產生18 bp或20 bp的長GVT。用T4 DNA聚合酶去除由Mme I切割產生的3,-突出端,之后平端連接所連接的GVT,產生36bp的 GVT-對,此時產生18 bp的GVT。使用具有16倍變性5,-突出端(與 由Mme I消化產生的所有可能的2堿基3'突出端相適)的連接物將 GVT連接在一起,產生GVT-對,此時產生20bp的GVT。與Mme I 相比,EcoP15I切割產生2bp的3,凹缺末端,該末端由DNA聚合酶 延伸,以產生27 bp的平端GVT,通過平端連接由該平端GVT產生 54 bp的GVT對。
識別不間斷的核苦酸序列并切割距其識別位點至少10個 堿基距離的任何IIS型或IIG型限制性內切核酸酶均適用于產生GVT。 這些酶包括BceAI、 Bpml、 BpuEI、 Bsgl、 BsmF I、 BstVU、 Eco57 I、 Eco57MI、 Gsul、 CstM I、 NmeA III和Mme I。其中,本發明優 選使用Mme I 、 NmeA III或CstM I,因為它們的切割位點在迄今為止描述的IIS型內切核酸酶中距離其DNA識別位點最遠,由此產生最長 長度的GVT。預期在以后將發現距離其識別位點具有更長的限定切割 距離的其它IIS型或IIG型內切核酸酶,本發明可使用這些酶。關于 IIS型和IIG型限制性內切核酸酶的綜述,參見Sistla和Rao (OWca/ B/oc/^ot 39:1, (2004))禾口 Bujnick (Zcto 5z'oc/n'm/ccr尸o/om'ca 銀935, (2001》。
最初將m型限制性內切核酸酶描述為需要兩個反向的不 對稱識別位點,體內切割發生在隨機選定的兩對反向識別位點中的僅—對的遠端。關于綜述,參見Sistla和Rao, 07'"'ca/ Aev說oc/zem 39:1, (2004))和Bujnick (」cto說0c/2/mZca Po/omca 48:935, (2001))。這些 特性對本發明沒用。然而,表征原型m型酶EcoP15 I表明,重組或 純化的天然酶在鉀離子存在下以2倍至3倍高的濃度使用時能夠在體 外于單個位點混雜切割(Mucke等,說o/ 3/2:287, (2001); Peakman 等,《/A/o/ 6/0/ 333:321, (2003); R^gl^avendra和Rao, A^c/e/d ac/d i &y 32:5703, (2004); Sistla和Rao, Ov"ca/ 傷0c/2ew說o/ 39:1, (2004))。 開發EcoP15 I的該新描述的特性,以由cDNA生產SAGE標簽 (Matsumura等,尸rac4cadM^/ [/&4 ^0:15718, (2003》。EcoP15 I 酶可商購(New England Biolabs, Ipswich, MA),本發明使用其生產27 bp的GVT和隨后的54 bp的GVT-對。本發明可^f吏用在距其識別位點 有用的距離切割DNA的其它III型內切核酸酶。
本領域技術人員已知用于連接連接物與DNA插入片段和 用于核酸分子的通用連接的方法。參見例如Ausubel等,(編輯),幼oW 尸ratoco/s M /ecw/or說o/ogy,第3版,(John Wiley & Sons 1995)。 用 于將連接物與DNA插入片段平端連接的典型連接條件需要對耙DNA 約50至500倍摩爾過量的連接物、高T4連接酶濃度或包含諸如聚乙 二醇的體積排阻劑(Pheiffer和Zimmerman, A^c/ezd //:7853 (1983); Zimmerman和Pheiffer, _Proc 爿cad"&4 S(9:5852 (1983); Harrison和Zimmerman,她c/e/d a"'<i i es 72:8235 (1984); Hayahi等, M/c/eWadd"^ /(7617 (1986》。連接物與粘性末端耙DNA的連接需 要約5倍摩爾過量。使連接GVT-連接物的DNA插入片段通過 ChromoSpin柱(Clontech, Mountain View, CA),以去除過量的連4矣物, 然后通過凝膠電泳純化和選擇大小。為通過分子內連接產生GVT-對, 將純化的產物連接入下述幾種質粒載體中的一種。4.用于GVT-對產生的栽體構建體
本發明的一個方面提供生產克隆載體的通用方法,所述方法通過用ns型、nG型或m型內切'核酸酶消化插入片段,接著進行分子內連接,能夠產生GVT-對。使用含有下述材料特征的GVT-DNA 克隆表達盒,通過將表達盒連接入適宜的位點,修飾既有克隆載體。實施例5: GVT-DNA克隆表達盒的說明性實例5' AATTGGACAA (GAGACG)GAATAT(TCTAGA)ACGATA(CGTCTC)CTGTCC Seq ID:7CCTGTT (CTCTGC) CGTATA (AGATCT)TGCTAT (GCAGAG)GACAGGTTAA5' Seq ID:8 EcoRI Esp31 Xbal Esp31 EcoRI
GVT-DNA表達盒由兩個互補寡核苷酸(Seq ID No 7和Seq IDNo8)合成生產,這兩個互補寡核苦酸退火形成雙鏈結構,該雙鏈 結構具有適于連接入既有載體中的末端粘性末端。作為說明性實例, 以上的DNA表達盒顯示出具有EcoR I的突出粘性末端,用于置換 pSMART VC或pSMART-cDNA的多克隆位點區(Lucigen, Middleton, WI),以使這些質粒載體能夠產生GVT-對連同先前描述的連接GVT-連接物的靶DNA。 DNA克隆表達盒的材料特征為反向的IIS型或IIG 型內切核酸酶位點對;在說明性實施例中的Esp3 I。用Esp3 I消化修 飾載體在載體上產生一對非回文突出端(5'-TGTC-3'),該突出端特異 性連接互補突出端(5'-GACA-3'),該互補突出端由GVT-連接物連接 的靶DNA插入片段伸出。載體和插入片段突出端的非旋轉對稱性基 本上消除了沒有插入片段的質粒和帶有多個拷貝的連接物連接的靶 DNA的質粒的產生,這些質粒會損害靶DNA插入片段的共線性和隨 后的基因組分析的建立。DNA表達盒還摻入限制性內切核酸酶位點 Xbal,其位于反向的Esp3I位點對之間。在XbaI位點克隆的適宜大 小的"填充DNA"片段能夠監測載體制備過程中的Esp3 I消化。選 擇填充DNA片段的長度,使得可容易地通過凝膠電泳分離Esp3 I單 一消化的、雙重消化的和未消化的載體物質,僅純化雙重消化的片賴 待用。
本領域技術人員會認識到,如同先前描述的適宜的GVT-連接物的實施例一樣,上述DNA克隆表達盒僅是多種功能等效設計 中的一個。例如,DNA表達盒中的Esp3 I位點可;f皮其它IIS型或IIG 型內切核酸酶的Esp3 I位點取代,其中DNA切割遠離連續的識別位 點。適宜的IIS型或IIG型酶包括Alwl、 Alw261、 AsuHPI、 Bbvl、 Bccl、 BseGI、 BseMiI、 BsmAI、 BsmF I、 BsoMAI、 BspCNI、 BspM I、 BspPI、 BspTNI、 BstF5 1、 BstVl I、 Faul、 Fokl、 Hgal、 Hphl、 Lwel、 Plel、 Ppsl、 Sfal、 SmuL TspDTI、 TspGWI、 Bbsl、 BciV I、 Bfil、 Bfii,I、 Bmrl、 Bpil、 Bpml、 BpuAI、 BpuEI、 Bsal、 Bse3D I、 BseMI、 BseRI、 BseXI、 Bsgl、 BsmF I、 Bso31 I、 BsrDI、 Eco31 I、 Esp3 1、 BstV21、 Bvel、 Eaml1041、 Ecil、 Eco57 I、 Eco57M I、 Faql、 Gsul、 Ksp6321、 CstMI、 Mmel、 NmeAIII、 TaqII、 Sapl、 它們的同切點酶和Szybalski等(Ge"e 7卵:13 (1991))描述的其它實例。 優選的酶具有6個磁羞對或更長的識別位點,(例如BspM I、 Eco31 I、 Esp31、 Sapl及其同切點酶),因為這些酶的位點不大可能存在于載體 骨架中,降低了在載體構建過程中進行定點誘變以消除這些位點的需 要。對本領域技術人員還顯而易見的是,可改變通過前述酶產生的粘 性末端的精確序列,只要它們可與它們預期的連接配偶體形成功能性 和特異性的堿基對。DNA表達盒上^末端結構可被修飾,以使表達盒 適于連接入先存載體上的期望位點或連接至分離的載體組分,產生本 發明可以使用的新載體。
在宿主細胞中穩定增殖DNA區段的能力對基因組分析是 非常重要的。含有富AT或GC區、重復序列、發夾、強啟動子、毒
性基因和其它問題序列的DNA區段在宿主細胞中增殖時的重排或丟 失是精細基因組變化研究的重要考慮因素。DNA重排和其它克隆人為 構造可^皮錯認為是耙核酸的結構變化。而且,克隆偏好可限制插入片 段的大小,并可能未足夠地反映所研究基因組的重要區域。最近通過 用條件擴增系統開發fosmid和BAC載體解決了該問題(Szybalski,美 國專利第5,S7《25P號),其中DNA的增殖保持在每個宿主細月包1-2個 拷貝,直至為進行分析而被誘導至較高水平。報告了 15kb至100kb 以上的基因組插入片段的改善的穩定性,條件化擴增載體現在常規用 于基因組研究。條件化擴增fosmid/BAC載體,如pCClFOS (Epicentre, Madison, WI)和pSMART VC (Lucigen, Middleton, WI)以及它們的變 體,適用于10kb至200kbGVT-間隔的GST-對生產。然而,常規低 拷貝質粒載體的使用似乎足以穩定維持大DNA片段,而不需要BAC、 PAC或fosmid型栽體(Feng等,說orec/mz々w^ 32:992, (2002); Tao和 Zhang, A^c/e^ac^^M 26:4901, (1998》。pSMART系列載體提供低拷 貝數增殖,并具有在載體上具有轉錄終止子的額外特征,以降低轉錄 干擾的潛在作用,這可能進一步改善DNA穩定性(Mead和Godiska,美 國專利第6,709,861號)。對于50 bp至10 kb以上GVT-間隔的GVT-對生產,多種已建立并廣泛使用的低拷貝質粒型載體適于進行修飾, 以生產GVT-對,這些載體包括pBR322 (Bolivar等,2:95, (1977)) 和pACYC177 (Chang和Cohen, /Ba"mo/ "4:1141, (1978))。
通過將GVT-DNA表達盒于合適的克隆位點插入合適的 載體骨架中生產用于GVT-對生產的載體。用于連接核酸分子的通用 方法是本領域技術人員已知的。參見例如Ausubel等(編輯),幼wt 尸rotoco/s Z" A/o/ecw/ar S/o/ogy,第3片反,(John Wiley & Sons, New York, 1995)。為了使用,必須使載體骨架沒有以下幾類酶的識別位點(l)II 型、IIS型或IIG型限制性內切核酸酶,這些酶用于產生DNA克隆表 達盒上的粘性末端,這些末端用于定向克隆靶DNA或連4妄物連4矣的 輩巴DNA; (2)1IS型、IIG型或III型內切核酸酶,這些酶用于由克隆的耙DNA插入片段產生GVT;和(3)用于切除質粒中新產生的GVT-對 的酶。對于GVT-DNA表達盒和GVT-連接物的說明性實例,載體骨 架需要沒有Esp3 I、 Eco31 I、 CstM I、 Mme I、 NmeA III、 Pst II、 EcoP15 I、 BamHI、 Pstl、 BspT I或Kas I位點的特定組合,實際需要取決于 所用GVT-DNA表達盒和連接物的精確構型。如有需要,可通過4吏用 標準方法的定點誘變使載體骨架沒有前述那些位點。參見例如 McPherson (編輯),D^cfed m虛gewe愈X / rac"ca/ ap/ raac/2 (Oxford University Press, New York, 1991)和Lok(美國專利第6,730,500號)。通 常,可通過單堿基對變化改變大部分載體DNA,以消除不需要的限制 性內切核酸酶識別位點,而對載體功能性沒有不適當影響。在蛋白編 碼序列中,將單核苷酸變化靶向密瑪子搖擺位置,以保持天然蛋白編 碼。在載體骨架上的它處實施的改變應需要在使用前進行功能驗證。5. GVT-對生產載體pSLGVT-l和t)SLGVT-2
本發明的質粒pSLGVT-l和pSLGVT-2分別是專門設計用 于使用Mme I或EcoP15 I生產GVT和GVT-對的優化通用載體。 pSLGVT-l和pSLGVT-2也沒有CstM I和NmeA III位點,可用于按 照本發明的方法使用這兩種酶生產GVT和GVT-對。基礎載體含有兩 種化學合成的DNA組件,以分別提供藥物選擇和質粒復制的基本維 持功能。連接兩個DNA組件產生的環形分子為DNA表達盒,其為基 礎質粒骨架提供特定實用功能。載體組件帶有末端獨特的IIS型限制 性內切核酸酶位點,其產生獨特的不對稱粘性末端,以允"i午在以后快 速重構載體組分,從而加入或取代針'對新功能的組件或DNA表達盒。
第一個載體組件含有修飾的P15A復制起點。帶有P15A 復制子的質粒以每個宿主細胞約15個拷貝的低數目增殖(Sambrook等: A^o/ecw/ar C7owz力g: X丄(36orato 7 A/awwa/,第2版,CSH Laboratory Press, Cold Spring Harbor, NY, (1989》,由此優化克隆的基因組插入片 段的穩定性。相比之下,高拷貝數質粒,例如pUC或pBluescript,可達到每個細胞幾千個拷貝。P15A復制子中的兩個Mme I位點各自通 過單核苷酸改變而被消除,產生用于構建質粒pSLGVT-l的"P15A-m 復制子組件,,。預期這兩個位點的突變不改變二級結構或調節質^1=立復 制所需的RNA II或RNA I的轉錄。以相同方式消除在P15A復制子 中的單EcoP15 I位點,以產生用于構建質粒pSLGVT-2的"P15A-e 組件"。兩種形式的pl5A組件在所述組件的RNAII啟動子末端側4妄 獨特的BpiI位點,產生5, GTGA-突出端,以利于DNA表達盒的連 接。出于相同目的,復制組件的復制叉末端側接Faq I位點,產生5, TCTC-突出端。
第二個載體組件包含來自轉座子Tn903的修飾形式的Kan 基因,該基因賦予針對抗生素卡那霉素的抗性(Grindley等,Prac iVaf/ 爿o^Scz' V&4 77:7176, (1980)),利用搖擺位置并無論何時都盡可能與 大腸桿菌中的優化密碼子選擇一致,去除Kan基因編碼區中的4個 Mme I位點連同2個Nci I和Nsi I位點以及針對Esp3 I、Pst II和Hind III的單個位點,以產生"Kan組件"。Kan組件在組件的Kan啟動子 末端側接獨特的Sap I位點,產生:5,,TTG-突出端,用于DNA表達盒 連接。在Kan組件的另一端的獨特BspMI產生5, ACTG-突出端,用 于相同目的。 一般公認,卡那霉素藥物選擇為維持帶有特別長的和/ 或難的插入片段的質粒提供最佳穩定性,在許多情況下,其應用還會 允許在液體培養物中有限但便利的擴增質粒文庫,而沒有可使質粒文 庫的組成失真的不適當克隆選擇。
pSLGVT系列質粒的核心組分是兩個DNA克隆表達盒, 其提供特定插入片段克隆功能性,用于將Kan組件和復制子組件連接 在一起,產生環形質粒。質粒pSLGVT-l、 -2和-3具有通用結構,該 結構在順時針方向的環形圖上包含以下材料特征(l)復制子組件;(2) DNA克隆表達盒1; (S)Kan組件;和(4) DNA克隆表達盒2。 Kan基 因的質粒復制和轉錄以順時針方向進行。以下顯示了 DNA克隆表達 盒1和2的結構
實施例6: DNA克隆表達盒1和2 DNA克隆表達盒1Esp3 I Xba I Esp3 IDNA克隆表達盒2Eco31I Sail Eeo311T7測序引物5,畫TAA TAC GAC TCA CTA TAG GG-3, T3測序引物5,-ATTAACCCTCACTAA AGG GA-3, M13 F測序引物5,-CAC GAC GTT GTA AAA CGA C-3, M13 R測序引物5'誦GGA TAA CAA TTT CAC ACA GG醫3,
DNA克隆表達盒1由兩個化學合成的互補寡核苷酸產生, 這兩個寡核苷酸退火形成雙鏈結構,具有兩個末端不對稱的5'突出粘 性末端5'-GAGA-3,和5,-AAC-3,,用于將表達盒分別定向連接至復制 子組件(P15A-m或P15-e)的5,-TCTC-3,突出端和Kan組件的5,-GTT-3, 突出端。顯示了 DNA克隆表達盒1和2上針對T7、 T3、 M13正向和 M13反向測序引物的結合位點。本領域技術人員會知曉,其它測序引 物結合位點也適用于本發明。DNA克隆表達盒1上的反向Esp3 I位 點對在載體上產生5,-TGTC-3,突出端對,以接受連接GVT-連接物的 耙DNA,以便生產GVT-對產物。Xba I位點位于Esp3 I位點組之間, 用于克隆填充DNA片段,以在制備載體時幫助監測Esp3 I消化進展, 以接受連接GVT-連接物的靶DNA。 Esp3 I位點側翼是T7和T3測序 引物的引物結合位點。這些引物位點用于測序部分靶DNA插入片段, 以便對文庫構建進行質量控制。如本文公開內容的以下和以后章節所 述,pSLGVT-質粒系列的變體pSLGVT-3利用這些引物位點對寡聚化 的GVT-對進行高通量的多重DNA測序。
DNA克隆表達盒2由兩個化學合成的互補寡核苷酸產生, 這兩個寡核苷酸退火形成雙鏈結構,具有兩個末端不對稱5'突出粘性
末端5,-GAGT-3,和5,-TCAC-3,,用于將表達盒分別定向連接至Kan 組件的5,-ACTC-3,突出端和復制子組件(P15A-m或P15-e)的 5,-GTGA-3,突出端。DNA克隆表達盒2上的反向Eco31 I位點對在載 體上產生5,-TCAG-3,突出端對,并提供可替代位點,以接受連接GVT-連接物的靶DNA,以便生產GVT-對。Sal I位點位于Eco31 I位點組 之間,用于克隆填充DNA片段,以在制備載體時幫助監測Eco31 I 消化進展,以接受耙DNA。 Eco31 I位點側翼是M13正向和M13反 向測序引物的引物結合位點。這些引物位點用于測序部分耙DNA插 入片段,以便對文庫構建進行質量控制。如以下和本文公開內容的以 后章節所述,pSLGVT-質粒系列的變體pSLGVT-3利用這些引物位點 對寡聚化的GVT-對進行高通量的多重DNA測序。
質粒pSLGVT-l通過兩步連接策略構建。P15A-m復制子 組件與DNA克隆表達盒1溫育。在單獨的連接反應中,Kan組件與 DNA克隆表達盒2溫育。在l小時溫育后,合并兩個連接反應,以組 裝需要的環形產物。質粒pSLGVTV2i通過類似方式生產,但在初始連 接反應中用P15A-e復制子組件取代P15A-m復制子組件。
構建pSLGVT系列質粒的替代途徑是通過化學合成,借 此由一系列化學合成的寡核苷酸組裝質粒。
本發明的質粒pSLGVT-3代表用于有效構建多重DNA測 序載體家族的新方法,所述載體用于測序寡聚的GVT-對和其它DNA 區段。通過用含有來源于pUC質粒的復制子的那些位點終止的片段替 代pSLGVT-2的Bpi I-Fag I片段上的P15A復制子組件,構建質粒 pSLGVT-3。 pUC復制子來源于低拷貝數的Co正l復制子,其中在與 缺失rop調節物組合的中的單堿基突變導致質粒拷貝數由每個細 胞約20個拷貝增加至超過1000個拷貝(Vieira和Messing, 79:259, (1982))。高拷貝數的pSLGVT-3應有利于寡聚化GVT-對的高通量 DNA測序的模板制備。顯著特征'li烏pSLGVT-3為位于DNA表達盒 1和2中的前述反向IIS型限制性酶位點對。用Esp3 I和Eco31 I消化pSLOVT-3產生兩個DNA載體區段,其具有不對稱粘性末端,用于2 個獨立的寡聚GVT-對區段組的靶向和定向的連接,這允許由存在于 DNA表達盒1和2中的4個引物結合位點的每一個獲得4個獨立的測 序讀數。常規測序載體通常攜帶1個插入片段,并可以支持僅2個測 序讀數。6. GVT-對生產
本文使用的fosmid、 BAC和其它游離型元件凈皮統稱為質 粒,以下描述的用于產生GVT-對的方法基于先前描述的GVT-DNA 表達盒和GVT-連接物的說明性實施例。在某些實施方案中,通過機 械或酶促方法隨機片段化用于生產GVT-對的靶DNA,產生需要大小 的片段,用于GVT-對生產。在其它實施方案中,以單獨的反應或與 在特定位點切割靶DNA組合,用一種或多種限制性內切核酸酶完全 消化靶DNA,產生DNA片段群,用于生產如本文7>開內容所述的 GVT-對。對于用產生粘性末端的酶消化的靶DNA,可直接將去磷酸 化的插入片段DNA克隆入適當修飾的載體的IIS型或IIG型位點對之 間的位點,無需連接物。在又一個實施方案中,用一種或多種限制性 內切核酸酶完全消化靶DNA,并分級分離至需要的大小,用于生產 GVT-對。
使用T4DNA聚合酶修復用于生產GVT的、具有"不齊" 末端的靶DNA,并去磷酸化,以防i在插入片段與GVT-連接物連接 的過程中出現插入片段的自連接。同樣,帶有粘性末端的靶DNA被 去磷酸化,之后與帶有互補末端的適宜GVT-連接物連接。使連4秦 GVT畫連4妻物的DNA通過適宜的Chroma Spin柱(Clontech, Mountain View,CA),以去除未連接的連接物,之后將連接連接物的靶DNA連 接至GVT生產載體。在某些實施方案中,通過凝膠電泳或其它方法 選擇為期望長度的靶DNA大小,之后將插入片段與GVT-連接物連接, 隨后連接入GVT-生產載體,例如在本發明中描述的pSLGVT-1和pSLGVT畫2。
針對在一定片段長度范圍內的DNA區段,已描述了用于 優化載體與插入片段的分子間連接繼之以分子內連接以產生環形分 子的連接條件(Wang和Davidson, JMo/說o/ /9:469 (1966); Dugaiczyk 等,《/Mo/說o/ 96:171 (1975); Collins和Weissman,爿cad Sc,' L/S4 W:6812 (1984))。用于連#~核酸分子、轉染入宿主細胞中和構建 基于質粒的文庫的通用方法是本領域技術人員已知的。參見例如 Sambrook等,Mo/ecw/ar C7om力g:爿/a6orato^y畫咖a/第2版,(CSH press, New York, 1989); Ausubel等(編輯),幼oW /Votoco/s Zw Mo/ecw/ar 祝o/ogy,第3版,(John Wiley & Sons, New York 1995); Birren等,m朋wa/ (CSH Press, New York, 1999)。通過電穿孔或轉染將連接的 DNA導入宿主細胞中。甲基化的靶DNA的增殖需要具有失活的wct 和mrr等位基因的宿主細胞菌林,戶;f述甲基化的靶DNA例如為基因 組DNA或cDNA,通過某些利用曱基化核苷酸類似物的方法合成。 適宜的宿主菌4朱包括川G (Lucigen, Middleton, WI); Mi 和^YL25/we MKF' (Stmtagene, La Jolla, CA)。將電穿孔或轉染的細胞以約 20,000個菌落/板的密度鋪板在處于適宜藥物選擇下的10 cm直徑瓊脂 板上,以產生初始文庫。替代方法是在液體培養基中培養轉染細胞, 同時小心使細胞不過度生長,從而促進克隆選擇。處于培養中的克隆 總數應反映出研究設計所需要的GVT-對數。收獲細胞,并分離質粒, 用于下述的后續步驟。
作為通用步驟,用MmeI、 CstMI、 NmeA III或EcoP15 I (New England Biolabs, Ipswich, MA)消化帶有靶DNA插入片段的純化 質粒,以產生符合實驗設計的GVT。新產生的GVT的末端用T4DNA 聚合酶修復,以使消化的末端平端。通過凝膠電泳將連接新產生的 GVT的線性化質粒與切離的間插插入片段殘余部分純化開來,純化的 產物通過平端連接環化,產生初始GVT-對文庫。用于再環化質粒的
替代方法避免了對DNA末端修復的需要,利用攜帶所有16倍雙^5tt 對變性的3,-突出端或5'-突出端的連接物,所述突出端分別通過Mme I、 CstM I、 NmeA III或EcoP15 I消化產生。所述方法應將通過Mme I 消化產生的GVT長度由18 bp增加至20 bp,但不應增加EcoP15 I產 生的GVT長度,因為EcoP15 I消化產生2bp的3'-凹缺末端,該凹缺 末端在修復過程中被T4 DNA聚合酶補平,之后質粒再環化,產生 GVT-對。使用連接物再環化質粒舍嶒加所獲的具有外來序列的GVT-對的總體單位長度,對寡聚GVT-對的測序經濟性產生負面影響。
將環化質粒導入到宿主細胞中,并以約20,000個菌落/10 cm板的密度鋪板,或在液體培養基中在選擇下培養,以產生初始GVT-對文庫。用切割GVT-對兩側的酶消化初始GVT-對文庫的純化質粒, 以將GVT-對切離質粒。在用于文庫構建的GVT-連接物的說明性實施 例中,分別使用BamH I或Pst I由Mme I或EcoP15 I產生的GVT-對 文庫中切下GVT-對。使用類似的連接物設計,酶BspT I或Kas I分 別可用于由CstMI或NmeA III產生的GVT對文庫中切下GVT-對。 以下顯示了通過Mme I或EcoP15 I消化后平端末端連接產生的切離 GVT-對的一般性結構實施例7:通過Mme I消化、分子^連接和經BamH I消化切除產生 的GVT-對單體的結構5,pGATCCAAC-麵-薩畫GTTGGTTG-18N畫18N國CAACCTAGpMme I Mme I"18N-麵"代表GVT隱對的2個并列的18 bp GVT,由用Mme I 消化的靶DNA產生。單體上的Mme I識別位點對標以下劃線。余下 的52bp單體部分,包括標有下劃線的Mmel位點,包^it用"構架"。 52 bp的GVT-對單體在5%聚丙烯酰胺凝膠上通過電泳分離,并純化 和寡聚化,用于測序。
實施例8: EcoP15 I消化、分子內連'接 經Pstl消化切除產生的GVT-對單體的結構5' pGCAG-27N國27N-CTGCTGCA ACGTCGTC-27N曙27N畫GACGp 5'EcoP15 1 EcoP15 1"27N-27N"代表GVT-對的2個并列的27 bp GVT,由用EcoP15 I消化的把DNA產生。單體上的EcoP15I識別位點對標以下劃線。余 下的70bp單體部分,包括標有下劃線的EcoP15I位點,包含通用"構 架"。70 bp GVT-對單體在5%聚丙烯酰胺凝膠上通過電泳分離,并 純化和寡聚化,用于測序。7.用于有效DNA測序的寡聚化GVT-對單體的產生
為經濟性使用DNA測序資源,DNA序列標簽通常被寡聚 化,并作為延長的寡聚物克隆入序列載體中。本發明提供有效的方法 來產生DNA標簽的寡聚物,并將寡聚化的DNA區段組裝成改進的測 序載體。通常,構建具有末端攜帶對稱粘性末端(例如在所示實施例中 的BamHI或PstI)的DNA序列標簽單體。然而,通常用于生產和克 隆寡聚化序列標簽單體的方法先天低效,原因是在寡聚反應當中和插 入片段連接入載體的過程中產生非生產性的環形產物。如本文所述, 以下概述了生產和克隆寡聚序列標簽的新的和優選的方法。改進的方 法利用"啟動連接物",其可啟動單體的寡聚化,并允許將寡聚產物 克隆入載體中,但同時防止寡聚DNA環化。以下顯示了適宜的啟動 連接物的4個說明性實施例實施例9:用于BamH I寡聚物的啟動連4妄物GACA-Bam 5, pGACACACGTGCTAGTCCGGTGCACGATCAGGCCTAG曙5'實施例10:用于Pst I寡聚物的啟動連接物GACA-Pst
5, pGACACACGTGCTAGTCCCTGCA GTGCACGATCAGGG-5,實例ll:用于BamHI寡聚物的啟動連接物CTGA-Bam 5, pCTGACACGTGCTAGTCCGGTGCACGATCAGGCCTAG誦5,實施例12:用于Pst I寡聚物的啟動連接物CTGA-Pst:5, pCTGACACGTGCTAGTCCCTGCA GTGCACGATCAGGG畫5,
啟動連接物由2個化學合成的互補寡核苦酸產生,這2個 寡核苦酸退火形成說明性的雙鏈連接物。在一個末端,連接物具有回 文粘性互補末端,用于連接BamHI或PstI產生的序列標簽單體,并 啟動寡聚物形成。非不對稱粘性末端(5,-GACA-3,或5,-CTGA-3,)存在 于另一個連接物末端,用于特異性連接入多重測序載體pSLGVT-3上 的一個或另一個克隆位點中。pSLGVT-3和pSLGVT系列的其它質粒 的獨特設計具有攜帶兩個獨立DNA插入片段的能力。
在啟動連接物的僅1 "個末端處針對單體的互補粘性末端 將單體的連接和寡聚物的增長限制在一個方向,由此使形成的非生產性環形分子最少。啟動連接物的下鏈未^皮磷酸化,以防止形成連接物 二聚體。在連接反應中,在對啟動連接物過量的GVT-對單體存在下 進行寡聚物形成,這允許反應進行到完成。產生的主產物為在兩個末 端被啟動連接物"加帽"的寡聚單體的集合。DNA單體與啟動連接物 的比率表明最終寡聚化產物的總體大小范圍。使用一4分啟動連接物對 N份單體作為起點通過滴定獲得生產性比率;其中N等于(在終產物 中需要的單體平均數+2)/2。如有需要,可合并使用一系列啟動連接物 對單體比率的若干連接反應,通過凝膠電泳純化期望長度的產物。對條件進行選擇,以由GAGC啟動連接物和GTGA啟動連接物產生寡 聚物質,該寡聚物質含有約25-3(h個拷貝(約長1.6至2 kb),在1.5% 瓊脂糖凝膠上純化,并克隆入測序載體pSLGVT-3的兩個位點中。8,將寡聚化GVT-對單體克隆入多重測序栽體dSLGVT-3中
本文使用的術語多重測序載體指為進行高通量桑格雙脫 氧測序而進行了優化的質粒載體,具有在兩個DNA克隆表達盒的每 一個中攜帶獨立插入片段的能力,由4個引物結合位點的每一個都獲 得4個測序讀數。
用Eco31 I和Esp3 I消化pSLGVT-3 (或其低拷貝數變體 pSLGVT-2),以產生兩個載體區段,所述區段通過凝膠電泳純化待用。 載體區段1含有質粒復制子組件,并具有5,TCAG-3,和5'-TGTC-3, 粘性末端。載體區段2含有Kan組件,并具有5,-TGTC-3,和5,-TCAG-3, 突出端。載體區段1與通過啟動連接物GACA-產生的等摩爾當量的寡 聚GVT-對連接。在獨立的反應中,載體區段2與通過啟動連接物 CTGA-產生的等摩爾當量的寡聚GVT-對連接。在l小時溫育后,合 并兩個連接反應,并再溫育,以組裝需要的環形產物,該產物含有兩 個獨立獲得的寡聚GVT-對的插入片段,連接在兩個載體區段之間。
600-800 bp的典型序列讀取長度足以確定至少10個GVT-對的序列。基于對每個測序讀數10個GVT-對和單個才莫々反的4個測序 讀數的測定結果,本發明的單個質粒才莫板應產生40個以上GVT-對的 序列。采用40 kb的末端配對間隔的Fosmid配對末端作圖需務假定末 端至末端間隔75,000個fosmid末端配7十,以75,000個fosmid模板制 備物和150,000個測序讀數的成本支付人類基因組的費用。相比之下, 本發明使用的GVT之間以類似的40 kb間隔1倍覆蓋人類基因應需要 75,000個GVT-對,其以僅7,500個測序讀數和1,875個質粒才莫板制備 物的成本產生。對于類似的基因組覆蓋和分辨率水平,與Tuzun等(A^ Ge"e"7:727 (2005))的fosmid配對末端方法相比,本發明的方法4吏用 降低20倍以上的測序讀數和降低40倍以上的模板制備物。
本發明的優選實施方案
證據表明,遺傳結構變化在人中^^有成百萬的石咸基配對異 質性,是我們的遺傳多樣性的主要組分,其中一些幾乎肯定牽涉我們 與環境的相互作用,并在疾病、疾病易感性或發展中起作用。本發明 涉及產生連鎖基因組序列標簽對的系'統、方法、組合物、栽體、載體 組分和試劑盒,所述標簽對用于快速產生高分辨率遺傳圖譜,以鑒定 這些基因組變化。
在一個優選實施方案中,本發明通過產生多種GVT-對鑒 定耙基因組中的精細結構變化,所述GVT-對為限定的空間距離和方 向的獨特基因組位置鑒定物。GVT-對共同地代表受試者的基因組分 析,然后將該基因組分析與參比序列對比,或與類似產生的其它耙基 因組的基因組分析對比,表明在核酸群之間存在精細結構差異。本發 明可檢測的基因組精細結構變化包括缺失和插入、復制、翻轉、易 位和其它染色體重排。本發明提供以用戶限定的、取決于實驗設計的 分辨率水平鑒定這些基因組特征的方法。
假定4個堿基均一分布,本發明的18 bp或27 bp的GVT 應碰巧分別平均每418和427個磁基出現1次,并應代表在人和其它復 雜基因組中的獨特序列標識符(unique sequence identifiers)。在考慮 GVT之間的間隔距離時,GVT對基因組的明確分配變好。例如,由 大小分級分離的靶DNA群產生的、含有兩個空間連接的18 bp GVT 的GVT-對是有效的36 bp序列標簽。同樣,連接的27 bp GVT對的功 能是54bp序列標簽。不管標簽長度,應當不可能將非常小的GVT或 GVT-對組分配至獨特的基因組位置,例如完全處于重復元件中的那些 位置。預期本發明可撤銷分析的基因組區域很小,可通過本領域已知 的計算機方法建模。
在每個GVT-對單體上存在的通用構架序列允許由高通量 測序數據明確的提取GVT-對序列、使用MEGABLAST (Zhang等,《/ Cow; W歷o/ 7:203 (2000))或類似的計算機程序通過比對揭示GVT-對
與一個或多個參比序列之間的不一致性。在閾值水平內GVT-對間隔 距離或方向與參比的不一致性預示在粑和參比DNA之間存在結構差 異。閾值水平由實-驗i^計確定,相對于平均GVT間隔足巨離的兩個標 準偏差為合理的默認值。在與參比序列相比時,靶DNA中的缺失可 由2個或更多個GVT-對限定,所迷GVT-對跨越平均間隔距離的2個 標準偏差以上。因此,靶DNA中的插入片段可被限定為這樣的位點 其中在與參比序列相比時,兩個或更多個GVT-對跨越平均間隔的兩 個標準偏差以下。在靶DNA中的翻轉被定義為這樣的位點其中二 個或更多個GVT-對的GVT方向不一致。人工維護(curate)和評價不一 致的GVT-對,之后繼續通過PCR、 DNA印跡雜交分析或通過插入片 段分離和測序來驗證。
本發明的耙基因組核酸可來源于任何來源,包括真核生 物、原核生物、微生物、質體和病毒的基因組DNA。本發明的耙基因 組核酸還可以來源于生物的RNA基因組,例如通過逆轉錄過程將 RNA轉變為DNA的RNA病毒。用于研究的靶核酸的選擇可受到在 科學文獻中描述的特定染色體或染色體區域與某些病癥相關的先有 知識影響。本發明可利用來自分離的染色體或染色體區域的靶DNA。 本發明可以適于研究設計的分辨率范圍用于廣泛的全基因組范圍的 患者隊列掃描。純化染色體、染色體區段、基因組DNA和RNA的方 法是本領域已知的。本領域還已知通過PCR或通過其它方法擴增核酸 的方法,以產生經由本發明進行分析的靶DNA。
在本文公開內容的較早部分描述了切割靶DNA和分級分 離靶DNA至需要大小的方法,用于確定GVT-對的GVT之間的空間 距離。用屢次切割的酶動力學剪切或部分酶促消化DNA可用于產生 具有高度重疊片段的DNA片段群,用于最大化覆蓋靶DNA的每個區。 或者,可用幾種限制性內切核酸酶在單獨的切割反應中完全消化靶 DNA,然后大小分級分離至用于GVT-對生產所需要的大小類別。由 用單一限制性內切核酸酶完全消化制備的、選擇過大小的靶DNA產 生的GVT-對是不重疊的,僅覆蓋了一部分靶DNA復雜性。用其它限 制性內切核酸酶完全酶促消化獲得的、選擇過大小的DNA片段可用 于覆蓋空位。隨機地或與完全酶促消化組合切割靶DNA,以覆蓋給定 復雜性的基因組,此切割可由本領域技術人員通過計算機方法建才莫, 以取得使資源得到最佳利用的研究設計。諸如BamH I、 HindIII、 Pst I、 Spe I和Xba I的酶對CpG甲基化不敏感,并應在每個位點切割哺乳 動物基因組DNA,以產生精確地代表那些酶的鄰近識別位點對的 GVT-對。對CpG甲基化、重疊CpG甲基化或可影響本發明的核酸分 析的其它種類的DNA修飾的作用不敏感的其它適宜的酶已由文獻 (May等,J 6濾"0/ /":768, (1975); Hattman等, /脅/編汲367, (1978); Buryanov等,i^^S丄e"era朋:251, (1978); Geier等,J傷o/ C/zem 25(1408, (1979); Kan等,JMo/ 5zo/ /鄧:191, (1979); McClelland等, 7Vwc/eW Am ":3640, (1994))和主要的限制性內切核酸酶供應商 (Fermentas, Hanover, MD; New Englapd Biolabs, Ispwich, MA)描述。在 某些實施方案中,其靶DNA的切割對DNA修飾敏感的酶可用于分界 靶DNA中的修飾位點。例如,本發明可鑒定已知調節基因表達的DNA 曱基化位點。對于該應用,用甲基化敏感的限制性酶完全消化靶DNA, 并由消化的DNA產生GVT-對。通過所獲GVT-對在與參比序列上的 鄰近限制性位點相比時的不一致性鑒定曱基化位點。
首先人工維護不一致的GVT-對,之后進行一系列的分級 過濾,以便檢驗。在其中不一致的GVT-對由來源于完全限制性內切 核酸酶消化的、選擇過大小的DNA產生的情況下,采用相同限制性 內切核酸酶消化的耙DNA和參比DNA的DNA印跡分析可用于驗證 靶DNA和參比DNA之間的標記距離的差異。GVT的長度足以用作 PCR引物,以便分離間插基因組序列進行鳥槍法測序,以確定結構變 化的精確性質。
—般認為,結構變化的研究將進一步闡明復雜疾病,例如 肥胖和糖尿病,這些疾病的發展由基因、基因元件和環境的相互作用 觸發。本發明分析的核酸的選擇可受到在科學文獻中描述的特定染色 體或染色體區域與某些病癥相關的先有知識的影響。本發明可以高分辨率針對來自分離的染色體或染色體區域或組織樣品的DNA。或者, 本發明可以適于研究設計的分辨率范圍用于廣泛的全基因組范圍的 患者隊列掃描。現行的fosmid配對末端測序技術需要成百萬的序列讀 數來以中等的分辨率和覆蓋率水平分析每個個體,由此限制了其作為 平臺掃描大群體的應用,所述大群體用于關聯研究,以發現對疾病結 果為診斷性或預后性的生物標記以及為用于藥物干預的潛在藥物靶 的生物標記。本發明提供了這些限制的解決方法,因此,本發明具有 產生新的藥物診斷方法和幫助藥物發現的潛力。
在另一個優選實施方案中,本發明鑒定的精細結構變化用 于設計寡核苦酸陣列測定、微陣列測定、基于PCR的測定和本領域中 的其它診斷測定,以檢測核酸群之間的差異。本發明的微陣列和寡核 苷酸陣列是用于檢測核酸拷貝數改變以及單個或少數核苦酸多態性 的有效平臺,但不適于檢測可能導致或引起疾病的其它基因組改變。 本發明的鑒定產物能夠設計寡核苷酸和微陣列測定和本領域的其它 診斷測定,以篩選分界本發明鑒定的精細結構變化的易位、插入、缺 失和翻轉接合處。這些測定然后可用于篩選一般群體和大的患者隊 列,以確定精細結構變化在復雜疾病,的作用,所述疾病例如為肥胖、 糖尿病和許多癌癥,這些疾病的發展由多種遺傳和環境因素的相互作 用觸發。這些測定的其它應用包括但不限于診斷或區分在醫學診斷和 工業微生物領域中使用的微生物的密切相關的物種、品系、種族或生 物型。
在另一個優選實施方案中,本發明用于產生高分辨率基因 組圖譜,以幫助由鳥槍法DNA測序進行基因組組裝。限定間隔距離 或鄰近限制性內切核酸酶位點的廣泛的獨特遺傳標記組通過提供用 于基因組組裝的骨架應極大促進全基因組測序工作。預期本發明產生 的與人類基因組組裝的當前版本(35版,2004年5月)不一致的大量 GVT-對實際上可能不代表乾DNA.的'精細結構變化,而是反映了當前 人類基因組組裝中的錯誤或空位。使問題更復雜的是現行的基因組組 裝來源于合并的多個供體的DNA。需要來源于單個個體的、代表人類 多樣性范圍的參比序列,以推動基因組領域前進。本發明提供的用途 提供了實施此工作的方法。
在另一個優選的實施方案中,本發明用于產生高分辨率的 基因組圖譜,以利于系統發生研究和測定密切相關的生物之間的遺傳 和功能關聯。本發明的一個方面尤其適于該用途,這方面利用由靶 DNA產生的GVT-對,所述靶DNA用單獨的或者在用于GVT-對生產 的有用組合中的一種或多種限制性內切核酸酶完全消化,沒有DNA 大小分級步驟。基本上,如此產生的GVT-對構成了含有位置標記對 的基因組分析,所述位置標記沿著靶DNA長度分界鄰近的限制性內 切核酸酶位點。GVT-對的鑒定及其相"對豐度可用于產生高分辨率基因 組分析,該基因組分析可用于鑒定、區分和定量復雜醫學或環境DNA 分離物中的原始基因組。如此產生的GVT-對還可用于工業微生物領 域,用于鑒定引起期望性狀的基因組差異,例如在密切相關的品系、 生物型或種族或遺傳修飾的生物中有利的生長速率和生產有用的次 級代謝物和重組蛋白。因此,本發明可用作工具,以在^:生物來源產 物的工業化生產中幫助改良菌株。本發明產生的高分辨率基因組圖譜 還提供了低成本和有效的方法來研究密切相關的病原體核酸,以鑒定 變化區域,以這些區域為目標進行詳細的序列分析,以鑒定可用于診 斷和作為醫學千預的藥物靶的病原決定因素。
在另一個優選實施方案中,本發明可用于遺傳解剖家畜和 農業作物的表型多樣性,以利于標記輔助性育種。家畜特別令人有興 趣進行復雜遺傳元件的鑒定,所述遺傳元件有助于控制生長、能量代 謝、發育、機體組成、生育和行為以及通過經典育種研究的其它性狀。 關于綜述參見Andersson (W加i ev 2:130 (2001))。大部分目標農業性狀是多因素的,經常受未知數量的數量性狀基因座(QTL)控制。
基因組掃描的微衛星圖譜已被開發用于大部分家畜。使用這些標記的相關研究和候選基因方法是用于鑒定QTL的兩種主要策略。QTL的 克隆具有挑戰性,因為基因型和表型之間的關聯^皮認為比單基因性狀 更復雜。然而,有可能通過后代測驗間接確定QTL,其中QTL的分 離使用由子代之間的遺傳標記和表型變化獲得的數據來推斷。目前, 大部分QTL的分子基礎仍是未知的。果蠅中的QTL作圖提示,QTL 經常與非編碼區中的序列變化相關(MacKay iVW i ev 2:11 (2001))。如在人中一樣,預期家畜和作物基因組中的精細結構變化在 表型表達以及基因組與環境的相互作用方面可能起重要作用。本發明 提供以低成本將家畜和作物中的廣泛范圍的基因組結構多樣性制表 的方法。然后,制表的信息應能夠產生寡核苷酸微陣列和其它診斷平 臺,用于關聯和連鎖研究,以鑒定和表征導致標記輔助育種的實際 QTL。
作為主要的傳粉者,蜜蜂在農業當中和世界上的許多地區 起關鍵作用。養蜂是由本發明獲益的另一個領域。蜜蜂是一種在經濟 上重要的物種,適于在育種發育中使用遺傳技術。蜜蜂傳代時間短, 產生大量子代。家系還容易通過人工授精增殖。蜜蜂品系在生育、抗 病性和行為性狀方面表現出廣泛的表型變化,其中許多處于復雜的遺 傳控制之下。處于遺傳控制之下的重要行為性狀包括以許多非洲品 系為代表的攻擊、莧食習性、產蜜量和所謂的"衛生"行為。"衛生,, 性狀由至少7個至今還沒確定的基因座調節,這些基因座合在一起導 致蜂房成員去除死亡或患病群體的清潔行為,作為抵御fonal和小蟲 侵襲的主要防御,fonal和小蟲是兩種主要的經濟性蜜蜂病原體。主要 目標是開發可信賴的診斷分子標記,這些標記可用于標記輔助育種, 以快速有效地鑒定需要的子代品系,而不需要復雜且耗時的育種試驗 和大田試驗。本發明可使用意大利蜂04;^ we仏/era)品系DH4的200 兆堿基大小基因組的遺傳圖譜和參比序列(The Honeybee Genome Sequencing Consortium A^w^ 443:931, (2006))來提供有歲文且低成本的 方法,以高分辨率研究多個蜜蜂品系基因組的精細結構變化,從而關 聯期望的表型和基因型。成本有效地研究多個品系的能力是本發明提供的關鍵優勢。例如,以10 kb分辨率窗5倍覆蓋200兆堿基的蜜蜂 基因組應僅需要10,000輪測序和2,500個測序模板制備物。成本估計 基于每輪測序IO個寡聚化的GVT-對的序列測定結果以及每個栽體才莫 板支持4個獨立的測序反應。
在另一個優選實施方案中,本發明可用于鑒定神經疾病和 性狀的基礎性遺傳病因。 一般認為,許多神經障礙(如孤獨癥、雙相型 障礙和精神分裂癥)的至少一種組分具有復雜的非孟德爾遺傳組分(Holzman和Matthysse, /^yc/ o/o/og^ ScZ /:270 (1990); Owen和 Cmddock, M /7: 21 (1996); Craddock和 Jones, & / 尸矽c&"^y /7S:sl28 (2001))。互補連鎖和相關性研究目前用于鑒定基因 組組分,本發明提供了評價基因組精細結構變化在神經疾病中的促進 性作用的方法,并可以產生用于診斷、預后和患者管理的新方法。
在另一個優選實施方案中,本發明可用于鑒定癌癥的基礎 性遺傳病因,由此產生用于診斷、預后和治療干預的方法。實際上, 所有的癌癥都是緣于DNA序列的異常性,這些異常性或者是固有的, 或者是通過生命當中的體細胞突變獲得的。腫瘤生成的主要原則在 于,累積的DNA突變與環境因素一起改變了基因表達,或者基因功 能越過了允許克隆擴增、細胞侵入周圍組織和啟動轉移的關鍵功能 閾。在西方國家有1/3的人將出現癌癥,1/5將死亡,這使癌癥稱為最 常見的遺傳疾病。在歷史上,該 以鑒定有效的癌癥或腫瘤抑制基 因開始,其中由于基因座的少量核普酸改變而簡單失去或獲得功能是 癌癥的主要促成因素。該領域后來擴展到基因劑量,其中導致基因拷 貝數改變的DNA區段的復制或缺失是癌癥發生的推測病因。應用陣 列CGH對檢測DNA拷貝數的改變以及癌細胞系和原發性腫瘤的雜合 性的喪失特別有用。癌癥中的拷貝數分析的全面綜述和癌癥中的體細 胞突變目錄以及其中的參考文獻可見于桑格研究所的"癌癥基因組計劃"(http:〃www.sanger.ac.uk/genetics/CGP/)。
最近,知曉了基因組精細結構變化在癌癥發生中的重要作 用。在癌癥發生過程中,腫瘤基因組累積了大量重排,包括擴增、缺 失、易位、翻轉等,其中許多直接促成腫瘤發展(Gray和Collins, Cara'"og匿5^ ": 443 (2000》。Voljk等(Gewowe toearc/i 76: 394 (2006))利用fosmid配對末端作圖的功能變化,以檢測發展中的腫瘤的 基因組結構的所有改變,尤其是不能通過陣列CGH檢測的易位和翻 轉事件。他們的解析乳癌基因組的方法是最多信息的,但^皮研究者公認受限于獲得每個樣品的大量BAC克隆的末端終止序列所需要的費 用和資源。本發明提供低成本的、高分辨率的方法來克服這些缺陷, 鑒定不適于通過陣列CGH檢測的基因組精細結構變化。本發明具有 足夠低的成本,能夠用于廣泛的癌癥患者隊列研究,能夠用于跟蹤個 體患者的腫瘤發展中的基因組變化累積。跟蹤腫瘤發生過程中的基因 組變化的能力在臨床結果上應具有意義深遠的預測價值,提供了患者 管理的顯著改善。
在又一個優選實施氣案中,本文所述方法可用于鑒定 mRNA加工變體。 一個基因編碼一個蛋白的概念被一個基因編碼多個 蛋白取代,其中一些蛋白具有在醫學上相關的不同功能。該過程似乎 是高度可調的,部分通過mRNA的可變加工以及啟動子、轉錄終止子 和翻譯后加工的不同用途來介導。其中兩個不同mRNA轉錄物重組的 反式剪接的過程又增加了轉錄組復雜性。所用靶mRNA的選擇可受到 其中某些mRNA變體可能很重要的某些疾病情形、細胞類型、器官或 發育階段的先有知識的影響。
本領域技術人員熟知用于mRNA分離和將mRNA轉變為 cDNA的方法。在本發明的一方面中,通過逆轉錄或逆轉錄與PCR偶 聯將分離的RNA轉變為cDNA,所述PCR利用的方法包括使用隨機 引物,所隨機述引物含有限制性內切核酸酶,例如MmeI、 CstMI、 NmeAIII或EcoP151。限制性位點位于引物上,使得用所述內切核酸 酶消化所獲的雙鏈cDNA去除了 cDNA中的引物序列。調節引物濃度, 以產生300-500bp平均大小的產物,或符合實驗設計大小的產物。在 使用T4 DNA聚合酶修復cDNA末端后,cDNA被去磷酸化,連接至 合適的GVT-連接物,并在5%丙烯酰胺凝膠上選擇大小,用于生產 GVT-對。鑒定mRNA加工變體的GVT-對與NCBI參比序列(RefSeq) 或其它數據庫的不一致性。加工變體通過使用來源于不一致的GVT-對的引物的PCR證實。
權利要求
1. 一種并列序列標簽(GVT)的方法,其中標簽對(GVT-對)的兩個組成成員是靶核酸分子中限定間隔距離的獨特位置標記,所述方法包括將具有一個或多個限制性內切核酸酶識別位點的DNA連接物連接至片段化的靶DNA插入片段的兩個末端;使用限制性內切核酸酶在識別位點消化所述連接物,以在距靶DNA插入片段的每個末端的限定距離切割靶DNA插入片段,產生兩個序列標簽(GVT),這兩個序列標簽含有靶DNA插入片段的末端序列,所述末端序列與質粒載體連接;和再環化連接GVT的質粒載體,以獲得含有具有兩個并列GVT的GVT對的環化質粒。
2. —種并列序列標簽(GVT)的方法,其中標簽對的兩個組成成員 為沿著耙核酸分子群長度側接一個或多個給定限制性內切核酸酶的 兩個鄰近并可切割的限制性內切核酸酶位點的獨特位置標簽,所述方 法包括將消化的靶DNA插入片段連接入載體中側4妻針對IIS型、IIG型 或III型限制性內切核酸酶的位點對的位置;在距耙DNA插入片段的每個末端的限定距離切割插入DNA,由 此產生兩個序列標簽(GVT),這兩個序列標簽含有耙DNA插入片段的 末端序列,所述末端序列與載體骨架連接;和再環化連接GVT的載體骨架,以形成環形質粒,每個環形質粒 均攜帶含有兩個并列GVT的GVT-對。
3. —種通過受控且有序的短DNA單體連接產生DNA寡聚物的 方法,所述短DNA單體具有旋轉等同的回文粘性末端,以產生以啟 動連接物的兩個末端為邊界的寡聚產物,所述方法包括以下步驟形成由啟動連接物啟動的DNA單體的寡聚物,其中一個連接物 末端具有不能自連接但可以粘附載體的非回文粘性末端,而另 一個連接物末端具有這樣的粘性末端其未被磷酸化,從而防止形成連接物 二聚體,并與DNA單體的粘性末端互補,用于連接單體,以啟動寡 聚物形成;和在游離啟動連接物與通過加入DNA單體形成的寡聚物連4矣時或 通過與由啟動連接物啟動的另一個寡聚物連接終止寡聚物生長;其中如此形成的寡聚物具有的平均長度受寡聚物開始形成時才企 測到的DNA單體與啟動連接物的摩爾比率調節。
4. 一種用于制備環形組件載體的方法,所述環形組件載體能夠生 產連接的序列標簽、增殖一個或多個獨立的DNA插入片段和啟動至 少4種測序反應,所述方法包括提供兩個組件載體區段或組件,第一個組件包含藥物選擇標記, 笫二個組件包含用于質粒復制的復制子,每個組件的末端部分都具有 IIS型內切核酸酶切割位點,該末端部分產生獨特的非回文粘性末端, 用于載體組件的切離和靶向置換,以產生新的載體功能性;將第 一個和第二個組件的一個末端連接在含有識別位點的DNA 表達盒中,所述識別位點在用內切核酸酶切割時在用于連接DNA插 入片段的載體上產生非回文粘性末端對;和連接第一個和第二個組件的另一個末端,以在第二個DNA表達 盒中產生環形分子,所述第二個DNA表達盒含有第二個克隆位點, 該克隆位點含有另一對限制性內切核酸酶識別位點,該識別位點在用 內切核酸酶消化時在與第一個克隆位點不同的載體上產生非回文粘 性末端對,用于連接第二個且不同的受體插入片段,該克隆位點兩側 側接不同DNA測序引物結合位點,以啟動受體DNA插入片段中的桑 格雙脫氧測序反應;其中所述載體沒有Mwe I、 CWM I、 iVmeA III、 五coP15 I、尸W II、 SamH I、尸對I、萬5pT I或^aw I的識別4立點,所述 載體插入片段克隆位點包含五co31 I和五^3 I識別位點。
5. 權利要求1的方法,其中所述標簽對的兩個組成成員在把核酸 分子中位于一個或多個限制性內切核酸酶的兩個鄰接并可切割的限 制性內切核酸酶位點的側翼。
6. 權利要求l的方法,其中所述靶DNA插入片段選自基因組 DNA、 cDNA、病毒DNA、微生物DNA、質體DNA、化學合成的 DNA、核酸擴增的DNA產物和由k^fA轉錄的DNA。
7. 權利要求l的方法,其中所述靶DNA通過施加機械力或用一 種或多種酶部分消化而被隨機片段化。
8. 權利要求1和2的方法,其中所述靶DNA通過使用 一種或多 種單獨的或組合的限制性內切核酸酶完全消化而被片段化。
9. 權利要求1和2的方法,其中所述片段化的靶DNA被大小分 級分離。
10. 權利要求1和2的方法,其中所述片段化的靶DNA沒有萍皮 大小分級分離。
11. 權利要求l和2的方法,其中產生GVT的限制性內切核酸酶 為選自以下的IIS型或IIG型限制性內切核酸酶A/me I 、 MweA III 、 C對MI、 5ceAI、 B/w I、 5pwEI、 5sgl、萬swFI、 RsfVl I、 fico57 I、 腸57M I和Gsw I。
12. 權利要求1和2的方法,其中所迷IIS型或IIG型限制性內 切核酸酶為A/wel。
13. 權利要求1和2的方法,其中所述IIS型或IIG型限制性內 切核酸酶為C對MI。
14. 權利要求1和2的方法,其中所述IIS型或IIG型限制性內 切核酸酶為iVmeAIII。
15. 權利要求1和2的方法,其中所述產生GVT的限制性內切核 酸酶為選自以下的m型限制性內切核酸酶EcoP15I、ficoPl 1、尸wn、 ///"dfll1、 S(yLTI、丄/aF I、 5ceS I、 /fz"e I、尸/ "B I、 H/^790545P、 //"790639 I和斷AXIP。
16. 權利要求1和2的方法,其中所述III型限制性內切核酸酶為 腸P15 I。
17. 權利要求i和2的方法,其中所述m型限制性內切核酸酶為
18. 權利要求1和2的方法,其中所述產生GVT的IIS型或IIG 型限制性內切核酸酶識別6個以上石威基對的不間斷識別序列。
19. 權利要求1和2的方法,其中所述產生GVT的III型限制性 內切核酸酶識別6個以上堿基對的不間斷識別序列。
20. 權利要求2的方法,其中靶DNA插入片段選自基因組DNA、 cDNA、病毒DNA、微生物DNA、質體DNA、化學合成的DNA、核 酸擴增的DNA產物和由RNA轉錄 DNA。
21. 權利要求4的組合物,其中所述選擇標記沒有Mme 1、CstM I、 NmeAIII、 EcoP15I、PstII、 BamHI、 Pstl、 BspT I或KasI限制性內 切核酸酶位點。
22. 權利要求4的組合物,其中所述選擇標記為Kan基因。
23. 權利要求4的組合物,其中所述選擇標記為Amp基因。
24. 權利要求4的組合物,其中所述質粒復制子沒有Mme 1、CstM I、 NmeAIII、 EcoP15I、PstII、 BamHI、 Pstl、 BspT I或KasI限制 性內切核酸酶位點。
25. 權利要求4的組合物,其中所述質粒復制子為Pl5A.
26. 權利要求4的組合物,其中所述質粒復制子為ColEl。
27. 權利要求4的組合物,其中所述質粒復制子為;PUC的ColEl彩亍生物。
28. 權利要求4的組合物,其中所述質粒摻入片段克隆位點通過 用識別6個以上威基對的不間斷序列的II型、IIS型或IIG型限制性 內切核酸酶消化產生。
全文摘要
一般地講,本發明涉及用于高通量分析核酸精細結構變化的方法。具體地說,本發明涉及生產連接核酸的標簽對的新策略、載體和載體組分,其中連接核酸的標簽-對的組成成員處于用戶限定的間隔距離,和/或為沿著靶核酸分子的長度分界一個或多個不同限制性內切核酸酶的鄰近切割位點的核酸位置標記。
文檔編號C12Q1/68GK101395281SQ200780007408
公開日2009年3月25日 申請日期2007年1月4日 優先權日2006年1月4日
發明者駱樹恩 申請人:駱樹恩
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影