<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

用于處理核酸色譜的系統和方法

文檔序號:427544閱讀:248來源:國知局
專利名稱:用于處理核酸色譜的系統和方法
技術領域
本發明領域涉及用于自動處理核酸色譜的計算機系統和方法。使用該方法可容易地在雜合核酸序列示蹤過程中進行多態性檢測和表征。
計算機程序列表附件包括計算機程序列表附件的一個光盤已在本發明的副本中提交。在下表1中可看到計算機程序列表附件所含文件的大小、生成日期、生成時間及文件名稱。在表1中欄一以字節提供了文件大小。欄二和欄三分別表示文件產生日期和時間,而第四欄表示文件名稱。
表1.計算機程序列表附件內容
表1所披露的計算機程序列表附件及其所包含的文件名目錄作為整體在此作為參考引用。
背景技術
大量DNA序列信息的可用性已開始影響生物學實踐。作為當今大規模序列輸出量的結果,分析方法已不適于與急速增長的數據并駕齊驅。為跟上這種增長要求,需要改進的自動化控制,并且在序列數據處理中較大地減少或消除人為涉及因素也特別重要。在這方面的進展不僅需要改進數據處理軟件的準確性而且需要可靠的準確方式來減少在錯誤勘正中對人為涉及因素的需要并使人工復查更加有效率。
現在,通常用Sanger的酶雙脫氧鏈終止法(Sanger等1977,Proc.Natl.Acad.Sci.745463-5467)在自動測序儀中進行DNA測序,這樣的自動測序儀如AppliedBiosystems公司(ABI,Norwalk,Connecticut)3730×1DNA分析儀、3730DNA分析儀、ABI PRISM3100基因分析儀、3100-Avant毛細管DNA測序儀/基因分型儀或310毛細管DNA測序儀/基因分型儀。這樣的測序儀可產生列出多于一千個堿基的序列數據。這樣的測序開始于目標DNA模板及與模板鏈上特定位點互補的寡核苷酸引物。對四個堿基(A、G、C、T)中的每一個,進行反應,其中DNA聚合酶合成一定數量不同長度的標記單鏈片段,每一個片段與模板鏈的片段互補并從引物延伸直到出現那個堿基。然后根據長度用凝膠電泳分離這些片段,在電泳上它們的相對大小與對每一片段最后堿基的識別使得推斷出該模板的堿基序列。
在自動測序過程中(Smith等1986,Nature321674-679),用與引物(染料引物化學)或與雙脫氧鏈終止核酸(染料終止基因化學)相連的熒光染料標記片段(Prober等1987,Science238336-341)。通常,這四個反應中的每一個使用不同的染料,以使得它們聯合起來并在一個凝膠電泳道中跑膠(在染料終止基因化學中,全部四個反應也允許在一個試管中進行)。例如,一種這樣的應用使用了激光激發和冷卻CCD(電荷偶合裝置)檢測器(Kostichka和Smith,美國專利5,162,654)在超薄(50-100微米)變性聚丙烯酰胺凝膠中的電泳分離過程中(Kostichka等,Bio/Technologyl078-81(1992))進行四個熒光標記DNA測序反應的平行檢測。Weiss等(美國專利5,470,710)描述了另一種基于熒光的測序應用,其使用酶聯熒光方法來檢測核酸分子。也參見美國專利6,596,140,其指出一種多通道毛細管電泳裝置和方法。
通常,在同一凝膠上的分離電泳道中分析多個模板(例如同時36個或更多)。在凝膠底部,激光器在片段通過時激發這些片段中的熒光染料,并且檢測器在四個不同波長收集發射強度。在電泳過程中激光器和掃描器不斷掃描凝膠底部以便于建立凝膠圖像,其中每一電泳道具有四種不同顏色條帶的梯形模式,每一條帶對應特定長度的片段。
然后用計算機分析將凝膠圖像轉化為針對每一模板的推斷(或讀出)堿基序列。通常,該分析由四個不同的步驟組成電泳道循跡,其中識別凝膠電泳道邊界;電泳道描繪,其中在跑膠過程中的幾千個均勻間隔的時間點上,四個陣列組顯示信號強度,那么將通過電泳道的四個信號中的每一種相加產生一種圖形或一組“跡線”;跡線處理,其中用信號處理方法使信號估計值去卷積并使之平滑,減小噪音,并校正染料對片段遷移率的影響及遠程電泳趨勢;以及堿基命名,其中將經處理的跡線翻譯為堿基序列。
此處所使用的術語“跡線”指通過對于特定化合物,如核酸的色譜獲得的時間分辨的分離模型。該分離模型用多個數據點來表征,其中在多個數據點中的每一個各自的數據點表示在該分離模式中對應于該各自數據點的位置的信號幅度。通過對應于跡線的化合物數量的函數確定給定數據點的值,該跡線由檢測器在該點處以由數據點表示的時間方式檢測到。在典型的核酸測序中,例如,在每一數據點由跡線表示的堿基的豐度會變化。由跡線表示的化合物不存在的數據點通常被分配了相對小的信號幅度。相反,由跡線表示的化合物存在的數據點通常被分配了相對大的信號幅度。這樣,具有相對小幅度的數據點和具有相對大幅度的數據點模式在跡線中給出了上升直至“峰值”。在一些實施方案中,跡線具有大于5個數據點、大于100個數據點、或大于1000個數據點。在一些實施方案中,跡線具有2-100,000個數據點或更多個數據點。
通常經處理的核酸序列跡線以含有四種不同顏色曲線的色譜形式表示,每一條曲線代表相對于四個堿基中一個的信號并沿檢測時間增加的方向從左到右描繪(增加片段大小)。一條理想化跡線包括相等間隔不重疊的峰,每個峰對應于在待測序列鏈中終止于特定堿基的標記片段。這樣,對核酸將有四條跡線,每條跡線表示特定的核苷酸。由于各種原因,實際跡線偏離該理想跡線,這些原因包括在測序反應、凝膠電泳和跡線處理過程中可能發生的缺陷。由于非常短的片段(由染料和特定堿基對遷移率造成的相對大的影響引起)及未反應的染料-引物或染料-終止基因分子的不規則遷移,跡線的第一個五十(first fifty)或峰值常常有噪音并不等間隔。由于不很精確的跡線處理,該峰向跡線末端逐漸變得不太相等間隔,由于擴散效應增加在連續片段之間相對質量差異減小使得分辨率降低,并且由于給定大小的標記片段分子數量減小更難于區分噪音。特別是,對同一堿基分辨率很低的峰會產生一條寬的、常常呈波浪起伏的峰。
在跡線的較好分辨率區域中,最常見到的電泳異常是密集(Sanger和Coulsonl975,J.Mol.Biol.94441-448;Sanger等,1977,Proc.Natl.Acad.Sci.745463-5467),當靠近單鏈片段末端的堿基與互補的上游區域連接時,發生這種現象,從其長度產生了一種通過凝膠的遷移速度快于期望速度的發夾式結構,因而引起了峰從其期望位置漂移。這導致一個峰在另一個下面,或者導致同樣堿基的兩個連續的峰合并成一個。染料-終止基因的化學性質表現出可解決大部分密集的問題(Lee等1992,Nucleic Acids Res.202471-2483),但這種化學性質由于對染料標記終端核苷酸的還原聚合物酶的親和性的減少引起其自身數據質量問題。
堿基命名軟件的作用是在面臨上述數據問題時盡可能精確地產生序列。作為此處所使用的術語“堿基命名”指確定識別核酸序列中核苷酸堿基的過程。
一些最早的堿基命名軟件是安裝在最初的ABI測序機器上的處理軟件的一部分(Connell等,1987,Bio Techniques5342-348)。ABI軟件常作為用來判斷其他方法的基準。雖然全部算法細則還未公開,根據其堿基命名軟件的ABI說明(ABI 1996),該程序利用遷移曲線來預測峰空間,并在公稱峰空間的區間中識別最可能的峰,在缺少最佳選擇時指定一個N值。然后,ABI軟件用包含峰空間平均值的標準加上或減去堿基。
高通量測序的出現促進了其他堿基命名軟件程序的發展(Giddings等,1993,Nucleic Acids Res214530-4540;Golden等,1993,第一屆分子生物學智能系統國際會議的會議論文集,Hunder等編輯,第136-144頁,AAAI出版社,Menlo Park,California;Golden等,1995第四屆年度尋優編程會議的尋優編程IV.會議論文集,579-601;Berno,1996,Genome Research680-91)。這些程序都進行了包括堿基命名的多個凝膠成像處理步驟,并具有不依賴于測序機器在計算機上進行數據有效集中處理的優點。然而,這些軟件程序沒有一個可以通過滿意的方式識別跡線中的雜合峰。
適用于ABI測序儀的ABI堿基命名軟件能夠可靠地識別將近一半的可獲得堿基。剩下的一半通常包含大量的錯誤,這些錯誤應刪除或必須由操作人員進行人工校正。以進行了工作試圖提高ABI堿基命名軟件的精確性。例如,Ewing等,1998,Genome Res.8175-185,描述了稱為phred的堿基命名程序用于自動測序儀的跡線,該程序比ABI軟件的錯誤率低。Phred不依賴于讀數中的位置、機器運行條件或測序的化學性質在所檢測的試驗數據組中獲得比ABI軟件錯誤低40-50%的平均值。
雖然上述確認的軟件程序以其自身權利表示了重要的成就,它們仍不能令人滿意地進行雜交核酸樣品的堿基命名。每一條來自雜合DNA樣品(例如人DNA樣品)的測序跡線是兩條自然染色體,來自母親的染色體和相應的來自父親的染色體,測序反應的產物。例如,考慮對人染色體IV進行測序的情況。針對該測序反應而制備的引物與來源于母親的染色體IV即來源于父親的染色體IV都相連。這樣,對來自母方和父方染色體IV的核酸序列混合物進行測序。不同于進行控制的鼠雜交的DNA樣品情況(由于親代是近親交配,兩條染色體是相同的),來源于母親的人染色體IV和來源于父親的人染色體具有不同的點。也就是說,在染色體中有許多雜合點(堿基位置),其中在來源于母親和來源于父親的染色體的相應位置有不同的等位基因。在來源于母親和來源于父親的染色體相應堿基位置之間存在雜合性的每一點上,在跡線中將出現兩個峰,每一個表示一個核苷酸。在人體中,每500-1000個堿基中將近似有一個具有這種雜合性。常規的堿基命名軟件不能滿意地識別這樣的雙峰。相反的,這樣的峰通常稱作“不可讀”。
堿基命名程序Trace Tuner(Paracel,Pasadena,California)能夠檢測及識別雜合堿基。然而,Trace Tuner雜合堿基識別算法卻不能令人滿意,因為它們需要人工干涉。因此,本領域技術仍需要改進的系統和方法來自動識別雜交核酸樣品中的雜合堿基對。
發明概述本發明致力于克服已有技術的缺陷。披露了新的系統和方法用于檢測由雜合樣品所收集的跡線序列數據中的多態性。使用基于規則的系統,檢測跡線序列數據中的雙峰,對在這樣的雙峰中的每一個峰進行表征。用關于所表征的雙峰的信息從雜合跡線序列數據來產生成對的雜合跡線序列。然后使用常規堿基命名軟件,如ABI測序軟件、Phred或Trace-Tuner對該成對雜合跡線序列進行堿基命名。
由于本發明方法和系統允許進行雜合DNA的自動測序,因此它們有很多優點。關于此點,本發明不需要人為解釋跡線中的雙峰。由于其固有的主觀特性這種人為的解釋易于產生錯誤。使用本發明技術,用基于規則的系統將雜合跡線自動轉換為一對雜合堿基跡線。
本發明技術對雜合核酸樣品的基因分型具有廣泛的適用性。例如,一種已知的用于確定染色體組DNA與特定疾病特征之間的聯系的技術將測定取自選作研究該疾病特征的一群人中的每一成員DNA樣品的特定區域的序列。然后試驗(單獨地或以單體型)在該群體中所發現的多態性來觀察它們是否與疾病相關。這種關聯性檢測證實了在基因組DNA目標區域中的基因座與該疾病相關聯。已有技術的問題是常規用于識別多態性的技術需要進行必要的關聯性研究,需要使用大量勞力并且昂貴。這樣的多態性通常作為序列及線中的雙峰披露,常規的堿基命名軟件沒有自動的方式可靠地對這樣的雙峰進行測序。因此,需要主觀人為介入來表征這樣的峰并從而識別多態性。
本發明去掉了識別多態性的主觀、需要耗費勞力的步驟。使用本發明的系統和分方法,可對來自群體的雜合核酸樣品進行自動測序,以便于識別單核苷酸多態性(SNP)或其他形式的多態性(標記物)。然后,在關聯分析中可試驗每一個這樣的SNP(或其他形式的標記物)來確定該SNA(或其他形式的標記物)是否與所研究的疾病相關。除了顯著地減少了關聯研究的成本,本發明的系統和方法通常可用于其它領域,如普通的SNP探索學,診斷學和法醫學。
在說明書和權利要求中,對色譜所作的坐標(例如如圖4和5中所述的)具有多條跡線,并具有沿色譜長的線性軸分布的數據點。應理解在該形式下不需要提供或表示色譜,也不需要在整體上包括四條連接并校準的跡線。這樣,在本發明最寬范圍中的“色譜”包括,例如表示與位置顯示(也就是“數據點”相關的(或能夠相關的)核酸測定的單一幅度的數據文件。色譜可包括多個分離的文件,每一個表示一個或多核苷酸信號幅度,可連接并標準化這些幅度從而提供一個完全的組。優選的該信號幅度與所測核苷的濃度成比例,但不需要嚴格成比例。
本發明的一個實施方案提供了一種處理具有多個基本同時發生的跡線的輸入核酸色譜的處理方法。在該方法中,對于多條跡線中的第一跡線的一個或多個分別的峰值中的每一個,標記在各自峰值中具有最大值的數據點。并且,對于多條跡線中的第二極限的一個或多個分別的峰值中的每一個,標記在各自峰值中具有最大值的數據點。在輸入核算色譜中識別坐標,該坐標在以下數據點的重疊閾值數量的數據點內i)在第一跡線的一個或多個峰中的第一峰值中具有最大值的第一數據點及ii)在第二跡線的一個或多個峰中的第二峰值中具有最大值的第二數據點。最終,將第一峰輸出給第一輸出純系表示,將第二峰輸出給第二輸出純系表示。在一些實施方案中,重疊域數量在兩個數據點到七個數據點之間,在一些實施方案中重疊域數量為三個數據點。
在一些實施方案中,輸入色譜為ABI跡線文件格式、SCF文件格式、ZTR文件格式或ALF文件格式。在一些實施方案中,第一輸出純系表示和第二輸出純系表示每一個都以ABI跡線文件格式、SCF文件格式、ZTR文件格式或ALF文件格式書寫。在一些情況,當關于坐標的預定區域的輸入色譜中大于閾值的峰存在時,該坐標就不會分成分離的色譜,第一峰和第二峰每一個都寫成第一輸出純系表示和第二輸出純系表示。在一些實施方案中,峰值的閾值數量在兩個峰值和五個峰值之間。在一些實施方案中關于坐標的預定區域在2個數據點和20個數據點之間。
在一些實施方案中,當第一峰的第一數據點與第二峰的第二數據點之間的比例大于閾值比例值時,將第一峰和第二峰每一個都寫成第一輸出純系表示和第二輸出純系表示。在某些情況下,閾值比例值至少為02或至少為0.4。在一些實施方案中,當第一峰的第一數據點與第二峰的第二數據點之間的比例大于閾值比例值時,將第一峰值和第二峰值各自寫為第一輸出純系表示和第二輸出純系表示。
在一些實施方案中,輸入核酸色譜表示來自雜合核酸樣品的核酸序列,該方法進一步包括對該雜合核酸樣品中插入或刪除的點掃描輸入核色譜。當發現插入或刪除點時,將插入或刪除后的所有區域都寫為第一輸出純系表示和第二輸出純系表示。在一些情況下,對插入或刪除的掃描包括計算在給定坐標后在多條跡線中所發生的峰的數量。當峰數量超過插入/刪除閾值數量時,該坐標確定為在雜合核酸樣品中插入或刪除的點。在一些實施方案中,插入/刪除閾值數量在25-75之間。在另一些實施方案中,插入/刪除閾值數量在75-200之間。
在一些實施方案中,該方法進一步包括在輸入核酸色譜中為多個峰產生通用峰方案,并在輸出給輸出純系表示前,針對該通用峰方案和查該第一峰或該第二峰。在一些實施方案中,通用峰方案通過下述方式產生(i)確定輸入核酸色譜中峰值中數據點的平均數量;及(ii)平均所有或一部分在輸入核算色譜中具有平均數量數據點的峰的輪廓,從而形成通用峰輪廓。在一些實施方案中,核查包括通過誤差百分比確定第一峰或第二峰中的實驗數據點值是否超過了在通用峰輪廓中與實驗數據點相對應的數據點的值。在一些情況下,誤差百分比在大約0.01-0.4之間。在一些實施方案中,誤差百分比為大約0.1。
本發明另一方面提供了用于與計算機系統相連接的計算機程序產品。該計算機程序產品包括計算即可讀存儲介質及嵌入其中的計算機程序機制。該計算機程序機制能處理具有多個基本同時發生的跡線的輸入核酸色譜。該計算機程序機制包括,對于在多條跡線中的第一跡線的一個或多個峰中的每一個,用于標記在該峰中具有最大值的數據點的指令(A)。該計算機程序機制進一步包括,對于在多條跡線中的第二跡線的一個或多個峰中的每一個,用于標記具有該峰中的最大值的數據點的指令(B)。該計算機程序機制進一步包括用于識別輸入核酸色譜中坐標的指令,該坐標在下述數據點的重疊閾值數量的數據點內(i)具有在第一跡線的一個或多個峰中的第一峰中的最大值的第一數據點和(ii)具有在第二跡線的一個或多個峰中的第二峰中的最大值的第二數據點。該計算機程序機制進一步包括用于將第一峰的表示輸出給第一輸出源和將第二峰的表示輸出給第二輸出源的指令。
本發明的另一方面提供了一種計算機系統用于處理具有多條基本同時發生的跡線的輸入核酸色譜,該計算機系統包括中央處理系統及與中央處理系統連接的存儲器。該存儲器存儲輸入核酸色譜和程序模塊。程序模塊包括,對于所述多條跡線中第一條跡線的一個或多個峰中的每一個,用于標記具有在所述峰中的最大值的數據點的指令(A)。該程序模塊進一步包括,對于多條跡線中的第二跡線的一個或多個峰中的每一個,用于標記具有該峰中的最大值的數據點的指令(B)。該程序模塊進一步包括用于識別輸入核酸色譜中坐標的指令,該坐標在下述數據點的重疊閾值數量的數據點內(i)具有第一跡線的一個或多個峰中第一峰中的最大值的第一數據點和(ii)具有第二跡線中一個或多個峰中第二峰中的最大值的第二數據點。該程序模塊進一步包括用于將第一峰表示輸出給第一輸出源及將第二峰的表示輸出給第二輸出源的指令。
本發明的另一方面提供了一種在與計算機系統連接中使用的計算機程序產品。該計算機程序產品包括計算機可讀存儲介質和嵌入其中的計算機程序機制。該計算機程序機制處理具有多條跡線的輸入核酸色譜。該計算機程序裝置包括跡線拆分程序。跡線拆分程序包括將在輸入核酸色譜中來自第一跡線的第一峰輸出給第一輸出純系表示的指令和將發生在輸入色譜第二跡線中與第一峰相對應的數據點處的第二峰輸出給第二輸出純系表示的指令。在一些實施方案中,當輸入核酸色譜中的坐標在(i)具有第一峰中最大值的第一數據點和(ii)具有第二峰中最大值的第二數據點的重疊閾值數量的數據點內時,第二峰對應于第一峰。在一些實施方案中,重疊閾值數量在2個數據點和7個數據點之間。
附圖簡述

圖1描述了根據本發明一個實施方案的用于檢測并表征核酸序列描繪中的雜合性的計算機系統。
圖2A-2D描述了根據本發明一個實施方案的用于檢測并表征核酸序列描繪中的雜合性的處理步驟。
圖3描述了根據本發明一個實施方案所產生的跡線序列數據結構。
圖4描述了用本發明方法基于輸入色譜產生的輸入色譜和典型的純系表示。
圖5描述了用本發明方法基于輸入色譜產生的輸入色譜和兩個典型的純系表示。
圖6描述了用圖2的處理步驟證實基因座與所研究的疾病之間的聯系的一種應用。
圖7描述了人基因HRMT1L3的外顯子結構。每一個垂直條表示一種外顯子,在底部的短水平線表示由PCR擴增所處理的基因組區域。
同樣的附圖標記指全部幾個附圖中所對應的部分。
發明詳述本發明關注于用于測定雜合核酸序列色譜的自動化過程。用基于規則的系統解釋這樣的色譜。每輸入一個雜合色譜,產生兩個輸出純系表示。在輸入色譜中發現雙峰的情況下,本發明的系統和方法將一個峰置于第一純系表示中將第二峰置于第二純系表示中。以這種方式,不需要人為主觀解釋對每一輸入純合色譜自動產生純系表示(例如,兩個純合色譜或兩個純系序列)。這樣,本發明方法顯著增加了效率,通過該方法可在雜合核酸描繪中檢測多態性。如所指的,本發明方法在幾個領域具有廣泛的適用性,例如,多態性發現學(例如,單核苷多態性發現學)、關聯分析學、診斷學及法醫學。
圖1顯示了系統10,用于檢測并表之雜合核酸序列色譜中的多態性。系統10優選包括●中央處理單元22●主非易失存儲單元30,例如硬盤驅動器,用于存儲軟件和數據,存儲單元30任意由存儲控制器28控制;●系統存儲器24,優選為高速隨機存取存儲器(RAM),用于存儲系統控制程序、數據及應用程序,包括從非易失存儲單元28寫入的程序和數據;系統存儲器24也可包括只讀存儲器(ROM);●用戶接口26,包括一個或多個輸入裝置(例如,鍵盤8、鼠標36)及顯示器38或其他輸出裝置;●任選的,網絡接口卡39用于連接到任何有線或無線互聯網上和/或連接到測序儀(未示出)上;及●內部總線34用于內部連接系統的前述部件;系統10的操作主要由操作系統40控制,其通過中央處理單元22執行。操作系統40可存儲于系統存儲器24中。在通常的執行過程中,系統存儲器24包括●操作系統40;●文檔系統42用于控制對本發明所使用的各種文件和數據結構的訪問;及●分離跡線主模塊44,用于將雜合輸入色譜46分離為兩個雜合輸出表示(例如,分別為色譜52A和52B)。
分離跡線主模塊44利用本發明的新方法讀入輸入色譜46并將它分為輸出純系表示(例如,色譜52A和52B)。通常,用熒光染料對DNA片段進行標記,用四種不同染料對四種不同的核苷進行標記。這些標記DNA片段通過毛細管,同時熒光檢測器沿毛細管讀取每一熒光染料的熒光信號在每條沿毛細管的時間坐標上,存在四個不同的熒光信號讀數,每一讀數相應于四個可能核苷的一個。這樣,輸入色譜46包括熒光信號讀數(跡線)的四個陣列,稱為跡線1(48-1)、跡線2(48-2)、跡線3(48-3)、跡線4(48-4),其中每條跡線唯一地表示四個可能核苷酸(腺嘌呤、胸腺嘧啶、胞嘧啶、鳥嘌呤)中的一個。
在圖1所述的實施方案中,分離跡線主模塊44包括多個子程序(子模塊)。這些子模塊包括掃描跡線模塊56,該模塊對跡線48-1、48-2、48-3和48-4都進行掃描并確定每一跡線中的峰位置和峰間距。跡線48包括多個數據點及相對于每一這樣的數據點的強度值。每一跡線通常由幾千個數據點組成。對每一跡線48,存在相應的跡線狀態數據結構50,該結構對基線中的每一數據點存儲用數據結構標示的狀態值。分離跡線主模塊44進一步包括標記有效峰范圍程序62用于(i)評價輸入色譜46中四條跡線的質量,(ii)標記這些跡線中的起始數據點指示可接收數據的開始,及(iii)標記這些跡線中的最終數據點指示可接收數據的結束。分離跡線主模塊44進一步包括輪廓程序模塊64用于在每次掃描中為峰構建通用峰輪廓。這樣的輪廓用于,例如,重構由于相鄰峰重疊造成丟失的重疊雙峰部分。分離跡線主模塊44進一步包括用于計算輸入跡線48的平均背景的計算平均背景峰程序66,以及用于寫出雜合輸出純系表示(例如,色譜52A和52B)的跡線分離程序68。
根據本發明的一個示范性實施方案,圖2描述了一種方法用于將雜合輸入色譜46分離為兩個輸出純合表示(例如,色譜52A和52B)。在本發明的一個實施方案中,圖2所描述的步驟由被模塊44調用的各種程序相連的分離跡線主模塊44實施。
步驟202.在步驟202中,讀取輸入色譜46。輸入色譜46可從任何測序儀中讀出,該測序儀用四種不同顏色的染料或熒光標記來識別四種可能的堿基。示范性測序儀包括但不僅限于下表2所列出的測序儀。
表2.示范性DNA測序儀
輸入色譜46是任一種提供色譜跡線幅度的數據格式。通常,輸入色譜46包括跡線幅度、跡線調用、它們的置信度值及關于特定測序實驗的任選的文本數據,例如它們的化學性質、測序機器類型和操作條件。在用于生物信息跡線資料庫的國際中心(http//www.ncbi.nlm.nih.gov/Traces)提供有與個體跡線文件相關的通用文本數據列表。
在一個實施方案中,輸入色譜是ABI跡線文件,如以ABI377文件格式的跡線文件。用于解釋ABI377文件格式,參見“Raw Data File Formats,and theDigital and Analog Raw Data Streams of the ABI PRISM 377 DNA Sequencer”,ClarkTibbetts,www-2.c2.cmu.edu/afs/cs/profect/www/Papers,clark.html。在一些實施方案中,輸入色譜46是SCF格式。SCF格式文件含有用于單次讀取的數據并包括其跡線樣品點、它的調用序列、與跡線樣品點相關的堿基位置及每一堿基精確性數值估計。SCF文件格式不依賴于機器,Dear和Staden在1992,DNASequence 3107-110中描述了這種文件格式的版本。
在一些實施方案中,輸入色譜46是ZTR壓縮文件格式。為進一步了解關于ZTR文件格式的更多信息,參見Bonfield等,1995,Nucleic Acids Res.234992-99。在一些實施方案中,輸入色譜46為ALF格式文件。ALF是由AmershamPharmacia Biotech公司(瑞典烏普薩拉)研制的文件格式用于存儲來自測序儀的序列信息。
不論輸入色譜46的特定文件格式,色譜內四條跡線各自分別分成數據結構48-1、48-2、48-3和48-4(圖1)。在最小值處,跡線48包括一系列數據點和每一數據點的幅度。在四條跡線的每一條中理想地用單個點表示對象核酸(正在測序的的核酸)中的每一堿基。假設跡線48-1、48-2、48-3和48-4中每一條的數據點是對應的,如果它們表示對象核酸序列中同一堿基位置。對給定跡線48中每一數據點,存在一種染料強度顯示,該顯示對應于在該位置由數據點表示的給定跡線48。在圖3的上部畫面,對于跡線48-1和48-2典型的數據包括10個相應的數據點和它們各自的強度值。可將圖3A上部畫面每一行理解為輸入色譜46的數據點或坐標。
通常,當待測序核酸為以下情況(i)不是雜合的或者(ii)是雜合的但卻是從相應母方和父方染色體是相同的組織中獲得的,跡線中四個相應的數據點只有一個記錄為“峰”。然而,如圖3上部畫面的數據點數字6所描述的,在已對雜合DNA進行測序的情況下,將存在來源于母親和來源于父親的染色體不具有同一堿基對的數據點,這樣四條跡線中的兩條將在表示該錯配堿基對的數據點處記錄為“峰”。例如,考慮正在對人染色體3上的區域進行測序的情況。在雜合DNA樣品的情況下,來源于母親染色體3上任意堿基位置229可能具有堿基“G”,而在來源于父親的染色體3上相應的堿基位置具有堿基“C”。當測定堿基位置時,跡線中表示堿基“G”的染料的數據點和跡線中表示堿基“C”染料的數據點記錄為峰。這種狀況在圖4中描述。在圖4的色譜402中,位置229(框408)包括雙峰。這樣,當讀取色譜402時,兩個不同的跡線48的數據點229將包括峰。圖2的其余步驟顯示如何分辨這樣的雙峰,并如何將其分離為雜合“子代”色譜52,然后對該色譜基于自動基礎測序而不需要主觀人為解釋。
步驟204.在步驟204中,用掃描跡線模塊56對四條跡線48的每一條進行掃描。掃描跡線模塊56包括兩個程序,峰大小程序58和“成為峰(is-peak)”程序60。峰大小程序58幫助確定定位在每條跡線48中的最通用峰。程序58通過評估跡線48中的每一數據點看是否其是峰的起點完成該任務。如果峰大小程序58確定跡線48中給定數據點是峰的開始,那么該程序確定有多少數據點在該峰中并將該數據點數量記錄在表示跡線48的相應的跡線狀態數據結構50中。圖3的上部畫面描述了。在兩條跡線48-1和48-2中,峰生成的六個數據點開始于數據點數字4。峰大小程序58測定該峰,計算該峰中數據點的數量,并將該數據點峰計數存儲在唯一地對應于表示數據點4(該峰的起點)的數據元素處的各自跡線(分別為跡線狀態陣列50-1和50-2)的跡線狀態陣列50。然后通過分離跡線主模塊44用關于定位與每一跡線48中的最通用峰的信息適當地表征跡線48并搜索這樣跡線中的雙峰。
當峰大小程序58只想確定峰間距時,“成為峰”程序60指向準確地識別每一峰的最大值,也就是峰位置或幅度。“成為峰”程序60對四條跡線48中的每一條中的每一數據點進行評估。對于每一這樣的數據點,“成為峰”程序60確定是否該數據點是峰的最大值。如果是,“成為峰”程序60將該數據點指定為狀態“跡線狀態-峰”。否則,“成為峰”程序60將該數據點指定為狀態“跡線狀態-無”。圖3上部的畫面再次進行了描述。在圖3中,“成為峰”程序60已將掃描48-1和48-2中的每一數據點都進行了分配,如果該數據點不是峰,分配峰值為“NP”,其相當于“跡線狀態-無”。而且,“成為峰”程序60已將發生在跡線48-1和48-2中的數據點6指定為值“PE”,其等同于“跡線狀態-峰”。在接下來的處理步驟通過分離跡線主模塊44使用這些指定。
步驟206.在通過通用測序儀所產生的跡線48中,通常跡線開始和結束處的數據點質量都是不可靠的。這樣,在步驟206,標記有效峰范圍程序62在給定跡線48中標記可靠數據開始的起始點及在給定跡線48中標記可靠數據結束的結束點。在一些實施方案中,通過自動忽略跡線中起始預定數量的數據點(忽略數據指數IGNORE_DATA_INDEX)標記有效峰范圍程序62找到給定跡線有效峰范圍的開始。然后,在已刪除了起始預定數量的數據點后,程序62尋找將發生的忽略開始峰編號(IGNORE_START_PEAK_NUM)峰。例如,弱過忽略數據指數為50并且忽略開始峰編號為10,標記有效峰范圍程序62刪除開始的50個數據點,然后在刪除了開始的50個數據點后尋找將發生的第10個峰。程序62通過在適當的跡線狀態數據結構50中尋找“跡線狀態-峰(TRACE_STATUS_PEAK)”指定識別峰。在上述處理步驟204中通過“成為峰”程序60重新調用已進行的這樣的峰指定。刪除的起始數量的數據點(忽略數據指數)和峰(忽略開始峰編號)可由使用者定義。在一個示例中,刪除0-300個起始數據點,刪除0-25個起始峰,以便于標記有效峰開始。
用于在有效峰范圍內識別最后峰的方法與用于識別起始有效峰的過程相同。忽略了每一掃描中預定數量的終端數據點。然后,程序62從每一掃描的終端開始(排除了終端已忽略的峰)計算直到已刪除預定數量的峰(忽略結束峰編號IGNOR_EN_PEA_NUM)。例如,在忽略數據指數為50并且忽略結束峰編號為10的情況下,,忽略了最后50個數據點,然后排除最后50個數據點,從掃描末端指定第10個峰作為有效數據范圍的終端。可由使用者定義用于發現給定跡線58有效范圍的終點而要被刪除的數據點的最終數量(忽略數據指數)和峰(忽略終端峰標號)。在一個示例中,刪除了0-300個最終的數據點,刪除了0-25個最終的峰以便于標記有效峰數據終點。
步驟208.在步驟208中輪廓程序64首先為四條跡線48中發現的峰確定最通用的峰空間。此處,術語“峰空間”表示在峰中的數據點數量。這樣,步驟208的第一個目的是為跡線48的峰識別最通用峰空間。用狀態數據結構50中的信息實現該目的。重新調用步驟204,峰大小程序58為跡線48中的每一峰識別峰空間并將每一這樣峰的開始處的該信息放在對應的狀態數據結構50中。在步驟208,回顧該峰空間信息來識別最通用峰空間。在一些實施方案中,當確定最通用峰空間時,忽略小于最小峰空間(例如10個數據點)的峰及大于最大峰空間(例如,50個數據點)的峰。
找出最通用峰間隔的目的是便于產生具有該最通用峰間隔的輪廓。在接下來的處理步驟中使用該輪廓確保從雙峰重新構成的單峰不會偏離模型輪廓太遠。本領域技術人員理解有許多不同方法來研究模型峰輪廓,所有這樣的方法都在本發明范圍內。在一個實施方案中,將四條跡線58中每一條具有最通用峰空間的峰在一起進行平均從而形成模型峰輪廓。換句話說,該輪廓表示在四條跡線48中每一條中具有最通用峰間隔的每個峰的組成。在一些實施方案中,通過用最大值劃分組成中的每個數據點使該組成標準化,其中最大值是在該復合峰中具有最大值的數據點的強度值。有大量的另一些這樣的標準化過程。例如,在一些實施方案中,獨立的確定每條跡線48的最通用峰間隔,獨立研究四條跡線48中每一條的輪廓。在一些實施方案中,不僅為最通用峰間隔研究輪廓,而且為稍小于或稍大于最通用峰間隔的峰間隔研究輪廓。在一些實施方案中,進行核查以確保為描繪輪廓所選擇的峰不會與其他峰重疊并且在其用于描繪峰輪廓前該峰不是雙峰。也就是說,在下述情況選擇用作描繪輪廓的峰在其他跡線48中的每一條的相應的數據點不是該峰本身。
步驟210.在步驟210中,確定輸入色譜46中峰的平均背景。用下面算法進行該步驟100對在數據點有效范圍內的每一數據點i{102對每一跡線48{104如果數據點i是峰,那么{106將其與每一條其他跡線48對應的最大峰值比較,如果其他跡線對應的峰較大,將峰i加到平均背景計數并用1增加計數中的數量峰}}}108通過貢獻于背景計數的峰數量計算平均背景該算法基本上通過識別在上述步驟204所標記了跡線狀態-峰(PE)的數據點來工作(行100和102)。當在一條跡線48中發現這樣的數據點(實驗數據點)(行104)時,將其與每一條其余跡線中相應的峰進行比較。如果實驗數據點具有小于一個相應峰的值,假設該峰是背景將它的值加到平均背景計數(行106)。在一些實施方案中,實驗數據點必須具有小于乘以最小重疊峰比率(MIN_OVELAP_PEAK_RATIO)的相應峰值的值,換句話說實驗數據點<(其他跡線中的相應峰*最小重疊比率)其中最小重疊比率是兩個中疊峰最大值之間的比率,需要該比率來考慮這兩個進行重疊的峰相對于只有一個峰是背景而另一個峰是基座信號的情況。在一些實施方案中,最小重疊峰比率為0.6。這意味著如果在輸入色譜46中存在重疊峰,如果較小的峰具有較大峰最大值的至少60%的最大值,那么作為重疊處理這些峰。否則,如果該條件不符合,根據上述行102到行108所設定的算法作為背景計算該較小的峰。
對數據點允許范圍內的每一數據點重復該算法。然后,用對平均背景計數做出貢獻的背景峰數量除平均背景計數產生平均背景計數值。在一些實施方案中,步驟210由計數平均背景峰程序66執行。
步驟212.在步驟212,掃描跡線數據機構50以便于識別坐標(數據點),在該坐標處四個結構中至少有兩個記錄為該坐標圖譜重疊峰間隙(MAP_OVERLAP_PEAK_GAP)內的峰。換句話說,當沿測序儀的毛細管(在那些使用毛細管的測序儀中)大致同一坐標位置處四個熒光信號掃描中至少兩個上檢測到峰時,出現重疊峰。這樣的坐標是重疊峰坐標。
在一些實施方案中,當第一峰中具有最大值的數據點在第二峰中具有最大值的數據點的閾值數量的數據點范圍內時,認為輸入色譜46中第一掃描的第一峰與第二掃描的第二峰重疊。換句話說,步驟212試圖識別輸入色譜46中重疊閾值數量的下述數據點范圍內的坐標(i)色譜46中第一跡線48的第一峰中具有最大值的數據點和(ii)色譜46中第二跡線48的第二峰中具有最大值的數據點。在優選實施方案中,該重疊閾值數量為3個數據點。也就是說,在第一和第二峰中具有最大值的數據點必須在沿測序儀的毛細管(在那些使用毛細管的測序儀中)的坐標中彼此的3個數據點范圍內。在其他實施方案中,重疊閾值數量為1個數據點、2個數據點、4個數據點、2-7個數據點、8或更多數據點、或少于25個數據點。
接下來的處理步驟檢測在該處理步驟中識別的坐標看是否符合許多規則。如果該坐標的確符合這樣的規則,那么將具有兩個重疊峰中每一個的最大值的數據點標記為跡線狀態-重疊峰(TRACE_STATUS_OVERLAP_PEAK),將這兩個峰最終分離為分開的輸出色譜文件52或者對這些峰進行堿基命名,并將該峰的核苷酸表示寫成分離的純系序列。在通常的實施方案中,用步驟212的逐次狀況以線性方式核查輸入色譜46中的坐標,開始于該色譜允許數據點的一個端,以便于看是否它們含有重疊峰。當在坐標中發現重疊峰時,過程控制轉到步驟216。
步驟216.在某些情況下,當輸入色譜46中的峰太擁擠時,人為引起了重疊峰。這樣,在本發明的一些實施方案中,核查已識別的一對重疊峰周圍的區域以便確定是否在該區域有太多的峰。換句話說,確定是否在輸入色譜46的預定區域關于在步驟212的最后情況中所識別的坐標存在多于閾值數量的峰。當存在多于閾值數量的這樣的峰時,就不能分離步驟212最后情況中所識別的重疊峰,它們最終都寫成輸出純系表示。
在處理步驟216中通常使用兩個參數(i)窗口尺寸和(ii)在窗口尺寸中所允許的峰的最大數量。例如考慮以下情況,其中窗口尺寸為7,在該窗口中允許的最大數量峰為3。在步驟216,在所有四個跡線48中核查步驟212最后狀況中所選的坐標及在該坐標之前的3個數據點及之后的3個數據點(對于7×4的總數=28個數據點),將這些區域中峰的數量相加。如果峰的數量超過3(216-Yes),那么程序控制轉到步驟218,在該步驟所檢測區域中每一個峰作為擁擠標記,不將該區域中的峰分成不同的輸出純系表示。如果該區域中峰的數量為3或更小(216-No),那么該峰不作為擁擠標記。
應理解可使用不同的窗口尺寸和在該窗口尺寸中最大允許峰閾值。在一些實施方案中,在步驟216所檢測的窗口尺寸為4-8個數據點、5-10個數據點、2-20個數據點、大于20個數據點或小于50個數據點。在一些實施方案中,應用于步驟216的窗口中最大允許數量峰為2個峰、3個峰、4個峰、5個峰、2-5個峰、5-10個峰、大于10個峰、或小于50個峰。
步驟218.當確定步驟212最后狀況中所識別的重疊峰位于色譜46中峰擁擠在一起的區域時,過程控制轉到步驟218。這樣,為避免假陽性測定,將這樣的峰標記為擁擠并不在認為是峰。將這樣的擁擠區域中的強度都寫為輸出純系表示(例如,色譜52A和52B)。一旦擁擠的峰標記為擁擠,過程控制轉到下面的步驟234。
步驟220-224.雖然來自雜合DNA樣品中兩個染色體中的每一個的DNA應是相等的,重疊峰的最大值卻不常常相同。許多因素影響最大峰值,如染料數量、相鄰干擾等。因而,對于重疊峰允許具有不同的幅度。在一些實施方案中,允許的兩依賴于兩個重疊峰中較小的是否規則及完全。如果較小的峰是規則完全的(220-Yes),那么在本發明的一個實施方案中,第一(較小的)峰與第二(較大的)峰之間的比率可以小至0.2(步驟222)。在一些實施方案中,當較小峰規則并完全時,最小允許比率為0.1-0.95。在更優選的實施方案中,最小允許比率至少為0.2或至少為0.4。
在本發明的一個實施方案中,如果兩個重疊峰中較小的是不規則不完全的(220-No),那么第一和第二峰之間的比率僅可小至0.6(步驟224)。在一些實施方案中,當較小峰不規則不完全時,最小允許比率為0.1-0.95。在更優選的實施方案中,最小允許比率為至少0.2。在更較優選的實施方案中,最小允許比率為大約0.2-0.6。
步驟228.如果重疊峰不能滿足220-224的條件(222-No或224-No),那么過程控制轉到步驟228,在該步驟將峰標記為假重疊峰。在接下來的處理步驟,將假重疊峰都寫作純系表示(例如,輸出色譜52)而不是分成兩個分離的色譜。一旦該峰已標記為假重疊峰,過程控制轉到下面的步驟234。
步驟232.如果重疊峰滿足220-224的條件(222-Yes或224-Yes),那么過程控制轉到步驟232,在該步驟中將峰標記為重疊峰(跡線狀態-重疊分離TRACE_STATUS_OVERLAP_SPLITTED)。在接下來的處理步驟將重疊峰寫層分離的色譜52。在一些實施方案中,重疊峰必須滿足附加規則以便于指定為重疊峰。例如,在一些實施方案,兩個峰中較小的必須大于某個閾值背景水平以便于使重疊峰指定為重疊。如果兩個峰中較小的不滿足該要求,這將給峰標記為假重疊峰并且不將它們分離為分開的輸出純系表示(例如,色譜文件52)。
步驟234.在步驟234中,確定對于重疊峰是否已核查輸入色譜46的完全有效區域。如果沒有(234-No),過程控制轉到步驟212以便于找出存在待選重疊峰的另一坐標。然后,對新的待選疊峰重復步驟216-234以便于確定是否將待選重疊峰作為擁擠峰標記(峰太擁擠)、假重疊(峰不滿足比率或背景需要)或重疊峰。通常,步驟212的連續狀況以線性次序從輸入色譜46恢復重疊峰的坐標,從色譜的一端向另一端進行,直到對所有有效數據點進行了檢測。然而,本發明不限于這樣的方法,實際上任一在步驟212的連續狀況中或的重疊數據點的方法都可進行,只要用步驟216-234對全部或部分重疊峰進行測試。
步驟236.一旦所有的待選重疊峰都標記為假重疊、擁擠、或重疊(234-Yes),通過輸入色譜46進行新的回路,以便于確定是否存在插入或刪除。跡線48將具有大量標記為假重疊或重疊的峰,這些峰開始于兩個染色體中的一個刪除或插入開始的坐標。并且,由于染色體不再排列于插入或刪除點之后,將在跡線48中存在更多的峰,那么通常會發現是否將對應染色體適當排列。該狀況描述于圖5。在圖5中,插入出現在所測序列的雜合核酸的坐標166處。這樣,從坐標166向前,在輸入色譜中存在大量峰(框508)。
在步驟236,選擇色譜46中的數據點i并接下來在處理步驟238中進行檢測。
步驟238.步驟238核查確定步驟236最后狀況中所識別的坐標實際上不是雜合核酸樣品中兩個相應染色體中的一個染色體上的插入或刪除的開始。在本發明的一個實施方案中,用兩種不同的試驗完成該插入/刪除的核查。在第一種試驗中,確定是否開始于步驟236的最后狀況中所選的坐標(數據點)i處保留在輸入色譜46(或在輸入色譜46中某個區域)中的峰的數量超過了閾值數量峰。如果是這樣(238-Yes),過程控制轉到步驟240,在該步驟每一個在數據點i之后的峰標記為未重疊峰。在一些實施方案中,可能在輸入色譜46剩余中的閾值數量峰為25-75、50-100、75-200、150-400或大于500。
第二個用于檢測雜合核酸樣品中插入或刪除的試驗考慮在輸入色譜46(或步驟236的最后狀況中所識別的數據點i之后的輸入色譜的某個窗口)的剩余中所發現的峰的類型。如果輸入色譜46剩余中重疊峰(或假重疊峰)的全部數量超過了閾值百分比(238-Yes),那么過程控制轉到步驟240。在一些實施方案中,閾值百分比為2-90%。在更優選的實施方案中,該閾值百分比為10-50%。在其他實施方案中,閾值百分比為20-40%。在一個優選實施方案中,閾值百分比為25%。
步驟240.當在輸入色譜46中坐標(數據點)i處檢測到染色體插入或刪除時,過程控制轉到步驟240。在這種情況下,將每一組前面已識別為重疊的重疊峰在步驟240標記為未重疊峰。進行該步驟以使得將輸入色譜中所有的數據(從該點刪除或插入首次檢測)都寫為色譜文件52A和52B。在本發明的一些實施方案中,識別并標記刪除或插入。然后,在解決該插入和/或刪除后,努力再次重排該染色體,并用圖2所指出的技術標記重排序列中的重疊峰。
步驟242.如果在數據點i為檢測到染色體插入或刪除(238-No),確定是否對輸入色譜46中所有的數據點i都進行了評價(步驟242)。如果是這樣(242-Yes),過程控制轉到步驟244。如果不是(242-No),過程控制返回到步驟236,通常在該步驟中,選擇輸入色譜46中下一個接下來的數據點i。
步驟244.在雜合核酸樣品的情況下,通過來自兩條染色體的DNA貢獻于所檢測的信號,這樣的純系(重疊)峰通常具有比雜合峰更大的值。通過用常數乘以每一個雜合峰(每一個標記為重疊的峰),步驟244校正了這種現象。通常該常數為因子2。在一些實施方案中,該常數在大約1.1-3.2范圍內。
步驟246.在步驟246中說明相鄰峰對重疊的不完全峰的影響。對超過通用峰輪廓的的重疊峰中的每一數據點,其中在步驟208(圖2A)中通過大于最大峰誤差(MAX_PEAK_ERROR)模仿該輪廓,減去該數據點的值獲得用通用峰輪廓規定的的值。在優選實施方案中,最大峰誤差為0.1。在一些實施方案中,最大峰誤差范圍為0.01-0.4。這樣,通過確保它們的輪廓不偏離步驟208所研究的通用峰輪廓太遠,步驟246已具有校正跡線48中重疊峰的效果。
步驟248.在步驟248,產生色譜52A和52B。對每一個標記為跡線狀態-重疊峰分離TRACE_STATUS_OVERLAP_PEAK_SPLITTED(也就是每一個連續保持標記為重疊的峰),通過跡線分離程序68,將每一個重疊峰寫為一個色譜52A和52B,另一個重疊峰寫成另一個色譜52A和52B。在一些實施方案中,色譜52A和52B生成為ABI文件格式、SCF文件格式、ZTR文件格式或ALF文件格式。
圖3描述了步驟248。在圖3上部,顯然在跡線48-1和48-2中存在重疊峰聚集在坐標6。假設這些峰滿足前面圖2所設定的試驗并且標記為重疊,將它們分成兩個不同的純系表示(例如,色譜54)。圖3下部描述了示例性輸出純系表示—輸出色譜52。在下部,輸出色譜52A接收來自跡線48-1的峰但不接收來自跡線48-2的峰。相應的,輸出色譜52B接收來自跡線48-2的峰而不接收來自跡線48-1的峰。
實施例1.現披露根據本發明一個實施方案的處理技術。參見圖4,提供了本發明技術的圖示說明。在圖4中,存在在位置229(框408)處包含雙峰的輸入色譜402。常規堿基命名軟件以將該雙峰識別為胞嘧啶(C)。然而,應用本發明方法輸入色譜402產生輸出色譜404和406,其中在位置229處的雙峰已分離為兩個雜合峰各自對應于輸出色譜404和406。當讀取輸出色譜404和406時,常規堿基命名軟件正確地識別坐標229包含鳥嘌呤(色譜404;G)和胞嘧啶(色譜406;C)。
通常,輸入色譜402包含大于1個雙峰。例如,考慮以下情況輸入色譜基于雜合核酸樣品,該樣品包含以下序列ACGTTTC和ACCTTAC用符號AC(G/C)TF(T/A)C一起表示這些序列,其中在對應與輸入序列的色譜402中(G/C)表示第一個雙峰,(T/A)表示第二個雙峰。在這樣的情況下,本發明方法輸出兩個雜合輸入的可能雜合表示中的一個(I)ACGTTTC和ACCTTAC或(II)ACCTTTC和ACGTTAC。
換句話說,本發明的系統和方法為設計為確定雜和樣品的“真實”序列,該序列在上述所給的示例中為序列對(I)。相反的,本發明的系統和方法目的是產生雜合輸入數據的純合表示,以使得以自動方式披露雜合數據中的多態性。純合表示的形式為,例如,純合序列或純合色譜。在優選的實施方案中,純合表示的形式為純合色譜,以使得可將完善的堿基命名技術應用于表示。
實施例2.對復雜的人類疾病識別基因敏感度因子可產生對它們的致病機理的了解并產生新的策略來治療并預防疾病。盡管投入了相當多的努力,仍不得不識別解釋對大部分公眾常見疾病的敏感度的基因性變型。對于信息缺乏的一個原因是在證實基因座與疾病之間的關聯性中所涉及的大量時間和勞力。在這樣的證實策略中一個速率限定任務是識別懷疑基因座中的標記物。參照圖6,本發明使用自動方法將純合輸入色譜46分成純合輸出色譜(例如圖2所述的方法)從而較大的較低識別標記物的時間和耗費。在圖6所述的應用中,分析染色體區域(基因座)確定基因座是否與目標疾病或性狀相聯。
步驟602.在步驟602中,用標準基因分析識別能與目標性狀相連的染色體區域(基因座)。在下面標題為“示例性性狀”的部分描述了目標示例性性狀。在一種方法中,用典型的孟德爾分析識別與目標性狀相連的特定基因。在孟得爾方法中,用具有高信息量的潛在基因分型的個體表型表征基因。在表型(所研究的性狀)提供非常少的關于潛在基因分型的信息的情況下,用定量遺傳學發現基因座(稱為定量性狀基因座)于所研究性狀之間的關聯。定量基因學方法需要所研究種的基因圖譜結構。基因圖譜顯示沿染色體上的基因座排序及這些基因座之間的相對距離。用回歸分析(Soller等,1976,Theor.Appl.Genet.47.35-39)或時間間隔法(Lander和Botstein,1989,Genetics 121185-199)可構建這樣的圖譜。可用于這樣的圖譜的標記物包括,但不限于,單核苷酸多態性、限制片段長度多態性、微衛星標記物、短銜接重復、序列長度多態性和DNA甲基化。一旦構建了基因圖譜,用下述方式可發現與目標性狀相連的基因座(i)線性模型,如t-檢驗(例如,Sokal和Rohlf,1995,Biometry第二版,W.H.Freeman and Co.,NY)、ANOVA或回歸,或(ii)或最大概似法(例如,Genetics and Analysis of Quantitative Traits,Lynch和Walsh,1998,SinauerAssociates公司,Sunderland,Massachusetts,附錄4)。
家族研究已清楚地顯示對于許多常見的人類疾病的遺傳傾向,這些疾病如哮喘、孤獨癖、精神分裂癥、多發性硬化、系統性紅斑狼瘡及I型和II型糖尿病。為便于回顧,參見Risch(2000)Nature405847-56。在過去的20年,通過在人群中進行關聯性分析和位置克隆已識別了對于多種高滲透性、單基因(孟得爾)紊亂的成因基因變異,這些紊亂如囊性纖維化、亨廷頓氏舞蹈病及杜興(Duchene)肌營養不良癥。這樣的成功已發生在相對稀少的紊亂中,在這樣的紊亂中種的基因組的基因組成(基因型)和一個或多個由該種表現出來的物理特征(表型)之間存在強烈的關聯。在某種程度上,已用同樣的方法識別與普通人群中常見疾病感染性關聯的遺傳性變型。為便于回顧,參見Lander等(1994)Science265203748。通過這些方法,已識別一些常見疾病亞組感染性相關的遺傳性變型,這些疾病如乳腺癌(BRCA-1和-2)、結腸癌(FAP和HNPCC)、早老性癡呆(APP)和II型糖尿病(MODY-1、-2、-3)。在一些情況下,在步驟602識別多個可與所研究性狀相連的染色體區域,用圖6所述的接下來的處理步驟同時或單獨分析每一個這樣的區域。
對于關于識別與目標性狀相連的基因座方法,參見Risch(2000)Nature405847-56;Lander等(1994)Science2652037-48;Nadeau和Frankel,2000,Nature、Genetics25381-84;Fisch等,1996,Genetics143571-77,Luo等1992,Heredity69236-242,Jiang等,1997,Genetics10147-58,Olson等,1999,Statist.Med.182961-81,Schork等,1998,及TIG14266-72,Haines和Pereicak-Vance,Approaches to Gene Mapping in Complex HumanDiseases,Wiley-Liss公司。
步驟604.一旦已識別與所研究性狀相連的基因座,集中群體。理想的,群體包括差異顯示所研究性狀的成員。例如,如果所研究的性狀為乳腺癌,典型的群體包括患乳腺癌的女性和沒有患乳腺癌的女性。在Cheng等,1999,Genome Res9936-949,使用142為沒有關系的高加索人組成的群體,以將這些人的血管造影術定量并用Gensini法計算(Gensini,1975,Coronary arteriography,Futura出版公司,紐約,NY)。用這些計算將該群體再細分為表示不同嚴重程度的管狀動脈閉塞的五份(quintiles)。
步驟606.在步驟606對該群體進行基因分型。通常,這涉及對步驟602中所識別的每一群體成員的區域或染色體DNA區域進行測序以便于產生多個DNA序列。在一些情況下,用標準技術,如Bell等人的方法,1981,Proc.Natl.Acad.Sci.785759-63,或使用DNA分離試劑盒(例如Puregene DNA分離試劑盒,Gentra Systems公司,Minneapolis,MN)從血液中獲得來自群體成員的DNA。用特定于步驟602所識別的區域或一些區域的引物擴增純化DNA,用測序儀對擴增區域進行測序,測序儀如任一種上述表2中所披露的測序儀。步驟606的結果產生了許多DNA序列,每一DNA序列表示在步驟602中所識別的來自群體的不同成員的染色體DNA的區域。在識別了染色體DNA多個區域的情況下,步驟606的結果是對群體的每一成員產生了多個序列,一個序列相對于步驟602中所識別的每一區域。用通過該序列所產生的核酸色譜46表示每一個這樣的序列。
步驟608.當使用常規堿基命名軟件來測定這樣的序列時,特別是在核酸來源是雜合的情況下,由步驟608中的測序儀所產生的多個色譜的測序代表圖6所述的方法最耗費時間的一個步驟。用常規堿基命名軟件,必須在視覺上檢查色譜46中雜合性的每一點從而觀察存在哪兩個堿基。這不僅耗費了時間,而且受到主觀人為解釋。通過用圖2中所述的技術自動將雜合色譜46分成純合色譜52,本發明有利地巧妙避開了這種主觀耗時的步驟。然后用常規堿基命名軟件可對純合色譜52進行測序使得測定步驟606中擴增和/或測序的核酸序列。
步驟610.在步驟610的一個實施方案中,分析輸出色譜54中所有或一部分的數據點的單核苷酸多態性(SNP)。當在給定數據點處存在不同等位基因時,出現單核苷酸多態性(SNP)。例如,考慮以下情況測定群體的十個成員中的給定的基因座。考慮基因座包括數據點90,相應于群體中的給定的堿基。如果在相應于群體10個成員的10個序列中位置90的堿基發生變化,將位置90定義為SNP。例如,如果考略雜合核酸,對全部20個序列,10個群體成員將產生一個基于母方的序列和一個基于父方的序列。如果在20個序列中位置90中表示多于一個核酸,考慮該位置為SNP。在一些實施方案中,使用更嚴格的標準次要的等位基因必須存在于多于一個序列中。這樣,在這種更嚴格的標準下,20個序列中的19個編碼為鳥嘌呤,1個編碼為腺嘌呤,這樣的結果不考慮為SNP。然而,20個序列中18個編碼為鳥嘌呤,2個編碼為腺嘌呤,該結果考慮為SNP。此處,鳥嘌呤是主要的等位基因而腺嘌呤為次要的等位基因。在其他實施方案中,次要等位基因必須占已測序DNA樣品中的至少大約5%、占已測序DNA樣品中的至少大約10%、占已測序DNA樣品中的至少大約15%,或占已測序DNA樣品中的大約大于20%。
步驟612.如果該基因座內的標記或單倍體與該性狀相關,認為染色體DNA區域(基因座)與所研究的性狀之間的關聯已證實。在步驟612中,用關聯分析,對步驟610中所發現的每個標志(例如,SNP)或源于這樣的標志的單倍體進行與所研究的性狀關聯性的試驗。該目的是識別群體部分中過多表示的標記物或單倍體,該群體部分表示所研究的性狀的一種表型。例如,在Campbell等,1999,Mol.Psychiatry468-70中,對170位女性高加索患有神經性厭食癥的群體和150位正常女性對照進行了基因分型。在該群體中標記物的關聯分析顯示了標記物的特定等位基因D11S911顯著過量地在神經性厭食癥群體中表顯。如卡方檢驗(chi-square test)或漁夫兩尾(Fisher’s two-tailed)精確檢驗(Sokal和Rohlf,1995,Biometry,第三版,Freeman,San Francisco,California)這樣的統計試驗用于確定在基因座或基因座中的單倍體的標記物的等位基因是否與所研究的性狀的特定表型相關。
利用常規技術,用步驟610中所識別的標記物信息可構建單倍體。這樣的技術包括但不限于下面的文獻中所披露的Stephens等2001,Am.J.Hum.Genet.68978-89,Liu等,2001,Genome Res.111716-1724,Abescasis等2002,Nature Genet.3097-101。而且,利用期望最大值或貝葉斯統計算法(Zhang等,2002,Nucleic Acids Res.305213-21),軟件分析包Hapscope支持計算單倍體的構建。
示例性性狀。如上文所述,圖6中所述的本發明的實施方案提供了方法將基因座與在種(例如,單個種)的多個有機體中的一個或多個組織所表現的性狀相關聯。在一些情況下,該基因座為基因,通過識別該與群體部分所表現的特定表型相關聯的基因內的標記物使其與性狀相關。在本發明的一些實施方案中,目標性狀為復雜的性狀,如疾病,例如人類疾病。示例性疾病包括但不限于變態反應、哮喘和強迫性精神異常,如心理失衡、恐怖癥、外傷后緊張病癥。
示例性疾病進一步包括自免疫失調,如艾迪生氏(Addison’s)病、斑禿、關節強硬性脊椎柱炎、抗磷脂綜合癥、貝堤特氏(Behcet’s)病、慢性疲勞綜合癥、克羅恩氏病及潰瘍性結腸炎、糖尿病、纖維肌痛、Goodpasture綜合癥、移植物抗宿主反應、狼瘡、梅尼爾病、多發性硬化、重癥肌無力、肌炎、慢性天皰瘡、夏科氏肝硬變、牛皮癬、風濕熱、結節病、硬皮病、脈管炎、白癜風、韋格內氏肉芽腫癥。
示例性疾病進一步包括骨病,如軟骨發育不全癥、骨癌、進行性骨化性纖維發育不良、纖維性結構不良、腿卡佩二氏病、骨髓瘤、骨發生不全、骨髓炎、骨質疏松、佩吉特式病及脊柱側凸。示例性疾病包括癌癥,如膀胱癌、骨癌、腦癌、乳腺癌、子宮頸癌、結腸癌、婦科癌癥、霍奇金氏病、腎癌、喉癌、白血病、肝癌、肺癌、淋巴瘤、口腔癌、卵巢癌、胰腺癌、前列腺癌、皮膚癌、睪丸癌等。
示例性疾病基因還包括遺傳病癥,如軟骨發育不全癥、色盲、酸性麥芽糖酶缺乏癥、腦白質腎上腺萎縮癥、Aicardi綜合癥、α-1抗胰蛋白酶缺乏癥、雄激素不敏感綜合癥、Apert綜合癥、發育不良、共濟失調毛細血管擴張、藍橡膠皰疹痣綜合癥、卡納范病、貓叫綜合癥、囊性纖維變性、Dercum氏病、夫克氏貧血、進行性骨化性纖維發育不良、脆性x綜合癥、半乳糖血癥、Gauche病、血色素沉著癥、血友病、杭廷頓氏舞蹈病、Hurler綜合癥、低磷酸酯酶癥、klinefelter綜合癥、半乳糖腦苷脂積累癥、Langer-Giedion綜合癥、腦白質病變、長QT綜合癥、馬方氏綜合癥、莫比亞斯綜合癥、粘多糖病(mps)、指甲膝蓋綜合癥、腎原性尿崩癥、多發性神經纖維瘤、尼曼匹克病、骨發育不全、卟啉癥、Prader-Willi綜合癥、兒童早衰癥、變形桿菌綜合癥、成視網膜細胞瘤、解救綜合癥、rubinstein-taybi綜合癥、山菲立普綜合病、Shwachman綜合癥、鐮狀細胞貧血病、Smith-Magenis綜合癥、Stickler綜合癥、家族黑蒙性白癡、血小板缺乏橈骨(tar)綜合癥、Treacher柯林斯綜合癥、三體性、結節性腦硬化、特納綜合癥、尿素循環異常、希一林二氏病、Waardenburg綜合癥、威廉斯綜合癥、威爾遜氏病。
示例性疾病進一步包括心絞痛、發育不良、動脈粥樣硬化/動脈硬化、先天性心臟病、心內膜炎、高膽固醇、高血壓、長QT綜合癥、二尖瓣脫垂、身體直立心動過速綜合癥及血栓。
實施例3.用來自32個歐洲人的基因組DNA樣品,通過使用計算機程序列表附件中的軟件程序來試驗本發明方法從而進行SNP發現及人基因HRMT1L3基因分型(NCBI登記號為NM-019854;Strausberg等,2002,Proc.Natl.Acad.Sci.U.S.A 9916899-903)。HRMT1L3是蛋白質精氨酸N-轉甲基酶,位于人染體12上,大約為3.5Mb。它具有10個外顯子,覆蓋了102.38Kb基因組區域。由于大部分由HRMT1L3覆蓋的基因組區域是內含子區域,確定只對其外顯子和常規區域進行基因分型。設計了總共48對PCR引物。這些引物一起覆蓋了圖7所述的總共大約30Kb的基因組區域。
對32個歐洲人基因組DNA樣品中的每一個進行總共為48個PCR反應,對結果擴增的PCR產物的雙鏈進行測序。對總共48×32×2=3072擴增子(amplicon)進行測序。每一擴增子的長度為大約650bp。因而大約48×32×2×650=1996.8Kb進行測序。如果在常規計算機軟件的幫助下由人分析這樣的序列,這些軟件如Sequencher(Gene Codes公司,Ann Arbor,Michigan)或TraceTuner(Paraeel,Pasadena,California),它們能分析序列質量、排列來自同一基因組區域的擴增子并用圖表表示潛在的多態性,這樣仍需要有經驗的技術人員花費大約0.5-1小時來檢測來自一個引物對的64個雜合波形,識別SNP并收集等位基因信息。因此,一個有經驗的技術人員將花費至少16小時來檢測所有這些3072個序列或1996.8Kb的序列。使用本發明的系統和方法,如包括在表1詳述的計算機程序列表附件中所披露的計算機程序,將花費少于5分鐘來完成所有3072個雜合波形或1996.8Kb的序列的分析,包括質量核查、將雜合波形分離為純合波形、進行SNP發現并收集等位基因信息。在已分析的核酸序列中發現了總共44個SNP。
其它實施方案為解釋和說明目的提供了前述的本發明的特定實施方案說明,但前述說明并不是窮舉或將發明限定在所披露的明確形式。鑒于上述教導可進行許多修飾和改變。例如,為輸入色譜46制定基準,該色譜對四個可能的堿基的每一個包括跡線腺嘌呤、鳥嘌嶺、胞嘧啶、胸腺嘧啶。然而,本發明不限于具有這樣堿基的核酸序列。實際上任一堿基,包括但不限于任一嘌呤或嘧啶衍生物,可用于本發明,只要它們用特定的熒光團或其他標記試劑進行了差異標記。例如,這樣的堿基包括但不限于下屬文獻所披露的那些WO98/16539(NovoNordisk A/S),WO98/04126(Rhone-Poulenc Rorer Pharmaceuticals公司),WO98/01459(Novo Nordisk A/S),授予Bays等的美國專利6,492,348,授予Matteucci等的美國專利6,005,096,Inoue等,1987,Jan Kokai JP 62059293,Prober等,1987,Science238336-41,Sung,1981,Nucl.Acids Res.9(22)6139-51,Sung,1982,J.Org.Chem.473623-28,Draper,1984,Nucleic Acids Res.12(2)989-1002,Draper 1986,Anal.Biochem.157(2)199,歐洲專利申請063879,和PCT申請PCT/US84/00279。
引用的參考文獻及結論所有在此引用的參考作為一個整體參考引用,并且其全部目的與各自單獨特定顯示的出版物或專利或專利申請相同,其全部目的都是作為整體參考引用。
選擇并描述了實施方案以使得最佳解釋本發明原理和實踐應用,從而因此能夠使本領域其他技術人員最佳地使用本發明和具有各種變化的變化實施方案,這些變化實施方案適于特定考慮的使用。意圖是本發明范圍由接下來的權利要求及其等價物限定。
權利要求
1.一種處理具有多個基本同時發生的跡線的輸入核酸色譜的方法,在所述多個跡線中的每條跡線具有多個數據點,每一多個所述數據點中的每一個分別的數據點表示在跡線中相應于各自數據點的位置處的信號幅度,該方法包括識別所述多條跡線中第一跡線的第一峰,該峰基本與所述多條跡線中第二跡線的第二峰重疊;及輸出所述第一峰為第一輸出純合表示,第二峰為第二輸出純合表示。
2.如權利要求1的方法,其中所述第一輸出純合表示是所述輸入核酸色譜的第一純合序列表示;及所述第二輸出純合表示是所述輸入核酸色譜的第二純合序列表示。
3.如權利要求1的方法,其中所述第一輸出純合表示是第一純合核酸色譜;及所述第二輸出純合表示是第二純合核酸色譜。
4.如權利要求1的方法,其中所述識別包括(A)對于在所述的第一跡線中一個或多個峰中的每一個分別的峰,標記具有所述分別峰中的最大值的數據點,第一跡線中所述的一個或多個峰包括所述第一峰;(B)對于在所述的第二跡線中一個或多個峰中的每一個分別的峰,標記具有所述分別峰中的最大值的數據點,第二跡線中所述的一個或多個峰包括所述第二峰;(C)識別所述輸入核酸色譜中的坐標,該坐標在下述數據點的重疊閾值數量的數據點內(i)具有所述第一峰中的最大值的第一數據點和(ii)具有所述第二峰中的最大值的第二數據點。
5.如權利要求4的方法,其中當所述第一數據點與第二數據點間隔2個數據點至7個數據點時,所述第一峰基本與所述第二峰重疊。
6.如權利要求4的方法,其中當所述第一數據點與第二數據點間隔小于3個數據點時,所述第一峰基本與所述第二峰重疊。
7.如權利要求1的方法,其中所述第一峰和第二峰各自獨立地包括5-40個數據點。
8.如權利要求1的方法,其中所述輸入色譜為ABI跡線文件格式、SCF文件格式、ZTR文件格式或ALF文件格式。
9.如權利要求1的方法,其中將所述第一輸出核酸色譜和第二輸出核酸色譜各自寫成ABI跡線文件格式、SCF文件格式、ZTR文件格式或ALF文件格式。
10.如權利要求4的方法,其中當在所述輸入色譜中關于所述坐標的預定區域中存在大于閾值數量的峰時,將所述第一峰和第二峰各自都寫成第一輸出純合表示和第二輸出純合表示。
11.如權利要求10的方法,其中所述閾值數量峰為2-5個峰。
12.如權利要求10的方法,其中所述預定區域為關于所述坐標的2個數據點-20個數據點。
13.如權利要求4的方法,其中當第一峰的第一數據點與第二峰的第二數據點之間的比率大于閾值比率值時,將所述第一峰和所述第二峰各自寫成第一輸出純合表示和第二輸出純合表示。
14.如權利要求13的方法,其中所述的閾值比率值為至少0.20。
15.如權利要求13的方法,其中所述的閾值比率值為至少0.40。
16.如權利要求4的方法,其中當第一峰的第一數據點與第二峰的第二數據點之間的比率小于閾值比率值時,將所述第一峰和所述第二峰各自寫成第一輸出純合表示和第二輸出純合表示。
17.如權利要求4的方法,該方法進一步包括為所述輸入核酸色譜確定平均峰背景值,及當所述第一峰的第一數據點或第二峰的第二數據點小于所述平均峰背景值時,將所述第一峰和所述第二峰寫成所述第一輸出純合表示和第二輸出純合表示。
18.如權利要求17的方法,其中通過下述方法計算平均峰背景值(i)比較(a)多條跡線的試驗跡線中的數據點,該數據點具有所述試驗跡線中峰的最大值,與(b)在多條跡線中另一條跡線的相應區域中具有最大值的相應數據點;(ii)重復將試驗跡線的所述數據點與多條跡線中另一條的相應區域中具有最大值的相應數據點進行比較,直到多條跡線中每一條都已進行了所述比較(i)中的比較,其中當試驗跡線中的數據點具有大于多條跡線中的每一條其它跡線的相應數據點所具有的值時,將該數據點的值加到計數器中;(iii)用具有在試驗跡線中的不同峰的最大值的不同數據點重復比較步驟(i)和重復步驟(ii),直到通過所述比較步驟(i)對試驗跡線中所有或部分峰都進行了比較;(iv)用多條跡線中的不同試驗跡線重復所述比較步驟(i)、重復步驟(ii)和重復步驟(iii),直到多條跡線中每一條都作為在所述比較步驟(i)中的試驗跡線被考慮過;及(v)通過加到計數器上的多個峰平均所述的計數器,從而獲得所述平均峰背景值。
19.如權利要求4的方法,其中所述的輸入核酸色譜表示來自雜合核酸樣品的核酸序列,該方法進一步包括對所述雜合核酸樣品中的插入或刪除點掃描所述輸入核酸色譜;其中當發現所述插入或刪除點并且所述坐標在該點之后時,將第一峰和第二峰各自寫成所述的第一輸出純合表示和第二輸出純合表示。
20.如權利要求19的方法,其中所述掃描包括計數發生在所述坐標之后的多個跡線中的峰的數量,其中當峰的數量超過插入/刪除閾值數量時,確定所述坐標為所述雜合核酸樣品中的插入或刪除點。
21.如權利要求20的方法,其中所述的插入/刪除閾值數量為25-75。
22.如權利要求20的方法,其中所述插入/刪除閾值數量為75-200。
23.如權利要求19的方法,其中所述掃描包括確定在所述坐標后多個跡線中重疊峰的百分比,其中,當重疊峰的百分比超過插入/刪除閾值百分比時,確定所述坐標為雜合核酸樣品中所述的插入或刪除點。
24.如權利要求23的方法,其中所述插入/刪除閾值百分比為2-90%。
25.如權利要求23的方法,其中所述插入/刪除閾值百分比為10-50%。
26.如權利要求1的方法,其中所述輸入核酸色譜表示來自雜合核酸樣品的核酸序列,其中在所述輸出之前,所述方法包括用縮放比例常數乘以所述第一峰和第二峰。
27.如權利要求26的方法,其中所述縮放比例常數為1.1-3.2。
28.如權利要求26的方法,其中所述縮放比例常數為2.0。
29.如權利要求1的方法,該方法進一步包括為所述輸入核酸色譜中的多個峰生成通用峰輪廓,并且在所述輸出前,對照所述通用峰輪廓核查所述第一峰或所述第二峰。
30.如權利要求29的方法,其中所述生成包括確定在所述輸入核酸色譜中峰中數據點的平均數量;及將在所述核酸色譜中具有所述平均數量數據點的全部或部分峰的輪廓平均,從而形成所述通用峰輪廓。
31.如權利要求29的方法,其中所述核查包括通過誤差百分比確定在所述第一峰或第二峰中的試驗數據點的值是否超過了所述通用峰輪廓中相應于所述試驗數據點的數據點的值。
32.如權利要求31的方法,其中所述誤差百分比為0.01-0.4。
33.如權利要求31的方法,其中所述誤差百分比為0.1。
34.如權利要求1的方法,其中所述在所述輸入色譜核酸中多條跡線包括相應于鳥嘌呤的第一跡線、相應于胞嘧啶的第二跡線、相應于腺嘌呤的第三跡線及相應于胸腺嘧啶的第四跡線。
35.一種用于執行權利要求1的方法的步驟的具有計算機可執行指令的計算機可讀介質。
36.一種用于與計算機系統相連的計算機程序產品,該計算機程序產品包括計算機可讀存儲介質和嵌入其中的計算機程序機制,該計算機程序機制用于處理具有多個基本同時發生的跡線的輸入核酸色譜,該計算機程序機制包括用于識別在所述多條跡線的第一條跡線中的第一峰的指令,該峰基本與所述多條跡線的第二跡線中的第二峰重疊;和用于將所述第一峰輸出給第一輸出純合表示和將第二峰輸出給第二輸出純合表示的指令。
37.如權利要求36的計算機程序產品,其中所述第一輸出純合表示是所述輸入核酸色譜的第一純合序列表示;及所述第二輸出純合表示是所述輸入核酸色譜的第二純合序列表示。
38.如權利要求36的計算機程序產品,其中所述第一輸出純合表示是第一純合核酸色譜;及所述第二輸出純合表示是第二純合核酸色譜。
39.如權利要求36的計算機程序產品,其中所述用于識別的指令包括(A)對于在所述第一跡線的一個或多個峰中的每一個分別的峰,標記在所述分別的峰中具有最大值的數據點的指令,所述第一跡線中一個或多個峰包括所述第一峰;(B)對于在所述第二跡線的一個或多個峰中的每一個分別的峰,標記在所述分別的峰中具有最大值的數據點的指令,所述第二跡線中一個或多個峰包括所述第二峰;(C)用于識別所述輸入核酸色譜中坐標的指令,該坐標在下述數據點的重疊閾值數量的數據點內(i)具有所述第一峰中的最大值的第一數據點和(ii)具有所述第二峰中的最大值的第二數據點。
40.一種用于處理具有多條基本同時發生跡線的輸入核酸色譜的計算機系統,該計算機系統包括中央處理單元;存儲器,與該中央處理單元相連,該存儲器存儲所述的輸入核酸色譜;和程序模塊,所述程序模塊包括用于識別多條跡線中第一條跡線的第一峰的指令,該峰基本與所述多條跡線中第二條跡線的第二峰重疊;及用于將所述第一峰輸出給第一輸出純合表示和將第二峰輸出給第二輸出純合表示的指令。
41.如權利要求40的計算機系統,其中所述第一輸出純合表示是所述輸入核酸色譜的第一純合序列表示;及所述第二輸出純合表示是所述輸入核酸色譜的第二純合序列表示。
42.如權利要求40的計算機系統,其中所述第一輸出純合表示是第一純合核酸色譜;和所述第二輸出純合表示是第二純合核酸色譜。
43.如權利要求40的計算機系統,其中所述用于識別的指令包括(A)對于在所述第一跡線的一個或多個峰中的每一個分別的峰,標記在所述分別的峰中具有最大值的數據點的指令,所述第一跡線中一個或多個峰包括所述第一峰;(B)對于在所述第二跡線的一個或多個峰中的每一個分別的峰,標記在所述分別的峰中具有最大值的數據點的指令,所述第二跡線中一個或多個峰包括所述第二峰;(C)用于識別所述輸入核酸色譜中坐標的指令,該坐標在下述數據點的重疊閾值數量的數據點內(i)具有所述第一峰中的最大值的第一數據點和(ii)具有所述第二峰中的最大值的第二數據點。
44.一種用于與計算機系統相連的計算機程序產品,該計算機程序產品包括計算機可讀存儲介質和嵌入其中的計算機程序機制,該計算機程序機制用于處理具有多個基本同時發生的跡線的輸入核酸色譜,該計算機程序機制包括跡線分離程序,該跡線分離程序包括用于將來自所述輸入核酸色譜第一跡線的第一峰的表示輸出給第一輸出純合表示的指令;和用于將第二峰表示輸出給第二輸出純合表示的指令,該第二峰發生在輸入色譜第二跡線中基本與所述第一峰重疊的點處。
45.如權利要求44的計算機程序,其中當所述輸入核酸色譜中的坐標在下述數據的重疊閾值數量的數據點內時,所述第二峰基本與所述第一峰重疊,所述數據點是(i)具有所述第一峰中的最大值的第一數據點及(ii)具有所述第二峰中的最大值的第二數據點。
46.如權利要求45的計算機程序,其中所述的重疊閾值數量為2-7個數據點。
47.一種處理具有多個基本同時發生的跡線的輸入核酸色譜的方法,在所述多個跡線中的每條跡線具有多個數據點,每一多個所述數據點中的每一個分別的數據點表示在跡線中相應于各自數據點的位置處的信號幅度,該方法包括識別所述多條跡線中第一跡線的第一峰,該峰基本與所述多條跡線中第二跡線的第二峰重疊;對所述第一峰進行堿基命名從而形成所述第一峰的堿基表示;對所述第二峰進行堿基命名從而形成所述第二峰的堿基表示;輸出所述第一峰的堿基表示為第一輸出純合序列;和輸出所述第二峰的堿基表示為第二輸出純合序列。
全文摘要
用于處理具有多條基本同時發生的跡線的輸入核酸色譜的計算機系統、計算機程序產品和方法。多條跡線中的每一條跡線具有多個數據點。每一多個數據點中各個分別的數據點表示在跡線中相應于各自數據點的的位置處信號幅度。識別第一跡線中的第一峰,該峰基本與多條跡線中第二跡線的第二峰重疊。將該第一峰輸出為第一輸出純合表示,將第二峰輸出為第二輸出純合表示。第一輸出純合表示是第一純合序列表示或相應于該輸入核酸色譜的第一純合核酸色譜。第二輸出純合表示是第二純合序列表示或輸入核酸色譜的第二純合核酸色譜。
文檔編號C12Q1/68GK1825326SQ20051002302
公開日2006年8月30日 申請日期2005年9月15日 優先權日2004年9月15日
發明者G·廖, J·A·烏蘇卡, G·A·佩爾茨 申請人:霍夫曼-拉羅奇有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影