<listing id="vjp15"></listing><menuitem id="vjp15"></menuitem><var id="vjp15"></var><cite id="vjp15"></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><menuitem id="vjp15"></menuitem></video></cite>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<var id="vjp15"><strike id="vjp15"><listing id="vjp15"></listing></strike></var>
<menuitem id="vjp15"><strike id="vjp15"></strike></menuitem>
<cite id="vjp15"></cite>
<var id="vjp15"><strike id="vjp15"></strike></var>
<var id="vjp15"></var>
<var id="vjp15"></var>
<var id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></var>
<menuitem id="vjp15"></menuitem><cite id="vjp15"><video id="vjp15"></video></cite>
<var id="vjp15"></var><cite id="vjp15"><video id="vjp15"><thead id="vjp15"></thead></video></cite>
<var id="vjp15"></var>
<var id="vjp15"></var>
<menuitem id="vjp15"><span id="vjp15"><thead id="vjp15"></thead></span></menuitem>
<cite id="vjp15"><video id="vjp15"></video></cite>
<menuitem id="vjp15"></menuitem>

Rna全序列特征可視化提取方法

文檔序號:456161閱讀:306來源:國知局
專利名稱:Rna全序列特征可視化提取方法
技術領域
本發明是一種RNA全序列特征可視化提取方法,涉及圖像處理、模式識別和傳統的基因序列分析的技術,與傳統RNA序列比對分析方法不同,能比較形象地反映基因序列的特性。
背景技術
二十一世紀是生物的世紀,在人類基因組計劃完成后,生物學家把更多的目光投向基因序列分析。傳統的基因序列分析方法中,有相當的部分是通過基因序列比對來完成的。而傳統的基因序列比對主要通過基因對齊,逐一堿基比對來完成的,其中比較典型的方法是用BLAST等非常成熟的軟件來完成(http//www.ncbi.nlm.nih.gov/BLAST)。用該軟件可以比較容易地反映堿基的缺失、插入、變異。這種方法雖然可以很簡單地得到基因變異,但得到的結果并不直觀。而其它基因的序列分析方法,如蛋白質二級結構Kuo-ChenChou,2000,Prediction of Protein structural classes and Subcellular locations,CurretnProtein and Peptide Science.2000,通過特定的結構來分析基因某部分的可能的功能。這些分析方法又過于傾向于局部的功能。
20世紀50年代,計算機創始人、著名數學家馮·諾依曼(Von Neumann)曾希望通過特定的程序在計算機上實現類似于生物體發育中細胞的自我復制Wolfram S.2002.A New Kind of Science.Wolfram Media Inc.,Champaign,IL。他提出了一個簡單的模式,把一個長方形平面分成若干個網格,每個網格點表示一個細胞或系統的基元,它們的狀態賦值為0或1,在網格中用空格或實格表示,在事先設定的規則下,細胞或基元的演化用網格的實格或空格的變動來描述。這樣的模型就是元胞自動機。而S.Wolfram的潛心研究則充分展示了元胞自動機(CellularAutomation,CA)用簡單規則模擬復雜系統的強大能力Wolfram S.1984.Cellularautomation as models of complexity.Nature 311,419-424.。元胞自動機為物理、生物和計算機科學提供一種簡單模型,正是利用這些簡單模型的“反復計算”,可以模擬復雜系統的離散模型。該方法在使用簡單規則模擬復雜系統上的應用非常有效,但未用于生物序列的分析上。為了分析基因序列這種超乎尋常的復雜系統,使用CA方法將其可視化,然后分析生成的圖像,從而得到不同基因序列具有的特點,是一個新的研究課題。

發明內容
本發明的目的在于針對傳統的基因序列分析方法中存在的基因變異結果不直觀,或是功能分析不全面等缺點,提供一種RNA全序列特征可視化提取方法,可從生成的基因可視化圖像中得到不同基因序列具有的特征,進而分析利用其序列特征進行醫學研究。
為實現這樣的目的,本發明的基于元胞自動機的RNA全序列可視化提取方法,主要包括數據預處理、規則選取、元胞自動機CA方法應用及序列圖像生成四個步驟。首先對得到的RNA序列中每個脫氧核糖核酸“A“”T“”G“”U”進行編碼,引入一維元胞自動機CA模型,選用特定的元胞自動機規則對編碼后的“0”“1”基因序列進行演化,即元胞的下一時刻的狀態由元胞和它的左右兩個相鄰元胞當前時刻的狀態按照演化規則來決定,經若干次演化后形成一個“0”“1”二維矩陣,將二維矩陣轉化為黑白圖像并進行縮放,得到具有RNA全序列特征可視化圖形。
本發明的方法按如下具體步驟進行1.數據預處理首先對得到的RNA序列中每個脫氧核糖核酸“A“”T“”G“”U”進行編碼,將RNA序列轉換為“0”“1”序列,具體為A=00 U=01 G=10 T=11,并在序列的兩端各補上一個0。
對RNA序列處理,如果直接用原始的ATGU字符組成的RNA序列處理,計算量會非常大。如果對RNA進行編碼,將RNA序列轉換為0,1序列,則計算量會小許多。將核苷酸序列按照上述方式編碼后,新序列的長度就為原始序列的兩倍。為了讓序列兩端的元胞也參加運算,可以在序列的兩端各補上一個0。
2.元胞自動機CA方法規則的選取對于編碼后的“0”“1”,在元胞自動機CA法三點定一點的規則中選定一條區分性最好的規則作為演化規則。
對于CA方法中三點定一點的規則數一共有256條,所以需要根據具體情況對所有規則進行比較后,在其中選擇一條區分性最好的規則進行演化。本發明主要選擇第184號演化規則。
3.元胞自動機CA的應用本發明在基因序列中引入了一維元胞自動機模型。在這一模型中,所有的元胞分布在一維直線上。對于基因序列,按照選定的元胞自動機規則對編碼后的“0”“1”基因序列演化,即元胞的下一時刻的狀態由元胞和它的左右兩個相鄰元胞當前時刻的狀態按照演化規則來決定。
將已編碼的原始基因序列作為第一行,把對第一行進行演化的結果作為第二行,把對第二行進行演化的結果作為第三行,依次類推。須注意,除了第一行的序列兩端需要補零,每次演化后的新序列也在其序列兩端各補上一個0,以便于下一步的演化運算。經過若干次的演化后,就可以形成一個“0”“1”二維矩陣。
4.序列圖像的生成定義“0”“1”二維矩陣中“0”表示黑色,“1”表示白色,使用可視化技術,將二維矩陣轉化為一個黑白相間的二值圖像。由于上述圖像太大,以至于不可能直接分析原始圖像的特點。本發明對圖像進行水平和垂直方向變換縮小,得到具有RNA全序列特征的可視化圖形。
本發明所收集的相關基因序列,最好能找到相關的可以相互比較基因全序列,這點一般都可以做到。選擇規則的時候,可以從基因全序列中選擇一個可以接受的片斷,如3000個堿基。然后使用選定的適當規則,進行基因序列演化,從生成的可視化序列圖像中可尋找得到不同基因序列具有的特征,發現規律。
與傳統的序列比對方法相比較,本發明方法具有全序列分析,直觀性,敏感性和普適性的特點。首先本方法是對全序列進行分析,可以考慮序列間的長程相互影響作用并給出序列本質的排列組合特征。而傳統的序列分析方法只能通過比對得出突變點的位置和內容,并不能給出序列具有的組成特點。本方法是將序列轉化為二維圖像,利用人的視覺對圖像敏感的特點發現生成圖像的特征。而傳統的方法是對一維序列直接進行分析,很顯然,這是很抽象繁瑣的過程。本方法對于序列中的少數突變點具有敏感性,也就是可以放大序列間的差別。通過對大量病毒序列的分析,本方法通過選取不同的規則可以將不同類別的病毒加以區分,也就是說本發明的這種方法具有普適性。


圖1為元胞自動機CA方法規則中184規則的示意圖。
圖1中自左到右分別說明了,“0”“1”序列中上一行三點可能出現的8種排列組合,以及在下一行相應位置應該取的值。
圖2為與圖1對應的184規則的數字表述形式。
意義和圖一相同,只是用數字1,0分別表示白色和黑色。
圖3為冠狀病毒229E原圖(非SARS)。
圖4為冠狀病毒Sin2774原圖(SARS)。
具體實施例方式
以下結合附圖和實施例對本發明的技術方案作進一步描述。
本發明以SARS病毒序列分析為例說明其具體的實施方式。SARS的原名為嚴重急性呼吸綜合癥,是冠狀病毒(coronavirus)引起的一種呼吸道急性傳染疾病。本發明從NCBI網站上下載66種不同SARS病毒的RNA序列,每種病毒序列的長度大約在29700左右。對這些SARS病毒序列進行可視化處理,進行分析,尋找SARS序列的基本特征,比較與非SARS冠狀病毒序列有哪些的不同點,從而可以利用SARS病毒的序列特征。表格1中列出了SARS病毒的RNA序列,表格2中列出了非SARS冠狀病毒的RNA序列。
表格1SARS病毒序列SARSAccession Length SARS Accession LengthBJ01AY27848829725 TC1 AY338174 29573BJ02AY27848729745 HSR1 AY323977 29751BJ03AY27849029740 Frankfurt1 AY291315 29727BJ04AY27935429732 AS AY427439 29711GZ01AY27848929757 CUHK-AY345986 29736ZJ01AY29702829714 CUHK-AY345987 29736HKU39849AY27849129742 CUHK-AY345988 29736CUHK W1 AY27855429736 GD69 AY313906 29754CUHK Su10 AY28275229736 PUMC01 AY350750 29738Sin2500 AY28379429711 PUMC02 AY357075 29738Sin2677 AY28379529705 PUMC03 AY357076 29745Sin2679 AY28379629711 Sino1-11 AY485277 29741Sin2748 AY28379729705 Sino3-11 AY485278 29740Sin2774 AY28379829729 SoD AY461660 29715TW1 AY29145129714 GZ02 AY390556 29760Urbani AY27874129727 ZS-C AY395003 29647Tor2NC 004718 29751 LC5 AY395002 29350GZ50AY30449529720 LC4 AY395001 29350SZ16AY30448829731 LC3 AY395000 29350SZ3 AY30448629741 LC2 AY394999 29350FRA AY31012029740 LC1 AY394998 29736GD01AY27848929757 ZS-A AY394997 29683TWC AY32111829725 ZS-B AY394996 29683TWC2AY36269829727 HSZ-Cc AY394995 29765TWC3AY36269929727 HSZ-Bc AY394994 29765ZMY1AY35168029749 HGZ8L2 AY394993 29736TWY AP00656129727 HZS2-C AY394992 29736TWS AP00656029727 HZS2-Fc AY394991 29736TWK AP00655929727 HZS2-E AY394990 29736TWJ AP00655829725 HZS2-D AY394989 29736
TWH AP006557 29727 HZS2-Fb AY39498729709TC3 AY348314 29573 HSZ-Cb AY39498629729TC2 AY338175 29573 HSZ-Bb AY39498529530表格2非SARS冠狀病毒Non-SARS genome Accession Length Non-SARS genome Accession LengthD13096 Avian D13096 27608 AY391777 HCoV- AY391777 30738AJ311317 Avian 1 AJ311317 27635 NC 005147 HCoV- NC 005147 30738U00735 Bovine U00735 31032 AF304460 229EAF304460 27317AF220295 Bovine1 AF220295 31100 AF029248 Murine AF029248 31357NC 003436 Porcine NC 003436 28033 AF208066 Murine AF208066 31112AF353511 Porcine1 AF353511 28033 NC 003045 Bovine NC 003045 31028NC 002645 229ENC 002645 27317 NC 001451 Avian NC 001451 27608NC 001846 Murine NC 001846 31357 AY319651 Avian AY319651 27733AF208067 Murine1 AF208067 31233 AF391542 Bovine AF391542 31028AF207902 Murine2 AF207902 31217 AF391541 Bovine AF391541 31028AF029248 Murine4 AF029248 31357 AF201929 Murine AF201929 31276NC 002306 Tran S NC 002306 28586 AJ271965 Trans AJ271965 28586本發明方法按如下步驟進行1、數據預處理對RNA序列進行編碼,將RNA序列轉換為“0”“1”序列,編碼具體方式為A=00 U=01 G=10 T=11。為了讓序列兩端的元胞也參加運算,可以在序列的兩端各補上一個0。
2、CA方法規則的選取本發明在CA三點定一點的256條規則中,選擇184號規則進行演化。第184號演化規則如圖1所示,其中白格表示編碼1,黑格表示編碼0,所以第184條演化規則的數字表述形式也可由圖2所示。以第三種情況為例(從左數)當上一行三點分別是白,黑,白的組合時,下一行對應于中間點的位置應當取白色。
3、CA方法的應用首先將原始的基因序列作為起始行,按照184規則從左至右依次生成下一行對應點,這樣生成第二行序列。然后對生成的第二行再按照規則184進行演化。重復以上步驟2400次得到一個“0”“1”矩陣。注意序列兩邊需要補0,以使計算可以進行。使用184規則三點定一點的原則,對一維的“0”“1”序列運行2400次得到一個二維的“0”“1”矩陣,大小是2400*N,N是“0”“1”序列的長度。
4、序列圖像的生成定義“0”“1”二維矩陣中“0”表示黑色,“1”表示白色,使用可視化技術,將二維矩陣轉換為一個黑白相間的二值圖像,大小為60Kb×2.4Kb。這樣做的優點是可以發揮人對圖像的敏感性,從而非常方便地發現圖像中的圖案、規律等,從另外一個方面來研究基因序列。由于上述圖像太大,以至于不可能直接分析原始圖像的特點,所以還需對序列進行縮放,以發現圖形特征。本發明利用如下的步驟對所有的圖像進行變換(1)水平方向縮小1/4,垂直方向縮小1/3.5;(2)水平方向再縮小1/3.5。受計算精度影響,全部的縮小尺寸是水平方向縮小到原來的1/14.007,垂直方向縮小到原來的1/2。最后得到具有RNA全序列特征的可視化圖形。
最終根據上述結果,從圖像特征提取到相關規則。圖3為非SARS冠狀病毒229E原圖,圖4為SARS冠狀病毒Sin2774原圖。從圖3、4中可以明顯的看到,SARS基因序列所形成的圖像中有非常明顯的V字形交叉區域,并且區域比較大,而非SARS基因序列所形成的圖案則沒有這樣多的特征,主要是平行區域。這樣一個顯著的特點給我們一個區分SARS-CoV序列和非SARS序列的視覺準則。比較66個SARS-CoV和24個非SARS序列的圖像,可以發現所有的SARS-CoV圖像中都含有6個V字形交叉區域,且這些區域的位置分布一致,大約在84-2483nt、3040-5439nt、5592-7991nt、12050-14449nt、16412-18811nt和19677-22076nt。這些特征是SARS所特有的,即6個V形區域可以被認為是SARS病毒的特征。
權利要求
1.一種RNA全序列特征可視化提取方法,其特征在于包括如下具體步驟1)首先對得到的RNA序列中每個脫氧核糖核酸“A“”T“”G“”U”進行編碼,將RNA序列轉換為“0”“1”序列,具體為A=00 U=01 G=10 T=11,并在序列的兩端各補上一個0;2)在元胞自動機CA法三點定一點的規則中選定一條區分性最好的規則作為演化規則;3)在基因序列中引入一維元胞自動機模型,在這一模型中,所有的元胞分布在一維直線上,按照選定的元胞自動機規則對編碼后的“0”“1”基因序列演化,即元胞的下一時刻的狀態由元胞和它的左右兩個相鄰元胞當前時刻的狀態按照演化規則來決定,將已編碼的原始基因序列作為第一行,把對第一行進行演化的結果作為第二行,把對第二行進行演化的結果作為第三行,依次類推,每次演化后的新序列在其序列兩端各補上一個0,經過若干次的演化后,形成一個“0”“1”二維矩陣;4)定義“0”“1”二維矩陣中“0”表示黑色,“1”表示白色,使用可視化技術,將二維矩陣轉化為一個黑白相間的二值圖像,并對圖像進行水平和垂直方向變換縮小,得到具有RNA全序列特征的可視化圖形。
2.如權利要求1的RNA全序列特征可視化提取方法,其特征在于所述演化規則選擇第184號規則。
全文摘要
一種RNA全序列特征可視化提取方法,主要包括數據預處理、規則選取、元胞自動機CA方法應用及序列圖像生成,首先對得到的RNA序列中每個脫氧核糖核酸“A”“T” “G”“U”進行編碼,引入一維元胞自動機模型,選用特定的元胞自動機規則對編碼后的“0”“1”基因序列進行演化,即元胞的下一時刻的狀態由元胞和它的左右兩個相鄰元胞當前時刻的狀態按照演化規則來決定,經若干次演化后形成一個“0”“1”二維矩陣,將二維矩陣轉化為黑白圖像并進行縮放,得到具有RNA全序列特征可視化圖形。本發明方法具有全序列分析,直觀性,敏感性和普適性的特點,從生成的可視化序列圖像中可得到不同基因序列具有的特征。
文檔編號C12N15/10GK1584027SQ20041002503
公開日2005年2月23日 申請日期2004年6月10日 優先權日2004年6月10日
發明者王猛, 黃振德, 楊杰, 劉國平, 徐志節, 姚莉秀 申請人:上海交通大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
韩国伦理电影