專利名稱:一種高通量Small RNA測序獲得番木瓜環斑病毒基因組序列的方法
技術領域:
本發明屬于生物信息學和基因工程領域中的信息比對、拼接、組裝和分子克隆技術,具體涉及一種高通量Small RNA測序獲得番木瓜病毒基因組序列的方法,為新病毒的發掘和功能研究提供強有力的技術支持。
背景技術:
高通量測序技術現已廣泛應用于真核生物、原核生物、病毒等的基因組、轉錄組、基因表達調控研究,具體的分析技術包括lDe novo重頭測序,2DNA重測序,3RNA轉錄組、表達譜測序,4Micix)RNA發現及分析,5甲基化測序,6DNA-蛋白質互作研究,7目的區域捕獲 測序,8外顯子測序。目前Illumina公司最近推出一種全新測序儀Hiseq2000,主要應用于基因組測序和注釋,其性能較Genome Analyzer有更多的優點,表現在測序高通量、高精確度、易用性好、低成本等。Hiseq2000既有Illumina和Solexa在邊合成邊測序優勢,又融合了最新的光學和信息系統設計及可逆中止化合物染料技術。HiSeq2000采用了 4種含有末端阻斷基團和不同熒光信號的堿基進行模板互補鏈的合成,確保了測序的高精確性和高順序性。Hiseq2000具體有以下幾個優點l)Hiseq2000能夠單次運行產生200Gb的數據,每天能產生25Gb ;2)Hiseq2000具有最簡化和直觀的操作流程,啟動運行只需要10分鐘手工操作時間;3)操作Hiseq2000人員可以達到30倍的覆蓋度對基因組測序,例如完成一個人類基因組測序只需不到I萬美元費用,加快了自身推廣應用。目前HiSeq2000測序系統主要開展以下幾方面測序及數據分析
I、動植物基因組重測序在已知物種基因組的情況下,對物種內的不同個體或某個個體的不同組織進行基因組重測序,可以在全基因組水平上發現不同個體或組織細胞之間的差異。通過這種方法,可以尋找出大量的單核苷酸多態性位點,插入缺失位點,結構變異位點,拷貝數變異等變異信息,從而獲得生物群體的遺傳特征。利用全基因組重測序有助于快速發現與動植物重要性狀相關的遺傳變異,縮短分子育種的實驗周期。2、真菌基因組測序真菌屬于較低等的真核生物,種類繁多,在自然界中分布廣泛。據估計,全世界約有150萬種真菌,其中包含許多具有重要的藥用價值和食用價值的有益真菌,同時也存在著大量能引發動植物病害的致病菌。因此,合理利用有益真菌,控制預防有害真菌對人類的生產和生活具有重要的意義。而真菌基因組的闡明,將為真菌特性的分析提供有用的依據。3、轉錄組測序轉錄組即某個物種或特定細胞在某一功能狀態下產生的所有RNA的總和,是研究細胞表型和功能的一個重要手段。與基因組不同的是,轉錄組的定義中包含了時間和空間的限定。同一細胞在不同的生長時期及生長環境下,其基因表達情況是不完全相同的。轉錄組測序(RNA-Seq)是指利用第二代高通量測序技術進行cDNA測序,全面快速地獲取某一物種特定器官或組織在某一狀態下的幾乎所有轉錄本。4、外顯子組測序外顯子組是一個物種基因組中全部外顯子區域的總和,它是基因行使其功能最直接的體現。通過高通量測序技術進行外顯子組測序,能夠直接發現與蛋白質功能變異相關的遺傳突變。相比于全基因組重測序,外顯子組測序更加經濟、高效。目前,外顯子組測序技術已經應用到尋找與各種復雜疾病相關的致病基因和易感基因的研究中。5、目標區域深度測序指對感興趣的特定基因組區域進行高通量測序,將研究者感興趣的基因組區域定制成特異性的探針,通過這些特異性探針與基因組DNA進行雜交,富集基因組目標區域,最后將捕獲到的基因組DNA進行高通量測序。6、Small RNA深度測序Small RNA是一類長度在20 30nt的RNA分子,主要包括miRNA、siRNA和piRNA。Small RNA能夠調控基因的表達,在細胞的生長、發育、代謝等基礎生物學過程中扮演著重要的角色,甚至在癌癥等相關疾病形成過程中起著關鍵的作用。第二代高通量測序技術省去了煩瑣的Small RNA克隆文庫構建過程,可以一次性產生上百萬條Small RNA序列,能夠快速鑒定特定條件下表達的已知Small RNA并發現新的SmallRNA,同時還可以研究不同條件下Small RNA的表達差異。·
HiSeq 2000深度測序所得的sRNA幾乎涵蓋所有RNA,包括miRNA、siRNA、piRNA、rRNA、tRNA、snRNA、snoRNA、repeat associate sRNA、exon 或 intron 降解片段等。通過與已知數據庫進行比對、尋找樣品與數據庫之間在基因組位置上的overlap等方法,對sRNA進行注釋。Illumina HiSeq2000測序所得49 nt序列,通過去接頭、去低質量、去污染等過程完成數據處理得到干凈序列。sRNA是生物體內一類重要的特殊分子,可以誘導靶標基因沉默,參與細胞生長、發育、轉錄、翻譯及表達調控等許多生命活動的代謝過程。基于華大公司Illumina HiSeqTM2000高通量測序技術的sRNA數字化分析,采用邊合成邊測序流程,對所測sRNA樣品量少,高通量,高精確性等特點,并且一次可獲得幾個到幾十個Mi 11 ion的sRNA序列,能夠快速準確地鑒定被測樣品中含有的全部sRNA分子,并可能發現新的未報到過的sRNA,通過生物信息學軟件分析和數據處理,可對感染植物樣片中病毒sRNA進行組裝拼接最后成功獲得該樣品中病原微生物的全基因組序列,本發明的高通量Small RNA測序為在病毒功能研究和新病毒發掘等方面具有重要的研究價值。番木瓜(Ckrica papaya L.)主要分布于熱帶和亞熱帶地區。番木瓜兼具食用和藥用價值,有“水果之王”的美譽。然而,從上世紀末以來世界幾乎所有木瓜主產區先后受到番木瓜環斑病毒的毀滅性危害,嚴重影響了番木瓜產業的健康發展。在中國番木瓜主要種植區海南、廣東、廣西等地,番木瓜環斑病毒也對番木瓜產業健康穩定發展構成了嚴重威脅。由于番木瓜價格高,經濟效益好,近年來番木瓜種植面積不斷擴大,番木瓜產量呈現上升趨勢。與此同時,番木瓜病毒病已經成為制約番木瓜產業發展的最大限制因子,在部分地區甚至導致番木瓜絕產絕收,造成了巨大的經濟損失。現有的番木瓜環斑病毒分子檢測(即RT-PCR技術)和血清學檢測(即ELISA技術)依賴于傳統的經典病毒學知識背景。因此,檢測已知或未知的番木瓜病毒需要一個更為有效的方法來篩選感染番木瓜疑似病毒樣品。
發明內容
本發明目的在于提供一種高通量Small RNA測序獲得番木瓜病毒基因組序列的方法,為新病毒的發掘和功能研究提供強有力的技術支撐。
為實現上述目的,本發明采取如下技術方案
本發明從一種番木瓜環斑病毒海南分離物PRSV-HN-yl全基因組的基因序列和蛋白質序列,它具有SEQ ID NO. I和SEQ ID NO. 2所示的序列
(1)SEQ ID NO. I 的信息
(a)序列特征
*長度10332堿基對 *類型核酸 *鏈型雙鏈 *拓撲結構線性
(b)分子類型cDNA
(c)假設否
(d)反義否
(e)最初來源Papayaringspot virus HN-yl strain
(f)序列描述SEQID NO. I。(2) SEQ ID NO. 2 的信息
(a)序列特征
*長度3346氨基酸 *類型氨基酸 *鏈型單鏈 *拓撲結構線性
(b)分子類型蛋白質
(c)序列描述SEQID NO. 2。一種高通量Small RNA測序獲得番木瓜環斑病毒海南分離物PRSV-HN-yl全基因組序列的克隆方法,包括以下步驟
Cl)從感染番木瓜花葉病樣品中提取總RNAJf sRNA片段從中分離出來;
(2)通過運行Bowtie軟件(默認參數)將sRNA片段與Genbank中所有已知的病毒基因組序列進行比對,篩選出高度匹配的小RNA片段;
(3)運行Velvet軟件,參數設置為k_mer=17和minimumcoverage=5,以步驟2中獲得的小RNA片段為輸入,拼接成短的重疊群序列;
(4)運行Blast軟件(默認參數)將獲得的短的重疊序列與Genbank數據庫中的已知病毒基因組序列進行比對,以此推測序列的來源物種;
(5)從Genbank數據庫下載所有可疑來源物種的全長基因組序列并以此數據為基礎建立可以用于Bowtie軟件進行序列比對的病毒數據庫;
(6)運行Bowtie軟件(默認參數)將sRNA片段與特定病毒物種的基因組序列進行比對,篩選出高度匹配的sRNA片段;
(7)將能夠匹配到最多小RNA片段的病毒株系默認為最可能的候選病毒;
(8)將獲知的候選病毒信息設計一個簡單的標記,對小RNA片段進行標記;
(9)運行Velvet軟件,參數設置為k_mer=l7和minimum coverage=5,以步驟8中獲得的小RNA片段為輸入,將其拼接成短的重疊群序列;(10)運行Velvet軟件,參數設置為k_mer=17和minimumcoverage=5,以步驟9中獲得的短的重疊群序列為輸入,拼接成更長的重疊群序列;
(11)人工檢查步驟10中獲得的重疊群序列,找出未能拼接好的gap區域;從gap區域兩側設計特異性PCR引物,通過基因克隆和測序獲得gap區域的序列信息,填充gap區域,最后將獲得的重疊群序列最終連接成一條完整的病毒基因組序列,即番木瓜環斑病毒海南分離物PRSV-HN-yl全基因組序列。所述高通量Small RNA測序獲得番木瓜環斑病毒基因組序列的方法,適用于番木瓜環斑病毒,也適用于與Genbank中登陸已知病毒基因組相近的病毒,該方法中只要有足夠的小RNA數據,通過所述方法不但可以獲得一個與Genbank中有匹配的病毒全基因組序列,還可以根據一些很短的重疊群序列通過基因克隆技術獲得自然界中未知的新病毒全基因組序列。 本發明重點探討了 Small RNA測序在感染PRSV番木瓜中的應用。從檢測感染PRSV番木瓜海南的76個樣品中,選取主要影響海南番木瓜花葉病PRSV- y株系樣品,提取total RNA,利用HiSeq2000測序平臺進行Small RNA高通量測序,利用生物信息學分 析鑒定出感染番木瓜環斑病毒海南I株系病毒全基因組序列,并進行RT-PCR驗證結果。番木瓜環斑病毒轉錄本是由病毒小RNA覆蓋的,同時Small RNA測序結果顯示存在幾個高覆蓋率的峰值。番木瓜環斑病毒小RNA分子相互重疊,使重疊區域能夠組裝成番木瓜環斑病毒全基因組序列,即獲得海南番木瓜環斑病毒y株系全基因組序列。本發明的研究結果首次證實高通量Small RNA測序可以用來進行感染番木瓜疑似病毒樣品的病原鑒定、檢測及病毒全基因組測序。
圖I為從GenBank中篩選高度匹配的小RNA片段;
圖2為將小RNA片段拼接成短的重疊群序列;
圖3為將小RNA片段拼接成短的重疊群序列;
圖4為將小RNA片段拼接成短的重疊群序列;
圖5為短的重疊序列在GenBank中比對結果;
圖6為建立可用于Bowtie軟件比對的病毒數據庫;
圖7為建立可用于Bowtie軟件比對的病毒數據庫;
圖8為建立可用于Bowtie軟件比對的病毒數據庫;
圖9為sRNA片段與特定病毒物種比對結果;
圖10為GenBank中匹配到小RNA片段病毒的株系分布;
圖11為將小RNA片段進一步拼接成短的重疊群序列;
圖12人工檢查未能拼接好的gap區域。
具體實施例方式以下通過優選實施例對本發明作進一步詳細說明,但本發明的保護范圍并不局限于此。實施例I
一種高通量Small RNA測序獲得番木瓜環斑病毒海南分離物PRSV-HN-yl全基因組序列的克隆方法,包括以下步驟
(I)從感染番木瓜花葉病樣品中提取總RNA,通過聚丙烯酰胺凝膠電泳PAGE膠對sRNA進行分離,Small RNA測序后對序列信息進行修剪,去除接頭序列得到sRNA片段。(2)通過運行Bowtie軟件(默認參數)將sRNA片段與Genbank中所有已知的病毒基因組序列進行比對,篩選出高度匹配的小RNA片段;如附圖I所示。
(3)運行 Velvet 軟件,參數設置為 k_mer=17 和 minimum coverage=5,以步驟 2 中獲得的小RNA片段為輸入,拼接成短的重疊群序列;如附圖2、3、4所示。(4)運行Blast軟件(默認參數)將獲得的短的重疊序列與Genbank數據庫中的已知病毒基因組序列進行比對,以此推測序列的來源物種;如附圖5所示。(5)從Genbank數據庫下載所有可疑來源物種的全長基因組序列并以此數據為基礎建立可以用于Bowtie軟件進行序列比對的病毒數據庫;如附圖6、7、8所示。(6)運行Bowtie軟件(默認參數)將sRNA片段與特定病毒物種的基因組序列進行比對,篩選出高度匹配的sRNA片段;如附圖9所示。(7)將能夠匹配到最多小RNA片段的病毒株系默認為最可能的候選病毒;如附圖10所示。(8)將獲知的候選病毒信息設計一個簡單的標記,對小RNA片段進行標記。(9)運行 Velvet 軟件,參數設置為 k_mer=17 和 minimum coverage=5,以步驟 8 中獲得的小RNA片段為輸入,將其拼接成短的重疊群序列;如附圖11所示。(10)運行 Velvet 軟件,參數設置為 k_mer=17 和 minimum coverage=5,以步驟 9中獲得的短的重疊群序列為輸入,拼接成更長的重疊群序列;如附圖11所示。(11)人工檢查步驟10中獲得的重疊群序列,找出未能拼接好的gap區域,如附圖12所示;從gap區域兩側設計特異性PCR引物,通過基因克隆和測序獲得gap區域的序列信息,填充gap區域,最后將獲得的重疊群序列最終連接成一條完整的病毒基因組序列,即番木瓜環斑病毒海南分離物PRSV-HN-yl全基因組序列。
權利要求
1.一種番木瓜環斑病毒海南分離物PRSV-HN-yl全基因組的基因序列,其特征在于,其核苷酸序列如SEQ ID NO. I所示。
2.權利要求I所述番木瓜環斑病毒海南分離物PRSV-HN-yl全基因組編碼的多聚蛋白,其氨基酸序列如SEQ ID NO. 2所示。
3.一種高通量Small RNA測序獲得番木瓜環斑病毒海南分離物PRSV-HN-yl全基因組序列的克隆方法,包括以下步驟 (1)從感染番木瓜花葉病樣品中提取總RNAJfsRNA片段從中分離出來; (2)通過運行Bowtie軟件(默認參數)將sRNA片段與Genbank中所有已知的病毒基因組序列進行比對,篩選出高度匹配的小RNA片段; (3)運行Velvet軟件,參數設置為k_mer=17和minimumcoverage=5,以步驟2中獲得的小RNA片段為輸入,拼接成短的重疊群序列; (4)運行Blast軟件(默認參數)將獲得的短的重疊序列與Genbank數據庫中的已知病毒基因組序列進行比對,以此推測序列的來源物種; (5)從Genbank數據庫下載所有可疑來源物種的全長基因組序列并以此數據為基礎建立可以用于Bowtie軟件進行序列比對的病毒數據庫; (6)運行Bowtie軟件(默認參數)將sRNA片段與特定病毒物種的基因組序列進行比對,篩選出高度匹配的sRNA片段; (7)將能夠匹配到最多小RNA片段的病毒株系默認為最可能的候選病毒; (8)將獲知的候選病毒信息設計一個簡單的標記,對小RNA片段進行標記; (9)運行Velvet軟件,參數設置為k_mer=l7和minimum coverage=5,以步驟8中獲得的小RNA片段為輸入,將其拼接成短的重疊群序列; (10)運行Velvet軟件,參數設置為k_mer=17和minimumcoverage=5,以步驟9中獲得的短的重疊群序列為輸入,拼接成更長的重疊群序列; (11)人工檢查步驟10中獲得的重疊群序列,找出未能拼接好的gap區域;從gap區域兩側設計特異性PCR引物,通過基因克隆和測序獲得gap區域的序列信息,填充gap區域,最后將獲得的重疊群序列最終連接成一條完整的病毒基因組序列,即番木瓜環斑病毒海南分離物PRSV-HN-yl全基因組序列。
4.權利要求3所述高通量SmallRNA測序獲得番木瓜環斑病毒基因組序列的方法,適用于番木瓜環斑病毒,也適用于與Genbank中登陸已知病毒基因組相近的病毒,該方法中只要有足夠的小RNA數據,通過權利要求3所述方法不但可以獲得一個與Genbank中有匹配的病毒全基因組序列,還可以根據一些很短的重疊群序列通過基因克隆技術獲得自然界中未知的新病毒全基因組序列。
全文摘要
本發明屬于生物信息學和基因工程領域,番木瓜環斑病毒海南分離物PRSV-HN-y1基因組序列具有SEQ ID No.1和SEQ ID No.2所示序列。本發明還公開了一種高通量Small RNA測序獲得番木瓜環斑病毒海南分離物PRSV-HN-y1全基因組序列的克隆方法。本發明的研究結果首次證實高通量Small RNA測序可以用來進行感染番木瓜疑似病毒樣品的病原鑒定、檢測及病毒全基因組測序。
文檔編號C12N15/10GK102899335SQ201210341398
公開日2013年1月30日 申請日期2012年9月14日 優先權日2012年9月14日
發明者張雨良, 劉志昕, 熊忠國, 黃啟星, 史學群, 王健華, 余乃通, 章紹延 申請人:中國熱帶農業科學院熱帶生物技術研究所