專利名稱:一種利用測序技術分析豬乳腺組織基因表達差異的方法
技術領域:
本發明屬于動物基因工程技術領域,尤其涉及一種利用測序技術分析豬乳腺組織基因表達差異的方法。
背景技術:
金華豬又稱“金華兩頭烏”,是我國著名的優良豬種之一,金華豬具有成熟早,肉質好,繁殖率高等優良性能,腌制成的“金華火腿”質佳味香,外型美觀,蜚聲中外。產于浙江東陽、義烏、金華等地。體型中等,耳下垂,頸短粗,背微凹,臀傾斜、蹄質堅實。全身被毛中間白,頭頸、臀尾黑。以早熟易肥、皮薄骨細、肉質優良、適于腌制火腿著稱。金華豬的毛色遺傳性比較穩定,以中間白、兩頭烏為特征,純正的毛色在頭頂部和臀部為黑皮黑毛,其余多處均為白皮白毛,在黑白交界中,有黑皮白毛呈帶狀的暈。金華豬性成熟早,遺傳性穩定,繁殖力強。金華豬雜種優勢良好,已被廣泛用作雜交親本。肉脂品質好,肌肉顏色鮮紅,系水力強,細嫩多汁,富含肌肉脂肪。皮薄骨細,頭小肢細,胴體中皮骨比例低,可食部分多。繁殖力高,平均每胎產仔可達14頭以上,繁殖年限長,優良母豬高產性能可持續8-9年,終生產仔20胎左右,乳頭數多,泌乳力強,母性好,仔豬哺育率高。適應性好,耐寒耐熱能力強, 耐粗飼,能適應我國大部分地區的氣候環境,多次出口到日本、法國、加拿大、泰國等國家。大約克豬原產于英國,是世界分布最廣的瘦肉型豬代表品種。我國引入多年,由于其體形大,被毛全白,亦稱為大白豬,在各地均有飼養,可作為第一母本或父本利用。具有生長速度快、飼料利用率高、胴體瘦肉率高、肉色好、產仔多、適應性強的優良特點.其體形高大,皮膚可有隱斑;頭頸較長,面寬微凹,耳向前直立;體軀長,背腰平直或微弓,腹線平, 胸寬深,后軀寬長豐滿;有效乳頭6對以上.成年公豬體重250-300千克,成年母豬體重 230-250千克。通常利用的雜交方式是杜X長X大或杜X大X長,即用長白公(母)豬與大約克夏母(公)豬交配生產,雜一代母豬再用杜洛克公豬(終端父本)雜交生產商品豬。這是目前世界上比較好的配合。我國用大約克夏豬作父本與本地豬進行二元雜交或三元雜交,效果也很好。可在我國絕大部分地區飼養,較適宜集約化養豬場、規模豬場。隨著新一代高通量測序技術的快速發展,建立在高通量測序基礎上的轉錄組測序技術已成為目前從全基因組水平研究基因表達和轉錄組分析的重要手段.轉錄水平的調控是生物體最主要的調控方式.在深度測序技術出現之前,高通量測定不同基因轉錄水平的主要手段是基因芯片,它可以對不同組織或不同發育階段的基因表達差異和模式進行分析,而RNA-Seq技術最基本的應用也是檢測基因的表達水平,它對同一樣品深度測序可以捕獲低表達的基因,而對大量樣品同時測序可以獲得樣品之間的表達差異。與基因芯片數據比較,RNA測序得到的是數字化的表達信號,無需設計探針,能在全基因組范圍內以單堿基分辨率檢測和量化轉錄片段,具有靈敏度高、分辨率高和應用范圍廣等優勢。除此之外, 研究人員還可以獲得轉錄本表達豐度、轉錄起始位點和可變剪切等重要信息。所以,建立在高通量測序基礎上的轉錄組研究已經逐步取代基因芯片技術成為目前從全基因組水平研究基因表達的主流方法。Marioni et al. (2008)比較了轉錄組測序和傳統Microarray芯片技術在分析基因表達水平上的各自表現,他們發現深度測序具有良好的可重復性,并且能發現更多的低表達的基因。Tang et al. (2009)等利用RNA-Seq對小鼠單個卵母細胞進行表達譜分析,與芯片技術相比,高通量測序可以多檢測到75%的基因表達,并且有8%_19% 的基因存在兩種以上的轉錄形式。Pan et al . O008)利用Solexa測序儀進行了人的轉錄組測序,首次利用新一代測序數據發現和檢測了選擇性剪切,而且還用測序數據估計了外顯子。把高通量測序技術應用到由mRNA逆轉錄生成的cDNA上,從而獲得來自不同際遇的 mRNA片段在特定樣本中的含量,這就是mRNA測序或mRNA-seq。同樣原理,各種類型的轉錄本都可以用深度測序技術進行高通量定量檢測,統稱作RNA-seq或RNA測序。
發明內容
本發明目的在于針對現有技術的不足,提供一種利用測序技術分析豬乳腺組織基因表達差異的方法。該方法通過制備金華豬和大約克豬乳腺組織的cDNA文庫并進行轉錄組測序分析來研究其基因表達情況,并進行兩不同樣本的基因差異表達分析和差異基因GO 分析。本發明的目的是通過以下技術方案來實現的一種利用測序技術分析豬乳腺組織基因表達差異的方法,該方法包括以下步驟
(1)總RNA的提取金華豬和大約克豬屠宰后,采集乳腺組織樣本,研缽置于高壓滅菌鍋中滅菌,然后將乳腺組織樣本放入研缽,倒入液氮,將乳腺組織樣本研磨成粉末狀態;然后取樣品粉末50-100mg,移至已加入Iml Trizol試劑的2ml離心管中并混勻,室溫條件下靜置5-lOmin,讓樣品中核蛋白混合物完全裂解;在離心管中加入200ul氯仿,劇烈震蕩15 秒后,室溫條件下靜置2-aiiin ;
然后放入離心機中,4°C、13000rpm離心15min,上層無色水相為RNA,下層紅色是酚、 氯仿層;吸取上層無色水相至一新的離心管中,加入500ul異丙醇(沉淀RNA),室溫條件下靜置IOmin ;然后4°C、13000rpm離心lOmin,RNA被沉淀,呈膠狀顆粒;棄上清,加入Iml用 DEPC水配置的體積百分比濃度為75%酒精,旋轉管子混勻;4°C、IOOOOrpm離心5min ;棄乙醇,沉淀物在室溫條件下干燥5-lOmin ;加入50ul體積百分比濃度為0. 1%的DEPC水溶解 RNA ;
(2)構建組織RNA-Seq 測序 cDNA 文庫,采用 Illumina Satandard Kit 試劑盒,cDNA 文庫的制備主要包括以下子步驟(2. l)mRNA分離和片段化;用poly (T)寡聚核苷酸從上述2個總RNA池中抽取帶poly(A)尾的RNA,其中的主要部分就是編碼基因所轉錄的mRNA, 然后將所得的mRNA用裂解液在70攝氏度下裂解5分鐘;(2. 2) cDNA合成與末端修復;利用N6隨機引物和反轉錄酶將片段化的mRNA合成cDNA —鏈,隨后用RNaseH和DNA多聚酶再將一鏈cDNA合成雙鏈cDNA,然后利用T4DNA多聚酶和KlenowDNA多聚酶對二鏈cDNA進行末端修飾;(2. 3)連接5'和3'測序接頭;用Illumina adaptor mix和T4DNA酶將上述經過末端修飾的cDNA連接到Illumina雙端測序接頭上,這樣得到將用于測序的cDNA ; (2. 4) PCR擴增cDNA文庫;在以上過程,將RNA隨機片段化和采用隨機引物進行反轉錄,都是為了使所得cDNA片段較均勻地取自各個轉錄本,為了提高測序效率,一般采用電泳切膠法(瓊脂糖凝膠的質量體積比濃度為0. 02g/ml),獲取長度范圍在200-250bp的cDNA片段, 再經過15個循環的PCR線性擴增后,最后用QIAquick PCR purification KIT試劑盒富集和純化得到最終的cDNA文庫;
(3)采用IlluminaGA II X測序儀器對建庫產物進行測序上述純化好的cDNA文庫放進基因組分析泳道中,采用邊合成邊測序法,利用Illumina GA II χ測序平臺進行5'和 3'雙向75nt長度RNA-Seq測序,每個通道將產生數百萬條原始的讀段(Read),Read的測序讀長為75bp ;
(4)RNA-Seq數據的基本處理,該步驟包括以下子步驟
(4. 1)將測序數據定位到參考基因組獲得RNA-Seq的原始數據后,首先需要將所有測序讀段通過序列映射定位到Ensembl數據庫的豬基因組上,這需要使用TopHat軟件以及Bowtie軟件共同來完成;首先,通過Bowtie采用Burrows-Wheeler轉換將豬基因組按照一定規則壓縮并建立索引,然后采用Tophat軟件來查找和回溯來定位讀段;不過在讀段定位之前,需要按照Illumina標準程序對讀段進行質量過濾,Tophat允許每個讀段多重比對,并且可以允許最多出現2個缺省的錯配;定位的結果接著被用于鑒定可以表達的 “islands”,這也就是潛在的外顯子;如果存在有些讀段不能直接定位到參考基因組上,那么就會將這些讀段與Tophat數據庫中公認的結合位點進行比對,從而可以簽訂出潛在的外顯子結合位點;最后,讀段定位到基因組后采用SAM格式來存儲,而鑒定的結合位點會以 BED文件保存;
(4. 2)轉錄本簽訂上述憑借好的序列會進一步使用Cuffinks軟件來預測新的轉錄本; RNA-Seq數據能在一定程度上推斷對于每一個轉錄本的表達水平,并檢測其在不同樣品間的差異表達和調控;因為Cuffinks軟件可以不依賴一致參考基因的轉錄本去預測未知的、 潛在的新的轉錄本,這就使得CufTinks軟件可以應用于位置物種選擇性剪切和轉錄本的鑒定;預測的轉錄本會存儲在以transcript, expr命名的文件夾里,而簽訂的基因則會儲存在以genes, expr命名的文件夾下面;用FPKM進行基因表達估計,FPKM就是每百萬讀段中來自于某基因外顯子每千堿基長度的讀段數,公式表示為=FPKM=(基因區段計數/基因長度*測序深度)*109 ;最后預測的轉錄本和他們相關的外顯子會形成GTF格式文件,并被儲存在transcript, gtf文件夾下面;
(4. 3)基因和轉錄本注釋一旦所有的讀段序列用Cuffinks軟件進行組合后,組合轉錄本的GTF文件將和參考基因組一起進行比對;利用Cuffinks軟件中得Cuffcompare模塊可以對每個轉錄本是已知或未知進行分類;這樣,所有的轉錄本包括與參考基因組匹配的(ClaSS-COde:u or -)或者包含在參考基因組內的(class-c0de:c)以及發現新的轉錄本亞型(class-code ;j)和潛在的新的轉錄本(class-code:u or -)都會被簽訂出來;一份包括所有預測的轉錄本和參考轉錄本的組合文件將會生成并被存儲在<Sample_Name>_ combined, gtf 文件下面;
(5)比較兩種樣本中基因表達的差異用金華豬乳腺組織中FPKM值與大約克豬乳腺組織中FPKM值的比值的絕對表達倍數來表示金華豬和大約克豬乳腺組織中差異基因表達水平;
(6)差異表達基因的GO分析基因功能聚類分析采用GO方法分析,使用功能基因注釋軟件包bioconducter分析組織中功能相關基因表達變化;一般來說,單個基因的表達情況的改變不能完全反應特定細胞功能和通路的整體變化情況;因為生物個體的細胞功能的實現并不僅僅是依靠一兩個基因功能的改變來實現的;而基因本體(Gene Ontology, G0),也就是一套與基因有關的樹狀的詞匯表的引入為基因功能數據挖掘提供了新的思路;GO分析主要目的在于發掘出與基因差異表達現象關聯的特征基因功能類的組合;GO分析是根據挑選出的有注釋的差異基因,計算這些差異基因同GO分類中某個特定的分支的超幾何分布關系;通過GO分析可以找到富集差異基因的GO分類條目,尋找不同樣品間的差異基因可能和那些基因功能的改變有關。本發明的有益效果是,通過高通量測序(RNA-kq)技術對金華豬和大約克豬乳腺組織進行全基因組表達譜分析,探討這兩個不同豬種的乳腺基因組表達差異,得到一系列重要的遺傳信息,為深入研究豬泌乳發育、泌乳過程中相關的基因功能和調控機制提供基礎材料。
圖1是質量體積比為0.06g/ml的聚丙烯酰胺凝膠電泳圖,圖中,第一泳道是 marker條帶,第二泳道是金華豬乳腺組織cDNA條帶,第三泳道是大約克豬乳腺組織cDNA條
市ο
具體實施例方式本發明利用測序技術分析豬乳腺組織基因表達差異的方法,包括以下步驟
1、總RNA的提取金華豬和大約克豬屠宰后,采集乳腺組織樣本,研缽置于高壓滅菌鍋中滅菌,然后將乳腺組織樣本放入研缽,倒入液氮,將乳腺組織樣本研磨成粉末狀態 ’然后取樣品粉末50-100mg,移至已加入Iml Trizol試劑的2ml離心管中并混勻,室溫條件下靜置5-lOmin,讓樣品中核蛋白混合物完全裂解;在離心管中加入200ul氯仿,劇烈震蕩15 秒后,室溫條件下靜置2-aiiin ;
然后放入離心機中,4°C、13000rpm離心15min,上層無色水相為RNA,下層紅色是酚、 氯仿層;吸取上層無色水相至一新的離心管中,加入500ul異丙醇(沉淀RNA),室溫條件下靜置IOmin ;然后4°C、13000rpm離心lOmin,RNA被沉淀,呈膠狀顆粒;棄上清,加入Iml用 DEPC水配置的體積百分比濃度為75%酒精,旋轉管子混勻;4°C、IOOOOrpm離心5min ;棄乙醇,沉淀物在室溫條件下干燥5-lOmin ;加入50ul體積百分比濃度為0. 1%的DEPC水溶解 RNA。同時,取出2ul進行RNA完整性檢驗,另外取出Iul進行RNA濃度和純度的測定,其余在-70°C保存備用。2、構建組織 RNA-Seq 測序 cDNA 文庫,采用 Illumina Satandard Kit 試劑盒, cDNA文庫的制備主要包括以下步驟(l)mRNA分離和片段化;用poly (T)寡聚核苷酸從上述2個總RNA池中抽取帶poly(A)尾的RNA,其中的主要部分就是編碼基因所轉錄的mRNA, 然后將所得的mRNA用裂解液在70攝氏度下裂解5分鐘。(2) cDNA合成與末端修復;利用 N6隨機引物和反轉錄酶將片段化的mRNA合成cDNA —鏈,隨后用RNaseH和DNA多聚酶再將一鏈cDNA合成雙鏈cDNA,然后利用T4DNA多聚酶和KlenowDNA多聚酶對二鏈cDNA進行末端修飾。(3)連接5'和3'測序接頭;用Illumina adaptor mix和T4DNA酶將上述經過末端修飾的cDNA連接到Illumina雙端測序接頭上,這樣得到將用于測序的cDNA。(4)PCR擴增cDNA文庫;在以上過程,將RNA隨機片段化和采用隨機引物進行反轉錄,都是為了使所得 cDNA片段較均勻地取自各個轉錄本,為了提高測序效率,一般采用電泳切膠法(瓊脂糖凝膠的質量體積比濃度為0. 02g/ml),獲取長度范圍在200-250bp的cDNA片段,再經過15個循環的PCR線性擴增后,最后用QIAquick PCR purification KIT試劑盒富集和純化得到最終的cDNA文庫。3、采用Illumina GA II X測序儀器對建庫產物進行測序上述純化好的cDNA文庫放進基因組分析泳道中,采用邊合成邊測序法(sequencing by synthesis,SBS),利用 Illumina GA II χ測序平臺進行5'和3'雙向75nt長度RNA-Seq測序,每個通道將產生數百萬條原始的讀段(Read),Read的測序讀長為75bp。4、RNA-Seq數據的基本處理
(1)將測序數據定位到參考基因組
獲得RNA-Seq的原始數據后,首先需要將所有測序讀段通過序列映射定位到Ensembl 數據庫的豬基因組上(http:www. ensembl. org/info/data/ftp/index. html),這需要使用 TopHat軟件以及Bowtie軟件共同來完成。首先,通過Bowtie采用Burrows-Wheeler轉換將豬基因組按照一定規則壓縮并建立索引,然后采用Tophat軟件來查找和回溯來定位讀段。不過在讀段定位之前,需要按照Illumina標準程序對讀段進行質量過濾,Tophat允許每個讀段多重比對,并且可以允許最多出現2個缺省的錯配。定位的結果接著被用于鑒定可以表達的“islands”,這也就是潛在的外顯子。如果存在有些讀段不能直接定位到參考基因組上,那么就會將這些讀段與Tophat數據庫中公認的結合位點進行比對,從而可以簽訂出潛在的外顯子結合位點(即剪切位點)。最后,讀段定位到基因組后采用SAMGequence Alignment/Map)格式來存儲,而鑒定的結合位點會以BED文件保存。(2)轉錄本簽訂
上述憑借好的序列會進一步使用Cuffinks軟件來預測新的轉錄本。RNA-Seq數據能在一定程度上推斷對于每一個轉錄本的表達水平,并檢測其在不同樣品間的差異表達和調控。因為Cuffinks軟件可以不依賴一致參考基因的轉錄本去預測未知的、潛在的新的轉錄本,這就使得CufTinks軟件可以應用于位置物種選擇性剪切和轉錄本的鑒定。預測的轉錄本會存儲在以transcript, expr命名的文件夾里,而簽訂的基因則會儲存在以genes, expr 命名的文件夾下面。目前最常用的基因表達估計方法包括FPKM(Fragments Per Kilobases of exon per Million fragments mapped),就是每百萬讀段中來自于某基因外顯子每千堿基長度的讀段數,公式表示為=FPKM=(基因區段計數/基因長度*測序深度)*109。最后預測的轉錄本和他們相關的外顯子會形成GTF格式文件,并被儲存在transcript, gtf文件夾下面。(3)基因和轉錄本注釋
一旦所有的讀段序列用Cuffinks軟件進行組合后,組合轉錄本的GTF文件將和參考基因組一起進行比對。利用Cuffinks軟件中得Cuffcompare模塊可以對每個轉錄本是已知或未知進行分類。這樣,所有的轉錄本包括與參考基因組匹配的(class-code:!! or -)或者包含在參考基因組內的(claSS-COde:C)以及發現新的轉錄本亞型(class-code ; j)和潛在的新的轉錄本(class-code:!! or -)都會被簽訂出來。一份包括所有預測的轉錄本和參考轉錄本的組合文件將會生成并被存儲在<Sample_Name>_COmbined. gtf文件下面。5、比較兩種樣本中基因表達的差異。這些差異一般可以用一些統計假設檢驗方法檢測,但這種檢驗有時會受到測序深度、基因長度等因素的影響,需要對結果進行仔細分析,消除盡可能的混雜因素,必要時可以用讀段的絕對表達值倍數變化(fold-change)來作為補充。RNA測序數據是對提取出的RNA轉錄本中隨機進行的短片段測序,如果一個轉錄本的豐度高,則深度測序后定位到其對應的基因組區域的讀段也就多,可以通過對定位到基因外顯子區的讀段計數來估計基因表達水平。很顯然,讀段計數出了與基因真實表達水平成正比,還與基因長度成正比,同時也與測序深度即測序實驗中得到的總讀段數正相關。為了保持對不同基因和不同試驗件估計的基因表達值的可比性,人們提出了 FPKM (fragment per kilobase of exon per million fragments mapped)的概念FPKM是每百萬讀段中來自于某基因每千堿基長度的讀段數。在本發明的試驗中,金華豬和大約克豬乳腺組織中差異基因表達水平就是用金華豬乳腺組織中FPKM值與大約克豬乳腺組織中FPKM值的比值, 并且為了消除盡可能的混雜因素,我們采用絕對表達倍數表示。6、差異表達基因的GO (Gene Ontology)分析。基因功能聚類分析采用GO方法分析,使用功能基因注釋軟件包bioconducter分析組織中功能相關基因表達變化。一般來說,單個基因的表達情況的改變不能完全反應特定細胞功能和通路的整體變化情況。因為生物個體的細胞功能的實現并不僅僅是依靠一兩個基因功能的改變來實現的。而基因本體 (Gene Ontology, G0),也就是一套與基因有關的樹狀的詞匯表的引入為基因功能數據挖掘提供了新的思路。GO分析主要目的在于發掘出與基因差異表達現象關聯的特征基因功能類的組合。GO分析是根據挑選出的有注釋的差異基因,計算這些差異基因同GO分類中某個特定的分支的超幾何分布關系。通過GO分析可以找到富集差異基因的GO分類條目,尋找不同樣品間的差異基因可能和那些基因功能的改變有關。以下結合實施例來進一步說明本發明。1、總RNA的提取
采集泌乳21天金華豬、大約克豬屠宰后迅速采集乳腺組織樣本,立刻裝入冷凍管中, 置入液氮中,按上述步驟提取總RNA。配制靜DEPC處理的電泳緩沖液50X TAE,高壓滅菌待用,用3%H202浸泡電泳槽15min,再用DEPC沖洗,然后倒入0. 5X TAE電泳緩沖液,用0. 5 X TAE電泳緩沖液制備1%瓊脂糖凝膠進行電泳,在凝膠成像儀上觀察并拍照,初步評估RNA 質量。2、測序cDNA文庫的構建
采用標準建庫方法,分別對金華豬和大約克豬乳腺組織總RNA,進行測序文庫構建,并用6. (FoTBEpolyacrylamide gel檢測條帶的準確性。結果表明,文庫條帶均在350bp附近, 與目的條帶相符。檢測結果見圖1。3、Illumina Solexa測序結果基本處理
其中RXJ樣品(金華)共測序獲得30,307,414的數據讀數(Reads),共計產生約2. 27G 的數據量,RXY樣品(大約克夏),共測序獲得31,M4,100的數據讀數,共計產生約2. 34G的數據量。為了進一步獲得測序數據與測序物種的基因信息的比對結果,我們對數據進行了進一步的統計分析。使用TopHat軟件將RNA-Seq測序數據定位到參考基因組。樣品RXJ 和RXY分別有30,378,936和31,沘5,299數據是可比對的(當一個測序數據比對上Genome 一次,我們計算為一次Mappable,當一個測序數據比對上Genome 二次則計數的Mappable為二,因此Mappable Reads數目有可能大于測序總讀數),18,744,172以及19,858,470的數據是比對上基因組的,其中比對上Transcripts的數目分別為12,628,373和12,461,893,比對上Intron的分別為308,360和569,356,比對上Genome的分別是4,286,671以及5, 264,186。4、新預測的兩個樣本的轉錄本、外顯子和內含子的統計信息
相對于既有的Ensembl上的GTF文件文件信息,利用豬基因組序列以及測序數據,采用Cufflinks軟件來預測新的轉錄本.其中針對RXJ樣本,在染色體l(chrl)上,轉錄本 (Transcript)最短長度為71nt,最長為83Mnt,平均長度為648. 6nt.其中包括的外顯子, 從1-57個外顯子不等,其中平均外顯子個數為2. 9個.針對的外顯子長度從4nt到4537nt 堿基長度不等,平均長度為221. 6nt.內含子長度從70nt到344474nt堿基不等,平均內含子長度為5434. 1.而針對RXY樣本,在染色體l(chrl)上,轉錄本CTranscript)最短長度為71nt,最長為9599nt,平均長度為742. 6nt。其中包括的外顯子,從1到58個外顯子不等,其中平均外顯子個數為2. 9個。針對的外顯子長度從4nt到5740nt堿基長度不等,平均長度為259. 9nt。內含子長度從70nt到^0700nt堿基不等,平均內含子長度為 5785.5nt。對于RXY樣品,所有染色體上預測的最長的轉錄本有9871nt,位于chrMT,最短的只有71nt,位于chrl和chr2在內的多條染色體上;所有染色體上預測的最大的外顯子個數有57個,位于chrl,最長的外顯子為8737nt,位于chrMT ;在所有染色體上預測的內含子最長有500000nt,位于chrll上,最短也為70nt。對于RXY樣品,所有染色體上預測的最長的轉錄本有1485^t,位于chrl2上,最短的只有71nt,位于多條染色體上;所有染色體上預測的最大的外顯子個數有58個,位于chrl上,最長的外顯子為6870nt,位于chr2 ;在所有染色體上預測的內含子最長有448666nt,也位于chrll,最短的只有70nt,位于chrl在內的多條染色體上。所以,通過比較可以看出RXJ樣本預測的最長的轉錄本和最長的內含子都高于RXY樣本,但后者的最多外顯子個數以及最長外顯子長度都高于前者。5、基因差異表達分析
在本研究中,金華豬、大約克豬差異表達基因四40個,并且差異基因表達水平值的范圍是-20. 0722到17. 3563。在這些差異表達基因中,表達差異倍數大于2倍的有178個,其中表達上調有96個,下調有82個。從結果中發現,差異表達基因上調的多余下調的。上調的基因有 SLK、SPTAN1、HMGCS1、ACOX1、ACLY 等,下調的基因有 ABHD6、PHGR1、CHI3L1、PPP1CB、 RNDl 等。6、差異表達基因的G0(Gene Ontology)分析
在本實驗中將差異表達的基因分別按照生物過程、細胞成分和分子功能進行分類。顯著性GO分類1-生物學過程中涉及到的顯著功能有轉錄調控、信號轉導、細胞粘附、蛋白質磷酸化、多細胞生物的發育調控、跨膜運輸、蛋白質運輸、細胞凋亡、蛋白質水解、細胞周期、 細胞分化等。顯著性分類2-細胞成分中涉及的顯著性功能有細胞質、核、膜、膜的完整性、 質膜、胞液、線粒體、高爾基體、內質網等。顯著性分類3-分子功能中涉及的顯著性功能有蛋白結合、金屬離子結合、核苷酸結合、鋅離子結合、ATP結合、水解酶活力、轉移酶活力、催化活力等。
權利要求
1. 一種利用測序技術分析豬乳腺組織基因表達差異的方法,其特征在于,該方法包括以下步驟(1)總RNA的提取金華豬和大約克豬屠宰后,采集乳腺組織樣本,研缽置于高壓滅菌鍋中滅菌,然后將乳腺組織樣本放入研缽,倒入液氮,將乳腺組織樣本研磨成粉末狀態;然后取樣品粉末50-100mg,移至已加入Iml Trizol試劑的2ml離心管中并混勻,室溫條件下靜置5-lOmin,讓樣品中核蛋白混合物完全裂解;在離心管中加入200ul氯仿,劇烈震蕩15 秒后,室溫條件下靜置2-aiiin ;然后放入離心機中,4°C、13000rpm離心15min,上層無色水相為RNA,下層紅色是酚、 氯仿層;吸取上層無色水相至一新的離心管中,加入500ul異丙醇(沉淀RNA),室溫條件下靜置IOmin ;然后4°C、13000rpm離心lOmin,RNA被沉淀,呈膠狀顆粒;棄上清,加入Iml用 DEPC水配置的體積百分比濃度為75%酒精,旋轉管子混勻;4°C、IOOOOrpm離心5min ;棄乙醇,沉淀物在室溫條件下干燥5-lOmin ;加入50ul體積百分比濃度為0. 1%的DEPC水溶解 RNA ;(2)構建組織RNA-Seq 測序 cDNA 文庫,采用 Illumina Satandard Kit 試劑盒,cDNA 文庫的制備主要包括以下子步驟(2. l)mRNA分離和片段化;用poly (T)寡聚核苷酸從上述2個總RNA池中抽取帶poly(A)尾的RNA,其中的主要部分就是編碼基因所轉錄的mRNA, 然后將所得的mRNA用裂解液在70攝氏度下裂解5分鐘;(2. 2) cDNA合成與末端修復;利用N6隨機引物和反轉錄酶將片段化的mRNA合成cDNA —鏈,隨后用RNaseH和DNA多聚酶再將一鏈cDNA合成雙鏈cDNA,然后利用T4DNA多聚酶和KlenowDNA多聚酶對二鏈cDNA進行末端修飾;(2. 3)連接5'和3'測序接頭;用Illumina adaptor mix和T4DNA酶將上述經過末端修飾的cDNA連接到Illumina雙端測序接頭上,這樣得到將用于測序的cDNA ; (2. 4) PCR擴增cDNA文庫;在以上過程,將RNA隨機片段化和采用隨機引物進行反轉錄,都是為了使所得cDNA片段較均勻地取自各個轉錄本,為了提高測序效率,一般采用電泳切膠法(瓊脂糖凝膠的質量體積比濃度為0. 02g/ml),獲取長度范圍在200-250bp的cDNA片段, 再經過15個循環的PCR線性擴增后,最后用QIAquick PCR purification KIT試劑盒富集和純化得到最終的cDNA文庫;(3)采用IlluminaGA II X測序儀器對建庫產物進行測序上述純化好的cDNA文庫放進基因組分析泳道中,采用邊合成邊測序法,利用Illumina GA II χ測序平臺進行5'和 3'雙向75nt長度RNA-Seq測序,每個通道將產生數百萬條原始的讀段(Read),Read的測序讀長為75bp ;(4)RNA-Seq數據的基本處理,該步驟包括以下子步驟(4. 1)將測序數據定位到參考基因組獲得RNA-Seq的原始數據后,首先需要將所有測序讀段通過序列映射定位到Ensembl數據庫的豬基因組上,這需要使用TopHat軟件以及Bowtie軟件共同來完成;首先,通過Bowtie采用Burrows-Wheeler轉換將豬基因組按照一定規則壓縮并建立索引,然后采用Tophat軟件來查找和回溯來定位讀段;不過在讀段定位之前,需要按照Illumina標準程序對讀段進行質量過濾,Tophat允許每個讀段多重比對,并且可以允許最多出現2個缺省的錯配;定位的結果接著被用于鑒定可以表達的 “islands”,這也就是潛在的外顯子;如果存在有些讀段不能直接定位到參考基因組上,那么就會將這些讀段與Tophat數據庫中公認的結合位點進行比對,從而可以簽訂出潛在的外顯子結合位點;最后,讀段定位到基因組后采用SAM格式來存儲,而鑒定的結合位點會以 BED文件保存;(4. 2)轉錄本簽訂上述憑借好的序列會進一步使用Cuffinks軟件來預測新的轉錄本; RNA-Seq數據能在一定程度上推斷對于每一個轉錄本的表達水平,并檢測其在不同樣品間的差異表達和調控;因為Cuffinks軟件可以不依賴一致參考基因的轉錄本去預測未知的、 潛在的新的轉錄本,這就使得CufTinks軟件可以應用于位置物種選擇性剪切和轉錄本的鑒定;預測的轉錄本會存儲在以transcript, expr命名的文件夾里,而簽訂的基因則會儲存在以genes, expr命名的文件夾下面;用FPKM進行基因表達估計,FPKM就是每百萬讀段中來自于某基因外顯子每千堿基長度的讀段數,公式表示為=FPKM=(基因區段計數/基因長度*測序深度)*109 ;最后預測的轉錄本和他們相關的外顯子會形成GTF格式文件,并被儲存在transcript, gtf文件夾下面;(4. 3)基因和轉錄本注釋一旦所有的讀段序列用Cuffinks軟件進行組合后,組合轉錄本的GTF文件將和參考基因組一起進行比對;利用Cuffinks軟件中得Cuffcompare模塊可以對每個轉錄本是已知或未知進行分類;這樣,所有的轉錄本包括與參考基因組匹配的(ClaSS-COde:u or -)或者包含在參考基因組內的(class-c0de:c)以及發現新的轉錄本亞型(class-code ;j)和潛在的新的轉錄本(class-code:u or _)都會被簽訂出來;一份包括所有預測的轉錄本和參考轉錄本的組合文件將會生成并被存儲在<Sample_Name>_ combined, gtf 文件下面;(5)比較兩種樣本中基因表達的差異用金華豬乳腺組織中FPKM值與大約克豬乳腺組織中FPKM值的比值的絕對表達倍數來表示金華豬和大約克豬乳腺組織中差異基因表達水平;(6)差異表達基因的GO分析基因功能聚類分析采用GO方法分析,使用功能基因注釋軟件包bioconducter分析組織中功能相關基因表達變化;一般來說,單個基因的表達情況的改變不能完全反應特定細胞功能和通路的整體變化情況;因為生物個體的細胞功能的實現并不僅僅是依靠一兩個基因功能的改變來實現的;而基因本體(Gene Ontology, G0),也就是一套與基因有關的樹狀的詞匯表的引入為基因功能數據挖掘提供了新的思路;GO分析主要目的在于發掘出與基因差異表達現象關聯的特征基因功能類的組合;GO分析是根據挑選出的有注釋的差異基因,計算這些差異基因同GO分類中某個特定的分支的超幾何分布關系;通過GO分析可以找到富集差異基因的GO分類條目,尋找不同樣品間的差異基因可能和那些基因功能的改變有關。
全文摘要
本發明公開了一種利用測序技術分析豬乳腺組織基因表達差異的方法,分別構建了金華豬和大約克豬乳腺組織cDNA的文庫并用基因組分析儀進行測序,采用Cufflinks軟件預測了新的轉錄本信息;在此基礎上還對兩樣本測序結果進行了比較分析,包括基因差異表達分析和差異表達基因的GeneOntology分析;本發明公開了金華豬和大約克豬乳腺組織轉錄組測序的過程和結果,并對這些序列信息進行了深入的統計分析和比較,以期為深入研究豬泌乳發育、泌乳過程中相關的基因功能和調控機制提供基礎材料。
文檔編號C12Q1/68GK102409099SQ20111038581
公開日2012年4月11日 申請日期2011年11月29日 優先權日2011年11月29日
發明者張立凡, 彭靜, 徐寧迎, 王穎 申請人:浙江大學