控制基因在玉米籽粒中特異表達的啟動子及其獲得方法和應用
【專利摘要】本發明提供了一種控制基因在玉米籽粒中特異表達的啟動子,所述啟動子控制基因在玉米籽粒中特異表達,所述啟動子的核苷酸序列如SEQ ID NO:1所示。還提供了一種控制基因在玉米籽粒中特異表達的啟動子的獲得方法,以及控制基因在玉米籽粒中特異表達的啟動子或根據控制基因在玉米籽粒中特異表達的啟動子的獲得方法獲得的控制基因在玉米籽粒中特異表達的啟動子在控制基因在玉米籽粒中特異表達中的應用。本發明的控制基因在玉米籽粒中特異表達的啟動子能夠控制基因在玉米籽粒中特異表達,為研究基因在玉米籽粒中的特異表達情況奠定良好的基礎,促進玉米籽粒中基因表達研究的進展,適于大規模推廣應用。
【專利說明】
控制基因在玉米籽粒中特異表達的啟動子及其獲得方法和 應用
技術領域
[0001]本發明涉及分子遺傳學技術領域,更具體地,涉及控制基因特異表達的啟動子技 術領域,特別是指一種控制基因在玉米籽粒中特異表達的啟動子及其獲得方法和應用。
【背景技術】
[0002]基因表達(gene expression)是指細胞在生命過程中,把儲存在脫氧核糖核酸 (DNA)序列中的遺傳信息經過轉錄和翻譯,轉變成具有生物活性的蛋白質分子。該過程決定 了細胞的分化及形態的發生。每個基因轉錄產生信使核糖核酸(mRNA)的量,受到多種因素 的調控,最終影響個體的生長發育、形態結構及生物學功能。基因調控是現代分子生物學研 究的中心課題之一。
[0003] 啟動子(Promoters)是RNA聚合酶特異性識別和結合的DNA序列,控制基因表達(轉 錄)的起始時間和表達的程度,就像"開關"一樣決定基因的活動。根據轉錄模式及功能,啟 動子可分為三類:組成型啟動子、組織或器官特異性啟動子和誘導型啟動子。目前,在植物 基因工程中使用的大多數為組成型啟動子,在所有組織或器官中都起作用,使得外源基因 在植物的所有組織或器官中都表達。這類啟動子不能控制基因的專化性表達,并且過度消 耗細胞內的物質和能量,造成不必要的能源浪費。
[0004] 玉米作為我國第一大作物,是不可或缺的重要糧食及飼料來源,對其產量的研究 一直是重中之重。玉米籽粒是決定產量的關鍵因素,玉米籽粒中基因的表達模式決定了各 個籽粒性狀并影響到最終產量。已經有越來越多的研究人員通過轉基因或其他手段分析基 因在玉米籽粒中的特異表達情況。但由于缺乏能夠控制基因在玉米籽粒中特異表達的啟動 子,嚴重影響了玉米籽粒中基因表達研究的進展。
[0005 ]因此,需要提供一種控制基因在玉米籽粒中特異表達的啟動子,從而能夠控制基 因在玉米籽粒中特異表達,為研究基因在玉米籽粒中的特異表達情況奠定良好的基礎,促 進玉米籽粒中基因表達研究的進展。
【發明內容】
[0006] 為了克服上述現有技術中的缺點,本發明的一個目的在于提供一種控制基因在玉 米籽粒中特異表達的啟動子,其能夠控制基因在玉米籽粒中特異表達,為研究基因在玉米 籽粒中的特異表達情況奠定良好的基礎,促進玉米籽粒中基因表達研究的進展,適于大規 模推廣應用。
[0007] 本發明的另一目的在于提供一種控制基因在玉米籽粒中特異表達的啟動子的獲 得方法,通過該方法能夠獲得控制基因在玉米籽粒中特異表達的啟動子,而且操作簡單方 便,適于大規模推廣應用。
[0008] 本發明的另一目的在于提供一種控制基因在玉米籽粒中特異表達的啟動子的應 用,從而控制基因在玉米籽粒中特異表達,為研究基因在玉米籽粒中的特異表達情況奠定 良好的基礎,促進玉米籽粒中基因表達研究的進展,適于大規模推廣應用。
[0009] 為達到以上目的,在本發明的第一方面,提供了一種控制基因在玉米籽粒中特異 表達的啟動子,其特點是,所述啟動子控制基因在玉米籽粒中特異表達,所述啟動子的核苷 酸序列如SEQ ID N0:1所示。
[0010] 上述基因既包括所述玉米籽粒中原本存在的基因,也包括外源基因。
[0011] 在本發明的第二方面,提供了一種控制基因在玉米籽粒中特異表達的啟動子的獲 得方法,其特點是,所述獲得方法包括以下步驟:
[0012] (1)選擇至少2個高通量轉錄組測序數據庫,所述高通量轉錄組測序數據庫采用在 不同發育時期的玉米不同組織進行構建,所述不同組織包括玉米籽粒,將所述高通量轉錄 組測序數據庫中的RNA序列錨定到玉米自交系B73V2版參考基因組上,獲得在所述玉米自交 系B73V2版參考基因組中具有單一錨定位點的待選RNA序列,根據所述待選RNA序列獲得其 錨定的所述玉米自交系B73V2版參考基因組中的待選基因;
[0013] (2)計算各所述待選基因的各轉錄本的FPKM值,計算所述轉錄本在所述不同組織 中表達的表達特異性SPM值,篩選在所述至少2個高通量轉錄組測序數據庫中在所述玉米籽 粒中所述表達特異性SPM值均達到最高5%且大于0.9、在所述不同組織的除所述玉米籽粒 以外的其它組織中所述FPKM值小于20的候選轉錄本,獲得所述候選轉錄本對應的候選基 因;
[0014] (3)選取其中一個所述候選基因作為目標基因,根據所述玉米自交系B73V2版參考 基因組的序列信息,利用生物信息學方法定位所述目標基因并預測所述目標基因的結構;
[0015] (4)獲取所述目標基因的起始密碼子的上游序列并利用生物信息學方法預測所述 目標基因的啟動子,所述啟動子即為所述的控制基因在玉米籽粒中特異表達的啟動子。
[0016] 高通量測序數據庫是指采用高通量測序技術例如Illumina/Solexa技術、Roche/ LS454技術、ABI/S0LID技術以及HELI⑶S單分子測序技術測量得到的基因組和轉錄組高通 量數據。例如NCBI(美國國立生物技術信息中心)的SRA(Sequen Ce Read Achive)數據庫用 于存儲、顯示、提取和分析高通量測序數據。高通量轉錄組測序數據庫是在轉錄組水平上進 行的高通量測序。
[0017] "所述高通量轉錄組測序數據庫采用在不同發育時期的玉米不同組織進行構建" 意思是采用玉米的多個不同組織,且在多個不同發育時期分別采集玉米的多個不同組織, 然后對其轉錄組進行高通量測序來進行構建。
[0018] 所述高通量轉錄組測序數據庫的數目可以根據需要確定,較佳地,所述高通量轉 錄組測序數據庫的數目為3個。
[0019] 所述高通量轉錄組測序數據庫可以是任何的高通量轉錄組測序數據庫,只要其采 用在不同發育時期的玉米的不同組織進行構建即可,較佳地,所述高通量轉錄組測序數據 庫分別為NCBI的SRP006463數據庫、SRP010680數據庫和SRP014652數據庫。
[0020] 所述玉米不同組織可以采用任何合適的組織,較佳地,所述玉米不同組織還包括 選自根、葉、穗軸、穗絲和花藥中的至少一種。
[0021] 所述不同發育時期可以是任何合適的發育時期,較佳地,所述不同發育時期包括 抽穗期和灌漿期。
[0022] 為了減少結合特異性太低導致的繁重的運算量,較佳地,在所述錨定之前,將長度 小于20bp的所述RNA序列去掉。當然,這個具體長度可以根據需要確定,例如可以將長度小 于25bp的所述RNA序列去掉,或是將長度小于15bp的所述RNA序列去掉。
[0023]為了減少背景干擾,較佳地,在計算所述SPM值之前,將所述FPKM值小于10的所述 轉錄本去掉。當然,這個具體所述FPKM值可以根據需要確定,例如所述FPKM值小于15的所述 轉錄本去掉,或是所述FPKM值小于5的所述轉錄本去掉。
[0024]所述目標基因可以是任何合適的候選基因,只要其在所述至少2個高通量轉錄組 測序數據庫中均出現即可,較佳地,所述目標基因為GRMZM2G044625基因。
[0025]在本發明的第三方面,提供了上述的控制基因在玉米籽粒中特異表達的啟動子或 根據上述的控制基因在玉米籽粒中特異表達的啟動子的獲得方法獲得的控制基因在玉米 籽粒中特異表達的啟動子在控制基因在玉米籽粒中特異表達中的應用。
[0026]本發明的有益效果在于:
[0027] a.本發明的控制基因在玉米籽粒中特異表達的啟動子控制基因在玉米籽粒中特 異表達,其核苷酸序列如SEQ ID N0:1所示,因此,采用該啟動子能夠控制基因在玉米籽粒 中特異表達,為研究基因在玉米籽粒中的特異表達情況奠定良好的基礎,促進玉米籽粒中 基因表達研究的進展,適于大規模推廣應用。
[0028] b.本發明的控制基因在玉米籽粒中特異表達的啟動子的獲得方法通過選擇至少2 個高通量轉錄組測序數據庫,獲得在玉米自交系B73V2版參考基因組中具有單一錨定位點 的待選RNA序列,進而獲得其對應的待選基因;計算各待選基因的各轉錄本的FPKM值和在不 同組織中表達的表達特異性SPM值,篩選在至少2個高通量轉錄組測序數據庫中在玉米籽粒 中表達特異性SPM值均達到最高5%且大于0.9、在不同組織的除玉米籽粒以外的其它組織 中FPKM值小于20的候選轉錄本,獲得候選轉錄本對應的候選基因;選取其中一個候選基因 作為目標基因,根據玉米自交系B73V2版參考基因組的序列信息,利用生物信息學方法定位 目標基因并預測其結構;獲取目標基因的起始密碼子的上游序列并利用生物信息學方法預 測目標基因的啟動子,得到控制基因在玉米籽粒中特異表達的啟動子,因此,通過該方法能 夠獲得控制基因在玉米籽粒中特異表達的啟動子,而且操作簡單方便,適于大規模推廣應 用。
[0029] c .本發明的控制基因在玉米籽粒中特異表達的啟動子或根據上述的控制基因在 玉米籽粒中特異表達的啟動子的獲得方法獲得的控制基因在玉米籽粒中特異表達的啟動 子在控制基因在玉米籽粒中特異表達中的應用,使得控制基因在玉米籽粒中特異表達成為 可能,為研究基因在玉米籽粒中的特異表達情況奠定良好的基礎,促進玉米籽粒中基因表 達研究的進展,適于大規模推廣應用。
[0030] 本發明的這些和其它目的、特點和優勢,通過下述的詳細說明,附圖和權利要求得 以充分體現,并可通過所附權利要求中特地指出的手段、裝置和它們的組合得以實現。
【附圖說明】
[0031] 圖1是采用本發明的控制基因在玉米籽粒中特異表達的啟動子融合紅色熒光蛋白 質(RFP)基因轉基因玉米獲得的轉基因玉米的玉米籽粒的照片,其中RFP基因得到表達的玉 米籽粒呈紅色(見箭頭所示)。
[0032]圖2是圖1的玉米籽粒中熒光所在位置(見箭頭所示)的照片。
[0033]圖3是使用共聚焦顯微鏡觀測圖1的玉米籽粒從而觀測到的紅色熒光(見箭頭所 示)的照片。
【具體實施方式】
[0034]本發明的控制基因在玉米籽粒中特異表達的啟動子可以控制基因在玉米籽粒中 特異表達,所述啟動子的核苷酸序列如SEQ ID NO: 1所示。
[0035]該啟動子可以通過以下方法獲得:
[0036] (1)選擇多個源于玉米不同組織、不同發育時期構建的高通量轉錄組測序(RNA- seq)數據庫,利用SolexaQA軟件將RNA-seq的數據進行過濾,除去長度低于20bp的序列,以 避免結合特異性太低。利用Bowtie軟件將得到的序列錨定到玉米自交系B73V2版參考基因 組上,當一個序列能夠錨定到基因組上的不同位點,則除去該序列,只選擇在基因組中有單 一位點的序列,稱為待選RNA序列,進而獲得其對應的待選基因;
[0037] (2)使用Cuff links軟件計算各待選基因的各轉錄本的FPKM值(fragments per kilobase of transcript per million mapped reads),去掉FPKM小于 10的轉錄本,余下 的轉錄本用于后續分析,計算轉錄本在不同組織中表達的表達特異性SPM值(表達特異性系 數),篩選在上述多個高通量轉錄組測序數據庫中在所述玉米籽粒中表達特異性SPM值均達 到最高5%且大于0.9、在所述不同組織的除所述玉米籽粒以外的其它組織中所述FPKM值小 于20的轉錄本,稱為候選轉錄本,進而獲得對應的候選基因;
[0038] (3)選取其中一個候選基因作為目標基因,利用玉米品種B73的V2版基因組序列信 息,利用生物信息學方法定位該目標基因并預測其結構。
[0039] (4)搜索該目標基因的起始密碼子ATG的上游序列,使用TSSP軟件預測其啟動子。
[0040] (5)克隆其啟動子序列,與紅色熒光蛋白質(RFP)融合。轉入玉米品種中,檢測該整 合蛋白在轉基因植株中的表達情況。
[0041]為了能夠更清楚地理解本發明的技術內容,特舉以下實施例詳細說明。
[0042] 實施例1:
[0043] 從玉米RNA-seq數據庫(http: //trace .ncbi .nlm.nih. gov/Traces/sra/sra. cgi? study = SRP006463;http://trace .ncbi.nlm.nih.gov/Traces/sra/sra.cgi?study = SRP010680;http://trace.ncbi.nl m.nih·gov/Traces/sra/sra.cgi?study = SRP014652) 中下載不同組織(根、葉、穗軸、穗絲、花藥和籽粒)、不同發育時期(抽穗期、灌漿期)測得的 RNA-seq 數據。
[0044] 首先使用 SolexaQA (Cox,Μ·Ρ·,Peters on, D.A.&Biggs,P.J. SolexaQA: A t_a_ glance quality assessment of Illumina second-generation sequencing data.BMC bioinformatics 11,485(2010))對原始數據進行過濾,除去質量比較差的數據,只留下長 度超過20bp的序列。
[0045] 通過 Bowtie2v2 · 1 · 0(Langmead B et al · Ultrafast and memory-efficient alignment of short DNA sequences to the human genome.Genome Biol 2009,10:R25) 將上述序列錨定到玉米參考基因組B73v2 (http : //www · maizegdb · org/data_center/ sequence)的序列上。當一個序列能夠錨定到基因組上的不同位點,則除去該序列,只選擇 在基因組中有單一位點的序列,稱為待選RNA序列,進而獲得對應的待選基因。
[0046]然后利用Cuffl inks(v2 · 1 · 1) (Trapnell,C · et al · Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation.Nature biotechnology 2010,28,511-515)計 算各候選基因的各轉錄本的FPKM值(fragments per kilobase of transcript per million mapped reads)來反映各候選基因的表達水平。去掉FPKM值小于10的轉錄本,余下 的轉錄本用于后續分析。
[0047]計算各轉錄本在不同組織中表達的表達特異性SPM值(表達特異性系數)(Xiao S-J et al.TiSGeD:a database for tissue-specific genes Bioinformatics 2010 26: 1273-1275),SPM值(0~1)越大表明轉錄本在該組織中表達的特異性越強。篩選不同數據庫 中在籽粒中的SPM值都達到前5 %且大于0.9,而且在其它組織中的表達量FPKM值小于20的 轉錄本,稱為候選轉錄本,進而獲得對應的候選基因。發現其中一個候選基因 GRMZM2G044625基因在三個不同RNA-seq數據庫中的表達特異性都達到發明人期望的標準 (請參見表1和表2),且在三個不同1^^- 8叫數據庫中在籽粒中的5?1值都達到前5%。該基因 在玉米籽粒中特異表達,可能是由其啟動子調控的。
[0048] 表1籽粒特異性表達基因 GRMZM2G044625在三個不同數據庫中不同組織中的表達 特異性SPM值
[0050] 表2籽粒特異性表達基因 GRMZM2G044625在三個不同數據庫中不同組織中的平均 表達量(FPKM)
[0052] 根據玉米品種B73的V2版基因組序列信息,利用生物信息學方法定位 GRMZM2G044625并預測其結構。其位于玉米第4染色體5,117,781-5,118,581,含有267個氨 基酸,無內含子。搜索該基因起始密碼子ATG的上游序列,使用TSSP軟件預測其啟動子,結果 表明該啟動子的所有元件都包括在其上游1 〇〇〇bp范圍內。
[0053] 克隆GRMZM2G044625起始密碼子ATG上游1000bp的啟動子序列(如SEQ ID N0:1所 示),將其與紅色熒光蛋白質(RFP)基因融合。通過農桿菌介導法轉入玉米品種H99中,檢測 該整合基因在轉基因植株中的表達情況,結果顯示該融合基因只在玉米籽粒中表達,而在 玉米的其他組織中監測不到任何熒光信號(請參見圖1-圖3)。表明該啟動子能夠控制基因 在玉米籽粒中的特異表達。
[0054] 本發明通過本發明的上述的控制基因在玉米籽粒中特異表達的啟動子的獲得方 法獲得了控制基因在玉米籽粒中特異表達的啟動子,通過構建融合基因并轉基因玉米,鑒 定該啟動子可以控制基因在玉米籽粒中特異表達。
[0055] 綜上所述,本發明的控制基因在玉米籽粒中特異表達的啟動子能夠控制基因在玉 米籽粒中特異表達,為研究基因在玉米籽粒中的特異表達情況奠定良好的基礎,促進玉米 籽粒中基因表達研究的進展,適于大規模推廣應用。
[0056]在此說明書中,本發明已參照其特定的實施例作了描述。但是,很顯然仍可以作出 各種修改和變換而不背離本發明的精神和范圍。因此,說明書和附圖應被認為是說明性的 而非限制性的。
【主權項】
1. 一種控制基因在玉米籽粒中特異表達的啟動子,其特征在于,所述啟動子控制基因 在玉米籽粒中特異表達,所述啟動子的核苷酸序列如SEQ ID NO: 1所示。2. -種控制基因在玉米籽粒中特異表達的啟動子的獲得方法,其特征在于,所述獲得 方法包括以下步驟: (1) 選擇至少2個高通量轉錄組測序數據庫,所述高通量轉錄組測序數據庫采用在不同 發育時期的玉米不同組織進行構建,所述不同組織包括玉米籽粒,將所述高通量轉錄組測 序數據庫中的RNA序列錨定到玉米自交系B73V2版參考基因組上,獲得在所述玉米自交系 B73V2版參考基因組中具有單一錨定位點的待選RNA序列,根據所述待選RNA序列獲得其錨 定的所述玉米自交系B73V2版參考基因組中的待選基因; (2) 計算各所述待選基因的各轉錄本的FPKM值,計算所述轉錄本在所述不同組織中表 達的表達特異性SPM值,篩選在所述至少2個高通量轉錄組測序數據庫中在所述玉米籽粒中 所述表達特異性SPM值均達到最高5%且大于0.9、在所述不同組織的除所述玉米籽粒以外 的其它組織中所述FPKM值小于20的候選轉錄本,獲得所述候選轉錄本對應的候選基因; (3) 選取其中一個所述候選基因作為目標基因,根據所述玉米自交系B73V2版參考基因 組的序列信息,利用生物信息學方法定位所述目標基因并預測所述目標基因的結構; (4) 獲取所述目標基因的起始密碼子的上游序列并利用生物信息學方法預測所述目標 基因的啟動子,所述啟動子即為所述的控制基因在玉米籽粒中特異表達的啟動子。3. 根據權利要求2所述的控制基因在玉米籽粒中特異表達的啟動子的獲得方法,其特 征在于,所述高通量轉錄組測序數據庫的數目為3個。4. 根據權利要求3所述的控制基因在玉米籽粒中特異表達的啟動子的獲得方法,其特 征在于,所述高通量轉錄組測序數據庫分別為NCBI的SRP006463數據庫、SRP010680數據庫 和SRP014652數據庫。5. 根據權利要求2所述的控制基因在玉米籽粒中特異表達的啟動子的獲得方法,其特 征在于,所述玉米不同組織還包括選自根、葉、穗軸、穗絲和花藥中的至少一種。6. 根據權利要求2所述的控制基因在玉米籽粒中特異表達的啟動子的獲得方法,其特 征在于,所述不同發育時期包括抽穗期和灌漿期。7. 根據權利要求2所述的控制基因在玉米籽粒中特異表達的啟動子的獲得方法,其特 征在于,在所述錨定之前,將長度小于20bp的所述RNA序列去掉。8. 根據權利要求2所述的控制基因在玉米籽粒中特異表達的啟動子的獲得方法,其特 征在于,在計算所述SPM值之前,將所述FPKM值小于10的所述轉錄本去掉。9. 根據權利要求2所述的控制基因在玉米籽粒中特異表達的啟動子的獲得方法,其特 征在于,所述目標基因為GRMZM2G044625基因。10. 根據權利要求1所述的控制基因在玉米籽粒中特異表達的啟動子或根據權利要求 2-9任一項所述的控制基因在玉米籽粒中特異表達的啟動子的獲得方法獲得的控制基因在 玉米籽粒中特異表達的啟動子在控制基因在玉米籽粒中特異表達中的應用。
【文檔編號】C12N15/113GK105969769SQ201610320065
【公開日】2016年9月28日
【申請日】2016年5月13日
【發明人】林峰, 趙涵
【申請人】江蘇省農業科學院