專利名稱:一種新型蛋白質分子定向進化方法
技術領域:
本發明屬于生命科學領域,具體涉及一種根據蛋白質分子的空間三 維結構或者如序列信息和二級結構信息等等所有有用的信息,分析其分 子特性,理性選擇目的突變位點,并進行隨機重復遞推式基因序列突變, 之后通過篩選,獲得具有目的特性的新型蛋白質分子的定向進化方法。
背景技術:
荷蘭科學家格里特于1838年首次發現蛋白質,蛋白質是生物體內一 種極為重要的高分子有機物,凡是有生命的物質離開蛋白質就無法生存。 蛋白質的基本組成單位是氨基酸,氨基酸通過脫水縮合形成肽鏈。蛋白 質是由一條或多條多肽鏈組成的,每一條多肽鏈有十幾個至數百個不等 的氨基酸殘基,各種氨基酸殘基按一定的順序排列。蛋白質是生命的體 現者,現代生物工程技術的發展,使得人類可以獲得離體的、純化的、 并具有生物活性的蛋白質,可用于生物醫藥和生物催化等等領域。可是, 生物體內天然存在的蛋白質,其特性往往不盡人意,將其提取出來,并 在體外使用時常常具有很多缺點,比如活性低,對高溫、低溫、髙PH、 低pH、高壓、輻射等等極端環境的耐受性差。因此需要對其進行人工的 分子改造,使合成的蛋白質更符合人類的需要。由于每一種蛋白質都有 自己獨特的氨基酸排列順序(一級結構),所以只要改變其中關鍵的氨基 酸序列就能改變蛋白質的性質。而氨基酸又是由核酸序列上的三聯體密 碼子決定的,因此只要改變構成遺傳密碼的堿基序列就能達到改造蛋白 質的目的。這一技術始于20世紀90年代,稱為定向進化技術(Directed evolution),其中運用最為廣泛的實際操作方法為錯誤傾向PCR (Error-prone PCR)和DNA改組(DNA shuffling )。其核心思想是隨機 地改變編碼蛋白質的基因序列,獲得文庫,然后通過大量的篩選,從文 庫中獲得正向進化的目的基因。但是此類方法的隨機性很大,其成敗與 否和效果優劣在于篩選量的大小和準確性。數十年前,人類已知蛋白質分子的理化特性和生物學活性直接取決于其空間三維結構,而根據蛋白 質分子的空間三維結構,可以分析出蛋白質的生物活性和某一理化特性
具體和哪些氨基酸殘基相關聯。隨著現代結構生物學技術的發展,使用x
射線衍射法和NMR法等方法,人類已經獲得了很多蛋白質分子的空間三 維結構,但是由于自然界存在的蛋白質分子種類眾多,而通過實驗方法 解析蛋白質分子的空間三維結構費用高,步驟繁雜,難度較大,因此, 通過實驗方法得到空間結構的蛋白質分子的數量所占比例比較少。而近 幾年,通過使用生物信息學的方法,借助計算機技術,人工模擬蛋白質 分子空間三維結構取得了很大的進展。基于人工模擬的空間三維結構或 者實驗方法解析出的空間三維結構,分析出蛋白質分子中可能與某一特 性相聯系的氨基酸殘基的位置,并理性選擇這些位置,對基因進行突變, 可以提高正向進化的效率,減小篩選壓力。
發明內容
本發明的目的是通過使用X射線衍射法、NMR法等等實驗方法解析蛋 白質分子的空間結構。或者使用計算機技術,根據蛋白質分子的序列信 息,模擬其空間三維結構。進而根據得到的三維結構信息或者其它信息, 分析其分子特性,理性選擇目的突變位點,并進行隨機重復遞推式基因 序列突變,之后通過篩選,獲得具有目的特性的新型蛋白質分子。本發 明的定向進化技術結合了理性過程和隨機過程的優勢,其具體步驟如下
1.獲得蛋白質分子的核酸序列和氨基酸序列
通過使用基因工程學原理,用PCR法或者文庫法等等方法,得到目的 蛋白質分子的基因片段,然后再使用"酶切"、"連接"、"轉化"等等實 驗技術,將目的基因片段連上載體,導入宿主菌并保存。之后對基因進 行測序,獲得基因的堿基序列,根據三聯密碼子,可以由基因序列轉換 得到氨基酸序列。或者通過搜索Genbank、 EMBL、 DDBJ等等國際序列數 據庫,獲得目的蛋白質分子的核酸序列和氨基酸序列,使用全基因合成 法,合成目的基因(如果該序列信息受到專利保護,應事先獲得專利所
有者的授權)。
2.獲得三維結構信息
目的蛋白質分子的三維結構信息可以通過實驗法和計算機輔助模擬 法得到。
實驗法包括X射線晶體衍射法和NMR法。X射線衍射分析主要是根據 衍射線的方向和強度,即衍射圖案上斑點的位置和黑度,通過電子計算 機,繪制出電子密度圖,從中構建出三維分子圖像。NMR分析的原理是 處于一個靜磁場中的核子會由于磁場的作用而處于不同的能量狀態,當 一個外界的擺動的磁場來擾動處于"平衡"狀態的核子時,吸收了能量 的核子就會在不同的能級之間躍遷,并在此過程中釋放出能量。而放出 的能量被檢測到之后,經過分析和計算就可以得到蛋白質分子內部的結 構信息。
計算機輔助構建蛋白質三維模擬結構基于生物信息學中的蛋白質結 構預測技術,其主要有兩大類方法。 一類是理論分析方法或從頭算法, 通過理論計算(如分子力學、分子動力學計算)進行結構預測。另一類 蛋白質結構預測的方法是統計方法,該類方法對已知結構的蛋白質進行 統計分析,建立序列到結構的映射模型,進而根據映射模型對未知結構 的蛋白質直接從氨基酸序列預測結構。這一類方法包括經驗性方法、結 構規律提取方法、同源模型化方法等等。同源模型化方法最為常用,預 測效果也最為可靠,其原理基于具有相似序列的蛋白質傾向于折疊成 相似的空間三維結構。 一對蛋白質,如果它們的序列具有25%-30%的等同 部分或者更多,則可以假設這兩個蛋白質折疊成相似的空間結構。這樣, 如果一個未知結構的蛋白質與一個已知結構的蛋白質具有足夠的序列相 似性,那么可以根據相似性原理給未知結構的蛋白質構造一個近似的三 維模型。
通過使用生物信息學的計算機軟件(如ACCELRYS DISCOVERY STUDIO, SYBYL等等)以及一些生物信息學網絡數據庫(如pdb, Swiss-model等 等),可以模擬出目的蛋白質分子的空間三維結構。 3. 根據三維模型和序列信息或者其它信息選擇合適的突變位點
本發明中的"突變位點"定義為既可以是蛋白質分子上的一個單氨 基酸殘基,也可以是包含有多個氨基酸殘基的序列區域以及它們所對應的 DM和RNA上的單個堿基位點和多個堿基組成的序列區域(下同)。"突變
位點"的選擇既可以根據蛋白質分子三維結構信息,也可以根據諸如序列 信息、二級結構信息等等所有有用的信息。
4. 對突變位點進行定點突變
在確定了突變位點之后,可以對編碼蛋白質的DM序列或RNA序列進 行改造。對于待突變位點,既可以將其代表某一氨基酸的三聯密碼子更 換為代表另一氨基酸的三聯密碼子,也可以使用隨機密碼子,即在之 后的轉錄并翻譯成蛋白質分子的過程中,在使用隨機密碼子的位置處, 加入多肽鏈的氨基酸的種類是隨機的。這樣,就可以構建成一個隨機序 列文庫,其特點在于在理性選擇的突變位點處產生了隨機的序列信息。
對序列上的特定位點進行改造的常用方法包括重疊延伸PCR法和大 引物PCR定點突變法、全基因合成法合成包含特定突變的全序列、限制 性內切酶切除待突變區域后使用連接酶加入目的突變序列等等。
5. 篩選目的克隆
對于"將其代表某一氨基酸的三聯密碼子更換為代表另一氨基酸的三 聯密碼子"這一情況(該情況簡稱"非隨機情況",下同),可以直接將 改造后的序列連上表達載體,轉化宿主菌,表達出目的蛋白,并直接對 目的蛋白的活性和理化特性進行檢測,得知目的蛋白是否按照意愿產生 正向進化。若未產生正向進化,則說明第4步中在突變位點替換的氨基 酸種類不合適,此時返回第4步,在該位點替換其它種類的氨基酸。
對于構建隨機文庫這種情況,可以將文庫中的基因連接于表達載體, 轉化入宿主菌,構建待篩選克隆文庫。可以使用培養皿平板法、多孔板 法、搖瓶法等方法培養宿主菌并誘導其表達,之后逐一檢測表達產物的
活性或者理化特性,選擇能產生正向進化蛋白質分子的宿主菌,保存。
6. 重復遞推式定向進化
對于"非隨機情況",可以直接提取產生正向進化的宿主菌的基因組 或者表達質粒,通過PCR或者酶切反應獲得改造后的基因。
對于構建隨機文庫這種情況,可以提取篩選到的產生正向進化蛋白質 分子的宿主菌的基因組或者表達質粒,通過PCR或者酶切反應獲得改造 后的基因。對該基因進行測序,獲得序列信息,得知蛋白質分子的氨基 酸序列中的哪些氨基酸被替換成了哪些氨基酸,從而得到具有正向進化 特性的新蛋白質分子。
對于上述的新蛋白質分子以及已知的其序列信息,可以將該蛋白質分 子和序列信息作為新的出發起點,重新按照本發明2、 3、 4、 5的方法步 驟,重新進行第二輪定向進化,第二輪定向進化的結果又可以作為第三 輪定向進化的起點,依次類推至第n輪定向進化(n為正整數)。即迭代 遞推重復式定向進化。用該方法可以累積正向進化。
7. 結合常規方法
對于每一輪產生的結果,可以結合已有的各種定向進化技術,比如錯 誤傾向PCR ( Error-prone PCR)和DM改組(DM shuffling)等等技術,
再次進行改造后再進行第六步的"重復遞推式定向進化",并通過篩選, 獲得具有更加良好特性的目的蛋白質分子。或者同時進行幾組定向進化,
每一組均對不同的突變位點進行突變,突變后,不立即進行篩選,而是
混合各組的突變基因,使用DNA改組(DM shuffling)等等技術,進行
"洗牌",此時,各組經過定向進化產生的突變基因的遺傳信息在分子水
平上產生了類似于"雜交"的效應,各個突變基因的遺傳信息相互之間
交叉混合,能夠擴大遺傳信息的多樣性,提高定向進化的效率。然后通
過篩選,得到正向進化的目的基因,再以此得到的基因為起點,進入下
一輪定向進化。之后的每一輪定向進化,都可以使用上述的"洗牌"方
法,進行迭代遞推重復式定向進化,并累積正向進化。
圖1: SWISS MODEL WORKSPACE的同源建模報告單 圖2: PAL脂肪酶分子的三維模擬圖 圖3:重疊延伸PCR過程示意圖
具體實施例方式
為了對本發明有更加具體的理解,現結合一株假單胞菌脂肪酶(PAL) 基因的定向進化過程作進一步說明。該定向進化的目的為提高假單胞菌 脂肪酶(PAL)的熱穩定性。應注意,本例僅為描述本發明、便于理解本 發明用,而非限制本發明。
(1) 使用LB液體搖瓶培養基(蛋白胨10g/L,酵母提取液5g/L,NaCl 10g/L,PH7. O)培養假單胞菌,培養條件為37度,12個小時,220rpm。 提取假單胞菌基因組的步驟如下1,取l. 5mL菌液至1. 5mLEp管, 12000rpm,室溫離心2min。 2.除去上清液,加入400inl STE,洗 滌2次。3. 12000rpm,室溫離心2min,用200ialTE重懸。4.加 入100)jl酴,旋渦混勻60s。 5. 12000rpm, 4度離心5min。 6.轉 移160jil上層液相至另一干凈Ep管。7.加入40jalTE, 100 jal 氯仿,顛倒混勻,12000rpm, 4度離心5min。 8.重復以上步驟,直 到白色界面不再出現。9.轉移160|al上層至干凈Ep管,加入40 ILil TE, lpl RMseA, 37度保溫10min。 10.加入100/al氯仿, 12000rpm, 4度離心5min。 11.取上層150 |a 1液相至干凈Ep管, -20度保存。(此即為提取的基因組DM)。將基因組DM于iy。瓊脂
糖凝膠電泳上檢測純度、濃度,之后使用引物(本例中的所有引物 序列均已列入說明書后的"序列表"中,"序列表"中編號為3、 4、 5、 6、 7、 8的序列,分別對應引物甲、乙、A、 B、 C、 D,下同) 上游引物(甲):GGCGCTGTCAGGCTGGGGTTCC 3',下游引物(乙): GTGATATCCAGGTGCCATTAGA 3、退火溫度為61度。通過PCR
過程獲得PAL基因,PCR體系為50pl體系(本例中的所有PCR過 程均采用本體系,下同),具體為滅菌高純水28jal,模板5|al, 上游引物2 |j 1,下游引物2 ju 1, dNTP ( 2. 5mM) 4 in 1, 1 OX PCR Buffer 5jal,Mg2+ 3jal, Taq酶ljal。 PCR程序為(本例中的所有PCR過程 均釆用本程序,下同)1. 95°C 2min,2. 94°C50s,3. X °C 45s (X為退火溫度,其數值由具體的引物決定),4. 72°C 1.5min(2-4 步驟循環30次),5. 72°C lOmin, 6. 4°C終止。將PCR產物于 1%瓊脂糖凝膠電泳上檢測純度、濃度,并與DNA marker比較得知 PCR產物長度(約為950bp-1000bP)。確認無誤后,使用北京天根 DM膠回收試劑盒(凡是使用試劑盒,均按照試劑盒說明書操作, 下同)回收并純化目的PCR產物,回收后的產物使用TaKaRa pMD-18T 載體試劑盒,通過TA克隆,連接于T載體上,并轉化宿主菌大腸桿 菌TOP10F,,具體步驟為挑取TOP10F,單菌落置于5mL LB液體 培養基中過夜培養,之后轉接于15mL LB液體培養基中培養至 OD600-0. 3—0. 4,再分裝于1. 5mL的Ep管中,4°C, 12000rpm離心 2min,倒凈上清液,每管加lmL冰預冷的CaCl2(0. lmol/L)溶液懸 浮細胞。再4。C, 12000rpm離心2min,倒凈上清液,每管加100jul 冰預冷的CaCl2 ( 0. lmol/L)溶液輕緩地懸浮細胞,即成感受態細胞 懸液。將欲轉化的DM溶液全量加入100ial的感受態細胞中,冰上 放置30min, 42。C水洛中熱休克90s,再在冰上放置2min。加入600 jal LB培養基,37。C震蕩培養60min。在含有X-gal、 IPTG、 Amp 的LB瓊脂平板上培養,形成單菌落,計數白色和藍色菌落,白色菌 落為陽性克隆。然后測序,獲得基因的DNA序列,再通過三聯密碼 子,翻譯DNA序列中的編碼ORF為蛋白質序列。(所得的序列已列于 序列表中,序列表中編號為1和2的序列,分別對應PAL基因的DNA 序列和蛋白質序列。)
(2)向 SWISS MODEL WORKSPACE 網絡數據庫 (http: 〃swissmode1. expasy. org/SWISS-MODEL. html )提交獲得的
蛋白質序列,使用First Approach mode算法進行蛋白質分子空間 三維結構的同源建模,獲得模擬的PAL蛋白質空間三維結構。將后 綴名為pdb的記錄有三維結構信息的文件下載到本地計算機中。(報 告單和三維結構模擬圖見附圖1和2 )
(3) B因子可以反映蛋白質三維結構的穩定性,通過使用計算機計算, 可以得到一個蛋白質分子三維結構中各個氨基酸殘基的B因子,由 大到小對它們進行排序,由于B因子越大的位點,可能對穩定性的 貢獻度越大,故優先選取B因子數值高的位點,進行定向進化。PAL 蛋白質序列中,B因子數值由大到小排列在前十位的依次為(三字
母為氨基酸簡寫,數字為氨基酸殘基在蛋白質序列中的位點) GLY(144), PHE(145), SER(146), GLU(147), PHE(148), PHE(248), GLY (249) , GLU (250) , PHE (41) , PHE (165)。由于GLY (144) , PHE (145), SER(146), GLU (147), PHE (148)這5個氨基酸殘基在位置上相鄰, PHE (248), GLY (249), GLU(250)這3個氨基酸殘基在位置上相鄰, 故將這5個氨基酸殘基和3個氨基酸殘基分別看作一個整體(分別 命名為siteA和siteB,下同),對其進行定向進化。
(4) 首先對siteA進行定向進化,此為第一輪定向進化。使用重疊延 伸PCR技術(見附圖3)。設計定點突變引物如下(其中N為隨機堿 基,可以是A、 T、 C、 G中的任何一種)右片斷上游引物(B): 5, GTGACCNNNNNNNNNNNNNNNCTCGGGCCGA 3,,下游引物(D ): 5, ACCAAAGACTAATGCCGGGTCGCCTAGGGCT 3,,退火溫度為70度;左片斷 上游引物(A): 5, CACCATGAACAAGAACAAGACGTTCCTCGCG 3,,下游 引物(C): 5, TCGGCCCGAGNNNNNNN麗NNNNNNGGTCAC 3,,退火溫度 為70度。以含有PAL基因的T載體質粒為模板,通過PCR過程,使 用以上2套引物,分別獲得左和右2個片斷。再使用引物上游引 物(A ): 5, CACCATGAACAAGAACAAGACGTTCCTCGCG 3,和下游引物(D): 5, ACCAAAGACTAATGCCGGGTCGCCTAGGGCT 3,,退火溫度為70度,
等量混合之前得到的左右兩個片斷作為模板,通過PCR,組合之前 得到的左右兩個片斷的PCR產物為全長PAL基因。
(5) PCR產物經r/。瓊脂糖凝膠電泳檢測片斷長度、純度和濃度無誤后,
使用Invitrogen Champion pET100/D-TOPO Expression Kit表達試 劑盒,克隆PCR產物到TOPO表達載體上,轉化相應的大腸桿菌,誘 導表達PAL基因。
(6) 在含有5%三丁酸甘油酯的LB瓊脂培養基平板(蛋白胨10g/L, 酵母提取液5g/L, NaCl 10g/L,瓊脂20g/L, PH7. 0)上培養并誘 導表達這些大腸桿菌,成功表達并分泌PAL脂肪酶的大腸桿菌會降 解菌落周圍的三丁酸甘油酯,從而在菌落周閨形成透明圈,選取透 明圈直徑大的大腸桿菌,接種于LB液體搖瓶培養基培養,并誘導表 達PAL脂肪酶。
(7) 搖瓶培養后,將每瓶搖瓶的發酵液分裝于多個試管中,分別置于 恒溫水浴中靜置一段時間。水洛溫度和靜置時間均由低到高設置一 個梯度(30度、40度、60度、80度、100度以及10min、 20min、 30min)。將水浴處理后的發酵液,滴加于三丁酸甘油酯水瓊脂鑒定 平板(2%瓊脂粉、5%三丁酸甘油酯、去離子水)上,能夠在越高溫 度,越長時間處理后,發酵液仍具有較大透明圈的菌株,為篩選的 目的菌株。
(8) 將篩選到的目的菌株保存。
(9) 提取目的菌株的表達質粒,使用PCR引物(上游引物A: CACCATGAACAAGAACAAGACGTTCCTCGCG ; 下游引物D : 5' ACCAAAGACTAATGCCGGGTCGCCTAGGGCT ,退火溫度為70度),克隆 獲得突變過的目的基因序列。并測序,獲得序列信息。
(10) 重復步驟(2)-(9),以篩選到的siteA位點突變(正向進化) 的基因為起點,對siteB位點進行定向進化。并通過篩選,獲得目 的基因。
(11) 以第(10)步獲得的目的基因為起點,對其它位點進行如上所述 的突變和篩選,并依次類推,進行多輪遞推式定向進化。
應當理解為,在閱讀了本發明的上述內容之后,本領域或者相關領 域技術人員如果對本發明作出改動或修改,任何等同或者等價形式的改 動或修改,均屬于本發明申請的權利要求書所限定的范圍內。
序列表
<110> 林峻
<120> —種新型蛋白質分子定向進化方法
<160> 8
<170> Patentln version 3. 3
<210> 1
<211> 1081
<212> DNA
<213> 假單胞菌種(Pseudomonas sp.)
<220>
<221> CDS
<222> (80).. (1009)
<400> 1
ggcgctgtca ggctggggtt ccggcccgct cagcacgtgc cttgccaact gcctgtccaa 60
tccgaacgga gtctcgacg atg aac aag aac aag acg ttc etc gcg gcg gcg 112
Met Asn Lys Asn Lys Thr Phe Leu Ala Ala Ala 1 5 10
ctg gta gcg ctg gcc gcc age ttt ccc gtg cac get gcg acc gac tac 160 Leu Val Ala Leu Ala Ala Ser Phe Pro Val His Ala Ala Thr Asp Tyr 15 20 25
acc cgc acg cgc tat ccc ate gtg ctg tec cac ggt ctg ttc ggc ttc 208 Thr Arg Thr Arg Tyr Pro lie Val Leu Ser His Gly Leu Phe Gly Phe 30 35 40
33g age Lys Ser 45
gtc Val
ggc Gly
ccg Pro
gtg gac Val Asp 50
tac tgg cac Tyr Trp His
get ate Ala lie 55
gtg ccg gcc ctg Val Pro Ala Leu
256
gag aag gac ggc gcg aag gtc ttc gcc acc teg cag teg ccg gtg aac 304 Glu Lys Asp Gly Ala Lys Val Phe Ala Thr Ser Gin Ser Pro Val Asn 60 65 70 75
age aac gag gtg cgc ggc gaa cag eta ctg gcg cag gtg gag gaa gtc 352
Ser Asn Glu Val Arg Gly Glu Gin Leu Leu Ala Gin Val Glu Glu Val
80 85 90
ctg gcc ctg acc ggc gcg gag aaa gtc aac ctg ate ggc cac age cag 400
Leu Ala Leu Thr Gly Ala Glu Lys Val Asn Leu lie Gly His Ser Gin
95 100 105
ggc ggc atg acc gtg cgc tac gtc gcc ggg gtg gcg ccg caa ctg gtg 448
Gly Gly Met Thr Val Arg Tyr Val Ala Gly Val Ala Pro Gin Leu Val
110 115 120
gcc teg gtc acc acc atg ggc acg ccg cac aag ggc acg ccg gta gcc 496
Ala Ser Val Thr Thr Met Gly Thr Pro His Lys Gly Thr Pro Val Ala
125 130 135
gac gcg gtg acc ggc ttc age gag ttc etc ggg ccg ate ggc acc gag 544
Asp Ala Val Thr Gly Phe Ser Glu Phe Leu Gly Pro lie Gly Thr Glu
140 145 150 155
gtg ate gcc teg gcg gtg gag gcg ctg Uc teg gtg gtc gac ate gtc 592
Val lie Ala Ser Ala Val Glu Ala Leu Phe Ser Val Val Asp lie Val
160 165 170
gac ggc ggc gag tgg gtc aag ggc gac gcg ctg get gcc ctg aac agt 640
Asp Gly Gly Glu Trp Val Lys Gly Asp Ala Leu Ala Ala Leu Asn Ser
175 180 185
etc aac act ccc ggc acc gcg egg ttc aac.cag cgc ttc ccg cag gcg 688
Uu Asti Thr Pro Gly Thr Ala Arg Phe Asn Gin Arg Phe Pro Gin Ala
190 195 200
ate ccg gcc age gcc tgt ggc cag ggc gcg gag acg gta gcc ggg gtg 736
lie Pro Ala Ser Ala Cys Gly Gin Gly Ala Glu Thr Val Ala Gly Val
205 210 215
cgc tac tac teg atg age ggc acc ggc tec ctg acc aat gcg etc gac 784
Arg Tyr Tyr Ser Met Ser Gly Thr Gly Ser Leu Thr Asn Ala Leu Asp
220 225 230 235
ccg age tec gcc ggc ctg gcg gtg acc ggg ctg ctg ttc ggc gag gcc 832
Pro Ser Ser Ala Gly Leu Ala Val Thr Gly Leu Leu Phe Gly Glu Ala
240 245 250
aac gac ggt ctg gtc ggc caa tgc tec age cac ctg ggc age gtg gtg 880
Asn Asp Gly Leu Val Gly Gin Cys Ser Ser His Leu Gly Ser Val Valaag gac Lys Asp
ggc ctg Gly Leu 285
cat gcc His Ala 300
aac Asn 270
gtc Val
aat Asn
255
tac Tyr
Ser
egg Arg
ctg Leu
cgc Arg
etc Leu
atg Met
ttc Phe
agg Arg 305
gac Asp
gag Glu 290
aac Asn
cat His 275
age Ser
gtc Val
260
ctg Leu
gac Asp
gac Asp
ccg Pro
gaa gtc Glu Val
acc cag Thr Gin 295
Asn 280
gtc Val
265
cag ttg etc 928 Gin Leu Leu
tat agg cag 976 Tyr Arg Glu
gga Gly
etc Leu
tga tccgctcgcc gggtcgccgc 1029
agccctaggc gacccggcat tagtctttgg tctaatggca cctggatatc ac
<210> 2 <211> 309 <212> PRT
<213> 假單胞菌種(Pseudoraonas sp.) <400> 2
Met Asn Lys Asn Lys Thr Phe Leu Ala Ala Ala Leu Val Ala Leu Ala
1 5
10
15
Ala Ser Phe Pro Val His Ala Ala Thr Asp Tyr Thr Arg Thr Arg Tyr 20 25 30
Pro lie Val Leu Ser His Gly Leu Phe Gly Phe Lys Ser Val Gly Pro 35 40 45
Val Asp Tyr Trp His Ala lie Val Pro Ala Leu Glu Lys Asp Gly Ala 50 55 60
Lys Val Phe Ala Thr Ser Gin Ser Pro Val Asn Ser Asn Glu Val Arg
65 70
75
80
Gly Glu Gin Leu Leu Ala Gin Val Glu Glu Val Leu Ala Leu Thr Gly 85 90 95
1081
Ala Glu Lys Val Asn Leu lie Gly His Ser Gin Gly Gly Met Thr Val 100 105 110
Arg Tyr Val Ala Gly Val Ala Pro Gin Leu Val Ala Ser Val Thr Thr 115 120 125
Met Gly Thr Pro His Lys Gly Thr Pro Val Ala Asp Ala Val Thr Gly 130 135 140
Phe Ser Glu Phe Leu Gly Pro lie Gly Thr Glu Val lie Ala Ser Ala 145 150 155 160
Val Glu Ala Leu Phe Ser Val Val Asp lie Val Asp Gly Gly Glu Trp 165 170 175
Val Lys Gly Asp Ala Leu Ala Ala Leu Asn Ser Leu Asn Thr Pro Gly 180 185 190
Thr Ala Arg Phe Asn Gin Arg Phe Pro Gin Ala lie Pro Ala Ser Ala 195 200 205
Cys Gly Gin Gly Ala Glu Thr Val Ala Gly Val Arg Tyr Tyr Ser Met 210 215 220
Ser Gly Thr Gly Ser Uu Thr Asn Ala Uu Asp Pro Ser Ser Ala Gly 225 230 235 240
Leu Ala Val Thr Gly Uu Leu Phe Gly Glu Ala Asn Asp Gly Leu Val 245 250 255
Gly Gin Cys Ser Ser His Leu Gly Ser Val Val Lys Asp Asn Tyr Arg 260 265 270
Met Asp His Leu Asp Glu Val Asn Gin Leu Leu Gly Leu Val Ser Leu
275
280 285
Phe Glu Ser Asp Pro Thr Gin Val Tyr Arg Gin His Ala Asn Arg Leu
290
Arg Asn Val Gly Leu 305
295 300
<210> <211> <212> <213>
3
22 DM
人工序列
<400> 3
ggcgctgtca ggctggggtt cc 22
<210> 4
<211> 22
<212> DNA <213>人工序列
<400> 4
gtgatatcca ggtgccatta ga 22
<210> 5
<211> 31
<212> 飄 <213>人工序列
<400> 5
caccatgaax aagaacaaga cgttcctcgc g 31
<210> 6
<211> 31
<212> DNA <213>人工序列
<220>
<221> misc—feature
<222> (7).. (21)
<223> n -a或g或c或t
<400> 6
gtgaccnimn immmnimmi nctcgggccg a 31
<210> 7
<211> 31
<212> DM <213>人工序列
<220>
<221> misc—feature
<222> (11). .(25)
<223> n =a或g或c或t
<400> 7
tcggcccgag mmnmmmm mmrmggtca c
<210> 8
<211> 31
<212> DNA <213>人工序列
<400> 8
accaaagact aatgccgggt cgcctagggc
權利要求
1.一種新型的蛋白質分子定向進化方法,其主要流程是通過使用X射線衍射法、NMR法等等實驗方法解析作為進化起點的蛋白質分子的空間結構。或者使用計算機技術,根據蛋白質分子的序列信息,模擬其空間三維結構。進而根據得到的三維結構信息,或者根據該蛋白質分子的其它信息(如序列信息、二級結構信息等等所有有用的信息),分析其分子特性,理性選擇目的突變位點,并進行隨機重復遞推式基因序列突變,之后通過篩選,獲得具有目的特性的新型蛋白質分子。其主要特征是結合了理性過程和隨機過程的優勢。
2. 根據權利要求1所述的一種新型的蛋白質分子定向進化方法,其特 征是在獲取蛋白質分子的空間三維結構時,既可以使用X射線衍射法、 NMR法等等實驗方法,也可以使用計算機模擬方法。
3. 根據權利要求1所述的一種新型的蛋白質分子定向進化方法,其特 征是在獲取蛋白質分子的基因和序列信息時,既可以使用基因工程學原 理,用PCR法或者文庫法等等方法,得到目的蛋白質分子的基因片段,然后再使用"酶切"、"連接"、"轉化"等等實驗技術,將目的基因片段 連上載體,導入宿主菌并保存。之后對基因進行測序,獲得基因的堿基 序列,根據三聯密碼子,由基因序列轉換得到氨基酸序列;也可以通過 搜索Genbank、 EMBL、 DDBJ等等國際序列數據庫,獲得目的蛋白質分子 的核酸序列和氨基酸序列,使用全基因合成法,合成目的基因。
4. 根據權利要求1所述的一種新型的蛋白質分子定向進化方法,其特 征是其中的"突變位點"定義為既可以是蛋白質分子上的一個單氨基 酸殘基及其對應的DNA和RNA上的堿基位點,也可以是包含有多個氨基 酸殘基的序列區域以及它們所對應的DNA和RNA上的多個堿基組成的序 列區域。"突變位點"的選擇既可以根據蛋白質分子三維結構信息,也 可以根據如序列信息、二級結構信息等等所有有用的信息。
5. 根據權利要求1所述的一種新型的蛋白質分子定向進化方法,其特征是其中的"隨機重復遞推式基因序列突變"中"隨機"的主要過程為 在確定了突變位點之后,對編碼蛋白質的DNA序列或RM序列進行改造。 對于待突變點,既可以將DNA序列或RNA序列中代表某一氨基酸的三聯 密碼子更換為代表另一氨基酸的三聯密碼子,也可以更換為隨機密碼 子,即在之后的轉錄并翻譯成蛋白質分子的過程中,在使用隨機密碼 子的位置處,加入多肽鏈的氨基酸的種類是隨機的。這樣,就可以構建 成一個隨機序列文庫,其特點在于在理性選擇的位點處產生了隨機的 序列信息。對序列上的特定位點進行改造(如更換密碼子)的常用方法 包括重疊延伸PCR法和大引物PCR定點突變法、全基因合成法合成包含特定突變的全序列、限制性內切酶切除待突變區域后使用連接酶加入 目的突變序列等等。對于"將其代表某一氨基酸的三聯密碼子更換為代 表另一氨基酸的三聯密碼子"這一情況,可以直接將改造后的序列連上 表達載體,轉化宿主菌,表達出目的蛋白,并直接對目的蛋白的活性和 理化特性進行檢測,得知目的蛋白是否按照意愿產生正向進化。若未產 生正向進化,則說明在突變位點替換的氨基酸種類不合適,此時返回該 步驟,在該位點替換其它種類的氨基酸。對于構建隨機文庫這種情況, 可以將文庫中的基因連接于表達載體,轉化入宿主菌,構建待篩選克隆 文庫。可以使用培養皿平板法、多孔板法、搖瓶法等等方法培養宿主菌 并誘導其表達,之后逐一檢測表達產物的活性或者理化特性,選擇能產 生正向進化蛋白質分子的宿主菌,保存。此為第一輪定向進化。
6. 根據權利要求1所述的一種新型的蛋白質分子定向進化方法,其特 征是其中的"隨機重復遞推式基因序列突變"中"重復遞推式"的主要 過程為在第一輪定向進化完成后,以第一輪定向進化篩選到的結果(目 的蛋白質)作為起點,重復之前的定向進化步驟,進行第二輪定向進化, 將第二輪定向進化的結果(目的蛋白質)作為起點,重復之前的定向進 化步驟,進行第三輪定向進化,依次類推,至第n輪定向進化(n為正整數)。即迭代遞推重復式定向進化。該方法可以累積正向進化。
7. 根據權利要求1所述的一種新型的蛋白質分子定向進化方法,其特 征是在"重復遞推式"定向進化的每一輪(包括最后一輪),均可以對 目的蛋白質及其基因使用錯誤傾向PCR (Error-prone PCR )或者DNA shuffling等等現有的定向進化技術,對其進行改造,進一步改善蛋白 質分子特性。或者同時進行幾組定向進化,每一組均對不同的突變位點 進行突變,突變后,不立即進行篩選,而是混合各組的突變基因,使用 DNA改組(DNA shuffling)等等技術,進行"洗牌",此時,各組經過定向進化產生的突變基因的遺傳信息在分子水平上產生了類似于"雜 交"的效應,各個突變基因的遺傳信息相互之間交叉混合,能夠擴大遺 傳信息的多樣性,提高定向進化的效率。然后通過篩選,得到正向進化 的目的基因,再以此得到的基因為起點,進入下一輪定向進化。之后的 每一輪定向進化,都可以使用上述的"洗牌"方法,進行迭代遞推重復 式定向進化,并累積正向進化。
8. 根據權利要求1所述的一種新型的蛋白質分子定向進化方法,其特 征是其中的"蛋白質"定義為各種氨基酸通過脫水縮合作用形成肽鏈 后產生的聚合物及其各種配基,或者各種氨基酸以其它方式形成的聚合 物。蛋白質既可以是自然界動物、植物、微生物、病毒來源的天然蛋白 質,也可以是實驗室人工合成的或者修飾、改造過的蛋白質。蛋白質包 括肽類物質。
9. 通過使用權利要求1所述的一種新型的蛋白質分子定向進化方法, 而獲得的所有蛋白質分子及其氨基酸序列和堿基序列(包括DNA序列和 RNA序列)。
全文摘要
本發明屬于生命科學領域,具體涉及一種根據蛋白質分子的空間三維結構或者諸如序列信息、二級結構信息等等其它有用信息,分析其分子特性,理性選擇目的突變位點,并進行隨機重復遞推式基因序列突變,之后通過篩選,獲得具有目的特性的新型蛋白質分子的定向進化方法。本發明的定向進化技術結合了理性過程和隨機過程的優勢。
文檔編號C40B10/00GK101353372SQ200810071520
公開日2009年1月28日 申請日期2008年8月4日 優先權日2008年8月4日
發明者峻 林 申請人:峻 林