專利名稱:利用長轉錄組測序結果裝配基因組的方法及裝置的制作方法
技術領域:
本發明涉及一種利用長轉錄組測序結果裝配基因組的方法及裝置。
背景技術:
目前,在基因組和轉錄組研究中,至少采用4種測序技術,其中包括傳統的第一代Sanger測序技術以及作為第二代高通量測序技術的羅氏454測序技術、Illumina測序技術和AB公司的SOLiD技術。Sanger測序技術和Roche 454測序技術產生的測序讀長平均在300bp以上,而Illumina測序技術和SOLiD技術產生的測序讀長低于150bp。在基因組序列組裝過程中,需要構建不同長度的基因組測序文庫,來連接兩個基因組片段。使用基因組片段比較短的測序文庫,能夠更準確地連接兩個基因組片段,使用基因組片段比較長的測序文庫,能夠使組裝后的基因組長度更長。因此,目前,在基因組組裝過程中,通常先利用短測序文庫組裝基因組,再使用長測序文庫組裝基因組,使得組裝后的基因組片段長度越來越大。目前第二代測序技術能夠準確地構建短于20kb的基因組測序文庫,但難以構建長于20kb的測序文庫,所以,必須利用酵母人工染色體和細菌人工染色體,產生更長的測序文庫,例如30kb和150kb的測序文庫。但利用酵母人工染色體和細菌人工染色體的技術存在產生的數據量少、成本高、周期長的缺陷。為了加快基因組組裝進度,人們嘗試采用新方法替代上述構建長片段測序文庫的方法。但是迄今尚未開發出低廉的長片段測序文庫的構建方法。成熟的轉錄本是通過以連續性基因組為模板進行轉錄,然后剪切去除內含子,拼接剩余的外顯子而形成。如果基因組片段未組裝起來,即基因組不完整,則可能將一條成熟的轉錄本分成2個或者更多個轉錄本片段。利用這些轉錄本片段,能夠重新將對應的基因組片段串聯起來,形成更長的基因組序列。而兩個轉錄本片段之間的距離是被剪切去除的內含子。據報道內含子的平均長度為90kb,最長可達到200kb,因此利用轉錄組組裝基因組的方法與利用長測序文庫組裝基因組相似。第二代測序技術已經廣泛應用于轉錄組測序,例如,當利用Illumina公司的Solexa GAIIx儀器獲得IG的測序結果時,能產生千萬級的轉錄組讀段,并且僅需I周左右的時間,從而降低成本。因此與基于長測序文庫的測序相比,使用轉錄組數據的優勢在于容量高、成本低和周期短。基于這種思想,研究人員嘗試利用轉錄組來拼接基因組。目前ERANGE軟件中的RNA-PATH模塊可利用Illumina的轉錄組雙端測序結果來組裝基因組,具體組裝過程為,首先直接將轉錄組的雙端讀段比對到基因組片段中,然后去除僅比對到同一基因組片段中的讀段,利用比對到不同基因組片段的雙端讀段,將兩個基因組片段連接在一起。但是,上述軟件存在以下問題(I)目前RNA-PATH模塊僅能支持iIIumina測序技術產生的雙端數據,而無法利用其他測序技術產生的單向測序數據,特別是無法利用現有公開的大量單向的Sanger數據和Roche454測序數據,導致使用范圍受到限制。
(2)RNA-PATH模塊根據讀段長度分別使用ElancUBowtie和BLAT三種比對程序將轉錄組讀段比對到預先裝配的基因組上。但是,上述三種比對程序可比對的轉錄組數據有限,導致實際有效的轉錄組數據少于其他比對程序。因此,本領域期待一種能夠利用長的轉錄組測序讀段組裝基因組序列的方法。
發明內容
本發明提供一種能夠利用長的轉錄組測序讀段組裝基因組序列的方法。為了對本發明作出清楚的說明,首先針對本說明書中使用的技術術語如下進行定義。查詢序列(query sequence),也稱為輸入序列,在本說明書中是指轉錄組測序讀段。
匹配序列(target sequence),是與上述查詢序列相似的序列,在本說明書中是指與轉錄組測序讀段相似的基因組片段。比對區域(alignment region),在本說明書中是指查詢序列與匹配序列相似或者一致的區域。由于基因組裝配尚不完整,所以,一條查詢序列可能被分割成多個比對區域,這些比對區域分別位于多個基因組片段上。查詢區段(query block),在本說明書中是指比對區域在轉錄組測序讀段上的序列。匹配區段(target block),在本說明書中是指比對區域在基因組片段上的序列。查詢序列的長度(qSize),是指查詢序列的所有堿基數。在本說明書中,具體為轉錄組測序讀段的所有堿基的總和。匹配序列的長度(tSize),是指匹配序列的所有堿基數。在本說明書中,具體為基因組片段的所有堿基的總和。比對區域的相對起始位置(qStart):是指比對區域相對于整條查詢序列的起始位置。在本說明書中,具體為比對區域在轉錄組測序讀段中的起始位置。以下簡稱為相對起始位置。 比對區域的相對終止位置(qEnd),是指比對區域相對于整條查詢序列的終止位置。在本說明書中,具體為比對區域在轉錄組測序讀段中的終止位置。以下簡稱為相對終止位置。比對區域的相對長度(query block length),等于相對終止位置與相對起始位置的差,表示比對區域在轉錄組測序讀段中的長度。以下簡稱為相對長度。比對區域的絕對起始位置(tStart),是指匹配區域相對于整條匹配序列的起始位置。在本說明書中,具體為比對區域在基因組片段中的起始位置。以下簡稱為絕對起始位置。比對區域的絕對終止位置(tEnd),是指比對區域相對于整條匹配序列的終止位置。在本說明書中,具體為比對區域在基因組片段中的終止位置。以下簡稱為絕對終止位置。比對區域的絕對長度(target block length),等于絕對終止位置與絕對起始位置的差,表示比對區域在基因組片段中的長度。以下簡稱為絕對長度。
一致堿基數(matches),是指比對區域中查詢區段和匹配區段中堿基相同的數量。錯配堿基數(mi sMatches),是指比對區域中查詢序列與匹配序列不一致的堿基數。查詢序列比對插入的次數(qNumlnsert),是指查詢序列比對匹配序列的過程中,查詢序列中錯配堿基的插入次數,需要說明的是,當2個以上堿基連續發生錯配時,該2個以上連續錯配堿基作為一個整體,視為插入一次。在本說明書中,具體為將轉錄組測序讀段比對到基因組片段上的過程中,轉錄組測序讀段中錯配堿基的插入次數。匹配序列比對插入的次數(tNumlnsert),是指查詢序列比對匹配序列的過程中,匹配序列中錯配堿基的插入次數,需要說明的是,當2個以上堿基連續發生錯配時,該2個以上連續錯配堿基作為一個整體,視為插入一次。在本說明書中,具體為將轉錄組測序讀段比對到基因組片段上的過程中,基因組片段中錯配堿基的插入次數。 區段連接兩個或者多個查詢區段在整條查詢序列中的先后順序。本發明的利用長轉錄組測序結果裝配基因組的方法的具體方案如下。一種利用長轉錄組測序結果裝配基因組的方法,包括以下步驟(I)將同一物種的轉錄組測序讀段與基因組片段進行比對;(2)去除僅比對到I個基因組片段的轉錄組測序讀段;(3)針對(2)中保留下來的各轉錄組測序讀段,去除相似程度低的轉錄組測序讀段,優選去除相似程度低于90%的轉錄組測序讀段;(4)針對(3)中保留下來的各轉錄組測序讀段,分別在每一個轉錄組測序讀段上,按照各查詢區段的相對起始位置從小到大依次排列,并根據該排列順序對各查詢區段由小到大進行編號,然后以編號相對小的查詢區段(優選編號最小的查詢區段)作為參考區段,分別將后續的查詢區段(也稱為后續查詢區段)與所述參考區段進行比較,保留符合下述兩個條件中任意一個條件的后續的查詢區段,去除下述兩個條件都不符合的后續的查詢區段,i后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且后續的查詢區段的相對終止位置與參考區段的相對終止位置的差的絕對值小于10,ii后續的查詢區段的相對終止位置與所述參考區段的相對終止位置之差大于等于10,將保留下來的后續查詢區段(優選該轉錄組測序讀段上保留下來的第一個后續查詢區段)作為新參考區段,繼續將該新參考區段的后續查詢區段(優選該新參考區段的所有后續查詢區段)與該新參考區段進行比較,保留符合上述條件之一的查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段,對保留下來的各查詢區段按照上述編號方法重新進行偏號,然后針對每一轉錄組測序讀段,以編號相對小的查詢區段(優選編號最小的查詢區段)作為參考區段,分別將后續查詢區段(優選所有后續查詢區段)與所述參考區段進行比較,如果后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且該后續的查詢區段的相對終止位置和參考區段的相對終止位置的差的絕對值小于10,則去除該后續查詢區段,而保留不滿足上述條件的后續查詢區段,完成所有比較后,如果存在滿足上述條件的后續查詢區段,則將該參考區段也去除,
接下來,將保留的后續查詢區段(優選該轉錄組測序讀段上保留下來的第一個后續查詢區段)作為新參考區段,繼續將該新參考區段的后續查詢區段(優選該新參考區段的所有后續查詢區段)與該新參考區段進行比較,以相同條件判斷去除或保留該新參考區段和后續查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段,需要說明的是,在上述步驟(4)中,當后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且該后續的查詢區段的相對終止位置和參考區段的相對終止位置的差的絕對值小于10時,則認為該后續查詢區段與參考區段相似,基于該參考區段一直比較至該轉錄組測序讀段上最后一個查詢區段,在比較過程中,去除相似的后續查詢區段,保留不滿足上述條件的后續查詢區段,并且,如果存在與參考區段相似的查詢區段,則在比較結束時去除該參考區段,然后將保留的后續查詢區段作為新參 考區段,繼續將該新參考區段的后續查詢區段與該新參考區段進行比較,以相同條件判斷去除還是保留該新參考區段和后續查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段;(5)針對(4)中所保留下來的所有查詢區段按照與(4)相同的編號方法進行編號,然后將每一轉錄組測序讀段中編號相對小的查詢區段(優選編號最小的查詢區段)作為起點區段,將其后面的所有查詢區段分別與其進行比較,如果在后續查詢區段中存在相對起始位置與該起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則將該后續的查詢區段和所述起點區段的組合作為一個區段連接保留下來,并且計算出這兩個區段之間的距離,即該后續查詢區段的相對起始位置與所述起點區段的相對終止位置的差值,如果在后續的查詢區段中不存在相對起始位置與起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則去除所述的起點區段,然后以該起點區段后續的查詢區段(優選最靠近該起點區段的后續查詢區段)作為新的起點區段,以同樣條件進行與上述相同的比較,以確定與所述新的起點區段相關的區段連接,并且如上所述地計算出這兩個區段之間的距離,如果不存在與所述新的起點區段相關的區段連接,則去除所述新的起點區段,如此反復地進行比較,直至該轉錄組測序讀段上最后一個查詢區段作為起點區段,接下來,針對每個查詢區段,根據計算的兩個查詢區段之間的距離,保留與該查詢區段相關且兩個區段之間的距離最小的區段連接,去除其余與該查詢區段相關的區段連接;(6)將(5)中保留下來的每一個區段連接作為與其對應的兩個基因組片段連接的支持證據;(7)將(6)中所保留下來的每個基因組片段分別作為起始基因組片段,并在與其連接的所有基因組片段中選擇支持證據最多的基因組片段作為終止片段,形成一個基因組片段連接關系,針對(6)中所保留下來的每個基因組片段都進行上述選擇終止基因組片段并形成一個基因組片段連接關系的操作,需要說明的是,這里只是形成一種連接關系,而不是將兩個基因組片段實際連接在一起,對于各基因組片段而言,存在三種情況(i)只能連接在其他基因組片段之前,作為起始基因組片段,(ii)只能連接在其他基因組片段之后,作為終止基因組片段,(iii)既能夠連接在其他基因組片之前作為起始基因組片段,又能夠連接在其他基因組片段之后作為終止基因組片段,另外,在步驟(7)中,如果起始基因組片段有兩個或兩個以上支持證據數量相同且最多的連接基因組片段,則去除該起始基因組片段(8)針對(7)中每個只能作為起始基因組片段的基因組片段(S卩,步驟(7)中的(i)中描述的基因組片段),分別將其作為起始點,從只能連接在其他基因組片段之后作為終止基因組片段的基因組片段(即,步驟(7)中的(ii)中描述的基因組片段),以及既能夠連接在其他基因組片之前作為起始基因組片段,又能夠連接在其他基因組片段之后作為終止基因組片段的基因組片段(即,步驟(7)中的(iii)中描述的基因組片段)中,尋找可連接的基因組片段,形成基因組片段連接,將該基因組片段連接作為新的起始點,進一步如上所述那樣尋找可連接的基因組片段,直至沒有可連接的基因組片段為止,根據上述各基因組片段連接的前后順序將各基因組片段連接組裝成更長的基因組片段。
優選在上述步驟(2 )和步驟(3 )之間或者在步驟(3 )和步驟(4)之間,還包括去除序列覆蓋度高于90%的轉錄組測序讀段的步驟。在本發明的利用長轉錄組測序結果裝配基因組的方法中,所述轉錄組序列讀段可以由Sanger測序技術或Roche 454測序技術獲得,并且可以采用序列比對程序Blat的單機版模式,以程序默認參數進行比對。并且,所述轉錄組序列讀段與所述基因組片段優選來源于斑馬魚或羅非魚。本發明還提供一種組裝基因組序列的裝置,包括以下模塊比對模塊,將同一物種的轉錄組測序讀段與基因組片段進行比對;去除模塊1,去除僅比對到I個基因組片段的轉錄組測序讀段;去除模塊2,針對去除模塊I中保留下來的各轉錄組測序讀段,去除相似程度低的轉錄組測序讀段;查詢區段選擇模塊,針對去除模塊2中保留下來的各轉錄組測序讀段,分別在每一個轉錄組測序讀段上,按照各查詢區段的相對起始位置從小到大依次排列,并根據該排列順序對各查詢區段由小到大進行編號,然后以編號相對小的查詢區段作為參考區段,分別將后續的查詢區段與所述參考區段進行比較,保留符合下述兩個條件中任意一個條件的后續的查詢區段,去除下述兩個條件都不符合的后續查詢區段,i后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且后續的查詢區段的相對終止位置與參考區段的相對終止位置的差的絕對值小于10,ii后續的查詢區段的相對終止位置與所述參考區段的相對終止位置之差大于等于10,將保留下來的后續查詢區段作為新參考區段,繼續將該新參考區段后續的查詢區段與該新參考區段進行比較,保留符合上述條件之一的后續查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段,對保留下來的各查詢區段按照上述編號方法重新進行偏號,然后針對每一轉錄組測序讀段,以編號相對小的查詢區段作為參考區段,分別將后續的查詢區段與所述參考區段進行比較,如果后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且該后續的查詢區段的相對終止位置和參考區段的相對終止位置的差的絕對值小于10,則去除該后續的查詢區段,而保留不滿足上述條件的后續查詢區段,完成所有比較后,如果存在滿足上述條件的后續的查詢區段,則將該參考區段也去除,接下來,將保留的后續查詢區段作為新參考區段,繼續將該新參考區段后續的查詢區段與該新參考區段進行比較,以相同條件判斷去除或保留該新參考區段和后續的查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段;區段連接選擇模塊,針對查詢區段選擇模塊中所保留下來的所有查詢區段按照與查詢區段選擇模塊中相同的編號方法進行編號,然后將每一轉錄組測序讀段中編號相對小的查詢區段作為起點區段,將其后續的所有查詢區段分別與其進行比較,如果在后續的查詢區段中存在相對起始位置與該起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則將該后續的查詢區段和所述起點區段的組合作為一個區段連接保留下來,并且計算出這兩個區段之間的距離,即該后續的查詢區段的相對起始位置與所述起點區段的相對終止位置的差值,如果在后續 的查詢區段中不存在相對起始位置與起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則去除所述起點區段,然后以該起點區段后續的區段作為新的起點區段,以同樣條件進行與上述相同的比較,以確定與所述新的起點區段相關的區段連接,并且如上所述地計算出這兩個區段之間的距離,如果不存在與所述新的起點區段相關的區段連接,則去除所述新的起點區段,如此反復地進行比較,直至該轉錄組測序讀段上最后一個查詢區段作為起點區段,接下來,針對每個查詢區段,根據計算的兩個查詢區段之間的距離,保留與該查詢區段相關且兩個區段之間的距離最小的區段連接,去除其余與該查詢區段相關的區段連接;支持證據收集模塊,將區段連接選擇模塊中保留下來的每一個區段連接作為與其對應的兩個基因組片段連接的支持證據;基因組片段連接關系選擇模塊,將支持證據收集模塊中所保留下來的每個基因組片段分別作為起始基因組片段,并在與其連接的所有基因組片段中選擇支持證據最多的基因組片段作為終止片段,形成一個基因組片段連接關系;基因組片段連接確定模塊,針對基因組片段連接關系選擇模塊中每個只能作為起始基因組片段的基因組片段,分別將其作為起始點,從只能連接在其他基因組片段之后作為終止基因組片段的基因組片段,以及既能夠連接在其他基因組片之前作為起始基因組片段,又能夠連接在其他基因組片段之后作為終止基因組片段的基因組片段中,尋找可連接的基因組片段,形成基因組片段連接,將該基因組片段連接作為新的起始點,進一步如上所述那樣尋找可連接的基因組片段,直至沒有可連接的基因組片段為止,根據上述各基因組片段連接的前后順序將各基因組片段連接組裝成更長的基因組片段。優選在所述去除模塊2中,去除相似程度低于90%的轉錄組測序讀段。另外,優選在所述去除模塊I和所述去除模塊2之間或者在所述去除模塊2和所述查詢區段選擇模塊之間,還包括去除模塊3,用于去除序列覆蓋度高于90%的轉錄組測序讀段。在本發明的組裝基因組序列的裝置中,優選所述查詢區段選擇模塊針對去除模塊2或去除模塊3中保留下來的各轉錄組測序讀段,分別在每一個轉錄組測序讀段上,按照各查詢區段的相對起始位置從小到大依次排列,對于相對起始位置相同的查詢區段,進一步按照該查詢區段的相對終止位置從大到小依次排列,并根據該排列順序對各查詢區段由小到大進行編號,然后以編號最小的查詢區段作為參考區段,分別將后續的查詢區段與所述參考區段進行比較,保留符合下述兩個條件中任意一個條件的后續的查詢區段,去除下述兩個條件都不符合的后續查詢區段,i后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且后續的查詢區段的相對終止位置與參考區段的相對終止位置的差的絕對值小于10,ii后續的查詢區段的相對終止位置與所述參考區段的相對終止位置之差大于等于10,將保留下來的第一個后續查詢區段作為新參考區段,繼續將該新參考區段后續的所有查詢區段與該新參考區段進行比較,保留符合上述條件之一的查詢區段,反復進行上 述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段,對保留下來的各查詢區段按照上述編號方法重新進行偏號,然后針對每一轉錄組測序讀段,以編號最小的查詢區段作為參考區段,分別將后續的所有查詢區段與所述參考區段進行比較,如果后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且該后續的查詢區段的相對終止位置和參考區段的相對終止位置的差的絕對值小于10,則去除該后續的查詢區段,而保留不滿足上述條件的后續查詢區段,完成所有比較后,如果存在滿足上述條件的后續查詢區段,則將該參考區段也去除,接下來,將該轉錄組測序讀段上保留的第一個后續查詢區段作為新參考區段,繼續將該新參考區段后續的所有查詢區段與該新參考區段進行比較,以相同條件判斷去除或保留該新參考區段和后續的查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段。在本發明的組裝基因組序列的裝置,還優選所述區段連接選擇模塊針對查詢區段選擇模塊中所保留下來的所有查詢區段按照與查詢區段選擇模塊中相同的編號方法進行編號,然后將每一轉錄組測序讀段中編號最小的查詢區段作為起點區段,將其后續的所有查詢區段分別與其進行比較,如果在后續的查詢區段中存在相對起始位置與該起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則將該后續的查詢區段和所述起點區段的組合作為一個區段連接保留下來,并且計算出這兩個區段之間的距離,如果在后續的查詢區段中不存在相對起始位置與起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則去除所述起點區段,然后以該起點區段的第一個后續區段作為新的起點區段,以同樣條件進行與上述相同的比較,以確定與所述新的起點區段相關的區段連接,并且如上所述地計算出這兩個區段之間的距離,如果不存在與所述新的起點區段相關的區段連接,則去除所述新的起點區段,如此反復地進行比較,直至該轉錄組測序讀段上最后一個查詢區段作為起點區段,接下來,針對每個查詢區段,根據計算的兩個查詢區段之間的距離,保留與該查詢區段相關且兩個區段之間的距離最小的區段連接,去除其余與該查詢區段相關的區段連接。
在所述基因組片段連接關系選擇模塊中,如果起始基因組片段有兩個或兩個以上支持證據數量相同且最多的連接基因組片段,則去除該起始基因組片段。在上述比對模塊中,優選所述轉錄組序列讀段由Sanger測序技術或Roche454測序技術獲得,采用序列比對程序Blat,并選擇單機版模式,以程序默認參數進行比對。在使用本發明的裝置組裝基因組序列時,所述轉錄組序列讀段與所述基因組片段優選來源于斑馬魚或羅非魚。根據本發明的利用長轉錄組測序結果裝配基因組的方法,能夠利用長片段測序數據,包括Sanger測序技術和Roche454測序技術產生的轉錄組測序讀段,從而能夠利用讀長較長的轉錄組測序讀段來組裝基因組片段,進而獲得長度更長的基因組片段。
具體實施例方式下面通過實施例具體說明本發明的利用長轉錄組測序結果裝配基因組的方法,但 本發明并不限于所列舉的實施例。實施例I利用斑馬魚轉錄組Sanger測序讀段來組裝斑馬魚的基因組序列材料從美國生物技術信息中心(NCBI,National Center for BiotechonlogyInformation) 網站(http://www.ncbi.nlm. nih. gov/dbEST/index. html) 下載1546467條FASTA格式的斑馬魚轉錄組Sanger測序讀段。從英國桑格研究院(Sangerinstitute, http://www. sanger. ac. uk/Projects/D_rerio/wgs. shtml)下載 37298 條予頁先裝配的斑馬魚基因組片段,這些基因組片段的平均長度為143274bp。步驟01 :從美國加州大學圣克魯斯分校(http://hgdownload. cse. ucsc. edu/admin/exe/)下載BLAT (BlAST-like alignment tool)程序,選擇單機版模式,以各轉錄組測序讀段作為查詢序列,以基因組片段作為匹配序列,按照該比對程序的默認參數,將1546467條Sanger測序讀段與37298條基因組片段進行比對。結果顯示有1420506條轉錄組Sanger測序讀段比對到基因組片段上。步驟02 :根據如下公式分別計算比對區域的序列覆蓋度(length coverage)和相似程度(identity)。如下計算序列覆蓋度
qEnd — qStartlength coverage =-* 100%
_qSizc如下計算相似程度(I)當((qEnd-qStart) — (tEnd-tStart))〈O 時
iooo^(misMatch+qNumInsert+ 3^1og(i))iclentitV = _matches + misMatches_讀'I
' — 100(2)當((qEnd-qStart) — (tEnd-tStart)) > 0 時identity =iooo*imisMatches+qNumInsert+ 3*logfi+ ((qEnd - qStart) - (tEnd - tstart))j|
100----r-T7:......-......■■......r--*0.1
_matches + misMatches_
100以相似程度90%對步驟01中保留下來的1420506條轉錄組測序讀段進行篩選。保留相似程度大于等于90%的轉錄組測序讀段。經過該步驟,保留了 1419653條轉錄組測序讀段。對該保留的轉錄組測序讀段進行篩選,保留序列覆蓋度(length coverage)小于90%的轉錄組測序讀段。步驟03 :對于步驟02中保留下來的轉錄組測序讀段,去除僅比對到I個基因組片段的轉錄組測序讀段,保留比對到2個以上基因組片段的轉錄組測序讀段。經步驟03后,有397079條轉錄組測序讀段被保留下來,對應有27933071個查詢區段。 步驟04 :對于步驟03中保留下來的查詢區段,在同一轉錄組測序讀段上,按照各查詢區段的相對起始位置從小到大依次排列并對其依次編號為第一區段、第二區段……,對于相對起始位置相同的查詢區段,進一步按照該查詢區段的相對終止位置從大到小依次排列。例如,在同一轉錄組測序讀段上包括3個查詢區段a、b、c,查詢區段a在轉錄組測序讀段上的相對起始位置小于查詢區段b、c,查詢區段b、c的相對起始位置相同,但查詢區段b的末端堿基的位點數大于查詢區段C,此時查詢區段a、b、c在該轉錄組測序讀段上依次編號為第一區段、第二區段、第三區段。然后以編號為第一區段的查詢區段作為參考區段,分別將后續的查詢區段與所述參考區段進行比較,保留符合下述兩個條件中任意一個條件的后續的查詢區段,去除下述兩個條件都不符合的后續查詢區段。i后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且后續的查詢區段的相對終止位置和參考區段的相對終止位置的差的絕對值小于10。ii后續的查詢區段的相對終止位置與所述參考區段的相對終止位置之差大于等于10。將保留下來的第一個后續查詢區段作為新參考區段,繼續將該新參考區段后續的查詢區段與該新參考區段進行比較,保留符合上述條件之一的查詢區段。反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段。針對步驟03中保留下來的所有轉錄組測序讀段分別進行上述比較。該比較結束后剩余376875個查詢區段。接下來,對于保留下來的376875個查詢區段,在同一轉錄組測序讀段中按照與上述相同的編號方法對查詢區段重新進行編號。然后以第一區段作為參考區段,分別將后續的查詢區段與所述參考區段進行比較。如果后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且該后續的查詢區段的相對終止位置和參考區段的相對終止位置的差的絕對值小于10,則認為該后續查詢區段與參考區段相似,基于該參考區段一直比較至該轉錄組測序讀段上最后一個查詢區段,在比較過程中,去除相似的后續查詢區段,保留不滿足上述條件的后續查詢區段,并且,如果存在與參考區段相似的查詢區段,則在比較結束時去除該參考區段,然后將保留下來的第一個后續查詢區段作為新參考區段,繼續將該新參考區段的后續查詢區段與該新參考區段進行比較,以相同條件判斷去除還是保留該新參考區段和后續查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段;針對其他轉錄組測序讀段上的查詢區段也相同地進行編號,并分別進行上述比較。最終剩余293660個查詢區段。步驟05 :針對步驟04中所保留下來的所有查詢區段按照與步驟04相同的編號方法進行編號。然后將同一轉錄組測序讀段中的第一區段作為起點區段,將其后面的所有查詢區段分別與其進行比較,如果在后續的查詢區段中存在相對起始位置與該起點區段的相對終止位置之差的絕對值小于30、并且后續查詢區段的絕對起始位置與起點區段的絕對終止位置之間的長度小于等于200kb,則將后續所述起點區段和該后續的查詢區段的組合作為一個區段連接保留下來,并且計算出這兩個區段之間的距離(即該后續的查詢區段的相對起始位置與所述起點區段的相對終止位置的差值)。如果在后續的查詢區段中不存在相對起始位置與起點區段的相對終止位置之差的絕對值小于30、并且絕對起始位置與起點區段的絕對終止位置之間的長度小于等于200kb的查詢區段,則去除所述的起點區段。然后以該轉錄組測序讀段中的第二區段作為新的起點區段,進行與上述第一區段相同的比較, 以確定與第二區段相關的區段連接,并且如上所述地計算出這兩個區段之間的距離,同樣,如果不存在與第二區段相關的區段連接,則去除所述第二區段。如此反復進行與上述第一區段相同的比較,直至該轉錄組測序讀段上最后一個查詢區段作為起點區段。此時,針對每個查詢區段,根據之前所計算的兩個查詢區段之間的距離,保留與該查詢區段相關且兩個區段之間的距離最小的區段連接,去除其余與該查詢區段相關的區段連接。例如對于某一轉錄組測序讀段中的第η查詢區段(η > 1),存在多個與該第η查詢區段相關的區段連接,在這些區段連接中該第η查詢區段與其后續的查詢區段之間的距離分別為10、12、18……,此時保留距離為10的區段連接,而去除其他與該第η查詢區段相關的區段連接。如果在與該第一查詢區段相關的多個區段連接中存在兩個以上區段之間距離相同且最小的區段連接,那么這些區段連接都不保留。針對所有查詢區段進行相同處理,即保留與該查詢區段相關的兩個區段間距離最小的區段連接,而去除與該查詢區段相關的其余區段連接。步驟06 :將經步驟05所保留下來的每一區段連接作為對應的基因組片段的連接證據。步驟07 :將步驟06中保留下來的每個基因組片段分別作為起始基因組片段,在與其連接的所有基因組片段中選擇支持證據最多的基因組片段作為終止片段,形成一個基因組片段連接關系。這些基因組片段可以分為三類(i)只能連接在其他基因組片段之前,作為起始基因組片段,(ii)只能連接在其他基因組片段之后,作為終止基因組片段,(iii)既能夠連接在其他基因組片之前作為起始基因組片段,又能夠連接在其他基因組片段之后作為終止基因組片段。如果起始基因組片段有兩個或兩個以上支持證據數量相同且最多的連接基因組片段,則去除該起始基因組片段。本步驟結束后產生了 4419個基因組片段連接關系O步驟08:針對步驟07中屬于(i)類的每個基因組片段(S卩,只能作為起始基因組片段的基因組片段),分別將其作為起始點,從屬于(ii)類和(iii)類的基因組片段(即,只能連接在其他基因組片段之后作為終止基因組片段的基因組片段,以及既能夠連接在其他基因組片之前作為起始基因組片段,又能夠連接在其他基因組片段之后作為終止基因組片段的基因組片段)中,尋找可連接的基因組片段,形成基因組片段連接,將該基因組片段連接作為新的起始點,進一步如上所述那樣尋找可連接的基因組片段,直至沒有可連接的基因組片段為止,根據上述各基因組片段連接的前后順序將各基因組片段連接組裝成更長的基因組片段,從而完成基因組組裝過程。本步驟結束后產生3473個基因組片段。結果組裝后的斑馬魚基因組序列為33625條,較原來減少了 9. 85% ;平均長度為165154bp,增長了 15. 27%。實例2利用羅非魚轉錄組454測序讀段來組裝羅非魚的基因組片段材料從美國Broad機構(http://bouillabase. org/)下載5900條羅非魚全基因組序列片段,其平均長度為2. SM。從美國生物技術信息中心網站下載fastq格式的羅非魚454 測序讀段(http://www. ncbi. nlm. nih. gov/sra/SRX078333 和 http://www. ncbi. nlm. nih. gov/sra/SRX078329)o方法首先利用Solexa QA軟件包(solexaqa. sourceforge. net),以默認參數過濾低質量的轉錄組測序讀段和短的轉錄組測序讀段。然后使用srtoolbox軟件包(http://brianknaus. com/software/srtoolbox/)中的 fastq2fasta. pi 將 fastq 格式轉換為 fasta格式。接下來,按照實施例I中的步驟01 步驟07進行羅非魚基因組片段的組裝。結果預先裝配前的羅非魚基因組片段的平均長度為2. SM,數量為5900條。使用轉錄組454測序讀段組裝后,羅非魚基因組片段的平均長度為3. 1M,組裝長度增加了 11%,數量減少至5597條。上述實施例中是以斑馬魚和羅非魚為例進行了說明,當然,本發明的利用長轉錄組測序結果裝配基因組的方法還可以用于其他生物的基因組序列的組裝。另外,上述實施例中采用的所述轉錄組序列讀段由Sanger測序技術或Roche454測序技術獲得,也可以采用其他測序技術獲得的讀長較長的轉錄組測序讀段,還可以采用預先裝配Illumina短測序讀段而得到的更長讀段,來組裝基因組片段。顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的構思和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。
權利要求
1.一種利用長轉錄組測序結果裝配基因組的方法,其特征在于,包括以下步驟 (1)將同一物種的轉錄組測序讀段與基因組片段進行比對; (2)去除僅比對到I個基因組片段的轉錄組測序讀段; (3)針對(2)中保留下來的各轉錄組測序讀段,去除相似程度低的轉錄組測序讀段; (4)針對(3)中保留下來的各轉錄組測序讀段,分別在每一個轉錄組測序讀段上,按照各查詢區段的相對起始位置從小到大依次排列,并根據該排列順序對各查詢區段由小到大進行編號,然后以編號相對小的查詢區段作為參考區段,分別將后續的查詢區段與所述參考區段進行比較,保留符合下述兩個條件中任意一個條件的后續的查詢區段,去除下述兩個條件都不符合的后續查詢區段, i后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且后續的查詢區段的相對終止位置與參考區段的相對終止位置的差的絕對值小于10, ii后續的查詢區段的相對終止位置與所述參考區段的相對終止位置之差大于等于10, 將保留下來的后續查詢區段作為新參考區段,繼續將該新參考區段后續的查詢區段與該新參考區段進行比較,保留符合上述條件之一的后續查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段, 對保留下來的各查詢區段按照上述編號方法重新進行偏號,然后針對每一轉錄組測序讀段,以編號相對小的查詢區段作為參考區段,分別將后續的查詢區段與所述參考區段進行比較,如果后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于.10,并且該后續的查詢區段的相對終止位置和參考區段的相對終止位置的差的絕對值小于.10,則去除該后續的查詢區段,而保留不滿足上述條件的后續查詢區段,完成所有比較后,如果存在滿足上述條件的后續的查詢區段,則將該參考區段也去除, 接下來,將保留的后續查詢區段作為新參考區段,繼續將該新參考區段后續的查詢區段與該新參考區段進行比較,以相同條件判斷去除或保留該新參考區段和后續的查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段; (5)針對(4)中所保留下來的所有查詢區段按照與(4)相同的編號方法進行編號,然后將每一轉錄組測序讀段中編號相對小的查詢區段作為起點區段,將其后續的所有查詢區段分別與其進行比較,如果在后續的查詢區段中存在相對起始位置與該起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則將該后續的查詢區段和所述起點區段的組合作為一個區段連接保留下來,并且計算出這兩個區段之間的距離,即該后續的查詢區段的相對起始位置與所述起點區段的相對終止位置的差值,如果在后續的查詢區段中不存在相對起始位置與起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則去除所述起點區段,然后以該起點區段后續的區段作為新的起點區段,以同樣條件進行與上述相同的比較,以確定與所述新的起點區段相關的區段連接,并且如上所述地計算出這兩個區段之間的距離,如果不存在與所述新的起點區段相關的區段連接,則去除所述新的起點區段,如此反復地進行比較,直至該轉錄組測序讀段上最后一個查詢區段作為起點區段, 接下來,針對每個查詢區段,根據計算的兩個查詢區段之間的距離,保留與該查詢區段相關且兩個區段之間的距離最小的區段連接,去除其余與該查詢區段相關的區段連接;(6)將(5)中保留下來的每一個區段連接作為與其對應的兩個基因組片段連接的支持證據; (7)將(6)中所保留下來的每個基因組片段分別作為起始基因組片段,并在與其連接的所有基因組片段中選擇支持證據最多的基因組片段作為終止片段,形成一個基因組片段連接關系; (8)針對(7)中每個只能作為起始基因組片段的基因組片段,分別將其作為起始點,從只能連接在其他基因組片段之后作為終止基因組片段的基因組片段,以及既能夠連接在其他基因組片之前作為起始基因組片段,又能夠連接在其他基因組片段之后作為終止基因組片段的基因組片段中,尋找可連接的基因組片段,形成基因組片段連接,將該基因組片段連接作為新的起始點,進一步如上所述那樣尋找可連接的基因組片段,直 至沒有可連接的基因組片段為止,根據上述各基因組片段連接的前后順序將各基因組片段連接組裝成更長的基因組片段。
2.根據權利要求I所述的方法,其特征在于,在步驟(3)中,去除相似程度低于90%的轉錄組測序讀段。
3.根據權利要求2所述的方法,其特征在于,在步驟(2)和步驟(3)之間或者在步驟(3)和步驟(4)之間,還包括去除序列覆蓋度高于90%的轉錄組測序讀段的步驟。
4.根據權利要求I至3中任一項所述的方法,其特征在于,如下所述進行步驟(4),針對(3)中保留下來的各轉錄組測序讀段,或者針對去除序列覆蓋度高于90%的轉錄組測序讀段后保留下來的各轉錄組測序讀段,分別在每一個轉錄組測序讀段上,按照各查詢區段的相對起始位置從小到大依次排列,對于相對起始位置相同的查詢區段,進一步按照該查詢區段的相對終止位置從大到小依次排列,并根據該排列順序對各查詢區段由小到大進行編號,然后以編號最小的查詢區段作為參考區段,分別將后續的查詢區段與所述參考區段進行比較,保留符合下述兩個條件中任意一個條件的后續的查詢區段,去除下述兩個條件都不符合的后續查詢區段, i后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且后續的查詢區段的相對終止位置與參考區段的相對終止位置的差的絕對值小于10, ii后續的查詢區段的相對終止位置與所述參考區段的相對終止位置之差大于等于10, 將保留下來的第一個后續查詢區段作為新參考區段,繼續將該新參考區段后續的所有查詢區段與該新參考區段進行比較,保留符合上述條件之一的查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段, 對保留下來的各查詢區段按照上述編號方法重新進行偏號,然后針對每一轉錄組測序讀段,以編號最小的查詢區段作為參考區段,分別將后續的所有查詢區段與所述參考區段進行比較,如果后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于.10,并且該后續的查詢區段的相對終止位置和參考區段的相對終止位置的差的絕對值小于.10,則去除該后續的查詢區段,而保留不滿足上述條件的后續查詢區段,完成所有比較后,如果存在滿足上述條件的后續查詢區段,則將該參考區段也去除, 接下來,將該轉錄組測序讀段上保留的第一個后續查詢區段作為新參考區段,繼續將該新參考區段后續的所有查詢區段與該新參考區段進行比較,以相同條件判斷去除或保留該新參考區段和后續的查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段。
5.根據權利要求I至3中任一項所述的方法,其特征在于,如下所述進行步驟(5),針對(4)中所保留下來的所有查詢區段按照與(4)相同的編號方法進行編號,然后將每一轉錄組測序讀段中編號最小的查詢區段作為起點區段,將其后續的所有查詢區段分別與其進行比較,如果在后續的查詢區段中存在相對起始位置與該起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則將該后續的查詢區段和所述起點區段的組合作為一個區段連接保留下來,并且計算出這兩個區段之間的距離,如果在后續的查詢區段中不存在相對起始位置與起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則去除所述起點區段,然后以該起點區段的第一個后續區段作為新的起點區段,以同樣條件進行與上述相同的比較,以確定與所述新的起點區段相關的區段連接,并且如上所述地計算出這兩個區段之間的距離,如果不存在與所述新的起點區段相關的區段連接,則去除所述新的起點區段,如此反復地進行比較,直至該轉錄組測序讀段上最后一個查詢區段作為起點區段, 接下來,針對每個查詢區段,根據計算的兩個查詢區段之間的距離,保留與該查詢區段相關且兩個區段之間的距離最小的區段連接,去除其余與該查詢區段相關的區段連接。
6.根據權利要求I至3中任一項所述的方法,其特征在于,在步驟(7)中,如果起始基因組片段有兩個或兩個以上支持證據數量相同且最多的連接基因組片段,則去除該起始基因組片段。
7.根據權利要求I至3中任一項所述的方法,其特征在于,在步驟(I)中,所述轉錄組序列讀段由Sanger測序技術或Roche 454測序技術獲得,采用序列比對程序Blat,并選擇單機版模式,以程序默認參數進行比對。
8.根據權利要求I至3中任一項所述的方法,其特征在于,所述轉錄組序列讀段與所述基因組片段來源于斑馬魚或羅非魚。
9.一種利用長轉錄組測序結果裝配基因組的裝置,其特征在于,包括以下模塊 比對模塊,將同一物種的轉錄組測序讀段與基因組片段進行比對; 去除模塊1,去除僅比對到I個基因組片段的轉錄組測序讀段; 去除模塊2,針對去除模塊I中保留下來的各轉錄組測序讀段,去除相似程度低的轉錄組測序讀段; 查詢區段選擇模塊,針對去除模塊2中保留下來的各轉錄組測序讀段,分別在每一個轉錄組測序讀段上,按照各查詢區段的相對起始位置從小到大依次排列,并根據該排列順序對各查詢區段由小到大進行編號,然后以編號相對小的查詢區段作為參考區段,分別將后續的查詢區段與所述參考區段進行比較,保留符合下述兩個條件中任意一個條件的后續的查詢區段,去除下述兩個條件都不符合的后續查詢區段, i后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且后續的查詢區段的相對終止位置與參考區段的相對終止位置的差的絕對值小于10,ii后續的查詢區段的相對終止位置與所述參考區段的相對終止位置之差大于等于10,將保留下來的后續查詢區段作為新參考區段,繼續將該新參考區段后續的查詢區段與該新參考區段進行比較,保留符合上述條件之一的后續查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段, 對保留下來的各查詢區段按照上述編號方法重新進行偏號,然后針對每一轉錄組測序讀段,以編號相對小的查詢區段作為參考區段,分別將后續的查詢區段與所述參考區段進行比較,如果后續的查詢區段的相對起始位置與參考區段的相對起始位置之差小于等于10,并且該后續的查詢區段的相對終止位置和參考區段的相對終止位置的差的絕對值小于10,則去除該后續的查詢區段,而保留不滿足上述條件的后續查詢區段,完成所有比較后,如果存在滿足上述條件的后續的查詢區段,則將該參考區段也去除, 接下來,將保留的后續查詢區段作為新參考區段,繼續將該新參考區段后續的查詢區段與該新參考區段進行比較,以相同條件判斷去除或保留該新參考區段和后續的查詢區段,反復進行上述比較,直至該轉錄組測序讀段上最后一個查詢區段作為參考區段; 區段連接選擇模塊,針對查詢區段選擇模塊中所保留下來的所有查詢區段按照與查詢區段選擇模塊中相同的編號方法進行編號,然后將每一轉錄組測序讀段中編號相對小的查詢區段作為起點區段,將其后續的所有查詢區段分別與其進行比較,如果在后續的查詢區段中存在相對起始位置與該起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則將該后續的查詢區段和所述起點區段的組合作為一個區段連接保留下來,并且計算出這兩個區段之間的距離,即該后續的查詢區段的相對起始位置與所述起點區段的相對終止位置的差值,如果在后續的查詢區段中不存在相對起始位置與起點區段的相對終止位置之差的絕對值小于30、且絕對起始位置與該起點區段的絕對終止位置之差小于200Kb的查詢區段,則去除所述起點區段,然后以該起點區段后續的區段作為新的起點區段,以同樣條件進行與上述相同的比較,以確定與所述新的起點區段相關的區段連接,并且如上所述地計算出這兩個區段之間的距離,如果不存在與所述新的起點區段相關的區段連接,則去除所述新的起點區段,如此反復地進行比較,直至該轉錄組測序讀段上最后一個查詢區段作為起點區段, 接下來,針對每個查詢區段,根據計算的兩個查詢區段之間的距離,保留與該查詢區段相關且兩個區段之間的距離最小的區段連接,去除其余與該查詢區段相關的區段連接;支持證據收集模塊,將區段連接選擇模塊中保留下來的每一個區段連接作為與其對應的兩個基因組片段連接的支持證據; 基因組片段連接關系選擇模塊,將支持證據收集模塊中所保留下來的每個基因組片段分別作為起始基因組片段,并在與其連接的所有基因組片段中選擇支持證據最多的基因組片段作為終止片段,形成一個基因組片段連接關系; 基因組片段連接確定模塊,針對基因組片段連接關系選擇模塊中每個只能作為起始基因組片段的基因組片段,分別將其作為起始點,從只能連接在其他基因組片段之后作為終止基因組片段的基因組片段,以及既能夠連接在其他基因組片之前作為起始基因組片段,又能夠連接在其他基因組片段之后作為終止基因組片段的基因組片段中,尋找可連接的基因組片段,形成基因組片段連接,將該基因組片段連接作為新的起始點,進一步如上所述那樣尋找可連接的基因組片段,直至沒有可連接的基因組片段為止,根據上述各基因組片段連接的前后順序將各基因組片段連接組裝成更長的基因組片段。
10.根據權利要求9所述的裝置,其特征在于, 在所述去除模塊2中,去除相似程度低于90%的轉錄組測序讀段。
全文摘要
本發明涉及一種利用長轉錄組測序結果裝配基因組的方法及裝置,該方法是將同一物種的轉錄組測序讀段與基因組片段進行比對,去除僅比對到1個基因組片段的轉錄組測序讀段,對保留下來的轉錄組測序讀段上的查詢區段以規定條件進行篩選,然后按照規定條件獲得與保留下來的查詢區段相關的區段連接,基于該區段連接對基因組片段進行連接,從而完成對基因組序列的組裝。根據本發明的利用長轉錄組測序結果裝配基因組的方法,能夠利用長片段測序數據,包括現有公開的大量Sanger數據,從而能夠利用長的轉錄組測序讀段來組裝基因組序列。
文檔編號G06F19/20GK102789553SQ20121025690
公開日2012年11月21日 申請日期2012年7月23日 優先權日2012年7月23日
發明者孫效文, 李炯棠, 汪金兔, 祝雅萍, 薛尉 申請人:中國水產科學研究院