>[0021] 步驟二:確定胎兒核酸含量。
[0022] 基于第一和第二測序數據,或者基于第一、第二和第三測序數據,確定所述孕婦體 液樣本中的胎兒核酸含量。
[0023] 其中,基于第一和第二測序數據確定孕婦體液樣本中的胎兒核酸含量,是這 樣進行的:首先是篩選出在第一測序數據中有兩種基因型以及在第二測序數據中只 有一種基因型的位點。位點的篩選可以通過比對來進行,比對可以利用S0AP(Short OligonucleotideAnalysis Package),bwa,samtools等軟件進行,本實施方式對此不作限 制,比對的進行也可以識別出多態性位點。比對所使用的參考序列是已知序列,可以是預先 獲得的目標個體所屬生物類別中的任意的參考模板。例如,若目標個體是人類,參考序列可 選擇NCBI數據庫提供的HG19。進一步地,也可以預先配置包含更多參考序列的資源庫,在 進行序列比對前,先依據目標個體的性別、人種、地域等因素選擇或是測定組裝出更接近的 序列來作為參考序列,有助于獲得更準確的檢測分析結果。在比對過程中,根據比對參數的 設置,各測序數據中的每條或每對讀段(reads或一對末端讀段pair-end reads)最多允許 有η個堿基錯配(mismatch), η優選為1或2,若reads中有超過η個堿基發生錯配,則視 為該條/對reads無法比對到參考序列。一個位點,假設在參考序列上該位點是Α,第二測 序數據的比對結果表明第二測序數據即母親測序數據中比對上到參考序列該位點的堿基 都是A,但是第一測序數據即母親與胎兒的測序數據的比對結果表明第一測序數據中比對 到參考序列該位點的堿基是A和另外一種非A的堿基,非A堿基比如T、C或G,由于第一測 序數據中是母親和胎兒核酸的混合測序數據,而從第二測序數據的比對結果可知母親的該 位點為AA,那么就可判斷出第一測序數據中該位點非A堿基來源于胎兒,這樣篩選出所有 這樣的位點,基于這些位點在混合測序數據中占的比例,就能反映出混合核酸中胎兒核酸 的含量。類似的,若第二測序數據的比對結果表明母親某位點的基因型為雜合的,比如AG, 而第一測序數據比對結果顯示支持該位點AG和AA兩種基因型,這樣基于第一測序數據中 A堿基的數量、含量或比例,也能估算獲得孕婦外周血樣本中的胎兒核酸含量。當像上面前 者情況,在第二測序數據中只有純合基因型、而在第一測序數據中除有一樣的純合基因型 還有雜合基因型時,胎兒核酸含量f = 2cV(C+d),而當像上面后者情況,在第二測序數據中 只有雜合基因型、而在第一測序數據中除有那雜合基因型還有純合基因型,胎兒核酸含量f =(c-dV(c+d),公式中的c為第一測序數據中支持等位基因 A的讀段數目,d為第一測序 數據中支持非A等位基因的讀段數目。
[0024] 基于第一、第二和第三測序數據確定孕婦體液樣本中的胎兒核酸含量,是通過以 下進行的:篩選出在第二測序數據和第三測序數據中為不同純合基因型的位點,比如該位 點在第二和第三測序數據中的基因型分別為RR和rr,這樣以遺傳角度,胎兒核酸中該位點 的基因型為Rr,基于多個這種類型的位點計算孕婦外周血樣本中胎兒核酸含量,胎兒核酸 含量f = gAg+h),g為第一測序數據中支持等位基因 r的讀段數目,h為第一測序數據中 支持等位基因 R的讀段數目。位點的篩選涉及的比對,比對參數的設置、比對結果等可參照 前面基于第一和第二測序數據估算胎兒核酸含量的描述進行。
[0025] 步驟三:構律父母的目標區域單體型。
[0026] 基于第二、第三和第四測序數據構建母親和父親的目標區域單體型,即基于父母 各自的測序數據和已知的該對父母的目標區域帶變異的子女(先證者)的測序數據,來構 建父母各自的單體型。將父母各自的測序數據以及先證者的測序數據分別與參考序列比 對,利用軟件比如SOAPsnp、GATK、bowtite等識別出父母以及先證者目標區域中的SNP和獲 得各個SNP的基因型,由于先證者的兩條單體型(兩組SNP集合)是由父親和母親的各一 條單體型組成的,所以依據孟德爾遺傳規律,依據父母及先證者的各個SNP所在位點的基 因型,比如利用多個區分型SNP,區分型SNP指該位點父母為不同基因型能夠提供給下一代 能區分單體型來源的SNP,構建父親和母親的單體型。單體型傾向作為一個遺傳單元遺傳給 子代,在這里,單體型是一組SNP的集合。
[0027] 需要說明的是,本發明的實施方式對步驟二和步驟三的進行沒有先后順序限制, 可以先進行步驟二再進行步驟三,或者先進行步驟三獲得父母目標區域單體型再進行步驟 二確定胎兒核酸含量。
[0028] 步驟四:確定胎兒目標區域單體型。
[0029] 基于母親和父親的目標區域單體型以及胎兒核酸含量,確定所述胎兒目標區域單 體型。具體地,利用多個在父親目標區域單體型上為雜合、在母親目標區域單體型上為純 合的位點確定胎兒遺傳到的父親目標區域單體型,這是由于若胎兒某SNP位點為雜合的, 由于源自母親的只可能為一種類型的堿基,所以就可確定該位點的另一堿基來自父親,利 用多個這樣的位點,比如可以確定超過10個這樣的位點的等位基因源自父親的一條單體 型,就能確定胎兒兩條單體型中的源自父親的那條單體型。而對于胎兒另一條單體型的確 定,可類似的利用多個在父親目標區域單體型上為純合、在母親目標區域單體型上為雜合 的位點來確定,但由于胎兒核酸樣本,即母體外周血樣本混有大量的母體DNA,單從以上類 型SNP沒法判斷胎兒遺傳了 R還是r所在的母親單體型,因為該位點任何的等位堿基也都 可能就只是母體的,在這里我們結合胎兒核酸含量來確定胎兒遺傳到的母親的單體型。對 于多個在父親單體型上為純合、母親單體型上為雜合的多態性位點,這樣的位點在母體外 周血樣本中每個都可表示為Rr,若多個這樣的位點都符合R/r = (1+x% V(l-x% ),則判 定胎兒遺傳了母親等位基因 R所在的單體型,若多個這樣的位點都符合R/r = 1,則判定胎 兒遺傳了母親等位基因 r所在的單體型,R和r表示一對等位基因,X%表示胎兒核酸含量, R/r =比對后第一測序數據中支持R的讀段數目/比對后第一測序數據中支持r的讀段數 目。由此,確定胎兒的單體型。
[0030] 本領域普通技術人員可以理解,上述實施方式中各種方法的全部或部分步驟可以 通過程序來指令相關硬件完成,該程序可以存儲于一計算機可讀存儲介質中,存儲介質可 以包括:只讀存儲器、隨機存儲器、磁盤或光盤等。
[0031] 依據本發明的另一個實施方式,提供一種確定胎兒目標區域單體型的裝置,該裝 置能夠用以完成本發明一個實施方式中的方法的部分或全部步驟,如圖1所示,該裝置 1000包括:測序單元100,用以獲得孕婦體液中的游離核酸,捕獲目標區域,對所述捕獲得 的目標區域進行序列測定,獲得第一測序數據,用以捕獲胎兒家系成員核酸中的同樣目標 區域,對所述家系成員的同樣目標區域進行序列測定,獲得家系成員測序數據,所述家系成 員測序數據包括第二、第三和第四測序數據,分別對應胎兒母親、胎兒父親和先證者的同樣 目標區域的測序數據;胎兒核酸含量確定單元200,與所述測序單元100相連,用于基于第 一和第二測序數據,或者基于第一、第二和第三測序數據,以確定所述孕婦體液樣本中的胎 兒核酸含量;父母單體型確定單元300,與所述測序單元100相連,用于基于第二、第三和第 四測序數據構建母親和父親的目標區域單體型;胎兒單體型確定單元400,與所述胎兒核 酸含量確定單元200和所述父母單體型確定單元300相連,用于基于母親和父親的目標區 域單體型以及胎兒核酸含量,確定所述胎兒目標區域單體型。對本發明的一個實施方式中 的方法的技術特征和優點的描述,同樣適用本發明這一實施方式的裝置,在此不再贅述。
[0032] 以下結合對具體樣本依據本發明的方法進行目標區域單體型的確定、基因型的確 定、單體型或基因型確定后的用途進行詳細的描述及結果展示。下面示例,僅用于解釋本發 明,而不能理解為對本發明的限制。在本發明中所使用的"第一"、"第二"、"第三"等僅用于 方便描述目的,而不能理解為指示或暗示相對重要性,也不能理解為之間有先后順序關系。 本發明的描述中,除非另有說明,"多個"的含義是兩個或兩個以上。
[0033] 除另有交待,以下實施例中涉及的未特別交待的試劑、序列(接頭、標簽和引物)、 軟件及儀器,都是常規市售產品或者公開的,比如購自Illumina公司的hiSeq2000測序平 臺建庫相關試劑盒來進行測序文庫構建等。
[0034] 一般方法:
[0035] 1.目標捕獲區域的選擇及探針的設計
[0036] 目標捕獲區域包括SMN1基因外顯子區,SMN1基因內部及其上下游3M區域內高雜 合率SNP位點的捕獲測序。SNP的選擇參考dbSNP數據庫,選擇其中參考染色體數大于100 條、MAF在0. 3-0. 5之間的SNP位點。同時,為了保證檢測的準確性,保證SNP位點所在序 列63mer堿基序列在基因組上為唯一比對,且GC含量在40%-50%。SMNl區域捕獲區域如 表1及表2所示
[0037] 2.家系致病單體型的獲得
[0038] 通過生物信息分析,對孕婦、孕婦丈夫及先證者在目標基因及其上下游區域的SNP 位點基因型進行判斷。通過對三者的SNP基因型進行連鎖分析,以確定與致病突變緊密連 鎖的SNP位點的基因信息,并進一步獲得與致病突變連鎖的單體型信息。整體技術路線如 圖2所示。
[0039] (1)從孕婦、孕婦丈夫及先證者的外周血中抽提基因組DNA,并使用電泳及0D對獲 得的DNA進行質量檢測。
當前第2頁
1 
2 
3 
4