Y-染色體str標記的分析的制作方法_4

文檔序號：9882365閱讀：來源：國知局

平均突變率大于觀察率的次數記錄，并且用于得到1〇〇,〇〇〇次迭代（iteration)內的單尾p值。群體間缺乏顯著差異使得能夠合并群體間的突變率。
[0040] 為探究Yfiler和RM γ-STR組的突變率而非組內各標記的突變率，鑒于所分析的Y- STR數目，計算各組的各父子對之間觀察到的突變總數。然后根據具有泊松分布(Poisson distribution)的貝葉斯范例來對該參數進行建模。使用具有γ分布的先驗，其中擴散形狀 (diffuse shape)為1并且標度為200,這暗示均值為0.005以及方差為40000的突變率。后驗分布遵循共輒γ分布，形狀為1 +(突變總數）并且標度為1/(1/(200 +所使用標記的總數））。為估計各組中觀察到至少一個突變的概率，根據各組Y-STR的后驗分布的估計形狀和標度，用R包裝45的γ函數進行100000 Monte Carlo重復。
[0041 ] 就RM Y-STR組而言，估計的中值突變率為0.0197 (95%置信區間0.018 - 0.022)，這是由17種標記組成的YFiler組所顯示的0.0028的中值率（范圍為0.0023至0.0035的95% 置信區間）的約7倍。接著，將給定父子對中每Y-STR組觀察到至少一個突變的概率(反映區分男性親屬的最低標準)估計為1減去觀察到〇個突變的概率，這直接根據泊松分布來估計：在任何給定父子對中任一 YSTR組內觀察到至少一個突變(k)的概率直接根據泊松分布來估計：
，其中N代表標記數，m代表獲自后驗分布抽樣的標記組的平均突變率。假定每組的全部Y-STR已成功進行基因型分型，并且使用各組標記突變率的后驗估計，RM Y-STR組觀察到至少一個突變的概率為0.1952 (0.177至0.21的95%置信區間）。該值為YFi 1 er組所估計的值(0.047 (0.038至0.057的95%置信區間））的超過4倍，但相對冊￥-5了1?組，￥?丨164且中包括額外的6種標記。用內部開發的]\^1313腳本(￥7.6.0.324， The Mathworks，Inc.，Natick，MA，USA)使用泊松回歸對決定突變率的分子因素進行建模。將突變率建模為依賴于重復長度、序列基序、基因座復雜度以及堿基對(三_、四_、五-或六核苷酸）中重復長度的函數，為：
其中假定S依賴于上述因子，以下列形式：
其中L代表等位基因的長度(重復數目，最長的同源陣列或總基因座的），S代表序列基序（由重復序列基序中A、T、C或G核苷酸數目組成），C代表基因座的復雜度（以二元或定量形式），V為存在的變量基序數，R為重復長度，且N為基因座的拷貝數。使用逐步回歸程序，進入的概率為〈0.05,移出的概率為2 0.10。為清楚起見，下文將闡明用于定義和計算基因座內重復數以及基因座復雜度的方法。
[0042]根據Kayser等對基因座命名進行建模，其中需要同一基序的至少3個連續重復來將給定重復區段定義為基因座，并且將任何多于一個堿基，但少于一個完整單位的間斷分類為終止該基因座。個體Y-STR基因座包含1至5個重復塊(repeat block)，例如具有5塊 (CCT)5(CTT)1(TCT)4(CCT)1(TCT)19的DYS612。若基因座包含多于一個可變區段，并且重復數不能精確分配給全部個體的所有重復區段，則將該基因座從回歸分析中移出。若相對群體的其余部分，在任何經測序個體中觀察到重復數中的變化，則將區段定義為可變的。
[0043]重復數:直接計算最長同源陣列中的重復數，并且計算各基因座的群體均值。此外，還加上最長陣列周圍的任何額外重復以計算各基因座的重復總數。在上述DYS612的實例中，最長陣列長度為19,而重復總數為30。
[0044] 重復長度:重復基序的堿基對中的長度，其范圍為3至6(包括三_、四_、五_、六-和七核苷酸重復）。
[0045] 復雜度:對于每一基因座計算兩個復雜度統計。首先，使用二元分類系統，其中將僅具有一個重復區段(例如（GATA)IO)的基因座歸為簡單的，同時將任何具有兩個或更多個重復區段（由多于3個連續重復組成）的基因座(例如(GATA)10(CATA)3)歸為復雜的。其次，K a y s e r等如下的復雜度公式提供了更多的定量信息：
其中η為基因座中的重復總數，si為第i個序列基序的重復數，并且如'為第i塊中的重復數。在SPSS vl5.0 (SPSS Inc.)中進行相關和對數線性回歸分析，如同所有均值比較測試（利用A N 0 V A，曼-惠特尼U和K r u s k a 1 Wallis)一樣。
[0046] 重復長度:重復基序的堿基對長度，其范圍為3至6(包括三_、四_、五_、六-和七核苷酸重復）。
[0047] Y-STR標記的突變率為定義給定RM Y-STR組區分男性親屬的期望并且將該潛能與常用的YFiler組相比較，應用貝葉斯方法，得到兩Y-STR組中每組的平均突變率。就STR組而言，借助泊松分布對在一個父子對中觀察到的突變數進行建模。使用擴散形狀為1且標度為1/0.005的先驗共輒γ分布。得到遵循γ分布的后驗分布，形狀為1+突變總數及標度為1/(1/0.005 +所使用的標記總數)并且進行100000次Monte Carlo重復。
[0048] 此外，為檢驗獨立樣品中新RM Y-STR組對于區分男性親屬是否實用且有用，在來自80個男性系譜的107對(其系譜內的1至20個世代之間具有親戚關系）中的，對兩組標記組進行基因型分型并且將結果與從YFiler得到的結果相比較。系譜來自德國的格賴夫斯瓦爾德和基爾（N. von ffurmb-Schwark, V. Malyusz, E. Simeoni, E. Lignitz, M. Poetsch, For. Sci. Int. 159，92-97 (2006)以及柏林(本研究新出現的）地區，比利時的魯汶地區（本研究新出現的），波蘭的華沙地區（本研究新出現的）以及來自加拿大C. Moreau , H. Vez ina, V. Yotova, R. Hamon, P. de Kniff等·，Am. J. Phys. Anthropol. 139, 512-522 (2009), M. Vermeulen, A. ffollstein, K. van der Gaag, 0· Lao, Y. Xue等·，For. Sci. Int. Genet·, 3, 205-213 (2009)以及德國中部 M. Kayser, M. Vermeulen, H. Knoblauch, H. Schuster, M. Krawczak, L. Roewer, For. Sci. Int. Genet. 1，125-128 (2007))，如其它地方描述的。通過DNA數據(在各種系譜之間包括常染色體STR、HLA和RFLP分型、Y-STR和Y-SNP分型以及mtDNA測序）以及另外通過家族或政府文件記錄來確認所有系譜。只有兩組均具有完整基因型的對，或在部分基因型的情況下，在一個或多個基因座顯示突變的對包括在計算中。圖2中提供結果。RM Y-STR組通過至少1個突變區分了超過65%的對，反映男性親屬區分水平是YFi 1 er組(僅13%)的5倍，這與我們對最初父子對分析的統計期望相似。在系譜內，RM Y-STR組區分了60%的父子對， 54%的兄弟以及87%的第二代堂兄弟姊妹。若親屬被多于11次的減數分裂而分開，則用RM Y-STR組通過1個或多個突變來分開100%的個體。相比之下，所述Y-filer組在該數據集中未區分父子對和第二代堂兄弟姊妹，而僅區分該數據集中6%的兄弟。
[0049]通過基于多重熒光的片段長度分析，在多達1966種經DNA-確認的父子對中，篩查 186種三-、四-、五-、六核苷酸Y-STR標記中每一標記的突變，由此直接觀察到352,999個減數分裂轉移(技術詳情參見表1)。為證實突變，父及其子之間觀察到的所有Y-STR基因型差異通過用于單拷貝和雙重標記的DNA序列分析，或通過用于多拷貝Y-STR(具有多于2個拷貝）的雙重片段長度基因型分型分析(其中序列分析是無信息的)來證實。總的來說，在所研究的186種Y-STR標記的120種(64.5%)中，我們鑒定了924種經證實的突變(所觀察各突變的詳情可參見補充數據S2)。就66 Y-STR標記而言，所分析的多達1966個父子對不允許我們檢測突變，這是由于潛在突變率非常低。所用的大量Y-STR標記確定了基于貝葉斯的突變率范圍，根據后驗分布中值該范圍估計為每標記每世代3.81xl0_ 4 (95% Cl 1.38xl0_5至 2.02叉10-3)至7.73叉10-2(6.51叉10- 2至9.09叉10-2)(圖1，表1)。91種丫-5丁財示記（48.9%)的突變率為約10- 3,另外的82種標記(44%)為約10_4,并且13種（6.9%)為約10_2。在全部186種Y-STR標記中，平均突變率為3.35x10- 3 (95% CI 1.79x10-3至6.38χ10-3)，對于本文包括的作為Y-STR標記的最大重復長度亞組的122個四核苷酸重復的平均率為4.26xl

完整全部詳細技術資料下載

當前第4頁1 2 3 4 5

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！