專利名稱:用于生物過程中參數估計的系統和方法
技術領域:
本發明涉及生物過程(biological process)的參數估計,并且特別是公開了更準確地測量生物過程例如CpG甲基化或類似生物過程的方法。
背景技術:
在生物過程的準確測量中,測量值的近似和不精確的記錄產生誤差。已發展多種技術來最小化或減小測量中誤差的影響。一種流行的技術是“最小二乘”法,其通常用于使測量數據符合預定模型。如果作出正確推斷,最小二乘法依賴于正態頻率分布或高斯頻率分布的關鍵假設。在基礎分布為非正態的情況下,參數估計可能是無效的并且所得推斷是誤導的。因此在此類情況中利用最小二乘法可能導致不正確的結果。例如,在分子水平發生的生物過程的測量結果服從非線性效應,例如閾值或多平衡態(multiple equilibria),并且就此產生通常跟正態差得遠的頻率分布。在這些情形中,經典的最小二乘法分析可能并不合適,并且需要依賴“似然分析”的替代方法。然而,基于似然的方法需要詳細了解支配所感興趣的方法的概率密度。基因表達的動態調節代表通過多種機制發生的分子水平生物過程。希望獲得形成診斷預測的基礎的準確測量結果的一種特定的感興趣的生物過程是生物物質的CpG甲基化程度的測量。正常情況下,利用適當的機器進行該測量。例如,熟知的Sequenom機器適于測量生物材料的甲基化程度。在通過儀器如Sequenom機器測量的細胞樣品中,細胞類型可以是固定的。如果在一種細胞類型中代表的CpG位點是甲基化的,而在其他細胞類型中不是甲基化的,那么這會導致機器在這個位點讀取甲基化程度的比例測量結果。可選地,在相同類型的細胞中,在給定CpG位點的甲基化可能不是普遍的,并因此代表了關于任何相關性狀的表達的又一個問題。在遺傳性狀確定中利用甲基化測量結果正變得越來越流行。例如,題目為“Phenotype Prediction”(表型預測)的美國專利公布第2009/0104615號公開了利用甲基化來確定表達的生物性狀的傾向。通過交叉引用并入上述申請的內容。甲基化測量結果可能不具有正態分布或高斯分布的誤差。因此提供測量結果的逼近或參數化的替代形式是重要的。發明概述本發明的一個目的是提供生物過程的測量的替代形式。根據本發明的第一方面,提供了測量生物過程的方法,該方法包括以下步驟(a)確定用于生物過程的一系列重復測量結果的概率密度函數;(b)利用參數公式逼近所述概率密度函數;(c)確定用于概率密度函數的參數公式化的最大似然估計量;和((1)將該最大似然估計量用于生物過程的隨后測量結果。在一個實施方式中,生物過程包括CpG甲基化測量。優選地,該方法包括將參數指數衰減公式擬合到概率密度函數,并且在擬合參數指數衰減公式后還將參數埃爾米特(Hermite)多項式擬合到殘差。
優選地,概率密度函數是以下形式f (z) = Q_1pe_p|z| [l+qH3 (I z |)]其中|x|是CpG甲基化的絕對值,P和q是參數,H3(Z)是z3_3z形式的3階埃爾米特多項式,并且Q是規范化常數。可利用最大似然方法獲得參數P和q。附圖簡述現在將參考附圖描述本發明的優選形式,在附圖中
圖1展示了在來自相同樣品的相同CpG的兩次甲基化測量之間的1440個重復測量結果的偏差的直方圖。盡管不明顯,約3%的值大于絕對值O. 2 ;圖2展示了 CpG 2的甲基化比例的直方圖。圖3展示了 SGA和AGA個體的H19基因的CpG 4的甲基化比例的箱圖。圖4展示了在優選實施方式中提供的一系列步驟。優選的和其他的實施方式的描述在優選實施方式中,對甲基化測量中的潛在誤差測量結果進行了廣泛分析。從該廣泛分析獲取許多因子并且定義了可選的、更有效的概率密度函數。在進行對CpG甲基化測量結果的頻率分布的大規模測量以后,獲取優選實施方式的初始概率密度函數。經檢查,發現CpG甲基化測量結果的頻率分布包括適合的概率密度需要描述的兩個重要特征頻率分布具有高偏斜度(degree ofskew),具有高頻極值。頻率分布被界定在的值之間,代表了如下情況在測量的細胞群體中測量結果不能是小于零或大于100%的甲基化。這兩個特征意味著描述由諸如Sequenom機器測量的CpG甲基化的概率密度跟正態頻率分布差得遠。從經驗測量獲取的實例顯示在圖1中。圖1展示了在來自相同樣品的相同CpG的兩次甲基化測量之間的1440個重復測量結果的偏差的直方圖。約3%的值大于絕對值O. 2。如所展示的,該分布可視為是非高斯分布。在這些情況下,應用最小二乘法程序的基于甲基化測量結果的估計和推斷可能是無效的且可能是誤導的。優選實施方式提供了基于在Sequenom機器上進行的對相同樣品的大量重復測量、在給定基因的啟動子中、在給定CpG位點測量的甲基化比例的概率密度。確定了基于這種概率密度的最大似然估計量,并將其應用于使CpG甲基化的比例與多種表型測量相關聯。優選實施方式的方法提供了改進的估計值可靠性。為了獲取適當的概率密度函數,對1440份人髓組織(cord tissue)樣品進行了兩次Sequenom測量并且記錄了測量結果之間的差異。這種差異代表在CpG甲基化測量中歸因于環境因子的偏差。在優選實施方式中,提供了適于描述CpG甲基化測量中的測量偏差的適合的概率密度描述的新形式。概率密度函數逼近涉及關于“關鍵”或基礎參數概率密度擴展埃爾米特多項式系。基礎概率密度函數是指數概率密度。實際上,埃爾米特多項式系添加到“關鍵”概率密度調整了更高的矩(moment),尤其是偏斜度(經3階埃爾米特多項式)和峰度(經4階埃爾米特多項式)。根據對圖1中直方圖的檢查,確定選擇拉普拉斯(Laplace)概率密度作為關鍵函數。這種分布也稱為二重指數分布,實際上是以零為中心的背靠背指數概率密度(back toback exponential probability density)。該分布適于描述可采取正值或負值的隨機變量,每個域具有指數概率密度。拉普拉斯概率密度是2個隨機變量之間的差的結果,且每個所述隨機變量來自指數分布。指數概率密度具有“無記憶性”的特性。還描述了其中在極端事件之間存在時間的常概率的隨機過程。也就是說,指數概率密度描述了如下情況:具有明顯偏離的CpG甲基化特征的細胞被發現具有常概率。如果樣品包含與該樣品中的細胞主體作用不同的細胞的話將是這樣的情況,不管是因為該作用不同的細胞具有不同類型還是因為某種其他原因。然而,發現將指數分布直接擬合到甲基化數據是不良的,尤其是不能正確地描述這種頻率分布的尾。為了解決這個問題,通過添加埃爾米特多項式,使用與Buckland, S.T, “Maximum Likelihood fitting of Hermite and simple polynomialdensities (埃爾米特和簡單多項式密度的最大似然擬合)”,Applied Statistics41: (1)241-266, (Buckland(1992b))中描述的算法類似的算法,調整拉普拉斯概率密度。這種計算顯示加上3階埃爾米特多項式更準確地描述圖1中顯示的CpG甲基化頻率分布。因而,描述CpG甲基化數據的概率密度可被描述為:
權利要求
1.一種測量生物過程的方法,該方法包括以下步驟: (a)確定用于生物過程的一系列重復測量結果的概率密度函數; (b)利用參數公式逼近所述概率密度函數; (C)確定用于所述概率密度函數的參數公式化的最大似然估計量; (d)將所述最大似然估計量用于所述生物過程的隨后測量結果。
2.如權利要求1所述的方法,其中所述生物過程包括Cp甲基化測量。
3.如任一前述權利要求所述的方法,所述方法包括將參數指數衰減公式擬合到所述概率密度函數。
4.如權利要求3所述的方法,其中還包括在擬合所述參數指數衰減公式后將參數埃爾米特多項式擬合到殘差。
5.如權利要求2所述的方法,其中所述概率密度函數為以下形式: f (z) = CTWp|z|[l+qH3(|z|)] 其中|X|是CpG甲基化的絕對值,P和q是參數,H3(Z)是3階埃爾米特多項式,并且Q是規范化常數。
6.如權利要求5 所述的方法,其中H3(Z)為以下形式:z3-3z。
7.如權利要求5所述的方法,其中利用最大似然過程獲得所述參數P和q。
8.如權利要求5所述的方法,其中利用對數似然優化過程優化所述函數。
9.一種實質上如此前所描述的參考附圖測量生物過程的方法。
全文摘要
一種測量生物過程的方法,該方法包括以下步驟(a)確定用于生物過程的一系列重復測量結果的概率密度函數;(b)利用參數公式逼近所述概率密度函數;(c)確定用于所述概率密度函數的參數公式化的最大似然估計量;和(d)將所述最大似然估計量用于所述生物過程的隨后測量結果。
文檔編號C12Q1/68GK103080943SQ201080051680
公開日2013年5月1日 申請日期2010年11月15日 優先權日2009年11月18日
發明者安東尼·布萊恩·普萊曾茨, 卡梅倫·安格斯·麥克萊因, 格雷姆·查爾斯·韋克, 艾倫·邁克爾·謝潑德, 皮特·大衛·格盧克曼 申請人:奧克蘭聯合服務有限公司