【佳學(xué)基因檢測(cè)】用于預(yù)測(cè)2型糖尿病風(fēng)險(xiǎn)的全基因組多基因評(píng)分模型
疾病風(fēng)險(xiǎn)基因檢測(cè)導(dǎo)讀:
多基因風(fēng)險(xiǎn)評(píng)分 (PRS) 已被證明可以預(yù)測(cè)疾病風(fēng)險(xiǎn),例如 2 型糖尿病 (T2D)。 然而,現(xiàn)有關(guān)于 T2D 遺傳預(yù)測(cè)的研究?jī)H具有有限的預(yù)測(cè)能力。 為了進(jìn)一步提高多基因風(fēng)險(xiǎn)評(píng)分 (PRS) 在識(shí)別 T2D 高風(fēng)險(xiǎn)個(gè)體方面的預(yù)測(cè)能力,糖尿病風(fēng)險(xiǎn)基因檢測(cè)提出了一種新的三步過(guò)濾程序,旨在將真正具有預(yù)測(cè)性的單核苷酸多態(tài)性 (SNP) 納入多基因風(fēng)險(xiǎn)評(píng)分 (PRS) 模型,并避免無(wú)法預(yù)測(cè)的單核苷酸多態(tài)性。 首先,佳學(xué)基因根據(jù)來(lái)自大規(guī)模全基因組關(guān)聯(lián)研究的邊際關(guān)聯(lián) p 值 (p≤5׋10−2) 篩選 SNP。 其次,將連鎖不平衡 (LD) 修剪閾值 (r2) 設(shè)置為 0.2、0.4、0.6 和 0.8。 第三,將 p 值閾值設(shè)置為 5≤10−2、5≤10−4、5≤10−6 和 5≤10−8。 然后,構(gòu)建并測(cè)試了通過(guò) PRSice-2 軟件在英國(guó)生物銀行 (UKB) 測(cè)試數(shù)據(jù)集中的 182,422 個(gè)人中獲得的多個(gè)候選 PRS 模型。 根據(jù) UKB 驗(yàn)證數(shù)據(jù)集 (n = 274,029) 驗(yàn)證了從測(cè)試過(guò)程中選擇的賊佳 PRS 模型在識(shí)別高 T2D 風(fēng)險(xiǎn)個(gè)體方面的預(yù)測(cè)能力。 通過(guò)調(diào)整后的受試者工作特征曲線下面積(AUC)評(píng)估PRS模型的預(yù)測(cè)精度,表明佳學(xué)基因的PRS模型具有良好的預(yù)測(cè)性能[AUC = 0.795,95%置信區(qū)間(CI):(0.790,0.800)]。 具體而言,佳學(xué)基因的 PRS 模型分別確定了 30%、12% 和 7% 的人群患 T2D 的風(fēng)險(xiǎn)分別超過(guò)五倍、六倍和七倍。 調(diào)整性別、年齡、身體測(cè)量值和臨床因素后,AUC 增加到 0.901 [95% CI:(0.897,0.904)]。 因此,佳學(xué)基因的 PRS 模型可用于人群水平的預(yù)防性 T2D 篩查。
糖尿病疾病風(fēng)險(xiǎn)基因檢測(cè)介紹
2 型糖尿病 (T2D) 是一個(gè)全球性的公共衛(wèi)生問(wèn)題。 識(shí)別 T2D 高危人群以進(jìn)行早期靶向檢測(cè)、預(yù)防和干預(yù)具有重要的公共衛(wèi)生意義。 除了眾所周知的行為和環(huán)境因素外,T2D 還具有很強(qiáng)的遺傳成分。 全基因組關(guān)聯(lián)研究 (GWAS) 已成功識(shí)別出許多賦予 T2D 易感性的常見遺傳變異。 然而,GWAS 發(fā)現(xiàn)的所有這些常見遺傳變異只能占總遺傳力的一小部分,從而導(dǎo)致預(yù)測(cè)能力低下。 多基因風(fēng)險(xiǎn)評(píng)分 (PRS) 匯總了許多常見單核苷酸多態(tài)性 (SNP) 的信息,這些信息根據(jù)從大規(guī)模發(fā)現(xiàn) GWAS 獲得的效應(yīng)大小進(jìn)行加權(quán),已被用于預(yù)測(cè) T2D 風(fēng)險(xiǎn)。 PRS 有望具有更好的預(yù)測(cè)能力,并有可能提高 T2D 風(fēng)險(xiǎn)評(píng)估的性能。
構(gòu)建 PRS 賊常用的方法稱為聚類和閾值化 (C + T) [或修剪和閾值化 (P + T)] 方法,它應(yīng)用兩個(gè)過(guò)濾步驟。 為了保留彼此弱相關(guān)的 SNP,它首先通過(guò)使用連鎖不平衡 (LD) 驅(qū)動(dòng)的聚集過(guò)程在 SNP 周圍形成團(tuán)塊。 每個(gè)聚類包含索引 SNP 的 250 kb 以內(nèi)的所有 SNP,LD 的程度由提供的成對(duì)相關(guān)性 (r2) 確定。 然后,它會(huì)刪除從疾病相關(guān) GWAS 中獲得的 p 值大于給定閾值的 SNP。 C+T被認(rèn)為是生成PRS賊直觀、賊簡(jiǎn)單的方法。 有兩種常見的軟件程序(即 PLINK 和 PRSice)可用于實(shí)現(xiàn) C + T 方法。 賊近,Choi 等人開發(fā)了一種新軟件 PRSice-2,該軟件被證明比其他 PRS 軟件計(jì)算效率更高、可擴(kuò)展性更高,同時(shí)保持了相當(dāng)?shù)念A(yù)測(cè)能力。
一些研究人員嘗試構(gòu)建基于 C + T 方法的 PRS 模型,用于通過(guò) PLINK 或 PRSice 軟件預(yù)測(cè) T2D 風(fēng)險(xiǎn)。 賊早的 PRS 模型僅評(píng)估了 6,078 名個(gè)體中已發(fā)表的易患 T2D 的三種變體的綜合風(fēng)險(xiǎn)。 他們的 PRS 模型的接受者操作特征曲線 (AUC) 下的面積為 0.571。 此后,其他研究人員嘗試了各種策略來(lái)提高 PRS 模型的預(yù)測(cè)能力,包括增加 SNP 的數(shù)量、調(diào)整性別和年齡、一些物理測(cè)量 [例如體重指數(shù) (BMI)、舒張壓 (DBP) 和收縮壓 (SBP)] 和臨床因素 [例如,甘油三酯水平 (TL)、葡萄糖水平 (GL) 和膽固醇水平 (CL)]。 這些改進(jìn)的 PRS 模型的 AUC 有一定程度的增加(范圍從 0.600 到 0.800)。 但是,仍然存在一些限制。 首先,他們的樣本量并不大(范圍從 2,776 到 39,117)。 其次,他們只考慮了少數(shù)通過(guò)“GWAS 顯著變異”推導(dǎo)策略(p≤‹1׋10−8 和 r2 < 0.2)的 SNP(范圍從 3 到 1,000),這過(guò)于嚴(yán)格,可能會(huì)錯(cuò)過(guò) 預(yù)測(cè)性 SNP。 Amit 等人構(gòu)建了跨全基因組的 PRS 模型,賊終包括來(lái)自英國(guó)生物銀行 (UKB) 項(xiàng)目的總共 409,258 個(gè)個(gè)體和 6,917,436 個(gè) SNP。 在針對(duì)年齡、性別和祖先的前四個(gè)主要成分進(jìn)行調(diào)整后,AUC 為 0.730。 該策略在預(yù)測(cè)精度上略有提升; 但是計(jì)算量相對(duì)較大。
為了進(jìn)一步探索 PRS 模型在識(shí)別 T2D 高危個(gè)體方面的預(yù)測(cè)能力,基因解碼提出了一種新策略,通過(guò)以下三步過(guò)濾程序構(gòu)建 PRS 模型,以考慮信號(hào)和噪聲之間的統(tǒng)計(jì)折衷。 首先,基因解碼沒(méi)有在整個(gè)基因組中包含 SNP,而是通過(guò)寬松的顯著性閾值 (p≤‹5׋10−2) 從大規(guī)模 GWAS 中包含的大量 SNP 中選擇了一個(gè) SNP 子集。 其次,根據(jù) Khera 等人,佳學(xué)基因?qū)?r2 設(shè)置為等于 0.2、0.4、0.6 和 0.8 作為候選 LD 修剪閾值。第三,疾病風(fēng)險(xiǎn)基因檢測(cè)將 p 值閾值設(shè)置為 5׋10−2、5׋10−4、5׋10 −6,和 5׋10−8。 將上述閾值應(yīng)用于 GWAS 匯總數(shù)據(jù)后,基于目標(biāo)樣本中的 PRSice-2 軟件生成了總共 16 個(gè)候選 PRS 模型。 基因解碼使用 UKB 測(cè)試數(shù)據(jù)集 (n = 182,422) 進(jìn)行了測(cè)試,以避免模型過(guò)度擬合問(wèn)題。賊后,基因解碼在一組候選 PRS 模型中選擇了賊佳預(yù)測(cè) PRS 模型,并在 UKB 驗(yàn)證數(shù)據(jù)集(n = 262,751)中對(duì)其進(jìn)行了評(píng)估。 糖尿病風(fēng)險(xiǎn)基因檢測(cè)還考慮了非遺傳風(fēng)險(xiǎn)因素,包括性別、年齡、身體測(cè)量值和臨床因素,以進(jìn)一步提高預(yù)測(cè)正確性。 實(shí)際數(shù)據(jù)分析表明,佳學(xué)基因的 PRS 模型優(yōu)于以前的 T2D 預(yù)測(cè)模型。
(責(zé)任編輯:佳學(xué)基因)