【佳學(xué)基因檢測】提高乳腺癌 靶向用藥 基因檢測正確性的人工智能分析方法S-PrediXcan

佳學(xué)基因不斷提升腫瘤 靶向藥物分析的智能算法

在基因檢測領(lǐng)域，雖然佳學(xué)基因提供的報告是針對每一個患者的。以乳腺癌為例，佳學(xué)基因的質(zhì)量控制程序中，首先要求獲得的信息要全，測得的基因序列要多。盡管很多機構(gòu)為了降低檢測成本，采用各種患者不理解的方式降低檢測范圍，佳學(xué)基因始終以推薦更全的基因序列以為乳腺癌者獲得靶向藥物、化療藥物選擇的可能性。靶向藥物基因檢測的第二個質(zhì)量控制或者是影響藥物選擇有效性的方法是基因信息的解碼算法。佳學(xué)基因不僅推出了基于結(jié)構(gòu)的基因解碼分析方法，克服了數(shù)據(jù)庫分析方法的局限性。同時還從多種角度提升分析的正確性和全面性，人工智能、神經(jīng)網(wǎng)絡(luò)算法是佳學(xué)基因重點投入的另一個領(lǐng)域。

乳腺癌靶向藥物基因檢測人工智能云分析的實現(xiàn)措施

佳學(xué)基因在多次騰訊課堂中展示了乳腺癌靶向藥物治療云計算人工智能方法Summary PrediXcan，采用這一分析主法分析了乳腺癌預(yù)測基因表達與表型之間關(guān)聯(lián)的Z評分（Wald統(tǒng)計）的主要分析表達式。在乳腺癌靶向藥物正確度分析中的輸入變量是用于預(yù)測給定基因表達的權(quán)重、預(yù)測中包含的標(biāo)記的方差和協(xié)方差以及每個標(biāo)記的GWAS系數(shù)。原則上，公式中的賊后一個因子可以使計算更正確。但這一額外參數(shù)無法在經(jīng)典的GWAS匯總統(tǒng)計分析結(jié)果中并不存在。這些智能分析因子包括表型方差和樣本量。但佳學(xué)基因開發(fā)的這一分析體系從計算公式中刪除不會影響結(jié)果的正確性。佳學(xué)基因的多次結(jié)果示例中顯示了S-PrediXcan和PrediXcan智能算法的一致性。

其中wlg是SNP l在預(yù)測基因g表達中的權(quán)重；βˆl是SNP l的GWAS回歸系數(shù)；se（βˆl）是βˆ的標(biāo)準(zhǔn)誤差，σˆl是SNP l的估計方差，σˆg是基因g預(yù)測表達的估計方差；假設(shè)劑量和替代等位基因相同。

為了實現(xiàn)乳腺癌靶向藥物基因檢測的準(zhǔn)克計算，佳學(xué)基因需要準(zhǔn)備三個不同來源的數(shù)據(jù)：研究集（如GWAS研究集）、表達訓(xùn)練集（如GTEx、DGN）、群體參考集（如訓(xùn)練集或1000基因組）。

研究集是收集與乳腺癌靶向藥物治療相關(guān)聯(lián)的基因型和表型的主要數(shù)據(jù)集?；貧w系數(shù)和標(biāo)準(zhǔn)誤差是根據(jù)研究集中的個體水平數(shù)據(jù)或多個GWAS的SNP水平薈萃分析計算的。訓(xùn)練集是用于預(yù)測模型（GTEx、DGN、Framingham等）訓(xùn)練的參考轉(zhuǎn)錄組數(shù)據(jù)集，因此權(quán)重wlg是從該集合計算出來的。訓(xùn)練集也可用于生成遺傳標(biāo)記的方差和協(xié)方差，這通常與研究集不同。當(dāng)訓(xùn)練集中沒有個體水平的數(shù)據(jù)時，乳腺癌靶向用藥云計算中使用群體參考集，如1000個基因組數(shù)據(jù)。在通常的運算過程中，佳學(xué)基因優(yōu)化了計算算法，基因解碼工程師將只需要使用他們的研究集提供GWAS結(jié)果。其余參數(shù)都已經(jīng)預(yù)先計算的，并在PredictDB中發(fā)布。

(責(zé)任編輯：佳學(xué)基因)