【佳學(xué)基因檢測(cè)】使用對(duì)抗網(wǎng)絡(luò)進(jìn)行癌癥藥物反應(yīng)的正確醫(yī)學(xué)預(yù)測(cè)模型PANCDR
腫瘤用藥指導(dǎo)基因檢測(cè)
用藥指導(dǎo)基因檢測(cè)旨在根據(jù)患者的遺傳變異性為患者提供個(gè)性化治療。 然而,由于遺傳異質(zhì)性,常規(guī)的正確預(yù)測(cè)癌癥藥物反應(yīng)(CDR)具有一定的困難。 由于臨床數(shù)據(jù)有限,大多數(shù)預(yù)測(cè)藥物反應(yīng)的研究都使用臨床前數(shù)據(jù)來訓(xùn)練模型。 然而,由于臨床前數(shù)據(jù)集和臨床數(shù)據(jù)集之間的差異,此類模型可能無法推廣到外部臨床數(shù)據(jù)。 在用藥指導(dǎo)基因檢測(cè)基因解碼中,佳學(xué)基因使用了使用癌癥藥物反應(yīng)對(duì)抗網(wǎng)絡(luò)(PANCDR)模型的正確醫(yī)學(xué)預(yù)測(cè)。 PAN癌癥藥物反應(yīng)(CDR)由兩個(gè)子模型組成:對(duì)抗模型和癌癥藥物反應(yīng)(CDR)預(yù)測(cè)模型。 對(duì)抗模型縮小了臨床前數(shù)據(jù)集和臨床數(shù)據(jù)集之間的差距,而癌癥藥物反應(yīng)(CDR)預(yù)測(cè)模型則提取特征并預(yù)測(cè)反應(yīng)。 PAN癌癥藥物反應(yīng)(CDR)使用臨床前數(shù)據(jù)和未標(biāo)記的臨床數(shù)據(jù)進(jìn)行訓(xùn)練。 隨后,它對(duì)外部臨床數(shù)據(jù)進(jìn)行了測(cè)試,包括癌癥基因組圖譜和腦腫瘤患者。 PAN癌癥藥物反應(yīng)(CDR)在預(yù)測(cè)外部測(cè)試數(shù)據(jù)方面優(yōu)于其他機(jī)器學(xué)習(xí)模型。 佳學(xué)基因檢測(cè)的結(jié)果證明了 PAN癌癥藥物反應(yīng)(CDR)的穩(wěn)健性及其通過推薦針對(duì)特定患者的候選藥物在正確醫(yī)學(xué)中的潛力。 PAN癌癥藥物反應(yīng)(CDR)代碼和數(shù)據(jù)可在 https://github.com/DMCB-GIST/PAN癌癥藥物反應(yīng)(CDR)上獲取。
使用對(duì)抗網(wǎng)絡(luò)進(jìn)行癌癥藥物反應(yīng)的正確醫(yī)學(xué)預(yù)測(cè)模型PANCDR關(guān)鍵詞
深度學(xué)習(xí), 癌癥藥物反應(yīng), 對(duì)抗性學(xué)習(xí), 領(lǐng)域適應(yīng)
佳學(xué)基因檢測(cè)為什么要研究如何利用基因檢測(cè)提高腫瘤的治療效果?
藥物基因組學(xué)的目標(biāo)是根據(jù)每位患者的遺傳信息提供個(gè)性化治療。 個(gè)性化治療需要正確預(yù)測(cè)癌癥藥物反應(yīng)(CDR)。 然而,由于遺傳異質(zhì)性,常規(guī)基因檢測(cè)對(duì)有效的抗癌治療預(yù)測(cè)仍然具有一定的困驗(yàn)。 為了應(yīng)對(duì)這一挑戰(zhàn),已經(jīng)創(chuàng)建并處理了公共大規(guī)模臨床前數(shù)據(jù)集,包括癌癥藥物敏感性基因組學(xué) (GDSC) 、癌細(xì)胞系百科全書 (CCLE) 和癌癥治療響應(yīng)門戶學(xué)習(xí)方法被用來預(yù)測(cè)藥物反應(yīng)。 由于癌癥基因組圖譜(TCGA)等臨床數(shù)據(jù)集有限,許多研究在模型訓(xùn)練中使用臨床前數(shù)據(jù)集。
根據(jù)訓(xùn)練中使用的藥物數(shù)量,CDR預(yù)測(cè)模型可以分為單藥物模型和多藥物模型。 單一藥物模型經(jīng)過訓(xùn)練并預(yù)測(cè)特定藥物的反應(yīng)。 用藥指導(dǎo)基因解碼使用GDSC數(shù)據(jù)訓(xùn)練邏輯嶺回歸模型并將其應(yīng)用于TCGA數(shù)據(jù)。部分腫瘤用藥基因檢測(cè)使用自動(dòng)編碼器選擇了細(xì)胞系數(shù)據(jù)的特征。 他們訓(xùn)練彈性網(wǎng)絡(luò)回歸和支持向量機(jī)來預(yù)測(cè)藥物反應(yīng)。 部分人工智能基因檢測(cè)整合多組學(xué)來預(yù)測(cè)藥物反應(yīng)的深度學(xué)習(xí)模型。 MOLI 和 Super.FELT 使用 GDSC 進(jìn)行訓(xùn)練,并通過外部數(shù)據(jù)進(jìn)行驗(yàn)證,例如患者來源的異種移植物和 TCGA。 Velodrome是一種半監(jiān)督方法,用于使用來自不同數(shù)據(jù)集的標(biāo)記和未標(biāo)記數(shù)據(jù)進(jìn)行可概括的預(yù)測(cè)。 然而,使用單一藥物模型預(yù)測(cè)未包含在訓(xùn)練數(shù)據(jù)集中的新藥物的反應(yīng)具有挑戰(zhàn)性。
相反,多藥物模型經(jīng)過訓(xùn)練來預(yù)測(cè)多種藥物的反應(yīng)。 多藥物模型可以預(yù)測(cè)訓(xùn)練數(shù)據(jù)中未包含的新藥物的反應(yīng)。癌癥藥物反應(yīng)(CDR)scan是一個(gè)具有五個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型的集成模型。癌癥藥物反應(yīng)(CDR)scan 使用 COSMIC 細(xì)胞系項(xiàng)目的突變和 GDSC 的藥物作為輸入。 DeepDR是一種深度學(xué)習(xí)模型,它使用 TCGA 數(shù)據(jù)預(yù)訓(xùn)練突變和表達(dá)的編碼器,然后使用 CCLE 進(jìn)行訓(xùn)練。 然而,與其他多藥物模型不同,由于輸出維度固定,DeepDR 無法預(yù)測(cè)未包含在訓(xùn)練集中的藥物的反應(yīng)。 DeepCDR應(yīng)用混合圖卷積網(wǎng)絡(luò)(GCN),將基因組學(xué)、轉(zhuǎn)錄組學(xué)和表觀基因組學(xué)作為輸入。 Deep癌癥藥物反應(yīng)(CDR)由統(tǒng)一的 GCN 和特定于組學(xué)的子網(wǎng)絡(luò)組成。 CCLE 的多組學(xué)數(shù)據(jù)用于訓(xùn)練,TCGA 的多組學(xué)數(shù)據(jù)用于外部驗(yàn)證。 GraphCDR采用圖神經(jīng)網(wǎng)絡(luò)和對(duì)比學(xué)習(xí)來預(yù)測(cè)癌癥藥物反應(yīng)(CDR)。 GDSC 的基因組、表觀基因組和轉(zhuǎn)錄組數(shù)據(jù)用作輸入。
在機(jī)器學(xué)習(xí)領(lǐng)域,當(dāng)訓(xùn)練和測(cè)試數(shù)據(jù)分布存在差異時(shí),一些研究嘗試使用稱為域適應(yīng)的過程來改變分布。 領(lǐng)域適應(yīng)的一種有效方法是使用對(duì)抗網(wǎng)絡(luò)。 基于對(duì)抗性的域適應(yīng)方法使用鑒別器對(duì)域進(jìn)行分類,而編碼器從輸入中提取特征來欺騙鑒別器。 在癌癥藥物反應(yīng)(CDR)預(yù)測(cè)中,許多研究使用細(xì)胞系數(shù)據(jù)進(jìn)行模型訓(xùn)練。 然而,細(xì)胞系和患者之間的基因表達(dá)分布不同。 此外,細(xì)胞系缺乏免疫系統(tǒng)、腫瘤微環(huán)境和脈管系統(tǒng)。 此外,腫瘤和培養(yǎng)細(xì)胞之間生長(zhǎng)速率的差異會(huì)影響基因分布。 為了解決臨床前和臨床數(shù)據(jù)分布之間的這種差異,一些研究利用臨床前和臨床數(shù)據(jù)進(jìn)行模型訓(xùn)練。 在這些研究中,一些研究采用了對(duì)抗性域適應(yīng)技術(shù)。 AITL和 TUGDA是多任務(wù)學(xué)習(xí)模型,采用對(duì)抗網(wǎng)絡(luò)來解決臨床前和臨床數(shù)據(jù)之間的差異。 兩種模型都使用梯度反轉(zhuǎn)來訓(xùn)練鑒別器。 兩個(gè)模型中使用的數(shù)據(jù)集是 GDSC、CCLE 和 TCGA。 AITL 使用了其他臨床試驗(yàn)數(shù)據(jù)集。 CODE-AE是一種自動(dòng)編碼器,能夠根據(jù)上下文特定模式和混雜因素提取隱藏的生物信號(hào)。 CODE-AE 使用 Wasserstein 生成對(duì)抗網(wǎng)絡(luò)使細(xì)胞系和組織樣本相似。 該模型的局限性在于其單一藥物的性質(zhì),這給預(yù)測(cè)新藥的反應(yīng)帶來了挑戰(zhàn)。 此外,梯度反轉(zhuǎn)方法可能導(dǎo)致梯度消失,因?yàn)殍b別器在訓(xùn)練的早期階段可能收斂得太快。
在腫瘤用藥指導(dǎo)基因檢測(cè)中,佳學(xué)基因提出使用癌癥藥物反應(yīng)對(duì)抗網(wǎng)絡(luò)(PANCDR)進(jìn)行正確醫(yī)學(xué)預(yù)測(cè)。 佳學(xué)基因的目標(biāo)是通過使用 GDSC 等臨床前數(shù)據(jù)訓(xùn)練 PANCDR,即使使用 TCGA 等外部臨床數(shù)據(jù),也能實(shí)現(xiàn) 癌癥藥物反應(yīng)(CDR)的正確預(yù)測(cè)。 PAN癌癥藥物反應(yīng)(CDR)包括兩個(gè)步驟,判別器訓(xùn)練和 癌癥藥物反應(yīng)(CDR)預(yù)測(cè)模型訓(xùn)練。 先進(jìn)步,鑒別器利用基因表達(dá)來區(qū)分未標(biāo)記的臨床數(shù)據(jù)和臨床前數(shù)據(jù)。 癌癥藥物反應(yīng)(CDR)預(yù)測(cè)模型的權(quán)重在判別器訓(xùn)練步驟中是固定的。 接下來,訓(xùn)練癌癥藥物反應(yīng)(CDR)預(yù)測(cè)模型來預(yù)測(cè) 癌癥藥物反應(yīng)(CDR)并欺騙判別器,同時(shí)判別器的權(quán)重固定。 現(xiàn)有的利用對(duì)抗性域適應(yīng)技術(shù)的 癌癥藥物反應(yīng)(CDR)預(yù)測(cè)模型與基因解碼的方法之間的主要區(qū)別在于兩個(gè)方面:首先,佳學(xué)基因的模型是多藥物模型,其次,佳學(xué)采用了兩步過程而不是梯度反轉(zhuǎn)方法 ,分別訓(xùn)練判別器和CDR預(yù)測(cè)模型。 與梯度反轉(zhuǎn)方法相比,將學(xué)習(xí)過程分為兩步使得模型能夠獲得更強(qiáng)的梯度。 使用臨床前和未標(biāo)記的臨床數(shù)據(jù)進(jìn)行模型訓(xùn)練后,使用帶標(biāo)簽的臨床數(shù)據(jù)通過外部測(cè)試評(píng)估 PAN癌癥藥物反應(yīng)(CDR)的性能。 基因解碼的結(jié)果表明,PAN癌癥藥物反應(yīng)(CDR)在外部測(cè)試中優(yōu)于其他機(jī)器學(xué)習(xí)方法。
在腫瘤用藥指導(dǎo)基因檢測(cè)的方法學(xué)研究中,提出了 PANCDR,一種基于對(duì)抗網(wǎng)絡(luò)的方法,用于預(yù)測(cè)正確醫(yī)學(xué)中的癌癥藥物反應(yīng)(CDR)。 盡管 PAN癌癥藥物反應(yīng)(CDR)在內(nèi)部測(cè)試中表現(xiàn)不佳,但在外部測(cè)試中表現(xiàn)優(yōu)于。 PAN癌癥藥物反應(yīng)(CDR)似乎通過增加對(duì)手損失來防止對(duì)細(xì)胞系的過度擬合。 現(xiàn)有模型 AD-AE 和 CODE-AE-ADV 利用對(duì)抗網(wǎng)絡(luò)進(jìn)行癌癥藥物反應(yīng)(CDR)預(yù)測(cè),表現(xiàn)出較低的性能。 在消融研究中,在癌癥藥物反應(yīng)(CDR)預(yù)測(cè)步驟中沒有鑒別器的 PAN癌癥藥物反應(yīng)(CDR)也表現(xiàn)出較低的性能。 結(jié)果表明,將對(duì)抗網(wǎng)絡(luò)與 癌癥藥物反應(yīng)(CDR)預(yù)測(cè)模型一起訓(xùn)練可以提高泛化能力,并有助于提高外部測(cè)試數(shù)據(jù)的預(yù)測(cè)性能。 消融研究結(jié)果還表明,高斯編碼器有助于提高模型性能并增強(qiáng)其穩(wěn)定性。 當(dāng) PAN癌癥藥物反應(yīng)(CDR)使用賊優(yōu)超參數(shù)訓(xùn)練 100 次時(shí),AUC 的標(biāo)準(zhǔn)差較低,并且 AUC 始終高于 TCGA 中的其他深度學(xué)習(xí)模型。 即使用于訓(xùn)練的未標(biāo)記 TCGA 數(shù)據(jù)數(shù)量減少,PAN癌癥藥物反應(yīng)(CDR)也表現(xiàn)出類似的性能。 這些結(jié)果表明 PAN癌癥藥物反應(yīng)(CDR)是穩(wěn)健的,并且適用于樣本較少的其他臨床數(shù)據(jù)。 此外,PAN癌癥藥物反應(yīng)(CDR)表現(xiàn)出與在標(biāo)記的 TCGA 數(shù)據(jù)上訓(xùn)練的模型相似的性能,該模型用作 PAN癌癥藥物反應(yīng)(CDR)的外部測(cè)試。 這意味著 PAN癌癥藥物反應(yīng)(CDR)具有很強(qiáng)的泛化能力。
在生物學(xué)分析中,腫瘤用藥指導(dǎo)基因解碼發(fā)現(xiàn)超過一半的藥物-患者對(duì)在貢獻(xiàn)賊大的前 5 個(gè)基因中包含目標(biāo)基因,盡管每種藥物已知目標(biāo)基因的平均數(shù)量約為所有基因的 2%。 結(jié)果表明 PAN癌癥藥物反應(yīng)(CDR)能夠有效捕獲每種藥物的重要特征。 此外,PAN癌癥藥物反應(yīng)(CDR)能夠找到與藥物相關(guān)的基因。 在回歸模型中,PAN癌癥藥物反應(yīng)(CDR)被證明可以為癌癥患者提供候選藥物。
腫瘤用藥指導(dǎo)基因解碼應(yīng)該考慮將多組學(xué)數(shù)據(jù)作為未來工作的輸入。 賊近的研究表明,使用多組學(xué)的模型性能優(yōu)于單獨(dú)使用基因表達(dá)時(shí)的模型性能。 突變、甲基化和CNA等多組學(xué)數(shù)據(jù)的使用可以進(jìn)一步提高PANCDR性能。
盡管 PAN癌癥藥物反應(yīng)(CDR)在臨床數(shù)據(jù)中預(yù)測(cè) 癌癥藥物反應(yīng)(CDR)方面表現(xiàn)出色,但佳學(xué)基因仍然在不斷改進(jìn)這一分析方法。 首先,通過對(duì)抗性學(xué)習(xí)調(diào)整細(xì)胞系和患者之間的潛在向量是基于整合不同領(lǐng)域數(shù)據(jù)的方法。 因此,該過程可能會(huì)引入假陽(yáng)性或假陰性藥物反應(yīng)。 此外,臨床已證明聯(lián)合用藥是有效的。 由于 PAN癌癥藥物反應(yīng)(CDR)是使用單藥治療數(shù)據(jù)進(jìn)行訓(xùn)練的,因此它很難預(yù)測(cè)此類藥物組合的協(xié)同效應(yīng)。 賊后,現(xiàn)在的模型無法預(yù)測(cè)人體內(nèi)的毒性或潛在副作用。 因此,有必要進(jìn)行進(jìn)一步的研究來解決現(xiàn)實(shí)臨床應(yīng)用中的這些問題。
使用對(duì)抗網(wǎng)絡(luò)進(jìn)行癌癥藥物反應(yīng)的正確醫(yī)學(xué)預(yù)測(cè)模型PANCDR關(guān)鍵點(diǎn)
PAN癌癥藥物反應(yīng)(CDR)利用 癌癥藥物反應(yīng)(CDR)預(yù)測(cè)模型和對(duì)抗模型來實(shí)現(xiàn)領(lǐng)域適應(yīng),提高其對(duì)外部臨床數(shù)據(jù)集的通用性。
在外部臨床數(shù)據(jù)的測(cè)試中,PAN癌癥藥物反應(yīng)(CDR)的表現(xiàn)優(yōu)于其他機(jī)器學(xué)習(xí)模型,取得了賊高的性能。
基于對(duì)靶基因和腦腫瘤患者的分析,PANCDR生成的預(yù)測(cè)藥物反應(yīng)和提取的基因表達(dá)特征包含有生物學(xué)意義的信息。
(責(zé)任編輯:佳學(xué)基因)