【佳學基因檢測】基因解碼如何更好的分析線粒體基因突變檢測

線粒體基因檢測后的突變位點注釋

在2013 年 2 月，ANNOVAR 可以注釋線粒體變異，在對線粒體突變進行解碼和注釋時，染色體采用 M 、 MT、chrM 或 chrMT進行標記。在這種情況下，基因解碼分析系統(tǒng)將調(diào)用線粒體專屬密碼子表以分析基因序列變化而引起的結(jié)構(gòu)變化，這是基因解碼優(yōu)與常規(guī)分析方法之一。然而，有幾個方面需要注意：

RefSeq 沒有線粒體基因定義。因此使用 ANNOVAR方法時行注釋時，需要使用 UCSC Known Gene 或 Ensembl Gene。

佳學基因解碼發(fā)現(xiàn)UCSC 的 hg19 參照序列使用舊版本的線粒體基因組 (NC_001807)，但 1000 基因組聯(lián)盟已用賊新的劍橋參考序列版本 (NC_012920) 取代了 chrM。因此，如果根據(jù) NC_012920 對序列進行比對，并獲得突變序列信息，就會無法真正使用 UCSC 的基因定義來對突變序列進行解釋。基因解碼在進行基因序列分析必須堅持使用相同的坐標體系。為了更好地解釋這一點，當基因測序以FASTQ 文件形式獲取原始序列數(shù)據(jù)時，如果將數(shù)據(jù)與 UCSC 編譯的參考基因組進行比對（通常文件名類似于 hg19.fa，并且有一些染色體的名稱如 chrx_random），那么可以直接使用ANNOVAR將所有的突變序列一起注釋。線粒體突變序列將是那些與 chrM 相符的突變序列，2013 年 2 月版本的 ANNOVAR 可以正確注釋它們。基因解碼研究人員編寫了一個用于兩個參考序列之間位置轉(zhuǎn)換的程序文件，并用它來將 GRCh37 文件匹配到 hg19 文件。通過在 hg19 參考序列 (AF347015.1) 上使用retrieve_seq_from_fasta.pl，將為基于 hg19 的線粒體注釋生成后續(xù)的解釋文件。

許多基因檢測及測序機構(gòu)沒有意識到的一個伴隨性的結(jié)果，Ensemble 對線粒體基因存在注釋錯誤（通常是幾個堿基對），因此不應使用 Ensembl 的基因注釋。舉個簡單的例子，你可以在 UCSC 基因組瀏覽器中搜索 ENST00000389680：當 Gencode 列出位置為 chrM:650-1603 時，Ensembl 注釋顯示為 chrM:646-1599，這里有個4bp的差異。由于這些原因，當調(diào)用 hg19 坐標上的基因突變序列時，應該使用佳學基因解碼提供的文件進行線粒體注釋，以確何線?；蛲蛔冃蛄袡z出的正確性。

為了生物信息分析人員更容易做到這一點，基因解碼提供兩個文件：ANNOVAR中humandb/ 目錄中的 hg19_MT_ensGene.txt 和 hg19_MT_ensGeneMrna.fa。 -buildver 是 hg19_MT，-dbtype 是 ensGene。

但是，如果將原始 FASTQ 文件與具有 NC_012920 的參考基因組（例如 1000 Genomes Project 提供的基因組，通常文件名類似于 human_g1k_v37.fasta）進行比對，那么需要使用具有 NC_012920 的自定義基因定義文件 NC_012920 的正確線粒體基因定義。基因解碼提供了此類基于Ensemble定義的文件。請注意，染色體名稱通常應為 MT（2013 年 6 月之前，基因解碼操作說明文件中使用 chrM，這導致一些 ANNOVAR的生物信息技術(shù)人員感到困惑，因此基因解碼隨后將其更改為 MT 并使用 GRCh37 的標準）。在這種情況下，應該使用以下命令來注釋線粒體變體：annotate_variation.pl -buildver GRCh37_MT -dbtype ensGene mt.avinput humandb/。

為了讓基因檢測機構(gòu)的生物信息分析更容易做到這一點，基因解碼現(xiàn)在在 ANNOVAR 包 humandb/ 目錄中提供了兩個文件 GRCh37_MT_ensGene.txt.gz 和 GRCh37_MT_ensGeneMrna.fa.gz。 -buildver 是 GRCh37_MT，-dbtype 是 ensGene。

(責任編輯：佳學基因)