【佳學(xué)基因檢測(cè)】將基因信息大眾化的第二代高通量測(cè)序技術(shù)（NGS)

第二代測(cè)序技術(shù)也稱(chēng)高通量測(cè)序（high-throughput sequencing，HTS）技術(shù)，相對(duì)于一代測(cè)序，它可以實(shí)現(xiàn)大規(guī)模平行測(cè)序，基本原理是將基因組分割成短片段，對(duì)短片段測(cè)序再進(jìn)行拼接。

對(duì)比先進(jìn)代測(cè)序技術(shù)擁有著高通量、低成本等優(yōu)勢(shì)，目前相同數(shù)據(jù)量的檢測(cè)，其成本約為一代測(cè)序技術(shù)的0.01%，極大地推動(dòng)了測(cè)序技術(shù)在臨床檢測(cè)方面的應(yīng)用。

2005年454公司基于焦磷酸測(cè)序法推出了Genome Sequencer 20 System(GS 20)系統(tǒng)，開(kāi)啟了高通量測(cè)序的進(jìn)程。2007年，羅氏公司收購(gòu)了454，并推出了一系列性能更優(yōu)的NGS系統(tǒng)，極大的提升測(cè)序通量和正確性。

盡管具有讀長(zhǎng)優(yōu)勢(shì)，但是測(cè)序通量和成本始終限制了454平臺(tái)的推廣，同樣數(shù)據(jù)量下成本約是illumina的100倍，因此羅氏在2016年底終止了454NGS測(cè)序相關(guān)的業(yè)務(wù)。

2006年Solexa公司推出了Genome Analyzer系統(tǒng)，包括DNA簇、橋式PCR和可逆阻斷等技術(shù)，這使得GA系統(tǒng)在高通量、低成本、應(yīng)用范圍廣等方面具有明顯優(yōu)點(diǎn)。2007年，Illumina公司收購(gòu)了Solexa并發(fā)布二代測(cè)序儀。

二代測(cè)序經(jīng)過(guò)這些年的發(fā)展已經(jīng)步入成熟期，目前市場(chǎng)上根據(jù)測(cè)序技術(shù)可以可以把二代測(cè)序平臺(tái)分為4類(lèi)：邊合成邊測(cè)序法（Illumina）、半導(dǎo)體測(cè)序法（ThermoFisher）、聯(lián)合探針錨定聚合測(cè)序法(華大智造)和焦磷酸測(cè)序法。

Illumina邊合成邊測(cè)序

Illumina測(cè)序的流程主要包括樣品制備，簇生成，測(cè)序，數(shù)據(jù)分析。

首先是樣本制備和建庫(kù)。用DNA或RNA抽提試劑盒提取核酸，然后用超聲波將其隨即打斷成90-250bp左右的長(zhǎng)度或者控制全部DNA在一定長(zhǎng)度范圍內(nèi)。

為了后續(xù)的擴(kuò)增和測(cè)序，需要在這些DNA片段加入特定的序列。如下圖，分別是與流動(dòng)池引物互補(bǔ)結(jié)合的區(qū)域（P5、P7）、與Read 1和read 2測(cè)序引物結(jié)合的區(qū)域（Rd1SP，Rd2 SP）以及標(biāo)簽序列區(qū)域Index。

圖片

添加完接頭序列的DNA合集稱(chēng)為DNA文庫(kù)，這樣就完成了建庫(kù)，該步驟可以采用商業(yè)化的文庫(kù)制備試劑盒完成。

第二步是成簇Cluster Generation。

成簇是上述DNA片段被擴(kuò)增的過(guò)程，該過(guò)程在流動(dòng)池(Flow cell) 中完成。流動(dòng)池是一種含有8個(gè)通道的厚玻璃片，每條通道中都隨即植入了能與文庫(kù)接頭P5或P7互補(bǔ)結(jié)合的短DNA片段。

圖片

首先引物和流動(dòng)池的固定DNA片段互補(bǔ)配對(duì)，固定在通道表面，然后在DNA聚合酶作用下DNA鏈進(jìn)行互補(bǔ)延伸形成DNA雙鏈。通過(guò)變性，其中的單鏈被洗脫，剩下的一條單鏈會(huì)與旁邊的固定接頭鏈接，形成單鏈橋。

圖片

同樣的，單鏈橋在DNA聚合酶作用下延伸配對(duì)形成雙鏈橋，通過(guò)變性形成2條單鏈，這兩條單鏈又分別與旁邊的固定引物結(jié)合，形成2個(gè)單鏈橋。重復(fù)這個(gè)循環(huán)，賊終形成數(shù)百萬(wàn)的DNA簇。

圖片

上述過(guò)程所有的DNA片段都會(huì)被擴(kuò)增，擴(kuò)增結(jié)束后，反向連會(huì)被切斷洗脫，只留下正向鏈，為防止互補(bǔ)結(jié)合重新形成單鏈橋，3‘端被封鎖。

圖片

第三步，測(cè)序。

首先，在流動(dòng)池中加入熒光標(biāo)記的dNTP和酶，由引物起始開(kāi)始合成子鏈。由于dNTP存在 3’端疊氮基會(huì)阻礙子鏈延伸，因此每個(gè)循環(huán)只能測(cè)得一個(gè)堿基。合成完一個(gè)堿基后，洗掉多余的dNTP和酶，使用激光掃描獲得熒光信號(hào)。

隨后加入試劑將疊氮基團(tuán)與熒光基團(tuán)切除，然后流動(dòng)池再通入熒光標(biāo)記的dNTP和酶，由引物起始開(kāi)始合成一個(gè)堿基。不斷重復(fù)這個(gè)過(guò)程，完成先進(jìn)次讀取。

圖片

所有的DNA片段的一個(gè)堿基會(huì)被同時(shí)讀取，在大規(guī)模并行的過(guò)程中，機(jī)器讀取的圖像類(lèi)似下面這樣：

圖片

同時(shí)，加入了不同的index來(lái)區(qū)分每個(gè)樣本及正負(fù)鏈。在完成先進(jìn)次讀取后，復(fù)制出的鏈會(huì)被洗去，index片段引物被引入并與模板雜交，完成序列讀取后被洗去。這樣讀取到的序列與開(kāi)始時(shí)已知的index比對(duì)后就可以給測(cè)得的序列貼上標(biāo)簽，方便后續(xù)分析。

Paired-end測(cè)序已經(jīng)是現(xiàn)在的主流，要完成雙末端測(cè)序，首先要將模板鏈3’去保護(hù)，模板折疊，index片段引入，在聚合酶參與下形成雙鏈橋，然后變性，恢復(fù)為單鏈，然后將正向鏈切除并洗去，留下反向鏈，與正向鏈類(lèi)似，經(jīng)過(guò)多個(gè)循環(huán)后完成讀取。

第四步，數(shù)據(jù)分析

測(cè)序完成后會(huì)產(chǎn)生數(shù)百萬(wàn)個(gè)reads，基于在樣品準(zhǔn)備時(shí)構(gòu)建的index 分類(lèi)來(lái)自不同樣本的序列。對(duì)于每個(gè)樣品來(lái)說(shuō)，具有相似延伸的堿基被聚在一起。正向和反向read配對(duì)生成連續(xù)序列。這些序列通過(guò)與參考基因組匹配后，實(shí)現(xiàn)完整序列的構(gòu)建。

Thermo Fisher半導(dǎo)體測(cè)序法

賽默飛的Ion Torrent平臺(tái)是基于半導(dǎo)體技術(shù)的高通量測(cè)序儀。該平臺(tái)使用了一種布滿(mǎn)小孔的高密度半導(dǎo)體芯片，一個(gè)小孔就是一個(gè)測(cè)序反應(yīng)池，孔底部帶有感應(yīng)器。

圖片

其測(cè)序的核心技術(shù)是利用半導(dǎo)體技術(shù)進(jìn)行信息讀取，測(cè)序過(guò)程中每當(dāng)有堿基結(jié)合，便會(huì)釋放H+，而氫離子會(huì)引起電勢(shì)的改變從而被檢測(cè)到。通過(guò)對(duì)氫離子的檢測(cè)并轉(zhuǎn)化為電信號(hào)，賊終實(shí)現(xiàn)實(shí)時(shí)堿基判讀。

其測(cè)序的流程主要包括建庫(kù)，油包水PCR，測(cè)序，數(shù)據(jù)分析。

首先是建庫(kù)

與illumina 的 3’端帶突出 T 堿基粘性末端的接頭有所不同，建庫(kù)過(guò)程中DNA兩端加入的是平端接頭（P1）和X或A接頭，X接頭帶有index，A接頭不帶。

圖片

X 接頭帶Barcode 序列（近末端藍(lán)色序列），而A 接頭不帶Barcode 序列。

X 接頭的好處是可以把一個(gè)芯片的測(cè)序通量分配給多個(gè)文庫(kù)，測(cè)完序之后用Barcode 區(qū)分。

A 接頭的好處是直接測(cè)到樣本序列，這樣對(duì)于充分利用測(cè)序的讀長(zhǎng)無(wú)疑是更好的。但是它的缺點(diǎn)是沒(méi)有Barcode，所以一張芯片只能放一個(gè)樣本。

AmpliSeq 是Ion Torrent 平臺(tái)上的建庫(kù)方案，它的核心是通過(guò)多重PCR 的方法，一次從樣本中把要測(cè)序的多個(gè)DNA 片段給擴(kuò)增出來(lái)，然后轉(zhuǎn)化成文庫(kù)進(jìn)行測(cè)序。

圖片

PCR 產(chǎn)物兩端20-30bp 堿基都是 PCR引物的序列，如果將其進(jìn)行測(cè)序，則會(huì)浪費(fèi)掉相當(dāng)一部分測(cè)序讀長(zhǎng)及數(shù)據(jù)量。因此在這個(gè)引物上特別設(shè)計(jì)了一種化學(xué)修飾，這種化學(xué)修飾可以被Fupa試劑所消化，而后的測(cè)序就可以盡可能多地測(cè)到樣本序列。

乳液PCR或油包水PCR

Ion Torrent 測(cè)序前需要把文庫(kù)結(jié)合到測(cè)序微珠上去，并且進(jìn)行擴(kuò)增，此種方法稱(chēng)為油包水PCR，也稱(chēng)Emulsion PCR（乳液PCR）。

EP 管中包含油相和水相，其中水相是核心，油相起到分隔作用。水相中包括文庫(kù)、引物、酶、MasterMix、測(cè)序微珠等PCR反應(yīng)的主要成份。

圖片

測(cè)序微珠的直徑約1~2.4微米，每個(gè)油包水PCR都含有許多微珠，這些微珠的表面共價(jià)連接了許多PCR引物，與P1序列互補(bǔ)。

同時(shí)油包水PCR中的游離PCR引物，其序列與A/X接頭一致，且5‘端都標(biāo)記了生物素。

把引物、酶、測(cè)序微珠等先在水相中混合，再加入油，混合形成乳濁液，油把水相分隔成一個(gè)個(gè)的小水滴。PCR反應(yīng)后，微珠表面就會(huì)長(zhǎng)出水滴內(nèi)所含DNA 文庫(kù)的擴(kuò)增拷貝。

圖片

然后加入帶有鏈霉親和素標(biāo)記的磁珠與微珠進(jìn)行混合。發(fā)生了PCR 的微珠由于其引物上帶有生物素，便會(huì)與磁珠結(jié)合；沒(méi)有發(fā)生PCR 的微珠由于沒(méi)有生物素，不會(huì)與磁珠結(jié)合。接著，用磁鐵吸附富集有效微珠，再清洗掉上清液中沒(méi)有PCR 的微珠，賊后用洗脫液把微珠與磁珠分離開(kāi)來(lái)，進(jìn)行測(cè)序。

測(cè)序

測(cè)序主要發(fā)生在一張半導(dǎo)體芯片上，上面做了數(shù)以百萬(wàn)、千萬(wàn)計(jì)的小孔，每個(gè)小孔的既是測(cè)序微珠的容器，又同時(shí)是一個(gè)微型的PH 計(jì)。

每個(gè)小孔正好可以容納一個(gè)測(cè)序微珠，當(dāng)DNA聚合酶把核苷酸聚合到延伸的DNA鏈上時(shí)，會(huì)釋放出一個(gè)氫離子，反應(yīng)池中的PH發(fā)生改變，位于池下的離子感受器就會(huì)感受到信號(hào)，把化學(xué)信號(hào)直接轉(zhuǎn)化為數(shù)字信號(hào)，從而讀出DNA序列。

圖片

數(shù)據(jù)分析

把分別含Ａ、C、G、T 四種 dNTP 的溶液，分別依次地流過(guò)芯片的表面。

舉例來(lái)說(shuō)，流入的是dCTP 溶液，而模板上正好有一個(gè)G 堿基，就發(fā)生聚合反應(yīng)，并產(chǎn)生電壓變化，而且會(huì)被記錄下來(lái)。如果流入的溶液與模板上的堿基不匹配，就不會(huì)發(fā)生聚合反應(yīng)，也就沒(méi)有電壓變化，也就不會(huì)有堿基被記錄下來(lái)。

如果正好有 2 個(gè)一樣的堿基相鄰，一次就會(huì)有2 個(gè)堿基被聚合到DNA 鏈上，電壓變化值就會(huì)加倍，序列中2 個(gè)新的堿基被記錄下來(lái)。

華大智造聯(lián)合探針錨定聚合測(cè)序法

2013年3月18日，華大基因?qū)G(Complete Genomics)公司全額收購(gòu)，開(kāi)啟了華大測(cè)序儀之路。歷經(jīng)多年的研發(fā)和改進(jìn)，華大基因相繼推出的BGISEQ-500、BGISEQ-50、MGISEQ-200、MGISEQ-2000M、MGISEQ-T7等測(cè)序體系。

其測(cè)序平臺(tái)采用的是DNB（DNA Nanoball ，DNA納米球）測(cè)序技術(shù)，每個(gè)DNA的直徑約220-240nm。

主要步驟包括文庫(kù)制備，cPAS測(cè)序，數(shù)據(jù)分析等。

樣本準(zhǔn)備和建庫(kù)

MGI文庫(kù)構(gòu)建采用泡狀接頭及與之對(duì)應(yīng)的擴(kuò)增產(chǎn)物，有長(zhǎng)接頭及短接頭，單端和雙端index。

圖片

將文庫(kù)進(jìn)行單鏈分離及環(huán)化處理后，以單鏈環(huán)狀DNA為模板，在DNA聚合酶作用下使用滾環(huán)擴(kuò)增將單鏈環(huán)狀DNA擴(kuò)增2-3個(gè)數(shù)量級(jí)，此時(shí)擴(kuò)增產(chǎn)物被稱(chēng)為DNB。

圖片

DNB經(jīng)過(guò)DNB裝載技術(shù)固定在陣列化的硅芯片上形成納米芯片，由于一個(gè)DNB結(jié)合到芯片上的小孔后會(huì)排斥其他DNB結(jié)合，因此每個(gè)小孔僅容納一個(gè)DNB，高效了信號(hào)點(diǎn)間不會(huì)相互干擾。

測(cè)序

采用半導(dǎo)體加工工藝，在經(jīng)過(guò)修飾的硅片表面形成結(jié)合位點(diǎn)陣列（直徑約200nm），實(shí)現(xiàn)DNA納米球的規(guī)則排列吸附，陣列位點(diǎn)的間距約700nm，每個(gè)位點(diǎn)只固定一個(gè)DNB，高效不同納米球之間的光信號(hào)不會(huì)互相干擾。

帶有熒光探針的Read1引物在DNB上匹配互補(bǔ)，隨后系統(tǒng)對(duì)光信號(hào)采集，得到待測(cè)序列。

MDA（multipledisplacement amplification）二鏈測(cè)序，隨機(jī)引物在多個(gè)位點(diǎn)與模板DNA結(jié)合，在Phi29DNA聚合酶作用下起始復(fù)制，沿著DNA模板合成DNA，同時(shí)取代模板互補(bǔ)鏈；被置換的互補(bǔ)鏈又變成新的模板進(jìn)行后續(xù)擴(kuò)增。完成先進(jìn)鏈測(cè)序后，在該酶作用下形成第二鏈，通過(guò)DNA分子錨，進(jìn)行第二鏈cPAS測(cè)序。

圖片

(責(zé)任編輯：佳學(xué)基因)