納米孔測序技術(又稱第四代測序技術)是最近幾年興起的新一代測序技術。目前測序長度可以達到150kb。這項技術開始于90年代,經(jīng)歷了三個主要的技術革新:一、單分子DNA從納米孔通過;二、納米孔上的酶對于測序分子在單核苷酸精度的控制;三、單核苷酸的測序精度控制。目前市場上廣泛接受的納米孔測序平臺是Oxford Nanopore Technologies(ONT)公司的MinION納米孔測序儀。它的特點是單分子測序,測序讀長長(超過150kb),測序速度快,測序數(shù)據(jù)實時監(jiān)控,機器方便攜帶等。這篇綜述重點總結了MinION測序儀的技術特點和應用領域。
一、 MinION測序技術簡介
MinION納米孔測序儀的核心是一個有2,048個納米孔,分成512組,由專用集成電路控制的flow cell。測序原理見圖1a所示:首先,將雙分子DNA連接lead adaptor(藍色),hairpin adaptor(紅色)和trailing adaptor(棕色);當測序開始,lead adaptor帶領測序分子進入由酶控制的納米孔,lead adaptor后是template read(即待測序的DNA分子)通過納米孔,hairpin adaptor的作用是DNA雙鏈測序的保證,然后complement read(待測序分子的互補鏈)通過納米孔,最后是trailing adaptor通過。在上述測序方法中,template read和complement read依次通過納米孔,利用pairwise alignment,它們組合成2D read;而在另外一種測序方法中,不使用hairpin adaptor,只測序template read,最終形成1D read。后一種測序方法通量更高,但是測序準確性低于2D read。每個接頭序列(adaptor)通過納米孔引起的電流變化不同(圖1c),這種差別可以用來做堿基識別。
二、 MinION相對于其他NGS測序平臺的優(yōu)勢
1、堿基修飾的檢測
納米孔測序技術可以檢測四種胞嘧啶(cytosine)堿基修飾,分別為5-methycytosine,5-h(huán)ydroxymethycytosine,5-formylcytosine和5-carboxylcytosine。檢測準確率為92%-98%。
2、實時測序監(jiān)控
對于臨床實踐,實時獲取和分析DNA/RNA序列是一件很重要的事情。對于傳統(tǒng)的NGS測序,做到這一點非常不易。但對于MinION,實現(xiàn)起來相對容易。這不僅是因為MinION體積小,易操作等,更是因為在測序過程中單分子穿過納米孔,其電流變化可以檢測并識別,這種設計允許用戶在測序過程中根據(jù)實時結果做出一些判斷。
實時測序監(jiān)控對于MinION針對特定目標序列測序有重要的應用(圖2):當DNA片段通過納米孔時,如果電流變化呈現(xiàn)與目標序列一樣的趨勢,則通過納米孔。如果DNA片段與目標序列呈現(xiàn)不同的電流變化趨勢,則不能通過納米孔。通過這樣的方式,實現(xiàn)目標序列的富集,從而顯著減少測序時間,對于在野外和即時診療有重要意義。
3、測得更長的read
用MinION測序儀,對于1D read可以獲得300kb長的read;對于2D read可以獲得60kb長的read。利用MinION測序儀產(chǎn)生的長read,研究人員設法填充了人參考基因組Xq24號染色體一個長50kb的gap。該區(qū)域存在多個CT47基因串聯(lián)拷貝,研究人員利用MinION的長read判斷該區(qū)域極有可能存在8個CT47基因拷貝(圖3)。
4、結構變異的檢測
NGS短序列的特征使結構變異的檢測往往不準確。這個問題在癌癥的檢測中尤其嚴重,這是因為癌癥組織中充斥各種結構變異。研究人員發(fā)現(xiàn)利用MinION測得的幾百個拷貝的長read得到的結構變異結果比NGS平臺測得的上百萬read得到的結果更可靠。
5、RNA表達分析
對于RNA表達分析,NGS平臺測得的短序列帶來的問題是序列需要進行拼接,才能得到轉錄本。這給可變剪切研究帶來困擾。因為通常情況下NGS測序不能產(chǎn)生足夠的信息將不同形式的可變剪切區(qū)分開來。而利用MinION測序儀產(chǎn)生的長read,可以更好地解決這個問題。研究人員利用果蠅的Dscam1基因為例,其存在18,612種可變剪切形式,利用MinION測序儀可以檢測到超過7,000種可變剪切形式,而這樣的結果利用NGS的短序列測序是不能夠獲得的。
6、生物信息學配套軟件的發(fā)展
近些年來,隨著生物信息分析方法的發(fā)展,MinION測序reads成功比對參考基因組的比例已經(jīng)從66%提升至92%。文章下面對各種工具的適用場景進行了分別介紹。工具概述見表1。
1、堿基識別工具
Metrichor是ONT公司推出的基于隱馬爾可夫模型進行堿基識別的軟件。它的使用需要網(wǎng)絡連接。MinION注冊用戶需要獲得開發(fā)者賬號才能獲得軟件的源代碼。2016年初,兩個實驗室分別開發(fā)了Nanocall和DeepNano軟件。這兩個軟件都可以在本地運行,不需要網(wǎng)絡連接。Nanocall基于隱馬爾可夫模型,可對1D read在本地進行堿基識別;DeepNano基于recurrent neural network framework,可以獲得比隱馬爾可夫模型更準確的堿基識別。
2、序列比對工具
傳統(tǒng)的NGS序列比對軟件不能滿足MinION序列比對的需求。這是因為MinION測序數(shù)據(jù)錯誤率相對高且序列長,即使調整參數(shù)也不能取得好的效果。在這種情況下,適合MinION測序數(shù)據(jù)的比對軟件應運而生。
MarginAlign是通過更好地估計MinION測序reads測序錯誤來源從而提高與參考基因組的比對效率。通過評估檢測到的變異,發(fā)現(xiàn)其顯著提高了比對的準確性。由于MarginAlign是基于LAST或BWA mem的比對結果進行優(yōu)化,結果的最終準確性依賴最初的比對結果。
GraphMap是另一個用于MinION測序數(shù)據(jù)比對的軟件。它利用的是一種啟發(fā)式(heuristics)方法,對高錯誤率reads和長reads進行了優(yōu)化。一項研究表明GraphMap比對的靈敏性可與BLAST媲美,且它對reads測序錯誤率的估計與MarginAlign相當。
3、從頭組裝工具
MinION測序數(shù)據(jù)不適合利用NGS數(shù)據(jù)組裝的de Bruijn圖法進行組裝,主要存在兩方面的原因。第一,de Bruijn圖法等方法依賴測序reads拆分的k-mer測序準確,而高錯誤率的MinION測序reads不能保證這一點;第二,de Bruijn圖的結構不適用長reads。
MinION測序數(shù)據(jù)的長reads更適合Sanger測序時期基于有overlap的共有(consensus)序列組裝的方法。需要的是在組裝前進行測序reads的糾錯。第一個基于這種原理進行組裝的研究組利用MinION數(shù)據(jù)組裝了一個完整的E. coli K-12 MG1655基因組,序列準確率達到99.5%。他們利用的流程稱為nanocorrect,首先利用graph- based,greedy partial order aligner方法進行糾錯,然后利用Celera Assembler將糾錯后的reads進行組裝,最后利用nanopolish對組裝結果進行進一步提升。
4、單核苷酸變異檢測工具
Reference allele bias是一種在變異檢測中傾向于少檢測出變異的現(xiàn)象。該現(xiàn)象在測序reads錯誤率高的情況下尤為嚴重。
MarginAlign中的marginCaller模塊是研究機構開發(fā)的適用于MinION測序數(shù)據(jù)的變異檢測軟件。MarginCaller利用maximum-likelihood參數(shù)估計和多條測序reads序列比對來檢測單核苷酸變異。當計算機模擬出測序錯誤為1%時,測序深度在60X,marginCaller檢測出的SNV具有97%的準確率和完整度。另外一項研究中,研究者利用GraphMap方法,檢測人基因組的雜合變異,可以達到96%的準確率。利用計算機模擬的數(shù)據(jù),GraphMap同樣可以高準確率,高完整度地檢測出結構變異。
Nanopolish也可以用來檢測變異。它用的是event-level alignment算法。在該方法中,從參考基因組序列開始,依次評估參考基因組序列產(chǎn)生的電信號與測序reads的相似性進而依次修飾參考基因組序列,生成一個consensus read。直到consensus read與測序read產(chǎn)生的電信號足夠相似,將consensus read與參考基因組序列比較,得到變異。該方法在埃博拉病毒的研究中有大約80%的準確性。
PoreSeq采用與Nanopolish類似的算法。它可以利用更低深度的測序數(shù)據(jù)獲得高準確率和高完整度的SNV檢測。在一項研究中,PoreSeq在16X測序深度下獲得99%準確率和完整度的SNV檢測,與marginAlign相比,它顯著降低了測序深度。
5、共有序列的測序(consensus sequencing)方法
MinION測序數(shù)據(jù)目前只有92%的準確性。在低深度測序的情況下,不能夠滿足類似單體型(haplotype phasing)和人樣品的SNV檢測的要求。文章提到的解決問題的方法是rolling circle amplication,它的原理是將一個片段進行多次擴增,在一個DNA分子上生成多個拷貝,這樣最終獲得的共有序列測序結果的準確率可以達到97%。
三、MinION目前的應用領域
1、即時檢測傳染源
NGS測序方法可以在醫(yī)院環(huán)境下進行傳染源等病菌的檢測,而MinION測序方法提供的是一種全新的體驗。MinION在測序讀長,攜帶的方便性,檢測時長方面具有NGS不可比的優(yōu)勢。文獻記載從樣品準備到發(fā)現(xiàn)致病菌只需要6小時時間,而從樣品放置機器到發(fā)現(xiàn)致病菌只需要4分鐘。文章列舉了截至目前用MinION測序儀涉及研究的物種及詳細描述了西非爆發(fā)埃博拉病毒時,MinION測序方法在病毒檢測過程中起到的重要作用。
2、非整倍體檢測
MinION可以在胎兒非整倍體產(chǎn)前檢測中發(fā)揮重要作用。利用NGS平臺,通常需要1-3周時間獲得結果。而利用MinION測序方法,文獻報道只需要4小時。
3、太空應用
在太空飛行中,發(fā)掘細菌和病毒是很困難的事情。大部分研究是將樣品帶回地球進行測序鑒定。目前,NASA準備利用MinION測序儀在國際空間站進行病菌的實時測序。
四、 展望
1、PromethION
為了滿足研究人員對高通量測序的需求,ONT公司開發(fā)了一個臺式納米孔測序儀—PromethION。PromethION有48個flow cell,可以單獨運行也可以并行。每個flow cell包括3,000個通道(channel),每天產(chǎn)生6Tb測序數(shù)據(jù)。
2、測序read準確性
目前MinION測序儀的測序準確率在92%左右。對于類似致病菌和可變剪切的發(fā)掘,這樣的測序準確率可以滿足需求。但是對于臨床檢測,通常read準確率需要達到99.99%。因此,文章提到ONT公司需要在測序相關的化學反應和堿基識別軟件方面進行優(yōu)化。
另外,文章提到MinION測序方法存在非隨機的測序錯誤。比如MinION不能很好處理長于6個核苷酸的同聚物的測序,同時缺少堿基修飾檢測的內參訓練。如果這兩個問題能夠得到解決,共有序列(consensus)測序的準確率可以達到大于99.99%。
3、測序read長度
目前MinION測序長度達到150kb。在未來一段時間,可以期許其測序長度可以得到更大提升。
4、RNA直接測序
逆轉錄和PCR擴增會導致很多RNA自身信息的丟失,所以目前ONT公司和一些研究機構正在嘗試用納米孔技術進行RNA直接測序。之前的研究已經(jīng)為此奠定了基礎,比如研究表明可以對tRNA進行單通道和固態(tài)納米孔(solid-state nanopore)檢測,且納米孔可以檢測DNA和tRNA的堿基修飾。
5、單分子蛋白測序
目前,質譜(mass spectrometry)是做蛋白組分析較好的技術,但是對于靈敏性,準確性和分辨率,目前的技術都存在局限性。2013年一項研究報道了酶介導的蛋白通過單通道納米孔。這項研究表明蛋白的序列特征可以被檢測。這些發(fā)現(xiàn)為蛋白質納米孔測序奠定了很好的基礎。
(審核編輯: 林靜)
分享