2016年,全球新發(fā)癌癥數量超過1400萬人,并導致了900萬人的死亡。癌癥在發(fā)達國家中已成為主要死亡原因之一,美國每年逝世的5個人當中有一人是因癌癥致死。根據美國抗癌協會和國際癌癥協會數據,所有的癌癥都是越早治療、治療效果越好。癌癥的早期發(fā)現,可以為病理診斷和治療贏取更多的時間,能極大提高治愈率與患者生存周期及質量。癌癥的早期篩查是個萬億級別的市場。
資本市場的火爆,得益于近十余年基因測序技術的迅猛發(fā)展,特別是在腫瘤領域的廣泛應用。另一方面,機器學習技術在基因大數據處理上的大量應用,積累了前所未有的知識。這些全新的知識及組合為醫(yī)療界打開了一扇新世界的大門,使得醫(yī)學工作者對許多疾病的認識、篩查和治療都有了新的渠道和信息。
基因測序技術的進步使得基因分析更加的高效快捷
人可以被看作一臺極其精密的儀器,人的一生,萬億計的細胞在體內不斷復制更新,每代復制嚴格相同,但存在極其微小的錯誤率,造成所謂的基因突變。絕大多數突變無關緊要,少量突變造成抑制生長的基因的功能失常,或者激活生長基因,變成癌細胞。而癌細胞一旦逃避了免疫系統(tǒng)的監(jiān)控,就造成生長失控變成癌組織。
一條人的基因組序列共有30億位,按正常排版打印在A4紙上,大概有華盛頓紀念碑那么高。人與人之間會有小于千分之一的差異,癌細胞與自身的正常細胞基因組序列也會有細微的差別。基因測序的進步,讓鑒別這些差別成為一件快速、高效、低成本的事。
計算機運算速度和能力的發(fā)展,進一步推動了基因分析的進步
由于人類基因組的復雜性,測序數據量非常龐大,一個人的全基因組測序數據可以達到上百G。普通的計算機技術和統(tǒng)計學方法無法在短時間內很好地處理這些信息,而機器學習的發(fā)展以及GPU運算的進步逐漸為科研工作者解決了這一難題?,F在只需要將基因測序的數據輸入經過機器學習反復訓練的模型中,計算機就可以很快的分析出目標區(qū)域是否存在變異,進而找到可能變異的基因點位為醫(yī)生提供更多的可用于診斷及治療的信息。正是因為機器學習和基因測序技術的日漸成熟,以癌癥篩查和診斷為首的各類疾病早篩項目漸漸成為科研及創(chuàng)投的熱點。
機器學習是近年來非?;馃岬募夹g方向
簡單來說,機器學習就是為計算機提供大量的數據,而這些數據都有他們各自對應的標簽,例如我們想教會計算機識別圖片中的動物,我們則要提供各種各樣的動物圖片,并且每一張圖片都帶有對應的標簽,這個是貓,這個是狗等等。機器在分析大量的數據之后會在圖片之中找到規(guī)律,例如貓在圖片中大多是獨來獨往,而許多有狗的圖片中還有別的動物或人類。通過這些信息,計算機不斷地調整,更新它的數學模型。
當有新的圖片到來時,計算機就可以根據建立好的模型來判斷哪個是貓,哪個是狗。當然,這只是一個非常簡單的機器學習的例子,現在的機器學習已經被廣泛應用于自動駕駛,數據分析,信息挖掘,治療診斷等等許多在過去只有人類能夠勝任的工作。成百上千的學習模型被開發(fā)出來,甚至有許多不需要大量數據,或者不需要帶標簽的數據就能學習的模型。正如70-80年代計算機開始爆發(fā)一般,這確實是一個機器學習的黃金年代。
今天就為大家詳細的闡述一下機器學習是怎樣與基因測序緊密合作完成癌癥早篩的。
ctDNA是什么
想理解基于基因測序的癌癥早篩首先需要理解什么是ctDNA。ctDNA是circulating tumor DNA的縮寫,也稱為循環(huán)腫瘤DNA。是一種存在于血液、尿液、腦脊液等體液中的細胞外的基因片段,主要來自于壞死或凋亡的腫瘤細胞。ctDNA是癌癥的特定標記物,如果能在血液中檢測出ctDNA通常就意味著體內有癌癥正在發(fā)生,這也是癌癥早篩的基本原理。
然而,因為ctDNA和由正常細胞產生的游離DNA碎片是混合在一起的,只占所有游離DNA(cell-free DNA,cfDNA)含量的0.1%-1%之間,因此準確檢測出ctDNA的難度相當的大。其中所涉及到的信號降噪,降低假陽性、假陰性的發(fā)生率等都是難度相當高的科研課題。
即使在體液中發(fā)現了ctDNA,由于血液循環(huán),ctDNA可能來源于身體的任意一處,確定腫瘤在體內的生長位置也是另一件高難度的事情。得益于近些年腫瘤基因組測序結果的大量積累,科學家們發(fā)現了多種具有組織特異性的蹤跡。通過機器學習的途徑,結合這些蹤跡信息,科學家們就能通過ctDNA來大致判斷組織來源。
當然,人工智能的發(fā)展并不代表我們可以輕松地解決問題。盡管在現如今,機器學習,乃至深度學習已經擁有了許多開源的算法,哪怕只是一個普通人也可以在一定程度的學習后,運用現有的接口去開發(fā)一些簡單的模型。但是也正是因為如此,不同層次的算法人才所做出的產品質量和效果也截然不同。正如汽車制造的普及使得人人都可以擁有自己的汽車,但是普通人與賽車手之間車技的差距卻仍然非常明顯。
同樣,也因為這是個高度跨學科、知識密集型的領域,腫瘤早篩的創(chuàng)業(yè)團隊在機器學習方面的專精程度和對腫瘤病理學的理解導致了產品質量和效果的巨大差距。譬如,由于人類基因組的高度復雜,和當前二代測序技術依然存在一定的錯誤,使得數據分析成為極為關鍵的一環(huán)。團隊需要對測序數據的非常熟悉,精通數據挖掘的應用,以及對腫瘤臨床知識有精準的理解。
(審核編輯: 林靜)