在數(shù)學(xué)領(lǐng)域,特征值與特征向量是十分重要的兩個概念,且在高校課本上都表明這兩個詞在工程技術(shù)方面有著廣泛應(yīng)用。但還不止于此,在蓬勃發(fā)展的數(shù)字化智能時代,特征值和特征向量對于AI算法的開發(fā)以及AI訓(xùn)練與應(yīng)用有著重要價值,可以說是人工智能(AI)的基石。
當(dāng)前,隨著5G、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的普及,AI開發(fā)與應(yīng)用規(guī)模也在不斷擴(kuò)大,企業(yè)除了要面對數(shù)據(jù)爆發(fā)挑戰(zhàn),還需要對海量的特征向量進(jìn)行存儲和計(jì)算,這進(jìn)一步加大了基礎(chǔ)設(shè)施的性能壓力。
為了給AI領(lǐng)域的向量檢索提供基礎(chǔ)系統(tǒng)支撐與保障,京東與英特爾合作,在基于英特爾?至強(qiáng)?可擴(kuò)展處理器的服務(wù)器上對分布式特征向量檢索系統(tǒng)Vearch 進(jìn)行優(yōu)化,借助英特爾軟硬結(jié)合優(yōu)勢,幫助企業(yè)改進(jìn)重復(fù)圖片去重、相似性商品圖片搜索、人臉識別等 AI 應(yīng)用的響應(yīng)速度,并大幅降低特征向量檢索系統(tǒng)總體擁有成本(TCO)。
AI特征向量檢索新困境
從數(shù)字化發(fā)展趨勢來看,智能技術(shù)對行業(yè)的升級與變革已成必然,以AI技術(shù)為核心,越來越多智能應(yīng)用在各行各業(yè)落地。對于企業(yè)來說,AI技術(shù)帶來了更豐富的業(yè)務(wù)場景,也讓本身的商業(yè)模式變得多元化。
今年是AI與行業(yè)融合最為關(guān)鍵的一年,隨著企業(yè)對AI技術(shù)的深入了解與應(yīng)用,一些新的難題也逐漸顯現(xiàn)出來,成為制約AI場景應(yīng)用的新壁壘。
在數(shù)學(xué)學(xué)科中,特征向量是線性變換中的一個專業(yè)名詞,它是一個非退化向量,其方向在變換下保持不變,而該向量在此變換下縮放的比例就是特征值。而在人工智能領(lǐng)域,特征向量代表的是一組屬性的集合,主要用來描述特定目標(biāo)的不同特征屬性,也是AI應(yīng)用的重要基礎(chǔ)性數(shù)據(jù)。
隨著算法能力的不斷提升,越來越多的數(shù)據(jù)文本,如圖像、音視頻等,都可以通過機(jī)器學(xué)習(xí)算法抽取大量特征應(yīng)用于業(yè)務(wù)場景,形成我們常用的一些AI應(yīng)用,如圖片檢測、聽音識曲、人臉識別等。
當(dāng)前,AI技術(shù)的應(yīng)用范圍持續(xù)增長,企業(yè)業(yè)務(wù)場景日趨復(fù)雜,海量特征向量的存儲與處理需求也在不斷擴(kuò)大。然而,目前行業(yè)內(nèi)并沒有一套完整的系統(tǒng)解決方案來滿足高維特征向量的存儲與計(jì)算,一些開源機(jī)器學(xué)習(xí)算法基礎(chǔ)庫能夠支持各種向量檢索模型,但卻不能支持分布式、實(shí)時索引和檢索等相對復(fù)雜的功能。
以零售產(chǎn)業(yè)的AI應(yīng)用場景為例,常見的特征向量包括用于描述用戶的向量和用于描述商品的向量,而當(dāng)下深度學(xué)習(xí)等AI應(yīng)用在企業(yè)內(nèi)部的規(guī)模越來越大,這就使得特征向量的規(guī)模常常會達(dá)到 10/100 億,甚至千億量級,對內(nèi)存和磁盤資源有著巨大的需求。
此外,在向量檢索中,企業(yè)往往會在AI訓(xùn)練之后將用戶向量和商品向量存儲到基礎(chǔ)向量檢索系統(tǒng)中,并通過用戶ID等方式定位到特定的特征向量,使用該特征向量在向量集中進(jìn)行檢索,可以召回TopN個結(jié)果。而為了滿足特征向量存儲及向量檢索對內(nèi)存和磁盤資源的需求,業(yè)界通常會采用部署大量容器的方式。且為了最大化利用資源,企業(yè)會將單個容器的資源控制在較小范圍內(nèi),這同樣對系統(tǒng)整體的性能產(chǎn)生了挑戰(zhàn)。
為了應(yīng)對海量高緯特征的存儲及特征向量檢索兩個問題,京東零售技術(shù)與數(shù)據(jù)中心基礎(chǔ)架構(gòu)團(tuán)隊(duì)基于現(xiàn)有部分業(yè)務(wù)及應(yīng)用場景,抽象提煉出一個服務(wù)于AI時代的基礎(chǔ)向量檢索系統(tǒng)——Vearch,并與英特爾合作,借助英特爾軟硬結(jié)合優(yōu)勢,打造了一個功能強(qiáng)大、靈活易用的特征向量檢索方案,再通過優(yōu)化解決內(nèi)存和存儲資源占用過多問題,以此幫助工程師更加專注于算法創(chuàng)新本身。
Vearch帶來向量檢索新方式
Vearch是一個分布式向量搜索系統(tǒng),主要針對大規(guī)模深度學(xué)習(xí)向量進(jìn)行高性能相似搜索,解決億級及數(shù)億級向量的存儲和計(jì)算問題。
Vearch整體架構(gòu)有三部分組成:Master,Router 和 Partition Server(PS)。其中Master負(fù)責(zé)對整個Vearch集群的資源進(jìn)行調(diào)度和管理;Router負(fù)責(zé)對用戶所有的請求進(jìn)行解析路由 和轉(zhuǎn)發(fā);Partition Server(PS)則是存儲及重要的計(jì)算節(jié)點(diǎn),可以提供存儲、檢索文檔、向量、標(biāo)量的能力。
為了進(jìn)一步提升Vearch系統(tǒng)在性能和資源利用方面的能力,京東與英特合作,在基于英特爾?至強(qiáng)?可擴(kuò)展處理器的服務(wù)器上,通過原始向量壓縮、string字段壓縮、內(nèi)存整理、圖+量化組合索引等方式對系統(tǒng)進(jìn)行優(yōu)化。
比如在軟件方面,京東在某些向量召回場景使用“圖+量化”的組合索引方式,它可以召回有序結(jié)果,避免了二次排序時需要存儲原始向量的做法。數(shù)據(jù)表明,使用“圖+量化”的組合索引方式后,在保證Top1較高召回率的情況下,存儲資源的使用量只有原來的1/4或更少。
除了軟件層面的優(yōu)化,英特爾的硬件優(yōu)勢是特征向量索引性能提升的關(guān)鍵因素。京東采用的是英特爾?至強(qiáng)?可擴(kuò)展處理器,不僅擁有強(qiáng)大的通用計(jì)算能力,其上還集成了增強(qiáng)單指令多數(shù)據(jù)流(Single Instruction Multiple Data,SIMD)的英特爾?AVX-512指令集等創(chuàng)新技術(shù),可以為單條指令提供雙倍數(shù)量的操作數(shù),從而大大提升指令的吞吐能力。
也是基于此,英特爾?至強(qiáng)?可擴(kuò)展處理器不僅實(shí)現(xiàn)了對通用計(jì)算和并行計(jì)算能力的兼顧,還存儲與計(jì)算密集型應(yīng)用提供了卓越的性能基礎(chǔ)。
得益于英特爾軟硬實(shí)力的加持,Vearch向量檢索系統(tǒng)在多個應(yīng)用場景中都有著十分突出的表現(xiàn)。在IVFPQ測試中,通過Vearch優(yōu)化版IVFPQ與Faiss原生版IVFPQ進(jìn)行性能對比測試發(fā)現(xiàn),相比于后者,Vearch優(yōu)化版不僅針對IVFPQ算法的數(shù)據(jù)訪問特點(diǎn)重構(gòu)了數(shù)據(jù)的內(nèi)存布局,還極大提升了L1 Cache的命中率。不僅如此,利用英特爾AVX-512指令集,IVFPQ在線數(shù)據(jù)訪問的并行度也得到大幅提升。
實(shí)際應(yīng)用中,Vearch向量檢索系統(tǒng)能夠在多個場景中為企業(yè)和用戶帶來更切實(shí)的體會。比如在人臉識別應(yīng)用中,該方案可以幫助企業(yè)相關(guān)業(yè)務(wù)系統(tǒng)在不對基礎(chǔ)設(shè)施進(jìn)行大幅投資的前提下,提升特征向量檢索的速度,降低存儲資源消耗,節(jié)約總體擁有成本(TCO),從而助力構(gòu)建更加敏捷高效的AI應(yīng)用。而在用戶體驗(yàn)上,通過基于Vearch的實(shí)時在線相似性圖片搜索服務(wù),電商平臺能夠?yàn)橛脩籼峁┩钌唐返乃阉鞣?wù),讓用戶體驗(yàn)更加便捷、直觀的購物方式。
強(qiáng)強(qiáng)聯(lián)合共同推動AI平臺優(yōu)化
一直以來,英特爾都希望通過連接、存儲與計(jì)算的全方位能力來凝聚整個行業(yè)生態(tài)的力量,充分發(fā)揮自身軟硬結(jié)合優(yōu)勢,幫助企業(yè)在智能化轉(zhuǎn)型中不斷提升。
京東與英特爾聯(lián)合持續(xù)優(yōu)化Vearch系統(tǒng)在行業(yè)場景中的應(yīng)用。據(jù)了解,Vearch自去年9月份開源以來,華為、科大訊飛、愛奇藝、趣頭條、OPPO、汽車之家和網(wǎng)易嚴(yán)選等數(shù)十家知名公司的團(tuán)隊(duì)或個人,已經(jīng)在一些業(yè)務(wù)場景中嘗試或使用。
目前,Vearch最新3.2.0版已經(jīng)支持實(shí)時IVFPQ、實(shí)時HNSW、IVFFLAT、BINARY和FLAT(暴力搜索)等多種ANN檢索模型,而更多的檢索模型也在集成中,如IMI、OPQ、SSG 等,以覆蓋更豐富多元的業(yè)務(wù)使用場景。
不僅如此,京東也將在Vearch中提供更豐富的算法插件,包括文本語義embedding算法插件,音頻embedding算法插件等。而依托在技術(shù)和產(chǎn)品方面的深厚積累,英特爾將幫助京東等合作伙伴對廣泛的應(yīng)用系統(tǒng)進(jìn)行 優(yōu)化,促進(jìn)軟硬件協(xié)同調(diào)優(yōu)與驗(yàn)證,進(jìn)一步發(fā)揮英特爾架構(gòu)在性能、擴(kuò)展性、穩(wěn)定性、可用性等領(lǐng)域的優(yōu)勢。
雙方強(qiáng)強(qiáng)聯(lián)合,共同推動Vearch系統(tǒng)在AI領(lǐng)域的應(yīng)用,為互聯(lián)網(wǎng)、零售和金融等行業(yè)的AI技術(shù)應(yīng)用提供強(qiáng)大助力,同時也將智能時代數(shù)據(jù)帶來的價值最大化釋放,加速各行業(yè)向數(shù)字化邁進(jìn)的步伐。
(審核編輯: 小王子)
分享