目前的深度學(xué)習(xí)主要是建立在大數(shù)據(jù)的基礎(chǔ)上,即對(duì)大數(shù)據(jù)進(jìn)行訓(xùn)練,并從中歸納出可以被計(jì)算機(jī)運(yùn)用在類似數(shù)據(jù)上的知識(shí)或規(guī)律。那么,到底什么是大數(shù)據(jù)呢?
人們經(jīng)?;\統(tǒng)地說(shuō),大數(shù)據(jù)就是大規(guī)模的數(shù)據(jù)。
這個(gè)說(shuō)法并不準(zhǔn)確?!按笠?guī)模”只是指數(shù)據(jù)的量而言。數(shù)據(jù)量大,并不代表著數(shù)據(jù)一定有可以被深度學(xué)習(xí)算法利用的價(jià)值。例如,地球繞太陽(yáng)運(yùn)轉(zhuǎn)的過(guò)程中,每一秒鐘記錄一次地球相對(duì)太陽(yáng)的運(yùn)動(dòng)速度、位置,可以得到大量數(shù)據(jù)。可如果只有這樣的數(shù)據(jù),其實(shí)并沒(méi)有太多可以挖掘的價(jià)值,因?yàn)榈厍驀@太陽(yáng)運(yùn)轉(zhuǎn)的物理規(guī)律,人們已經(jīng)研究得比較清楚了。
那么,大數(shù)據(jù)到底是什么?大數(shù)據(jù)是如何產(chǎn)生的?什么樣的數(shù)據(jù)才最有價(jià)值,最適合作為計(jì)算機(jī)的學(xué)習(xí)對(duì)象呢?
根據(jù)馬丁·希爾伯特的總結(jié),今天我們常說(shuō)的大數(shù)據(jù)其實(shí)是在2000年后,因?yàn)樾畔⒔粨Q、信息存儲(chǔ)、信息處理三個(gè)方面能力的大幅增長(zhǎng)而產(chǎn)生的數(shù)據(jù):
信息交換:據(jù)估算,從1986年到2007年這20年間,地球上每天可以通過(guò)既有信息通道交換的信息數(shù)量增長(zhǎng)了約217倍,這些信息的數(shù)字化程度,則從1986年的約20%增長(zhǎng)到2007年的約99.9%。在數(shù)字化信息爆炸式增長(zhǎng)的過(guò)程里,每個(gè)參與信息交換的節(jié)點(diǎn)都可以在短時(shí)間內(nèi)接收并存儲(chǔ)大量數(shù)據(jù)。
信息存儲(chǔ):全球信息存儲(chǔ)能力大約每3年翻一番。從1986年到2007年這20年間,全球信息存儲(chǔ)能力增加了約120倍,所存儲(chǔ)信息的數(shù)字化程度也從1986年的約1%增長(zhǎng)到2007年的約94%。1986年時(shí),即便用上我們所有的信息載體、存儲(chǔ)手段,我們也不過(guò)能存儲(chǔ)全世界所交換信息的大約1%,而2007年這個(gè)數(shù)字已經(jīng)增長(zhǎng)到大約16%。信息存儲(chǔ)能力的增加為我們利用大數(shù)據(jù)提供了近乎無(wú)限的想象空間。
信息處理:有了海量的信息獲取能力和信息存儲(chǔ)能力,我們也必須有對(duì)這些信息進(jìn)行整理、加工和分析的能力。谷歌、Facebook等公司在數(shù)據(jù)量逐漸增大的同時(shí),也相應(yīng)建立了靈活、強(qiáng)大的分布式數(shù)據(jù)處理集群。
從應(yīng)用角度來(lái)說(shuō),今天的大數(shù)據(jù)越來(lái)越多地呈現(xiàn)出以下一種或幾種特性:
大數(shù)據(jù)越來(lái)越多地來(lái)源于生產(chǎn)或服務(wù)過(guò)程的副產(chǎn)品,但在價(jià)值上卻往往超過(guò)了為了特定目的專門采集的數(shù)據(jù)。例如,谷歌曾利用全球用戶查詢中,涉及流行性感冒的關(guān)鍵詞的出現(xiàn)頻率變化情況,對(duì)2003年到2008年全球季節(jié)性流感的分布和傳播進(jìn)行跟蹤與預(yù)測(cè)。這一預(yù)測(cè)的覆蓋規(guī)模和價(jià)值甚至超出了各國(guó)衛(wèi)生部門專門收集相關(guān)數(shù)據(jù)所做的預(yù)測(cè)。
大數(shù)據(jù)往往可以取代傳統(tǒng)意義上的抽樣調(diào)查。例如,按照傳統(tǒng)方式,電視臺(tái)某個(gè)節(jié)目的收視率往往要由專業(yè)調(diào)查公司通過(guò)抽樣調(diào)查的方式獲得數(shù)據(jù)后估算出來(lái)?,F(xiàn)在,有了微博或類似的社交網(wǎng)絡(luò),我們可以直接利用微博上每時(shí)每刻產(chǎn)生的大數(shù)據(jù)對(duì)節(jié)目熱度進(jìn)行分析,其準(zhǔn)確性往往超過(guò)傳統(tǒng)的抽樣調(diào)查方式。
許多大數(shù)據(jù)都可以實(shí)時(shí)獲取。例如,每年雙十一,在各類電子商務(wù)平臺(tái)上,每時(shí)每刻都有成千上萬(wàn)筆交易正在進(jìn)行,所有這些交易數(shù)據(jù)在阿里交易平臺(tái)的內(nèi)部,都可以實(shí)時(shí)匯總,供人們對(duì)雙十一當(dāng)天的交易情況進(jìn)行監(jiān)控、管理或分析、匯總。大數(shù)據(jù)的實(shí)時(shí)性為大數(shù)據(jù)的應(yīng)用提供了更多的選擇,為大數(shù)據(jù)更快產(chǎn)生應(yīng)用價(jià)值提供了基礎(chǔ)。
大數(shù)據(jù)往往混合了來(lái)自多個(gè)數(shù)據(jù)源的多維度信息。假如能利用用戶ID,將用戶在微博上的社交行為,和用戶在電子商務(wù)平臺(tái)的購(gòu)買行為關(guān)聯(lián)起來(lái),就可以向微博用戶更準(zhǔn)確地推薦他最喜歡的商品。聚合更多數(shù)據(jù)源,增加數(shù)據(jù)維度,這是提高大數(shù)據(jù)價(jià)值的好辦法。
大數(shù)據(jù)的價(jià)值在于數(shù)據(jù)分析以及分析基礎(chǔ)上的數(shù)據(jù)挖掘和智能決策。大數(shù)據(jù)的擁有者只有基于大數(shù)據(jù)建立有效的模型和工具,才能充分發(fā)揮大數(shù)據(jù)的價(jià)值。例如利用谷歌趨勢(shì)對(duì)過(guò)去5年全球地震分布進(jìn)行分析匯總。根據(jù)用戶查詢地震相關(guān)關(guān)鍵詞的頻率,看出過(guò)去5年內(nèi)主要地震的發(fā)生時(shí)間和地點(diǎn)。在這里,谷歌趨勢(shì)就是一個(gè)利用已有大數(shù)據(jù)建模、分析、匯總的有效工具。
(審核編輯: 智匯張瑜)