大數(shù)據(jù)應用到日常生活、學習和工作中,往往不是以“大數(shù)據(jù)產(chǎn)品”自居的,普通人能夠使用到的大數(shù)據(jù),已經(jīng)是大數(shù)據(jù)加上業(yè)務場景的產(chǎn)品化應用和服務了。比如,百度搜索引擎、高德地圖其實就是基于大數(shù)據(jù)和業(yè)務場景產(chǎn)生的大數(shù)據(jù)產(chǎn)品化應用。
大數(shù)據(jù)盤點:產(chǎn)生因素 關注人群 應用探索
一、為什么會產(chǎn)生大數(shù)據(jù)?
為什么會產(chǎn)生大數(shù)據(jù)呢?大數(shù)據(jù)之前難道我們都處于“暗黑時代”?
如果你去搜索“為什么會產(chǎn)生大數(shù)據(jù)?”這個問題,專家、學者都會給出不同的答案。面對大量的答案,大眾該如何去理解?所以我用最簡單的方式進行了一個歸納,我認為,產(chǎn)生大數(shù)據(jù)最大的三個因素是“計算”,“存儲”和“智慧”,下面逐一來講解。
產(chǎn)生大數(shù)據(jù)的第一個因素:存儲成本的下降
在云計算出現(xiàn)之前,數(shù)據(jù)存儲的成本是非常高的。比如說,我之前供職的是客戶端網(wǎng)絡游戲公司,那時候游戲每次要開新服,都需要去購置和部署新的服務器,還需要安排幾個人去維護服務器的安全,保證數(shù)據(jù)存儲的安全性和數(shù)據(jù)傳輸?shù)臅惩ㄐ浴6?,機房還會定期進行數(shù)據(jù)清理,把部分歷史數(shù)據(jù)清理出去,以便存儲新的數(shù)據(jù)。在那個時代里,互聯(lián)網(wǎng)公司各自為政,機房部署的人力和管理都是非常高的。
云計算出現(xiàn)后,數(shù)據(jù)存儲服務衍生出了新的商業(yè)模式,集中建設數(shù)據(jù)中心大大的降低了單位計算和存儲成本,比如說36大數(shù)據(jù),我們要建設網(wǎng)站,現(xiàn)在根本不用去買服務器硬件,也不需要在雇傭人員來管理,使用阿里云的全套服務就解決了我們的問題。而且存儲成本的下降,也改變了大家對數(shù)據(jù)的看法,因為存儲成本不高,所以我們愿意把3個月、6個月甚至更久遠的歷史數(shù)據(jù)保存下來,有了歷史數(shù)據(jù)的沉淀,才會想著如何把這些數(shù)據(jù)利用起來,通過不同時間的對比,來發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)和價值。
存儲成本的下降,為大數(shù)據(jù)搭建好了最好的基礎設施。
產(chǎn)生大數(shù)據(jù)的第二個因素:運行、計算速度越來越快
這一點可能從98年開始上網(wǎng)的朋友就能明顯的感覺到。隨著互聯(lián)網(wǎng)的普及及網(wǎng)絡技術的發(fā)展,加上硬件性價比的提高以及軟件技術的進步,數(shù)據(jù)的運行、計算速度越來越快。98年你要傳個10MB的文件給我,可能需要一天,放到現(xiàn)在,可能也就是幾分鐘的事情。分布式系統(tǒng)基礎架構Hadoop的出現(xiàn),為大數(shù)據(jù)帶來了新的曙光。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了并行計算,從而大大提高了計算效率?,F(xiàn)在還有在計算方面比Hadoop更快的框架Spark、Storm等等。
海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價值,期間會經(jīng)過存儲、清洗、挖掘、分析等多個環(huán)節(jié),如果計算速度不夠快,那么很多事情是無法實現(xiàn)的。所以,在大數(shù)據(jù)的發(fā)展過程中,計算速度是非常關鍵的因素。
產(chǎn)生大數(shù)據(jù)的第三個因素:智慧,我們渴望解放腦勞動力
18世紀-19世紀,第一次工業(yè)革命開創(chuàng)了以機器代替手工勞動的時代,從而解放了部分勞動力。
19世紀七十年代,電力的發(fā)明和廣泛應用,從而進入第二次工業(yè)革命,推動人類進入了電氣時代。電氣時代的最大影響就是增強了人們的生產(chǎn)能力,使交通更加便利快捷,進而改變了人們的生活方式。
那么在21世紀,我們最渴望的是什么?我們渴望解放腦勞動力,實現(xiàn)信息對等,讓機器擁有人的智慧。
大數(shù)據(jù)帶來的最大價值就是“智慧”。今天我們能看到的AlphaGo圍棋人工智能程序戰(zhàn)勝李世石,阿里云小Ai成功預測出《我是歌手》總決賽歌王,iPhone上智能化語音機器人Siri、微博上大家常年調戲的微軟小冰等等,背后都是由海量數(shù)據(jù)來進行支撐的。換句話說,大數(shù)據(jù)讓機器變得有智慧,大數(shù)據(jù)為機器灌輸了人類的潛意識,大數(shù)據(jù)是變形金剛的Matrix和Cube。
所以,存儲成本的下降,計算速度的提高和我們對智慧的渴望,是產(chǎn)生大數(shù)據(jù)的三個重要因素。
二、誰在關注大數(shù)據(jù)?
大數(shù)據(jù)的其中功能之一就是可以進行用戶畫像,我們完全可以用用戶畫像來畫出大數(shù)據(jù)的關注人群圖譜。
下面是根據(jù)百度指數(shù)、微博微指數(shù)、36大數(shù)據(jù)3年來沉淀的用戶做得一個簡單畫像。
事實上,在關注大數(shù)據(jù)的人群中,有62%的人群為年齡30-49歲、本科以上學歷的傳統(tǒng)行業(yè)人員,他們來自房產(chǎn)、生活服務、建材家居、商務服務、金融財經(jīng)、旅游酒店、餐飲美食、教育培訓、醫(yī)療健康、大眾消費、航天、政府公共服務等多個領域;
關注大數(shù)據(jù)的人群中,25%的用戶為年齡20-29、大專以上學歷、IT科技、互聯(lián)網(wǎng)相關從業(yè)者;
9%的用戶為垂直數(shù)據(jù)行業(yè)從業(yè)人員,這群人最大的標簽是高文憑、高技術、高收入、宅、技術控、少社交、不愛傳播,理性、理工男。
剩下還有4%是19歲以下,50歲以上這一部分人群。他們絕大部分是通過新聞宣傳后,懷著對大數(shù)據(jù)的好奇心才來關注的。
所以,基于大數(shù)據(jù)關注人群的畫像,可以更好的指導大數(shù)據(jù)未來的發(fā)展方向。我認為大數(shù)據(jù)未來要實現(xiàn)爆發(fā)式的增長,擁抱傳統(tǒng)行業(yè),滲透人們生活是必經(jīng)之路。
三、大數(shù)據(jù)如何惠及大眾?
大數(shù)據(jù)近年來是被炒得有些過頭了,但不代表它是一個“炒作詞”。大數(shù)據(jù)的背后,的確有著實實在在的數(shù)據(jù),實實在在的技術和是實實在在的應用。大數(shù)據(jù)確實能夠產(chǎn)生商業(yè)價值。
下面基于我個人對大數(shù)據(jù)的理解畫出的一個示意圖。
對于大數(shù)據(jù)企業(yè)來說,大數(shù)據(jù)涵蓋了公司內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)兩大方面。
公司內(nèi)部數(shù)據(jù)包括:
1、公司使用BI、CRM系統(tǒng)、ERP系統(tǒng)、郵件系統(tǒng)等產(chǎn)生的數(shù)據(jù);
2、財務數(shù)據(jù)。其中包括公司的支出、采購、收入等多項與公司日常運作有關的數(shù)據(jù);
3、注冊用戶數(shù)據(jù)。無論是網(wǎng)站、APP還是游戲,用戶注冊都會填寫郵箱、電話、身份證號碼等數(shù)據(jù),這些數(shù)據(jù)其實非常有價值,此外還要加上用戶使用公司產(chǎn)品留下的行為數(shù)據(jù)。
4、歷史數(shù)據(jù)。公司沉淀下來的其他各種數(shù)據(jù),這些數(shù)據(jù)一定要整合起來。
外部數(shù)據(jù)包括:
1、社交網(wǎng)站數(shù)據(jù)。包括微信、微博、人人網(wǎng)、Twitter、Facebook、LinkedIn等社交媒體上的數(shù)據(jù)。社交數(shù)據(jù)部分是可以爬取的,另外一部分是需要運營方授權的。
2、線下采集數(shù)據(jù)。這一塊目前做的公司比較少,但同時也比較有價值,比如說Wifi熱點數(shù)據(jù)、地圖數(shù)據(jù)等;
3、政府開放數(shù)據(jù)。目前在中國,已有多個省市不同程度的開放了部分數(shù)據(jù),如果你想要找的話,可到相關政府網(wǎng)站下載。
4、智能設備、傳感器數(shù)據(jù)。最典型的案例就是智能手機了,我們使用手機留下的行為數(shù)據(jù),傳感器數(shù)據(jù),都可以整合到外部數(shù)據(jù)中來。你知道嗎?一部智能手機,至少擁有8個傳感設備。
5、網(wǎng)絡可爬回的數(shù)據(jù)。除了文字之外,視頻和圖片也是可以爬回來的。視頻和圖片其實也是數(shù)據(jù),而且是非結構化數(shù)據(jù)。
6、交易數(shù)據(jù)。這一塊就比較難的,比如說商家流水數(shù)據(jù)、支付寶交易數(shù)據(jù)、信用卡消費數(shù)據(jù)等等,目前這一部分數(shù)據(jù)是最難獲取的。
7、數(shù)據(jù)接口API數(shù)據(jù)。這個就不做細說了,據(jù)我所知,微博開放了商業(yè)數(shù)據(jù)API,騰訊開放了騰訊云分析SDK上報的應用數(shù)據(jù),高德地圖開放了LBS數(shù)據(jù)等等。如果你想找更多的數(shù)據(jù)API,我推薦你去數(shù)據(jù)堂、聚合數(shù)據(jù)這兩家網(wǎng)站上看一下,上面有大量的API接口。
8、其他。其他范圍就更大了,天氣數(shù)據(jù)、交通數(shù)據(jù)、人口流動數(shù)據(jù)、位置數(shù)據(jù)等等。我們可以整合的外部數(shù)據(jù)種類很多很多。
整合完公司內(nèi)部外部數(shù)據(jù)進行大數(shù)據(jù)存儲,然后通過清洗,標注、去重、去噪、關聯(lián)等過程可以將數(shù)據(jù)進行結構化,也可以進行大數(shù)據(jù)挖掘和數(shù)據(jù)分析,再以數(shù)據(jù)可視化呈現(xiàn)結果,打通數(shù)據(jù)孤島形成數(shù)據(jù)閉環(huán),將數(shù)據(jù)轉換成“石油”和“生產(chǎn)資料”,最后應用到我們?nèi)粘5纳?、學習和工作中去。
當然,大數(shù)據(jù)應用到日常生活、學習和工作中,往往不是以“大數(shù)據(jù)產(chǎn)品”自居的,普通人能夠使用到的大數(shù)據(jù),已經(jīng)是大數(shù)據(jù)加上業(yè)務場景的產(chǎn)品化應用和服務了。比如,百度搜索引擎、高德地圖其實就是基于大數(shù)據(jù)和業(yè)務場景產(chǎn)生的大數(shù)據(jù)產(chǎn)品化應用。
(審核編輯: 智慧羽毛)
分享