一篇文章詳解大數(shù)據(jù)技術(shù)和應(yīng)用場(chǎng)景
點(diǎn)擊:2572
A+ A-
所屬頻道:新聞中心
什么是大數(shù)據(jù)
說起大數(shù)據(jù),估計(jì)大家都覺得只聽過概念,但是具體是什么東西,怎么定義,沒有一個(gè)標(biāo)準(zhǔn)的東西,因?yàn)樵谖覀兊挠∠笾泻孟窈芏喙径冀写髷?shù)據(jù)公司,業(yè)務(wù)形態(tài)則有幾百種,感覺不是很好理解,所以我建議還是從字面上來理解大數(shù)據(jù),在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的《大數(shù)據(jù)時(shí)代》提到了大數(shù)據(jù)的4個(gè)特征:
一個(gè)是數(shù)量大
一個(gè)是價(jià)值大
一個(gè)是速度快
一個(gè)是多樣性
第一個(gè)是數(shù)量比較大,只有數(shù)據(jù)體量達(dá)到了PB級(jí)別以上,才能被稱為大數(shù)據(jù)。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024個(gè)G的數(shù)據(jù)。
第二個(gè)是價(jià)值大,你如果有1PB以上的全國所有20-35年輕人的上網(wǎng)數(shù)據(jù)的時(shí)候,那么它自然就有了商業(yè)價(jià)值,比如通過分析這些數(shù)據(jù),我們就知道這些人的愛好,進(jìn)而指導(dǎo)產(chǎn)品的發(fā)展方向等等。如果有了全國幾百萬病人的數(shù)據(jù),根據(jù)這些數(shù)據(jù)進(jìn)行分析就能預(yù)測(cè)疾病的發(fā)生,這些都是大數(shù)據(jù)的價(jià)值。
第三個(gè)就是多樣性,如果只有單一的數(shù)據(jù),那么這些數(shù)據(jù)就沒有了價(jià)值,比如只有單一的個(gè)人數(shù)據(jù),或者單一的用戶提交數(shù)據(jù),這些數(shù)據(jù)還不能稱為大數(shù)據(jù),所以說大數(shù)據(jù)還需要是多樣性的,比如當(dāng)前的上網(wǎng)用戶中,年齡,學(xué)歷,愛好,性格等等每個(gè)人的特征都不一樣,這個(gè)也就是大數(shù)據(jù)的多樣性,當(dāng)然了如果擴(kuò)展到全國,那么數(shù)據(jù)的多樣性會(huì)更強(qiáng),每個(gè)地區(qū),每個(gè)時(shí)間段,都會(huì)存在各種各樣的數(shù)據(jù)多樣性。
第四個(gè)是速度快,就是通過算法對(duì)數(shù)據(jù)的邏輯處理速度非???,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
大數(shù)據(jù)的行業(yè)應(yīng)用
大數(shù)據(jù)無處不在,大數(shù)據(jù)應(yīng)用于各個(gè)行業(yè),包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內(nèi)的社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。
制造業(yè),利用工業(yè)大數(shù)據(jù)提升制造業(yè)水平,包括產(chǎn)品故障診斷與預(yù)測(cè)、分析工藝流程、改進(jìn)生產(chǎn)工藝,優(yōu)化生產(chǎn)過程能耗、工業(yè)供應(yīng)鏈分析與優(yōu)化、生產(chǎn)計(jì)劃與排程。
金融行業(yè),大數(shù)據(jù)在高頻交易、社交情緒分析和信貸風(fēng)險(xiǎn)分析三大金融創(chuàng)新領(lǐng)域發(fā)揮重大作用。
汽車行業(yè),利用大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)的無人駕駛汽車,在不遠(yuǎn)的未來將走入我們的日常生活。
互聯(lián)網(wǎng)行業(yè),借助于大數(shù)據(jù)技術(shù),可以分析客戶行為,進(jìn)行商品推薦和針對(duì)性廣告投放。
電信行業(yè),利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)客戶離網(wǎng)分析,及時(shí)掌握客戶離網(wǎng)傾向,出臺(tái)客戶挽留措施。
能源行業(yè),隨著智能電網(wǎng)的發(fā)展,電力公司可以掌握海量的用戶用電信息,利用大數(shù)據(jù)技術(shù)分析用戶用電模式,可以改進(jìn)電網(wǎng)運(yùn)行,合理設(shè)計(jì)電力需求響應(yīng)系統(tǒng),確保電網(wǎng)運(yùn)行安全。
物流行業(yè),利用大數(shù)據(jù)優(yōu)化物流網(wǎng)絡(luò),提高物流效率,降低物流成本。
城市管理,可以利用大數(shù)據(jù)實(shí)現(xiàn)智能交通、環(huán)保監(jiān)測(cè)、城市規(guī)劃和智能安防。
生物醫(yī)學(xué),大數(shù)據(jù)可以幫助我們實(shí)現(xiàn)流行病預(yù)測(cè)、智慧醫(yī)療、健康管理,同時(shí)還可以幫助我們解讀DNA,了解更多的生命奧秘。
體育娛樂,大數(shù)據(jù)可以幫助我們訓(xùn)練球隊(duì),決定投拍哪種題財(cái)?shù)挠耙曌髌罚约邦A(yù)測(cè)比賽結(jié)果。
安全領(lǐng)域,政府可以利用大數(shù)據(jù)技術(shù)構(gòu)建起強(qiáng)大的國家安全保障體系,企業(yè)可以利用大數(shù)據(jù)抵御網(wǎng)絡(luò)攻擊,警察可以借助大數(shù)據(jù)來預(yù)防犯罪。
個(gè)人生活, 大數(shù)據(jù)還可以應(yīng)用于個(gè)人生活,利用與每個(gè)人相關(guān)聯(lián)的“個(gè)人大數(shù)據(jù)”,分析個(gè)人生活行為習(xí)慣,為其提供更加周到的個(gè)性化服務(wù)。
大數(shù)據(jù)的價(jià)值,遠(yuǎn)遠(yuǎn)不止于此,大數(shù)據(jù)對(duì)各行各業(yè)的滲透,大大推動(dòng)了社會(huì)生產(chǎn)和生活,未來必將產(chǎn)生重大而深遠(yuǎn)的影響。
大數(shù)據(jù)使用的技術(shù)
說起大數(shù)據(jù),大數(shù)據(jù)有三個(gè)層數(shù)據(jù)采集、存儲(chǔ)、計(jì)算三層。
第一個(gè)是數(shù)據(jù)采集層,以App、saas為代表的服務(wù)。
大數(shù)據(jù)基礎(chǔ)階段需掌握的技術(shù)有:Linux、Docker、KVM、MySQL基礎(chǔ)、Oracle基礎(chǔ)、MongoDB、redis以及hadoopmapreduce hdfs yarn等。
第二個(gè)數(shù)據(jù)存儲(chǔ)層,比如云存儲(chǔ),需掌握的技術(shù)有:hbase、hive、sqoop等。
比如:Hadoop作為一個(gè)開源的框架,專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計(jì),HDFS作為其核心的存儲(chǔ)引擎,已被廣泛用于數(shù)據(jù)存儲(chǔ)。HBase,是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫,可以認(rèn)為是hdfs的封裝,本質(zhì)是數(shù)據(jù)存儲(chǔ)、NoSQL數(shù)據(jù)庫。
HBase是一種Key/Value系統(tǒng),部署在hdfs上,克服了hdfs在隨機(jī)讀寫這個(gè)方面的缺點(diǎn),與hadoop一樣,Hbase目標(biāo)主要依靠橫向擴(kuò)展,通過不斷增加廉價(jià)的商用服務(wù)器,來增加計(jì)算和存儲(chǔ)能力。
第三個(gè)是數(shù)據(jù)計(jì)算應(yīng)用層,以數(shù)據(jù)為基礎(chǔ),為將來的移動(dòng)社交、交通、教育,金融進(jìn)行服務(wù),涉及到大數(shù)據(jù)架構(gòu)設(shè)計(jì)階段需掌握的技術(shù)有:Flume分布式、Zookeeper、Kafka等,以及大數(shù)據(jù)實(shí)時(shí)計(jì)算階段需掌握的技術(shù)有:Mahout、Spark、storm。
大數(shù)據(jù)的崗位
1.數(shù)據(jù)分析師Data analyst
指熟悉相關(guān)業(yè)務(wù),熟練搭建數(shù)據(jù)分析框架,掌握和使用相關(guān)的分析常用工具和基本的分析方法,進(jìn)行數(shù)據(jù)搜集、整理、分析,針對(duì)數(shù)據(jù)分析結(jié)論給管理銷售運(yùn)營提供指導(dǎo)意義的分析意見。
2.數(shù)據(jù)架構(gòu)師Data architect
對(duì)Hadoop解決方案的整個(gè)生命周期進(jìn)行引導(dǎo),包括需求分析,平臺(tái)選擇,技術(shù)架構(gòu)設(shè)計(jì),應(yīng)用設(shè)計(jì)和開發(fā),測(cè)試和部署。深入掌握如何編寫MapReduce的作業(yè)及作業(yè)流的管理完成對(duì)數(shù)據(jù)的計(jì)算,并能夠使用Hadoop提供的通用算法, 熟練掌握Hadoop整個(gè)生態(tài)系統(tǒng)的組件如: Yarn,HBase、Hive、Pig等重要組件,能夠?qū)崿F(xiàn)對(duì)平臺(tái)監(jiān)控、輔助運(yùn)維系統(tǒng)的開發(fā)。
3.大數(shù)據(jù)工程師Big DataEngineer
收集和處理大規(guī)模的原始數(shù)據(jù)(包括腳本編寫,網(wǎng)頁獲取,調(diào)用APIs,編寫SQL查詢等);將非結(jié)構(gòu)化數(shù)據(jù)處理成適合分析的一種形式,然后進(jìn)行分析;根據(jù)所需要的和專案分析商業(yè)決策。
4.數(shù)據(jù)倉庫管理員
Data warehousemanager:指定并實(shí)施信息管理策略;協(xié)調(diào)和管理的信息管理解決方案;多個(gè)項(xiàng)目的范圍,計(jì)劃和優(yōu)先順序安排;管理倉庫的各個(gè)方面,比如數(shù)據(jù)外包,移動(dòng),質(zhì)量,設(shè)計(jì)和實(shí)施。
5.數(shù)據(jù)庫管理員Database manager
提高數(shù)據(jù)庫工具和服務(wù)的有效性;確保所有的數(shù)據(jù)符合法律規(guī)定;確保信息得到保護(hù)和備份;做定期報(bào)告;監(jiān)控?cái)?shù)據(jù)庫性能;改善使用的技術(shù);建立新的數(shù)據(jù)庫;檢測(cè)數(shù)據(jù)錄入程序;故障排除。
6.商業(yè)智能分析員Businessintelligence analyst
就工具,報(bào)告或者元數(shù)據(jù)增強(qiáng)來進(jìn)行傳播信息;進(jìn)行或協(xié)調(diào)測(cè)試,以確保情報(bào)的定義與需求相一致;使用商業(yè)智能工具來識(shí)別或監(jiān)測(cè)現(xiàn)有和潛在的客戶;綜合目前的商業(yè)只能和趨勢(shì)數(shù)據(jù),來支持采取行動(dòng)的建議;維護(hù)或更新的商業(yè)智能工具,數(shù)據(jù)庫,儀表板,系統(tǒng)或方法;及時(shí)的管理用戶流量的商業(yè)情報(bào)。
(審核編輯: 智匯胡妮)