帶你了解不一樣的“大數(shù)據(jù)”
所屬頻道:新聞中心
一、吹響大數(shù)據(jù)的集結(jié)號
“大數(shù)據(jù)”(BigData)之所以會成為熱點,主要應(yīng)歸因于近年來互聯(lián)網(wǎng)、云計算、移動和物聯(lián)網(wǎng)的迅猛發(fā)展。無所不在的移動設(shè)備、射頻識別技術(shù)(RFID)、無線傳感器每分每秒都在產(chǎn)生著成千上億的數(shù)據(jù),數(shù)以億計用戶的互聯(lián)網(wǎng)服務(wù)時時刻刻都在產(chǎn)生巨量的數(shù)據(jù),需要處理的數(shù)據(jù)量實在是太多、增長實在是太快了,而業(yè)務(wù)需求和競爭壓力對數(shù)據(jù)處理的實時性、有效性又提出了更高要求,傳統(tǒng)的常規(guī)技術(shù)手段根本無法應(yīng)對“大數(shù)據(jù)”浪潮。國際數(shù)據(jù)公司(IDC-InternationalDataCorporation)預(yù)計,大量新數(shù)據(jù)無時不刻不在涌現(xiàn),它們以每年50%的速度在增長,或者說每兩年就要翻一番多。人類社會發(fā)展的核心驅(qū)動力,目前,已由“動力驅(qū)動”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動”;經(jīng)濟活動重點,已從材料的使用轉(zhuǎn)移到“大數(shù)據(jù)”的使用?!按髷?shù)據(jù)”正在成為各個業(yè)界的焦點話題。2012年1月,在瑞士達(dá)沃斯舉行的世界經(jīng)濟論壇上,“大數(shù)據(jù)”是框定的主題之一。該論壇的一份報告——《大數(shù)據(jù),大影響》,宣告了“大數(shù)據(jù)時代”的到來!今天已經(jīng)進入“大數(shù)據(jù)”時代,身邊的一切都在“大數(shù)據(jù)”范圍內(nèi)。人們似乎再也沒有什么秘密可言,各種信息都暴露在“大數(shù)據(jù)”之中。“大數(shù)據(jù)”幾乎是無處不在。傳統(tǒng)行業(yè)創(chuàng)新升級,“大數(shù)據(jù)”成背后推手!企業(yè)必須直面“大數(shù)據(jù)”的挑戰(zhàn)。
二、關(guān)于“大數(shù)據(jù)”的基本認(rèn)識
2.1“大數(shù)據(jù)”的定義
什么是“大數(shù)據(jù)”?從一般意義上說,“大數(shù)據(jù)”是指那些超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù),數(shù)據(jù)量通常在10TB(1TB=1024GB,為1萬億字節(jié))以上。因為數(shù)據(jù)庫、“大數(shù)據(jù)”已經(jīng)成為變革的中心,事實上成為一場信息革命,在IT領(lǐng)域、能源業(yè)、制造業(yè)、零售業(yè)、政府管理、科技與國防軍事等,“大數(shù)據(jù)”都改變了整個世界的運行方式。因此,我們稱之為“大數(shù)據(jù)“時代。對于什么是“大數(shù)據(jù)”,目前業(yè)界并沒有統(tǒng)一的定義。而根據(jù)維基百科的定義:“‘大數(shù)據(jù)’是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理、處理的數(shù)據(jù)集合?!睆漠a(chǎn)業(yè)角度,常常把這些數(shù)據(jù)與采集它們的工具、平臺、分析系統(tǒng)一起統(tǒng)稱為“大數(shù)據(jù)”。
縱觀人類歷史,每一次劃時代的變革都是以新工具的出現(xiàn)和應(yīng)用為標(biāo)志的。蒸汽機把人們從農(nóng)業(yè)時代帶入了工業(yè)時代,計算機和互聯(lián)網(wǎng)把人們從工業(yè)時代帶入了信息時代,而如今“大數(shù)據(jù)”時代已經(jīng)到來,它源自信息時代,又是信息時代全方位的深化應(yīng)用與延伸?!按髷?shù)據(jù)”時代的生產(chǎn)原材料是數(shù)據(jù),生產(chǎn)工具則是“大數(shù)據(jù)”技術(shù),是對信息時代所產(chǎn)生的海量數(shù)據(jù)的挖掘和分析,從而快速地獲取有價值信息的技術(shù)和應(yīng)用。
2.2“大數(shù)據(jù)”的量級
20多年來,各個領(lǐng)域特別是信息領(lǐng)域的數(shù)據(jù)量的加速增長,是“大數(shù)據(jù)”概念產(chǎn)生的基礎(chǔ)。專家測算,2000年全球新產(chǎn)生的數(shù)據(jù)量為1000PB到2000PB,到2010年僅僅全球企業(yè)一年新存儲的數(shù)據(jù)量就超過了7000PB。
大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型數(shù)據(jù)。目前全球每年產(chǎn)生的數(shù)據(jù)量是ZB級,到2015年會達(dá)到35個ZB。這表明,海量存儲已經(jīng)達(dá)到了ZB級(1ZB=1000PB,1PB=1000TB,1TB=1000GB,1GB=1000MB),對于硬件系統(tǒng)的需求已經(jīng)超出了傳統(tǒng)的設(shè)計概念。
2.3“大數(shù)據(jù)”的特點
國際數(shù)據(jù)公司(IDC)認(rèn)為,某項技術(shù)要想成為“大數(shù)據(jù)”技術(shù),必須滿足IBM所描述的三個“V”:多樣性(variety)、大容量(volume)和時效性高(velocity)。多樣性是指數(shù)據(jù)應(yīng)包含結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù);大容量是指聚合在一起供分析的數(shù)據(jù)量必須是非常龐大的;時效性高則是指數(shù)據(jù)處理的速度必須很快。
具體來說,“大數(shù)據(jù)”具有4個基本特征:一是數(shù)據(jù)體量巨大。百度資料表明,其新首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證實,到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量僅為200PB。二是數(shù)據(jù)類型多樣。現(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個性化數(shù)據(jù)占絕對多數(shù)。三是處理速度快。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息。四是價值密度低。以視頻為例,一小時的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。
2.4“大數(shù)據(jù)”技術(shù)的構(gòu)成
如果說“大數(shù)據(jù)”是一種技術(shù),又具體包括哪些技術(shù)?專家認(rèn)為,“大數(shù)據(jù)”技術(shù)由四種技術(shù)構(gòu)成:它們包括:分析技術(shù)、存儲數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、分布式計算技術(shù)。
各種研究表明,“大數(shù)據(jù)”是與智能制造、無線網(wǎng)絡(luò)革命并行的又一次顛覆性的技術(shù)變革。其具體內(nèi)容包括:海量數(shù)據(jù)分析技術(shù)、“大數(shù)據(jù)”處理技術(shù)、分布式計算技術(shù)、數(shù)據(jù)可視化技術(shù)。
三、美國正在全面推進“大數(shù)據(jù)”研發(fā)
2012年3月29日,奧巴馬總統(tǒng)發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,開啟了美國“大數(shù)據(jù)”全面研發(fā)工作,“大數(shù)據(jù)”作為信息時代獲取、處理與利用信息的一項核心技術(shù),正改變著國家安全、社會經(jīng)濟發(fā)展乃至人類生活的各個方面,已成為信息時代大國競爭的一個戰(zhàn)略性的新領(lǐng)域。美國甚至流行一句諺語叫“除了上帝,任何人都必須用數(shù)據(jù)來說話”。美國政府把“大數(shù)據(jù)”看成是“未來的新石油”。
美國政府宣布“大數(shù)據(jù)研究和發(fā)展倡議(BigDataResearchandDevelopmentInitiative)”,來推進從大量的、復(fù)雜的數(shù)據(jù)集合中獲取知識和洞見的能力?!洞髷?shù)據(jù)研究和發(fā)展倡議》提出,將提升美國利用收集的龐大而復(fù)雜的數(shù)字資料提煉真知灼見的能力,協(xié)助加速科學(xué)、工程領(lǐng)域創(chuàng)新步伐,強化美國國土安全,轉(zhuǎn)變教育和學(xué)習(xí)模式。《大數(shù)據(jù)研究和發(fā)展倡議》還承諾將在科學(xué)研究、環(huán)境保護、生物醫(yī)藥研究、教育以及國家安全等領(lǐng)域利用“大數(shù)據(jù)”技術(shù)進行突破。
該倡議涉及聯(lián)邦政府的美國國家科學(xué)基金(NSF)、美國國家衛(wèi)生研究院(NIH)、美國能源部(DOE)、美國國防部(DOD)、美國國防部高級研究計劃局(DARPA)、美國地質(zhì)勘探局(USGS)等六個部門。這些部門承諾將投資總共超過兩億美元,來大力推動和改善與“大數(shù)據(jù)”相關(guān)的收集、組織和分析工具及技術(shù)。在這份倡議中還透露了多項正在進行中的聯(lián)邦政府各部門的大數(shù)據(jù)計劃。主要內(nèi)容如下:美國國家科學(xué)基金和美國國家衛(wèi)生研究院主要推進大數(shù)據(jù)科學(xué)和工程的核心方法及技術(shù)研究,項目包括管理、分析、可視化、以及從大量的多樣化數(shù)據(jù)集中提取有用信息的核心科學(xué)技術(shù);國防部高級研究局項目主要推進大數(shù)據(jù)輔助決策,集中在情報、偵查、網(wǎng)絡(luò)間諜等方面,匯集傳感器、感知能力和決策支持建立真正的自治系統(tǒng),實現(xiàn)操作和決策的自動化;美國能源部試圖通過先進的計算進行科學(xué)發(fā)現(xiàn),提供2500萬美元基金來建立可擴展的數(shù)據(jù)管理、分析和可視化研究所;美國地質(zhì)勘探局通過給科學(xué)家提供深入分析的場所和時間、最高水平的計算能力和理解大數(shù)據(jù)集的協(xié)作工具,催化在地理系統(tǒng)科學(xué)的創(chuàng)新思維。
四、“大數(shù)據(jù)”技術(shù)在工控行業(yè)中的若干應(yīng)用研究
4.1在電力行業(yè)的若干應(yīng)用研究
在電力行業(yè),堅強智能電網(wǎng)建設(shè)及“三集五大”管理體系的決策部署,對數(shù)據(jù)的管理、共享及互操作提出了更高的要求。電力行業(yè)面臨著正在形成的大數(shù)據(jù)環(huán)境,為此,需要不斷挖掘大數(shù)據(jù)環(huán)境下的業(yè)務(wù)數(shù)據(jù)處理的潛在需求,探索適應(yīng)電力數(shù)據(jù)的理論和方法,使得電力信息系統(tǒng)的運維的外延向數(shù)據(jù)運維的范疇進一步地拓展。以更好地適應(yīng)數(shù)據(jù)量的迅速增長、數(shù)據(jù)類型的多樣化、數(shù)據(jù)時效性不斷提高。
以智能電網(wǎng)為例,電網(wǎng)互聯(lián)是電力系統(tǒng)發(fā)展的客觀規(guī)律,有必要加強研發(fā)大規(guī)模互聯(lián)電網(wǎng)的安全穩(wěn)定運行技術(shù)、先進可靠的配電網(wǎng)與共用技術(shù)及微電網(wǎng)技術(shù)為主的分布式電力系統(tǒng)。因此,采集、分析并有效應(yīng)用“大數(shù)據(jù)”是解決能源與公共事業(yè)關(guān)鍵業(yè)務(wù)的重要因素,可以實現(xiàn)向智能電網(wǎng)轉(zhuǎn)型、改善分布式可再生發(fā)電的資產(chǎn)預(yù)報與調(diào)度、提高發(fā)電效率以及改變客戶運營模式。
《大數(shù)據(jù)時代》的作者舍恩伯格說,可以抽象地認(rèn)為,智能電網(wǎng)就是“大數(shù)據(jù)”這個概念在電力行業(yè)中的應(yīng)用,就是通過網(wǎng)絡(luò)將用戶的用電習(xí)慣等信息傳回給電網(wǎng)企業(yè)的信息中心,進行分析處理,并對電網(wǎng)規(guī)劃、建設(shè)、服務(wù)等提供更可靠的依據(jù)。同時,對于風(fēng)能、太陽能等具有間歇性的新能源,通過“大數(shù)據(jù)”分析進行有效地調(diào)節(jié),也可以使新能源更好地與傳統(tǒng)的水火電進行互補,更為靈活地出力。在本質(zhì)上,智能電網(wǎng)是“大數(shù)據(jù)”在電力上的應(yīng)用。在電力行業(yè),堅強智能電網(wǎng)的迅速發(fā)展使信息通信技術(shù)正以前所未有的廣度、深度與電網(wǎng)生產(chǎn)、企業(yè)管理快速融合,信息通信系統(tǒng)已經(jīng)成為智能電網(wǎng)的“中樞神經(jīng)”,支撐新一代電網(wǎng)生產(chǎn)和管理發(fā)展。
“大數(shù)據(jù)”與電網(wǎng)的融合可組成智能電網(wǎng),涉及發(fā)電到用戶的整個能源轉(zhuǎn)換過程和電力輸送鏈,主要包括智能電網(wǎng)基礎(chǔ)技術(shù)、大規(guī)模新能源發(fā)電及并網(wǎng)技術(shù)、智能輸電網(wǎng)技術(shù)、智能配電網(wǎng)技術(shù)及智能用電技術(shù)等,是未來電網(wǎng)的發(fā)展方向等。電力企業(yè)是不是符合“大數(shù)據(jù)”應(yīng)用的企業(yè)?享譽信息產(chǎn)業(yè)界多年的梅特卡夫定律指出,網(wǎng)絡(luò)的價值與聯(lián)網(wǎng)的用戶數(shù)的平方成正比。隨著電力工業(yè)與信息化的深度融合,智能電網(wǎng)將承載著電力流、信息流和業(yè)務(wù)流,電網(wǎng)和電力信息通信網(wǎng)的用戶將發(fā)生疊加,電網(wǎng)的整體價值會躍升。這種價值的躍升將使電力企業(yè)具有大數(shù)據(jù)的時代特征。電力信息通信將突破傳統(tǒng)運維、產(chǎn)生更多的增值服務(wù),甚至催生新的管理模式創(chuàng)新。數(shù)據(jù)中心將被賦予更多的職能,比如強大的數(shù)據(jù)挖掘、數(shù)據(jù)分析和決策能力。電力企業(yè)業(yè)務(wù)數(shù)據(jù)主要來自生產(chǎn)數(shù)據(jù)和運營管理數(shù)據(jù)。電力企業(yè)生產(chǎn)數(shù)據(jù)既包括發(fā)電量、電壓穩(wěn)定性等實時采集的數(shù)據(jù),也包括物聯(lián)網(wǎng)、云計算、新能源并網(wǎng)、移動互聯(lián)、電動汽車充換電、車聯(lián)網(wǎng)等技術(shù)帶來的新數(shù)據(jù)業(yè)務(wù)。電力企業(yè)運營管理數(shù)據(jù),則包括交易電價、售電量、用電客戶、ERP、一體化平臺、協(xié)同辦公等方面的數(shù)據(jù)。如能充分利用這些基于電力生產(chǎn)、使用等實際數(shù)據(jù),對其進行深入分析,便可以提供大量的高附加值服務(wù)。這些增值服務(wù)將有利于電網(wǎng)安全檢測與控制,客戶用電行為分析與客戶細(xì)分,電力企業(yè)精細(xì)化運營管理等,實現(xiàn)更科學(xué)的需求側(cè)管理。數(shù)據(jù)、信息和知識的“按需分配、恒值供給、多次挖掘”將成為新經(jīng)濟形態(tài)的不竭動力,而“大數(shù)據(jù)”技術(shù)和應(yīng)用成為決策的輔助系統(tǒng)。
“大數(shù)據(jù)”時代對電力行業(yè)發(fā)展提出新的挑戰(zhàn),但也帶來新的發(fā)展機遇。通過良好的數(shù)據(jù)管理,并運用數(shù)據(jù)挖掘手段踐行大數(shù)據(jù)戰(zhàn)略,將切實提高電力生產(chǎn)、營銷,以及電網(wǎng)運維等各方面生產(chǎn)管理水平,為使中國電力企業(yè)繼續(xù)立于世界先進行列提供強大的信息技術(shù)支撐。
據(jù)悉,2013年3月,中國電機工程學(xué)會電力信息化專委會擬編制發(fā)布《中國電力大數(shù)據(jù)發(fā)展白皮書(2013)》,這將是我國首次就電力“大數(shù)據(jù)”問題發(fā)布的白皮書。作為電力信息化專委會秘書處所在單位,國網(wǎng)信息通信有限公司承擔(dān)白皮書的調(diào)研和編寫工作。白皮書全文12000余字,分為引言、迎接電力“大數(shù)據(jù)‘時代、展望電力“大數(shù)據(jù)”時代、邁向電力“大數(shù)據(jù)”時代、結(jié)束語等五部分。這充分表明,電力工業(yè)作為國家基礎(chǔ)性能源設(shè)施,與社會發(fā)展和人民生活息息相關(guān),是國民經(jīng)濟社會健康穩(wěn)定持續(xù)發(fā)展的重要條件。積極應(yīng)用“大數(shù)據(jù)”技術(shù),推動中國電力“大數(shù)據(jù)”事業(yè)健康發(fā)展,對實現(xiàn)中國電力工業(yè)科學(xué)發(fā)展具有極大的現(xiàn)實意義。
完全可以預(yù)期,“大數(shù)據(jù)”技術(shù)的在電力行業(yè)中的應(yīng)用研究,僅僅是開始。隨著電力行業(yè)的不斷發(fā)展,“大數(shù)據(jù)技術(shù)”應(yīng)用,將會不斷擴展與深化。
4.2有助于提升工控行業(yè)的“洞察力”
所謂“洞察力”,指的是人對任何特定情況作出預(yù)見的能力。在企業(yè)管理上,“洞察力”更意味著管理者必須擁有以數(shù)據(jù)為基礎(chǔ)、深入觀察分析,透過現(xiàn)象看本質(zhì)、將理論應(yīng)用到實際工作中的能力。隨著數(shù)據(jù)總量的持續(xù)增長和急速膨脹,“大數(shù)據(jù)”時代已經(jīng)來臨,2013年電力、石油等能源細(xì)分行業(yè)紛紛拉開了“大數(shù)據(jù)”開發(fā)應(yīng)用的序幕?!按髷?shù)據(jù)”技術(shù)強調(diào)的是從海量數(shù)據(jù)中快速獲取有價值信息的能力,如何從海量數(shù)據(jù)中高效獲取數(shù)據(jù),有效地深加工并最終得到有用的數(shù)據(jù)是能源企業(yè)涉足“大數(shù)據(jù)”的目的。“大數(shù)據(jù)”是以大量資料為基礎(chǔ),以更加科學(xué)的方式,進行分析、洞察的創(chuàng)新能力。實際上,進入“大數(shù)據(jù)”時代以來,現(xiàn)代企業(yè)正經(jīng)歷著規(guī)?;⒍鄻踊咚倩臄?shù)據(jù)挑戰(zhàn)。越來越多的管理者開始意識到,若無法對海量信息進行有效的分析處理,預(yù)測出潛在的業(yè)務(wù)風(fēng)險,便容易在競爭中處于劣勢;若無法通過有效的溝通,確保洞察到的信息被較好地執(zhí)行,則可能致使企業(yè)商機的流失。
未來,企業(yè)會依靠洞悉數(shù)據(jù)中的信息更加了解自己,也更加了解客戶。在這個瞬息萬變的時代,面對各種隨時可能發(fā)生變化的形勢,管理者不妨使用“以洞察獲取先機、用溝通確保執(zhí)行”的方式,制定各種應(yīng)對戰(zhàn)略,保證企業(yè)這艘“大船”平穩(wěn)行駛,在不斷的競爭中獲得勝利。企業(yè)管理公司SAP(全球知名的企業(yè)管理和協(xié)同化商務(wù)解決方案供應(yīng)商)曾做過一項調(diào)查,發(fā)現(xiàn)在任何行業(yè)中,將最具競爭力的企業(yè)與最不具競爭力的企業(yè)相比,前者的員工受到更強洞察力的影響的比例是后者兩倍,由此可見,強大的洞察力對企業(yè)競爭優(yōu)勢起推動作用。
歸根到底,“大數(shù)據(jù)”的最終意義在于獲得提升“洞察力”的能力和價值。移動互聯(lián)時代,數(shù)據(jù)已經(jīng)被認(rèn)為是寶貴資源,任何一家有雄心、渴望獲取洞察力的企業(yè),都應(yīng)及早制定“大數(shù)據(jù)”戰(zhàn)略和方案。否則,所有的機會將被“數(shù)據(jù)鴻溝”所延宕。
4.3“大數(shù)據(jù)”的核心:更準(zhǔn)確地預(yù)測企業(yè)數(shù)據(jù)
在“大數(shù)據(jù)”時代,數(shù)據(jù)與機器將在人類的日常決策中占有重要的地位。未來,人類必須學(xué)會如何和海量的數(shù)據(jù)相處。從個體角度而言,人類需要學(xué)會如何平衡個人直覺與數(shù)字證據(jù)之間的關(guān)系;從企業(yè)與組織角度而言,人類需要探索企業(yè)組織架構(gòu)和決策流程與數(shù)據(jù)之間的關(guān)系;從創(chuàng)新角度而言,人類需要探索如何打造合適的產(chǎn)業(yè)環(huán)境,促進更多的創(chuàng)新的“大數(shù)據(jù)”應(yīng)用的誕生。“大數(shù)據(jù)”時代,海量數(shù)據(jù)處理與挖掘的技術(shù)固然十分重要,但是,更為重要的因素仍然是人。只有人,才能利用新技術(shù)與新方法創(chuàng)造性地搜集與探索數(shù)據(jù)中隱含的意義;只有人,才能最大限度地發(fā)揮數(shù)據(jù)的作用,在機器與數(shù)據(jù)的支持下更有效地決策。換句話說,“大數(shù)據(jù)”的核心:是要求更準(zhǔn)確地預(yù)測企業(yè)的數(shù)據(jù)。為了適應(yīng)“大數(shù)據(jù)”時代的來臨,企業(yè)需要從管理者的思維方式、企業(yè)的組織架構(gòu)和信息環(huán)境等多方面進行改變以與之相適應(yīng)。
企業(yè)“大數(shù)據(jù)”的應(yīng)用一方面是與宏觀經(jīng)濟、人民生活、社會保障、道路交通的信息融合,促進經(jīng)濟社會發(fā)展;另一方面,是各個行業(yè)或企業(yè)內(nèi)部,跨專業(yè)、跨單位、跨部門的數(shù)據(jù)融合,提升行業(yè)、企業(yè)管理水平和經(jīng)濟效益。
4.4數(shù)據(jù)挖掘技術(shù)在工控行業(yè)里的應(yīng)用
數(shù)據(jù)挖掘,又稱為知識發(fā)現(xiàn)(KnowledgeDiscovery),是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。利用大數(shù)據(jù)可對業(yè)務(wù)進行分析,加工成有用的數(shù)據(jù),進而全面掌控企業(yè)業(yè)務(wù)。對電力行業(yè)來說,大數(shù)據(jù)是電力企業(yè)深化應(yīng)用、提升應(yīng)用層次、強化集團企業(yè)管控的有力技術(shù)手段。隨著電力企業(yè)各類IT系統(tǒng)對業(yè)務(wù)流程的基本覆蓋,采集到的數(shù)據(jù)量迅速增長。電力行業(yè)面臨的問題不僅僅是收集和存儲數(shù)據(jù),而是圍繞數(shù)據(jù)采用相應(yīng)的定量和統(tǒng)計信息,挖掘更加有價值的信息。如國網(wǎng)信通公司在北京亦莊的數(shù)據(jù)中心里,就設(shè)有10200個傳感器,它們及時采集數(shù)據(jù),存儲到云并進行分析和利用。
數(shù)據(jù)挖掘是從海量實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、潛在有用信息和知識的過程,是一個知識發(fā)現(xiàn)過程。整個過程分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立挖掘模型、評估和部署六個步驟。即在開始數(shù)據(jù)挖掘之前,我們必須了解業(yè)務(wù)需求,根據(jù)需求明確挖掘主題、要求和最終目標(biāo);接下來便是對現(xiàn)有數(shù)據(jù)進行評估,并對原始數(shù)據(jù)進行組織、清理、集成、變換等一系列數(shù)據(jù)收集和預(yù)處理工作;在搞好數(shù)據(jù)治理的基礎(chǔ)上,便可應(yīng)用數(shù)據(jù)挖掘算法和工具建立挖掘模型;之后對所建立的模型進行評估,重點具體考慮得出的結(jié)果是否符合最初的業(yè)務(wù)目標(biāo);最后,便可將發(fā)現(xiàn)的結(jié)果以及過程利用各種可視化技術(shù)(報表、報告、圖形等)呈現(xiàn)出來。
4.5工控行業(yè)的“大數(shù)據(jù)”應(yīng)用案例
工業(yè)控制系統(tǒng)中“大數(shù)據(jù)”的應(yīng)用研究。現(xiàn)舉例如下:
案例之一,《SCADA系統(tǒng)中大數(shù)據(jù)處理的研究與開發(fā)》
在SCADA(SupervisoryControlAndDataAcquisition)系統(tǒng),即數(shù)據(jù)采集與監(jiān)控系統(tǒng)的實際應(yīng)用過程中,由于很多應(yīng)用企業(yè)的數(shù)據(jù)采集點很多,同時由于應(yīng)用方面的實際需要,通常需要把采集的數(shù)據(jù)保留一段很長的時間,用于查詢、分析和統(tǒng)計。另一方面,很多數(shù)據(jù)的采集要求實時性較高,需要保持著較高的采集頻率,從而,數(shù)據(jù)庫中的數(shù)據(jù)勢必會越來越多,因此,在保證系統(tǒng)穩(wěn)定與正常訪問的前提下,將不可避免地面臨著大數(shù)據(jù)的處理問題。
如:某城市供水管網(wǎng)數(shù)據(jù)SCADA系統(tǒng)中有多個水廠,每個水廠有多達(dá)上百個數(shù)據(jù)采集點,包括了水溫、水流量、水壓力、水位以及其它多項監(jiān)測數(shù)據(jù)。針對此類問題,在不改變數(shù)據(jù)采集周期、不增加硬件設(shè)備的情況下,通過優(yōu)化數(shù)據(jù)結(jié)構(gòu)和算法,完全可以達(dá)到提高數(shù)據(jù)訪問速度、提高系統(tǒng)運行效率的目的,可具體進行優(yōu)化。
案例之二,《大數(shù)據(jù)推動自動化和信息化融合》
2012年9月20日,“第二屆云計算大會暨大數(shù)據(jù)高峰論壇”在北京召開。在此次以“云計算與大數(shù)據(jù)融合發(fā)展方向”為主要探討話題的高峰論壇上,與會嘉賓北京首鋼自動化信息技術(shù)有限公司總工程師郭雨春做主題演講。
郭雨春認(rèn)為,“縱覽首鋼對數(shù)據(jù)應(yīng)用歷史,原來數(shù)據(jù)是一種資料,到后來變成資源,到現(xiàn)在是一種資產(chǎn)?!薄皟苫诤显谥圃鞓I(yè)來講應(yīng)該是比較新的課題,結(jié)合企業(yè)的信息化,從管理角度來講,應(yīng)該是精細(xì)化管理,從生產(chǎn)流程來講應(yīng)該是產(chǎn)業(yè)升級。這兩個都離不開自動化和信息化支持。建立數(shù)字化企業(yè)是兩化深度融合必然結(jié)果,而其中最關(guān)鍵的是數(shù)據(jù)。因為兩化融合進程中,首先要提到就是自動化和信息化之間關(guān)系,就是因為有大數(shù)據(jù),有了數(shù)據(jù)的融合,所以才出現(xiàn)了自動化和信息化的融合。”毫無疑問,大數(shù)據(jù)創(chuàng)業(yè)的前景十分廣闊,“看不見的數(shù)據(jù),看得見的價值”正給新興的通過數(shù)據(jù)創(chuàng)業(yè)的公司帶來難以估量的市場潛力。
案例之三,《“大數(shù)據(jù)”支撐智慧城市建設(shè)》
未來智慧城市的建設(shè)將帶來數(shù)據(jù)量的爆發(fā)式增長,“大數(shù)據(jù)”將像血液一樣遍布智慧交通、智慧醫(yī)療、智慧生活等智慧城市建設(shè)的各個方面,城市管理正在從“經(jīng)驗治理”向“科學(xué)治理”轉(zhuǎn)變。智慧城市是否真正“智慧”源自“大數(shù)據(jù)”,如何挖掘海量數(shù)據(jù)的潛在價值并為城市治理提供可靠決策和建議,成為智慧城市建設(shè)的關(guān)鍵。專家建議,中國必須抓住“大數(shù)據(jù)”時代的機遇,挖掘海量數(shù)據(jù)的潛在價值,進而推進智能城市建設(shè)。
結(jié)合智慧城市對信息的需求,“大數(shù)據(jù)”在智慧城市中的落腳點為——為智慧城市的各個領(lǐng)域提供強大的決策支持。在城市規(guī)劃方面,通過對城市地理、氣象等自然信息和經(jīng)濟、社會、文化、人口等人文社會信息的挖掘,可以為城市規(guī)劃提供強大的決策支持,強化城市管理服務(wù)的科學(xué)性和前瞻性。在交通管理方面,通過對道路交通信息的實時挖掘,能有效緩解交通擁堵,并快速響應(yīng)突發(fā)狀況,為城市交通的良性運轉(zhuǎn)提供科學(xué)的決策依據(jù)。在安防與防災(zāi)領(lǐng)域,通過大數(shù)據(jù)的挖掘,可以及時發(fā)現(xiàn)人為或自然災(zāi)害、恐怖事件,提高應(yīng)急處理能力和安全防范能力等。
中國工程院院士鄔賀銓在2013年1月11日舉行的《2013中國智慧城市年會》上說:“‘大數(shù)據(jù)’挖掘?qū)χ腔鄢鞘械慕?jīng)濟發(fā)展和社會管理是無形的生產(chǎn)資料,‘大數(shù)據(jù)’價值的合理共享和利用將創(chuàng)造巨大財富?!编w賀銓認(rèn)為,智慧城市是城鎮(zhèn)化進程的下一階段,是城市信息化的新高度,是現(xiàn)代城市發(fā)展的愿景。智慧城市在產(chǎn)生大數(shù)據(jù)的同時,“大數(shù)據(jù)”也支撐著智慧城市的建設(shè)和發(fā)展。
五、“大數(shù)據(jù)”技術(shù)應(yīng)用的局限性
這里,我并不是想說大數(shù)據(jù)分析不是一個好的工具。而是想說,就像任何好的工具一樣,它有它所擅長的地方,也會其局限的地方。而世界正因為不能單從一個方面解釋而顯得有趣。
5.1就像任何工具一樣,“大數(shù)據(jù)”分析也有其局限性。
“大數(shù)據(jù)”的局限性是算法不能完全代替人的判斷。實際上“大數(shù)據(jù)”在很多方面都無法取代人類的智慧和判斷,“大數(shù)據(jù)”可以處理大量非結(jié)構(gòu)化數(shù)據(jù),彌補管理者過于依賴直覺的不足;但是人們也應(yīng)當(dāng)意識到,“大數(shù)據(jù)”也有很多不擅長的地方:例如,無法對“情感”和“社會關(guān)系”等進行定性分析,原始數(shù)據(jù)和分析結(jié)果會受到人類主觀意識影響;又如,“大數(shù)據(jù)”不擅長上下文情景分析;再如,“大數(shù)據(jù)”不擅長處理真正的巨型問題;還如,原始數(shù)據(jù)往往會被扭曲,數(shù)據(jù)分析的結(jié)論往往基于大眾偏好。
“大數(shù)據(jù)技術(shù)目前存在局限性,還不適用于所有企業(yè)?!按髷?shù)據(jù)”最美的地方,就是我們不再受數(shù)據(jù)容量的局限,它可以不斷的增加一些變量,然后增加價值,幫助我們做出更好的決策。
斯坦福大學(xué)專家特來沃爾?哈斯蒂也指出,“大數(shù)據(jù)”的理論是“在稻草堆里找一根針”,而面臨的問題則是“所有稻草看上去都挺像那根針”。而喬治?梅森大學(xué)專家瑞貝克?高爾丁則提出“數(shù)據(jù)提供者造假”的危險,在“大數(shù)據(jù)時代”變得更有害,因為“大數(shù)據(jù)”理論建立在“海量數(shù)據(jù)都是事實”的基礎(chǔ)上,但人們無法控制數(shù)據(jù)提供者和搜集者本人的偏見和篩選。近年來已有不少學(xué)者指出,擁有最完善數(shù)據(jù)庫、最先接受“大數(shù)據(jù)”理念的華爾街投行和歐美大評級機構(gòu),卻每每在重大問題上判斷出錯,這本身就揭示了“大數(shù)據(jù)”的局限性。
5.2企業(yè)信息安全成為重大問題
“大數(shù)據(jù)”堪稱一把雙刃劍,不論是企業(yè)還是個人,都會因為“大數(shù)據(jù)”的爆發(fā)而獲益匪淺,但同時,個人隱私也無處遁形。站在不同的角度看“大數(shù)據(jù)”,它既可能是大機會、大發(fā)展、大創(chuàng)新,也可能是大危機、大破壞、大淘汰。由于“大數(shù)據(jù)”炙手可熱,數(shù)據(jù)的流失、泄露和私下買賣也成為噩夢,全球各地不時發(fā)生的個人信息被盜可被看作“大數(shù)據(jù)時代”對個人生活的傷害,而“維基泄密事件”則提醒強力部門和各國政府,“大數(shù)據(jù)”的魔力同樣會對強者構(gòu)成反嚙。數(shù)字世界擴大的同時也意味著危險隨之?dāng)U大。最近,通過美國人斯諾登的持續(xù)爆料,“棱鏡門”公之于眾,全球在感到觸目驚心的同時,也不得不對美國收集數(shù)據(jù)的廣泛和浩瀚嘆為觀止。美國政府的神通廣大,一部分就是基于“大數(shù)據(jù)”。進入2013年6月,美國“棱鏡門”事件不斷發(fā)酵,為全球信息安全敲響了警鐘?!袄忡R”折射出的隱憂:大數(shù)據(jù)時代你我都是透明人!未知的安全威脅,讓人不寒而栗。
數(shù)據(jù)已經(jīng)成為“企業(yè)的命脈”。然而,我們既不應(yīng)該過分迷信大數(shù)據(jù)、將現(xiàn)有非“大數(shù)據(jù)”技術(shù)馬上棄之不顧,也不應(yīng)該將一切問題都推在“大數(shù)據(jù)”身上。很顯然,傳統(tǒng)技術(shù)不會瞬間“過時”、新技術(shù)也無法一手遮天。
5.3“大數(shù)據(jù)”理論并非人人相信
然而“大數(shù)據(jù)”概念似乎正被不顧后果、毫無章法地過度使用;即使偶爾使用方法對路,其適用范圍也并不像技術(shù)人員想象的那么寬泛。例如:美國學(xué)者就質(zhì)疑過“大數(shù)據(jù)”理論。微軟研究院首席研究員、麻省理工學(xué)院公民媒體中心客座教授凱特?克勞福德的文章《對大數(shù)據(jù)的再思考》,就從五個方面對大數(shù)據(jù)理論提出了質(zhì)疑:
(1)大數(shù)據(jù)中存在偏見和盲區(qū)。克勞福德認(rèn)為,數(shù)字無法自己說話。不論其規(guī)模有多大,數(shù)據(jù)集歸根到底是人類設(shè)計的產(chǎn)物,而大數(shù)據(jù)的工具并不能使人們擺脫曲解、隔閡和錯誤的成見。
(2)大數(shù)據(jù)在一定程度上可以使城市變得更加智能和高效,但具體效果如何取決于市政官員對數(shù)據(jù)及其局限性的了解。
(3)大數(shù)據(jù)可能導(dǎo)致基于群體的歧視。大數(shù)據(jù)的倡導(dǎo)者認(rèn)為,“大數(shù)據(jù)對不同的社會群體不會‘厚此薄彼’”,克勞福德認(rèn)為,實際情況并非如此。大數(shù)據(jù)不僅不會避免群體歧視,還可能加重這一趨勢。
(4)隱私泄露是大數(shù)據(jù)應(yīng)用中的重要問題??藙诟5抡J(rèn)為,大數(shù)據(jù)的倡導(dǎo)者關(guān)于“大數(shù)據(jù)是匿名的,因此它不會侵犯我們的隱私”一說是大錯特錯。
(5)大數(shù)據(jù)為科學(xué)研究提供了新的途徑,但不可斷言“大數(shù)據(jù)是科學(xué)的未來”??藙诟5路Q,大數(shù)據(jù)的研究方法只能統(tǒng)計某件事情發(fā)生的頻率和相關(guān)性,但不能得出因果關(guān)系。將大數(shù)據(jù)策略和小數(shù)據(jù)研究相結(jié)合也許是更好的科學(xué)研究途徑?,F(xiàn)今對于“大數(shù)據(jù)”的預(yù)測或悲觀或樂觀,它究竟會如何改變?nèi)祟惿鐣?,我們還將拭目以待。但是,專家認(rèn)為:“大數(shù)據(jù)”的創(chuàng)新性、先進性與前瞻性,是值得肯定的。因此,辯證地看“大數(shù)據(jù)”對人類活動的影響才是正確地。
5.4“大數(shù)據(jù)”概念常常被過度濫用
“大數(shù)據(jù)”這個概念常常被過度濫用,要么就是被完全錯誤理解。對于某個特定應(yīng)用程序中數(shù)據(jù)量的增加而言,無論這種增長幅度有多么迅猛,我們都不能就將其稱之為大數(shù)據(jù)應(yīng)用。我們需要做的是對這套系統(tǒng)進行擴容,而這個過程根本沒那么復(fù)雜——只需做一些設(shè)計調(diào)整,如果系統(tǒng)本身就預(yù)留了擴展設(shè)計,連調(diào)整都不需要。不過,一些學(xué)者指出,由于“大數(shù)據(jù)”理論過于依靠數(shù)據(jù)的匯集,那么一旦數(shù)據(jù)本身有問題,在“只問有什么,不問為什么”的模式下就很可能出現(xiàn)“災(zāi)難性大數(shù)據(jù)”,即因為數(shù)據(jù)本身的問題,而導(dǎo)出錯誤的預(yù)測和決策。
“大數(shù)據(jù)”在業(yè)務(wù)層面也給企業(yè)帶來多重挑戰(zhàn),其中三條最為緊迫。一是法律環(huán)境的缺失和民眾不客觀的情緒。在歐盟,什么是信息隱私、什么是信息安全是有明確規(guī)定的,有很明確的規(guī)范。美國的互聯(lián)網(wǎng)企業(yè)比較強勢,通常是做了再說,如果出了問題會通過游說國會,通過立法的形式加以肯定、保護。但是在中國,從整體上相關(guān)法律是缺失甚至說是空白的,電信運營商既沒有法律規(guī)范作為依據(jù),也做不到像美國的運營商和互聯(lián)網(wǎng)企業(yè)對政府擁有強勢的影響力。
六、結(jié)束語
根據(jù)IDC預(yù)測,中國的“大數(shù)據(jù)”市場從2012年到2016年將增長5倍,政府、電信、能源、銀行等將是最先使用“大數(shù)據(jù)”工具的行業(yè)。還預(yù)測,未來三年我國“大數(shù)據(jù)”市場將突破百億元。整個行業(yè)發(fā)展空間巨大。毫無疑問,“大數(shù)據(jù)”創(chuàng)業(yè)的前景廣闊,“看不見的數(shù)據(jù),看得見的價值”正給新興的通過數(shù)據(jù)創(chuàng)業(yè)公司帶來不可估量的市場潛力。
“大數(shù)據(jù)”時代的到來,充滿了機遇與挑戰(zhàn),誰能夠最快地習(xí)慣這種新形式下的數(shù)據(jù)模式,熟悉和掌握處理這種數(shù)據(jù)處理方法,誰就會在之后的信息爭奪戰(zhàn)中占得先機,取得主動權(quán)?!按髷?shù)據(jù)”引領(lǐng)我們走向數(shù)據(jù)智能化時代,“大數(shù)據(jù)”時代將會智謀未來!得“大數(shù)據(jù)”者得天下!中國的工控行業(yè)應(yīng)當(dāng)在“大數(shù)據(jù)”浪潮里,迎頭趕上,奪取勝利果實。
(審核編輯: 智匯小蟹)
分享