免费色播,亚洲国产欧美国产第一区二区三区,毛片看,日本精品在线观看视频,国产成人精品一区二区免费视频,日本黄色免费网站,一级毛片免费

數(shù)據(jù)湖 提供分析客戶數(shù)據(jù)的更好方式

來源:機房360

點擊:802

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞:大數(shù)據(jù),智能裝備

        借助數(shù)據(jù)湖工具,可以很容易且成本有效地參與市場競爭,可見數(shù)據(jù)的可用性要比其以一種特定的格式存儲在某個地方更為重要。

                                              數(shù)據(jù)湖

      “我們的目標(biāo)是盡可能快的將數(shù)據(jù)植入我們的業(yè)務(wù),使得我們能夠不斷發(fā)掘出新的業(yè)務(wù)機會?!盩he Weather Company的執(zhí)行副總裁首席技術(shù)官兼首席信息官布萊森?克勒表示說。在任何一個項目中,花費較長的時間,卻只是為了清理數(shù)據(jù)是不現(xiàn)實的。鑒于在如此眾多的新的數(shù)據(jù)來源方面,每天發(fā)生的變化都是如此之大,因此單純的執(zhí)行數(shù)據(jù)整理方面的工作永遠是都不完整的?!?/span>

      克勒想把從任何地方的所有數(shù)據(jù)來源所收集到的數(shù)據(jù)都整合起來,這其中包括了個別氣象站點的數(shù)據(jù)和物聯(lián)網(wǎng)傳感器所收集的數(shù)據(jù),以便能夠進行大量的數(shù)據(jù)分析工作。而如果要借助傳統(tǒng)的數(shù)據(jù)倉庫,這項工作幾乎是不可能的,因為新的數(shù)據(jù)的屬性大多都是非結(jié)構(gòu)化的、而且其數(shù)量龐大,同時其任務(wù)的驗證和開發(fā)過程往往需要花費漫長的時間。

      “我們從很多初創(chuàng)公司那里獲得了大量的數(shù)據(jù),當(dāng)然我不能要求這些公司專門為我們創(chuàng)建一種專門的數(shù)據(jù)格式。這將削弱他們的競爭優(yōu)勢,否則他們就會選擇別的合作伙伴了。”克勒說。

      而為了避免這種潛在的麻煩,兩年前,The Weather Company成為了數(shù)據(jù)湖的早期采用者。這種方法允許該企業(yè)能夠以一種不可知的方式獲取、分析和存儲非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù),該方法比傳統(tǒng)的數(shù)據(jù)倉庫提供了更為靈活的存儲。

      今天的許多數(shù)據(jù)湖都能夠與Apache的Hadoop開源分布式框架進行兼容,以用來存儲和處理數(shù)據(jù)。EMC、IBM、微軟、惠普企業(yè)和Informatica公司均提供運行Hadoop的數(shù)據(jù)湖平臺。(IBM最近從The Weather Company采購了一些數(shù)字資產(chǎn)。)

      The Weather Company為其數(shù)據(jù)湖使用了AmazonS3,以及Apache的Cassandra數(shù)據(jù)庫和Apache的Spark,以便進行實時的數(shù)據(jù)分析處理,克勒說。借助其數(shù)據(jù)湖戰(zhàn)略,The Weather Company可以接受來自135000個世界各地的愛好者的獨立的個人氣象站的數(shù)據(jù)。這些數(shù)據(jù)信息匯集到數(shù)據(jù)湖,并與其它諸如雷擊和湍流事件的關(guān)鍵數(shù)據(jù)信息整合,得以能夠為該公司的天氣數(shù)據(jù)科學(xué)家和業(yè)務(wù)專家提供相關(guān)的洞察見解。

      自從該數(shù)據(jù)湖項目啟動以來,The Weather Company已經(jīng)能夠?qū)⑵錅囟阮A(yù)測的準(zhǔn)確性提高了2度?!岸谔鞖忸A(yù)測領(lǐng)域,2度的意義無疑是相當(dāng)重大的?!笨死照f。

      數(shù)據(jù)湖在哪些領(lǐng)域奏效,哪些領(lǐng)域不起作用

      普華永道分析實踐的合伙人Oliver Halter表示說,企業(yè)所收集的數(shù)據(jù)量及其速度正在發(fā)生變化,而更多數(shù)據(jù)來源的獲得將引導(dǎo)更多的企業(yè)考慮采用數(shù)據(jù)湖。

      如果一家企業(yè)試圖采用數(shù)據(jù)倉庫來完全整合15個不同數(shù)據(jù)源的數(shù)據(jù),那么,在同一時間,“另外50個可用的數(shù)據(jù)來源的數(shù)據(jù),也是有價值的。”Halter說。

      咨詢公司Hurwitz&Associates的總裁兼首席執(zhí)行官朱迪斯?赫維茨表示認(rèn)可這兩個不同的服務(wù)目的?!爱?dāng)您想要了解您企業(yè)的競爭對手,和您企業(yè)的藍色襯衫的銷售情況、以及大家都是如何在網(wǎng)上談?wù)撍{色襯衫時,您就可以抓取一切關(guān)于藍襯衫的數(shù)據(jù)信息,并將這些數(shù)據(jù)信息匯集到您企業(yè)的數(shù)據(jù)湖?!彼f。

      當(dāng)涉及到數(shù)據(jù)倉庫或數(shù)據(jù)湖時,“這不是一個成本問題”,她解釋說。如果您真的把數(shù)據(jù)分析與您企業(yè)的商業(yè)決策結(jié)合起來,并同時希望您所依靠的這些數(shù)據(jù)信息必須最好是干凈的和完全可靠的,那么您可能不會選擇使用數(shù)據(jù)湖了?!?/span>

      因為如果是基于錯誤的原因、以錯誤的方式實施了數(shù)據(jù)湖,其是有可能導(dǎo)致項目失敗的。”如果您需要做的是財務(wù)報告或一項政府機構(gòu)的政令文件,那么您所依靠的數(shù)據(jù)信息必須是盡可能干凈的,此時,數(shù)據(jù)倉庫或許才是合適的解決方案?!盚alter說。

      “因為當(dāng)您在執(zhí)行相對原始的數(shù)據(jù)分析時,采用的是非標(biāo)準(zhǔn)化的數(shù)據(jù),就可能會在這過程中產(chǎn)生較多的誤解的機會,或根本是匹配了不完善的數(shù)據(jù),可能會導(dǎo)致分析結(jié)果不夠準(zhǔn)確精密,也就無法生成準(zhǔn)確的財務(wù)報表或交易報告了?!彼忉屨f。數(shù)據(jù)湖中的數(shù)據(jù)科學(xué)更傾向于進行趨勢的分析預(yù)測和大方向的正確性,而不是提供精確的結(jié)果。

      Halter建議廣大讀者可以采用另一種方式來理解數(shù)據(jù)湖和數(shù)據(jù)倉庫間的差異化關(guān)系?!叭绻枰唤M事實數(shù)據(jù),將這些數(shù)據(jù)結(jié)合起來,并且需要對其進行嚴(yán)格的審查——例如,’我們在3月31日的未付的應(yīng)收賬款是3567444556元’——那么您所需要的是數(shù)據(jù)倉庫的方法?!彼f?!岸绻枰氖翘峁┓较蛐灾笇?dǎo)——例如,’我們認(rèn)為,某某市場將增長60%至80%’或’客戶有35%的更高的可能性購買A產(chǎn)品而非B產(chǎn)品’——那么此時,數(shù)據(jù)湖的方法便是更為適合的方案了?!?/span>

      在大多數(shù)情況下,一家企業(yè)組織將同時擁有數(shù)據(jù)倉庫和數(shù)據(jù)湖?!耙坏┠跀?shù)據(jù)湖中發(fā)現(xiàn)一些對企業(yè)組織是有價值的東西,可以您希望重復(fù)該情況,那么其就可以被轉(zhuǎn)移到數(shù)據(jù)倉庫,實現(xiàn)規(guī)范化和統(tǒng)一?!盚alter說。

      數(shù)據(jù)湖的數(shù)據(jù)并不完美

      Synchrony Financial是一家消費者金融服務(wù)公司,與Synchrony銀行共同提供銀行聯(lián)名信用卡及其他私人金融信貸業(yè)務(wù)。該公司目前就同時運行著數(shù)據(jù)倉庫和數(shù)據(jù)湖。盡管該公司的數(shù)據(jù)湖目前還只是在試點模式中,其首席技術(shù)官格雷格·辛普森希望在不久的將來能夠讓數(shù)據(jù)湖項目派上重點用途。

      辛普森表示說,他所在的公司擁有非常良好的數(shù)據(jù)財富,大部分來自其他金融來源并匯集到該公司數(shù)據(jù)湖的數(shù)據(jù)都是干凈且標(biāo)準(zhǔn)規(guī)范化的,因為該行業(yè)是屬于高度管制的行業(yè)。該數(shù)據(jù)湖將有助于幫助該金融服務(wù)公司整合社交媒體的數(shù)據(jù),以幫助他們更好的研究客戶的行為和市場趨勢。

      “我傾向于獲得干凈的數(shù)據(jù)信息,但事實上,我也能夠克服那方面的困難?!彼f?!皩嶋H情況是,我們需要能夠進行數(shù)據(jù)分析,以優(yōu)化我們目前的業(yè)務(wù),并找到相鄰的業(yè)務(wù)。這意味著,我們不會按照正常化的模式創(chuàng)造這個主數(shù)據(jù)模型和數(shù)據(jù)集市。”

      例如,在分析客戶的購物習(xí)慣,以制定相應(yīng)的營銷策略的過程中,Synchrony公司并不需要準(zhǔn)確地知道顧客在度日差為78的情況下是否要比度日差為79的情況下會購買更多的東西。“我們只需要知道這是一個非常好的一天,消費者有了購物行為就行了?!毙疗丈f。有了這個信息,Synchrony公司就可以決定客戶會希望在什么時候在他們的智能手機上看到商店彈出的報價促銷了。

      Synchrony公司使用Hadoop作為其框架,并采用SQL進行數(shù)據(jù)分析,作為其從公司的系統(tǒng)以及外部資源獲得數(shù)據(jù)的接口?!癏adoop已經(jīng)成為商業(yè)化的工具集,可輕松實現(xiàn)部署?!毙疗丈f。

      現(xiàn)在,隨著所需數(shù)據(jù)的增加,數(shù)據(jù)湖也將隨著項目的增多而進一步擴大。然而,最終,數(shù)據(jù)湖將會有足夠的數(shù)據(jù),而數(shù)據(jù)科學(xué)家們可以將其作為一個整體進行研究,并找到更多的價值。

      例如,項目A的重點是Synchrony公司將如何定位目標(biāo)客戶,并對消費者實施有針對性的市場營銷;而項目B的重點則是分析呼叫中心的數(shù)據(jù),并對其實施優(yōu)化?!岸鴮τ谖覀兩踔翛]有想到的項目C,其可能會伴隨著前兩個項目的不斷推進而衍生出來;或者是源于數(shù)據(jù)湖中有了來自其它數(shù)據(jù)來源的數(shù)據(jù)。”他說。

      辛普森是數(shù)據(jù)湖這一概念的粉絲,因為其可以幫助該公司避免牽扯到數(shù)據(jù)倉庫的更復(fù)雜和長期的任務(wù)。“我們的數(shù)據(jù)倉庫通常用于處理高度重復(fù)的,且不太頻繁的事情,如每月的財務(wù)報告。這些都是時間點的問題,我們不會再回到過去了?!彼f?!叭绻枰ㄙM六周時間去做那些工作,那么您將失去您的業(yè)務(wù)?!?/span>

      了解數(shù)據(jù)湖的環(huán)境和元數(shù)據(jù)

      一個令辛普森困擾的問題是:一旦數(shù)據(jù)被匯集到數(shù)據(jù)湖之后,其要如何理解數(shù)據(jù)湖的環(huán)境。比如說,如果他收集了來自Facebook的相關(guān)帖子的數(shù)據(jù),然后想評估這些帖子中關(guān)于他們公司的負(fù)面情緒的評論,他會想知道這些帖子中,10個中有一個是負(fù)面的;或是1000個中有一個是負(fù)面的,以及這些負(fù)面的帖子都被發(fā)布在哪里了。

      非營利環(huán)保國際保護組織的高級技術(shù)總監(jiān)兼對外關(guān)系高級主管Eric Fegraus對于元數(shù)據(jù)也有類似的的擔(dān)憂,現(xiàn)在他正打算創(chuàng)建一個數(shù)據(jù)湖。

      目前被孤立在政府機構(gòu)、大學(xué)和非營利組織機構(gòu)的數(shù)據(jù)將在數(shù)據(jù)湖共享?!霸趥鹘y(tǒng)的包括了林業(yè)資源、生物多樣性、生態(tài)和海洋生態(tài)系統(tǒng)的自然資源世界,對于數(shù)據(jù)存在著巨大的缺乏?!盕egraus表示說。而由于傳感器、攝像頭和其他物聯(lián)網(wǎng)設(shè)備的廣泛普及,使得數(shù)據(jù)可以被捕獲收集并遠程傳輸?shù)揭粋€中央存儲庫。上述這一狀況正在開始發(fā)生改變。

      Fegraus希望能夠盡快開發(fā)和實施數(shù)據(jù)捕獲的最佳實踐方案,以便使得科學(xué)家們所收集的數(shù)據(jù)信息不會因為他們的資助結(jié)束或他們轉(zhuǎn)移到別的項目就消失?!拔覀冋诜e極構(gòu)建一個系統(tǒng),將使數(shù)據(jù)存儲庫能夠共享和集成數(shù)據(jù)。其功能將像一個湖,但具有許多相互連接的節(jié)點。”他說。

      對于其試點項目,F(xiàn)egraus打算在其數(shù)據(jù)湖填充一些初始節(jié)點,具有圖像、聲音及該組織設(shè)置在野外的數(shù)千臺相機所收集的元數(shù)據(jù)?!斑@些數(shù)據(jù)使我們能夠理解正在野生動物種群身上發(fā)生的事情,為土地管理人員提供了數(shù)據(jù)驅(qū)動的見解,幫助他們了解野生動物的現(xiàn)狀和在陸地上生長的趨勢?!彼忉屨f。

      “我們也可以開始梳理可以推動我們發(fā)現(xiàn)相關(guān)趨勢的數(shù)據(jù)信息?!盕egraus說。例如,在烏干達的一處野生動物園,在設(shè)置好了攝像頭之后,工作人員開始注意到金貓的物種的下降。

      他解釋說:“我們也可以說,有一個強烈的信號,預(yù)示了人類的活動可能會影響到了這一特殊種類的貓的生存?!庇捎谠撎幰吧鷦游锕珗@主要游覽主題是大猩猩生態(tài)旅游和游客徒步旅行去看大猩猩。他們把金貓數(shù)量下降的變化與公園里允許游客徒步參觀的范圍相聯(lián)系,從而已經(jīng)了解了如何更好地管理公園,而不會影響到金貓的生存。

      不僅他的團隊將能夠使用來自他們項目所收集的數(shù)據(jù),其他組織也將能夠訪問相同的數(shù)據(jù)集。

      但是,與辛普森一樣,F(xiàn)egraus也同樣感覺到元數(shù)據(jù)的處理是相當(dāng)棘手的。在參與組織之間規(guī)定數(shù)據(jù)使用的協(xié)議最有可能會使用元數(shù)據(jù)來維護數(shù)據(jù)的完整性。例如,科學(xué)家在收集拍照過程中,是否使用誘餌或相機的閃光燈是否打開是非常必要的信息,其可能會影響結(jié)果,但保持原始數(shù)據(jù)可能是相當(dāng)具有挑戰(zhàn)性的。

      處理“無底洞”的概念

      這方面的另一個障礙是:需要收集哪些數(shù)據(jù)信息,同時需要將這些數(shù)據(jù)信息保存多久?!澳梢允占绱吮姸嗟臄?shù)據(jù)信息,其會使您耗盡存儲空間,而且這也是有成本代價的?!盕egraus說。因此,數(shù)據(jù)湖中所存儲的應(yīng)該是那些項目驅(qū)動的數(shù)據(jù),而不是任何可用的數(shù)據(jù)。

      雖然數(shù)據(jù)湖似乎是深不見底的,但其實并不是的。據(jù)市場調(diào)研機構(gòu)Gartner公司的數(shù)據(jù)管理策略研究總監(jiān)Svetlana Sicular介紹說?!叭藗兛偸菍τ诳赡軙ヒ恍〇|西感到緊張,所以他們會盡一切可能的收集一切可以獲得的數(shù)據(jù)信息。然后,他們又會變得非常緊張,因為他們需要展示出迅速增長的數(shù)據(jù)湖的價值。但價值是通過數(shù)據(jù)分析而獲得的?!彼f。而那些僅僅只是把數(shù)據(jù)湖視為“只寫”的公司也會失敗;換句話說,人們需要讀取和寫入信息,以便充分利用這些數(shù)據(jù)信息。

      “有一個普遍存在的概念,即數(shù)據(jù)倉庫將很快會消失,您企業(yè)將會在數(shù)據(jù)湖中執(zhí)行所有的一切數(shù)據(jù)分析處理工作?!盨icular說?!斑@是一個謬誤。為什么要采用一些并非專門為其設(shè)計的技術(shù)來執(zhí)行一些工作任務(wù)呢?”她補充說,只有當(dāng)以正確的方式被使用時,數(shù)據(jù)湖才是唯一符合成本效益的。

      她提醒企業(yè)組織要更仔細地審視自己的數(shù)據(jù)倉庫,并要在開始部署采用數(shù)據(jù)湖的路線之前,確保其到底是不是正確的工具。很多人對于數(shù)據(jù)倉庫的理解還停留在五年前,Sicular說,但是現(xiàn)在的很多數(shù)據(jù)倉庫均已經(jīng)具備處理非結(jié)構(gòu)化數(shù)據(jù)的能力了。此外,她還建議企業(yè)必須考慮他們要分析的數(shù)據(jù)中有多少數(shù)據(jù)其實是非結(jié)構(gòu)化的。

      保持企業(yè)組織的競爭優(yōu)勢

      那么,企業(yè)組織到底應(yīng)該在何時使用數(shù)據(jù)湖呢?”如果您企業(yè)組織需要分析各種類型的數(shù)據(jù)、而這些數(shù)據(jù)存儲在數(shù)據(jù)倉庫中又不會有多大意義時,便可采用數(shù)據(jù)湖?!盨icular說。另一種應(yīng)用案例是:“如果花時間去清洗數(shù)據(jù)會使您企業(yè)失去競爭優(yōu)勢的話,那么,數(shù)據(jù)湖將會是一個的完美使用案例?!彼a充說。

      而這正是推動國際卡車公司(International Trucks)使用數(shù)據(jù)湖的基本原因了。Navistar控股的這家卡車制造商的物聯(lián)網(wǎng)分析和機器學(xué)習(xí)負(fù)責(zé)人Andy Minteer表示說,該公司所收集到的進入其基于Hadoop的數(shù)據(jù)湖的數(shù)據(jù)流使得改公司保持了始終對于其競爭對手領(lǐng)先一步。

      國際卡車公司有超過160000輛汽車參加了該公司的On Command連接項目計劃,該項目計劃使用來自安裝在車輛上的傳感器的數(shù)據(jù)流,包括該公司的卡車和校車,每隔15到20秒來評估一次車隊的運輸健康狀況。

      例如,通過分析數(shù)據(jù)湖的原始數(shù)據(jù),該公司能夠幫助一只校車車隊的經(jīng)理確定電池的閾值電壓,這樣就使得巴士不回在寒冷的接送孩子的途中出現(xiàn)故障,讓孩子們滯留在外。

      他的團隊還開發(fā)了一種算法,通過結(jié)合超過40000輛車輛的組合類型和故障代碼(非結(jié)構(gòu)化數(shù)據(jù))來梳理數(shù)據(jù)信息,以協(xié)助更小的車隊制定車輛的預(yù)防性維護時間表。Minteer研究了這些公路車隊的原始數(shù)據(jù),其往往會有較高的行駛里程數(shù),并發(fā)現(xiàn)可能出現(xiàn)的問題,這樣他們就可以及時安排車輛的維修,避免出現(xiàn)車輛的停運。

      他說:“這是一場獲取價值和機會的競爭,而借助數(shù)據(jù)湖工具,我們現(xiàn)在可以很容易且成本有效地參與市場競爭了?!彼f?,F(xiàn)在,我們知道,數(shù)據(jù)的可用要比其以一種特定的格式存儲在某個地方更為重要。”


    (審核編輯: 智慧羽毛)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán),請聯(lián)系我們刪除。