工業(yè)大數據是指在工業(yè)領域中,圍繞典型智能制造模式,從客戶需求到銷售、到訂單、計劃、研發(fā)、設計、工藝、制造、采購、供應、庫存、發(fā)貨和交付、售后服務、運維、報廢或回收再制造等整個產品全生命各個環(huán)節(jié)所產生的各類數據及相關技術和應用的總稱,其以產品數據為核心,極大延展了傳統工業(yè)數據范圍,同時還包括工業(yè)大數據相關技術和應用。
工業(yè)大數據來源
我們所談的工業(yè)大數據,不完全等同于企業(yè)信息化軟件中流淌的數據,從業(yè)界的共識看,主要來源有三類,第一類是企業(yè)經營相關的業(yè)務數據,這類數據來自企業(yè)信息化范疇,包括企業(yè)資源計劃 ( ERP ) 、產品生命周期管理 ( PLM ) 、供應鏈管理 ( SCM ) 、客戶關系管理 ( CRM ) 和環(huán)境管理系統 ( EMS ) 等,此類數據是工業(yè)企業(yè)傳統的數據資產。
第二類是機器設備互聯數據,主要是指工業(yè)生產過程中,裝備、物料及產品加工過程的工況狀態(tài)、環(huán)境參數等運營情況數據,通過 MES 系統實時傳遞,目前在智能裝備大量應用的情況下,此類數據量增長最快。
第三類是企業(yè)外部數據,這包括了工業(yè)企業(yè)產品售出之后的使用、運營情況的數據,同時還包括了大量客戶、供應商、互聯網等數據狀態(tài)。
工業(yè)大數據特征
筆者曾就工業(yè)大數據特征及數據驅動工業(yè)價值創(chuàng)造等話題,專門采訪過工業(yè)大數據領域知名專家——美國科學基金會 ( NSF ) 智能維護系統 ( IMS ) 中心主任李杰教授,他表示:工業(yè)大數據與互聯網大數據最大的區(qū)別在于工業(yè)大數據有非常強的目的性,而互聯網大數據更多的是一種關聯的挖掘,是更加發(fā)散的一種分析。
除此之外,兩者在數據的特征和面臨的問題方面也有不同。有別于互聯網大數據,工業(yè)大數據的分析技術核心要解決 "3B" 問題:
1、Below Surface —— 隱匿性,即需要洞悉背后的意義
工業(yè)環(huán)境中的大數據與互聯網大數據相比,最重要的不同在于對數據特征的提取上面,工業(yè)大數據注重特征背后的物理意義以及特征之間關聯性的機理邏輯,而互聯網大數據則傾向于僅僅依賴統計學工具挖掘屬性之間的相關性。
2、Broken —— 碎片化,即需要避免斷續(xù)、注重時效性
相對于互聯網大數據的量,工業(yè)大數據更注重數據的全,即面向應用要求具有盡可能全面的使用樣本,以覆蓋工業(yè)過程中的各類變化條件、保障從數據中能夠提取以反映對象真實狀態(tài)的信息全面性。因此,工業(yè)大數據一方面需要在后端的分析方法上克服數據碎片化帶來的困難,利用特征提取等手段將這些數據轉化為有用的信息,另一方面,更是需要從數據獲取的前端設計中以價值需求為導向制定數據標準,進而在數據與信息流通的平臺中構建統一的數據環(huán)境。
3、Bad Quality —— 低質性,即需要提高數據質量、滿足低容錯性
數據碎片化缺陷來源的另一方面也顯示出對于數據質量的擔憂,即數據的數量并無法保障數據的質量,這就可能導致數據的低可用率,因為低質量的數據可能直接影響到分析過程而導致結果無法利用,但互聯網大數據則不同,其可以只針對數據本身做挖掘、關聯而不考慮數據本身的意義,即挖掘到什么結果就是什么結果,最典型的就是經過超市購物習慣的數據挖掘后啤酒貨架就可以擺放在尿不濕貨架的對面,而不用考慮他們之間有什么機理性的邏輯關系 ;
換句話說,相比于互聯網大數據通常并不要求有多么精準的結果推送,工業(yè)大數據對預測和分析結果的容錯率遠遠比互聯網大數據低的多?;ヂ摼W大數據在進行預測和決策時,僅僅考慮的是兩個屬性之間的關聯是否具有統計顯著性,其中的噪聲和個體之間的差異在樣本量足夠大時都可以被忽略,這樣給出的預測結果的準確性就會大打折扣。比如當我覺得有 70% 的顯著性應該給某個用戶推薦 A 類電影,即使用戶并非真正喜歡這類電影也不會造成太嚴重的后果。但是在工業(yè)環(huán)境中,如果僅僅通過統計的顯著性給出分析結果,哪怕僅僅一次的失誤都可能造成嚴重的后果。
工業(yè)大數據技術:算法與模型
有了工業(yè)數據的大量積累,但并不等于直接的商業(yè)收益,中間隔著一道非常關鍵的通道——工業(yè)大數據技術。近幾年,很多大數據專家和行業(yè)專家也在爭執(zhí):數據量重要還是大數據算法更重要,雙方各執(zhí)一詞。比如 Googole 就認為數據量的多寡至關重要,甚至直言:更多的數據勝過更好的算法。這種觀點與我們意識認知中的 " 信息越多,就越靠近真相 " 類似。
而如《The Signal and the Noise》 ( 信號與噪聲,作者 Nate Silver ) ,這本書里面的一個觀點是 " 更多的數據意味著更多的噪聲。信號是真相,噪聲卻使我們離真相越來越遠。" 所以,人們需要構建有效的算法和模型,去識別和認知何為真相。
在這里暫不討論到底是數據量重要還是算法模型更重要,但針對工業(yè)大數據的有效利用,肯定離不開工業(yè)大數據的分析技術。
工業(yè)大數據應用領域 ( 場景 )
1、研發(fā)設計:主要用于提高研發(fā)人員的研發(fā)創(chuàng)新能力,研發(fā)效率和質量,支持協同設計,具體體現在: ( 1 ) 、基于模型和仿真的研發(fā)設計 ; ( 2 ) 、基于產品生命周期的設計 ; ( 3 ) 、融合消費者反饋的設計
2、在復雜生產過程優(yōu)化的應用: ( 1 ) 、工業(yè)物聯網生產線 ; ( 2 ) 、生產質量控制 ; ( 3 ) 、生產計劃與排程 ;
3、在產品需求預測中的應用
4、在工業(yè)供應鏈優(yōu)化中的應用
工業(yè)大數據應用發(fā)展存在的主要問題
《工業(yè)大數據白皮書 2017 年版》指出,研究與應用工業(yè)大數據,產品大數據是核心,物聯大數據是實現手段,集成貫通是基礎 ( 業(yè)務模式、商業(yè)和價值驅動、關鍵抽取和應用 ) 。而在實踐過程中,這三個方面都存在不同程度的難點。
《工業(yè)大數據白皮書 2017 年版》封面
1、產品大數據:產品大數據是工業(yè)大數據的根源與核心,但工業(yè)制造業(yè)領域涵蓋十分廣泛,行業(yè)種類繁多,產品種類數量龐大且仍在不斷增長,如何規(guī)范產品大數據的定義與分類方法,建立規(guī)范的、屬性明確的、可查詢可追溯可定位的產品大數據,將是順利應用工業(yè)大數據的前提。
2、物聯接入設備:物聯大數據是實現工業(yè)大數據暢通流動的必要手段,但在工業(yè)實際應用中,工業(yè)軟件、高端物聯設備不具備國產自主可控性,物聯接入的高端設備的讀寫不開放,形成設備信息的孤島,數據流通不暢,突破這種束縛是實現工業(yè)大數據的關鍵。
3、信息集成貫通:集成貫通的難點在于商業(yè)驅動、打通關鍵點和環(huán)節(jié),掌控產品源和設備,持續(xù)優(yōu)化。
(審核編輯: 智匯胡妮)