工業大資料分析技術在實踐應用中的思路與方法(下篇)

2021-10-10 10:10:04 字數 3491 閱讀 9771

一、工業大資料分析的基本框架

目前,業界在開展工業大資料分析時主要遵從crisp-dm分析流程,以資料為中心,將相關工作分成業務理解、資料理解、資料準備、建模、驗證與評估、實施與執行等六個步驟,如下圖所示。此流程相關步驟存在多處迴圈和反覆迭代,如業務理解和資料理解、資料準備和建模之間,整個分析過程需要在不斷交替中深入進行,甚至會出現模型驗證評估和業務理解之間的修正調整。

圖 1:crisp-dm方法

由於工業資料關聯關係複雜、工業資料質量差、工業場景的分析要求高等導致crisp-dm方法在工業領域的具體應用中遇到一些問題。加之,工業大資料分析過程中往往需要對業務和資料進行充分解讀,難免會出現大量無效的迴圈往復的工作,導致在用crisp-dm方法分析時效率較低。所以,在工業大資料分析過程中,用好crisp-dm的關鍵是減少上下步驟之間的反覆,避免單向箭頭變成雙向。更需要注意的是,要儘量減少模型驗證評估失敗後重新進入業務理解這樣大跳躍的反覆。這就是在前文提到的在開展工業大資料建模前要固化好分析場景和評估確定好資料條件。

二、工業大資料分析具體如何開展

長期實踐來看,crisp-dm模型須補充進新內涵才能更好的指導工業應用場景的工業大資料分析。crisp-dm模型在工業大資料的中的應用推進,主要分以下幾個階段:

01 業務理解

明確業務需求和資料分析的目標。

業務理解的過程通常需要將專業領域的知識和資料模型充分融合,業務領域的知識可作為工業建模的輸入變數融入到工業分析模型中,也可以作為知識去輔助建立高效地診斷、檢測、**模型從而指導工業應用。工業大資料分析需要資料分析師深入理解業務,且要對這個「度」把握和控制好。一方面,只有資料分析師深入理解業務,才能實現領域知識與資料分析的有機融合,得到高水平、有價值的分析結果;另一方面,成為乙個業務領域專家需要多年的積累,完整掌握業務知識是不現實的,需要專業人員及環境的多項支援。因此,為提公升工業應用現場業務認知深度,企業基本是採用業務諮詢顧問和資料分析師配合組隊的模式來開展工業大資料分析工作。

02 資料理解

準確建立資料和業務間的關聯關係,從資料的角度深度解讀業務。

資料分析師會習慣性地把工業大資料分析過程中遇到的分析效率低、資料訊雜比低、機理融合難、錯誤結果多等問題歸結到資料質量層面,而忽略在資料理解階段的深層次問題,而資料理解恰恰是資料建模的關鍵所在,也常常是資料分析過程中大家的盲點所在。資料理解需要從資料型別狀態、資料質量條件和資料間的關聯關係等方面開展判斷論證,確定是否滿足業務場景的要求。

03 資料準備

為工業建模分析提供乾淨、有效的輸入資料來源。

工業企業資料準備環節主要為解決業務應用問題開展資料整合治理,實現資料資源的互通和共享,提供工業建模所需的資料。通常需要成立專項資料治理組織,通過資料整合和定期運維等方式保證業務系統和線下資料準確與完整。此外,工業過程資料由於感測器故障、人為操作因素、系統誤差、異構資料來源、網路傳輸亂序等因素極易出現雜訊、缺失值、資料不一致等情況,鑑於此通常需採用一定的資料預處理技術,消除資料中的雜訊、糾正資料不一致、識別和刪除離群資料,來提高演算法模型的魯棒性,防止模型過擬合或欠擬合。

04 資料建模

對業務和資料進行深入理解,選擇合適的演算法和建模工具,並對資料中的規律進行固化、提取,最後輸出資料分析模型。

工業模型不同於資料分析中的聚類、分類、回歸等演算法,它更多的是基於業務機理知識與演算法融合後解決實際業務問題的一套理論體系或業務機制。資料建模的本質是發現知識和固化知識,工業領域的知識主要通過試驗\試加工等手段獲得,把累次試驗加工所用到的引數慢慢地固化下來,最終得到穩定的產品質量,此邏輯對工業領域的資料建模同樣有效。

例如,我們在給航發某廠做外場服務備件年度需求**分析時,首先定義業務場景及需求是面向服務部提供外場備件的需求**服務,解決外場備件需求**不准、不及時的問題。然後,通過資料整合和資料預處理等手段獲取外場備件**相關的近十年發動機故障資訊、裝機記錄、計量資訊和發貨記錄等資料,在對資料進行充分理解和探索後,結合廠內業務專家的業務知識,在開展工業建模時將備件細分為換件頻次低但價值高的故障件(特殊消耗件、周轉件)和換件頻次高、換件量波動大且價值密度相對較低的消耗件(一般消耗件),分別進行建模**。最後,在不同的規則約束下,通過模型評估和工程實際應用效果,優選出合適的演算法模型,實現故障件和消耗件各自細分類別下的準確**,極大提公升了服務備件計畫的準確性和外場服務保障的及時性。

圖2:外場服務備件需求**建模思路

因此,工業大資料建模需要對已有工業領域的知識深入理解,並在資料建模的過程中予以參考和融入,以通過資料分析獲得大量「不糾結於因果的知識」,這是得到高質量模型的關鍵所在。對於企業而言,鑑於場景化資料積累量和全面性短期難以全面達到全面資料分析的要求,可優先以挖掘到的新知識\方法相比現有業務環節在結果和流程上得到提公升或改進為原則,以保證分析建模工作達到基礎的應用效果,然後在此基礎隨著資料積累和認知提公升,持續改進優化。

05 模型的驗證和評估

確認資料分析的結果或模型是否滿足具體工業應用場景的使用需求的過程。

工業界通常追求分析結果具備高度的可靠性及準確性。所以,驗證與評估的重點是驗證模型在什麼範圍內有效,有效程度是多少,不能只盯平均精度。也就是說,需要分場景去驗證和評估模型,結合數學精度要求與專業領域知識綜合進行評估和改善。例如,我們針對某鋼廠開展的矽鋼縱條紋工藝引數優化專案,通過領域知識發現矽和鋁的成分佔比對生產工藝影響較大,但在工藝資料層面,此類關鍵引數控制的比較穩定,其對縱條紋影響的重要性就完全顯現不出來。因此,生產控制過程中涉及到的工藝引數優化,其目標應該是首先選擇波動較大的引數進行重點採集與調整,其次在設計區間約束的範圍內對模型進行控制與調整,開展實際生產驗證,進而獲得對生產控制策略改進優化後的模型。

06 模型部署

將訓練、分析得到的知識模型,以便於使用者使用的方式和要求重新固化,形成便於使用者使用的形式的過程,其成果可以是研究報告、可重複使用的資料探勘程式或模型服務程式。

分析應用模型通常以軟體定義和呈現的方式應用在企業的業務、管理或者監控系統中。模型在執行過程中需要持續地進行優化,否則模型就沒有持續生命力,因為其精度很大程度上決定於資料的質量,往往模型在部署之後,由於缺乏資料的管理維護,導致資料的質量較差或者不滿足採集條件。因此,要保證分析模型給企業帶來效益,需要花費人力和物力保障資料的採集條件,從而為提高資料的精度奠定基礎。同時,隨著資料質量的提高和數量的增加,可能會挖掘出新的知識或規則,需要定期對模型進行完善,這也是推動模型不斷優化的動力。

結語隨著工業大資料分析技術體系的不斷成熟、企業資料資產的不斷沉澱、應用場景的不斷延伸、資料化意識的不斷深化,工業大資料應用必將是企業數位化轉型的持續動力和重要著力點。未來,在新技術條件下,我們將同各類工業企業一起著力於實現貫穿於產品研發設計、生產、管理、倉儲、物流、服務等各業務環節和全流程的大資料採集、儲存、管理和分析應用,利用工業大資料分析技術和解決方案融合應用能力,挖掘工業資料的深層次價值,達到改進產品設計、提公升生產效率、提高產品質量、降低企業成本、提公升運營能力等多項目標,為提公升企業的生產力、競爭力和創新力不斷賦能。

工業大資料分析技術在實踐應用中的思路與方法(上篇)

本文將結合作者在工業領域多年的實踐應用經驗,力圖對工業大資料分析技術的應用思路 方法和流程進行總結,旨在為企業開展大資料分析工作提供技術和業務上的借鑑。在本文中我們將一起研討和思考 工業大資料分析的特殊性 工業大資料分析的困境及難點 工業大資料分析的基本框架 工業大資料分析該如何開展?工業大資料分析...

工業大資料分析,主要有哪些應用?

1.加速產品創新 客戶與工業企業之間的互動和交易行為將產生大量資料,挖掘和分析這些客戶動態資料,能夠幫助客戶參與到產品的需求分析和產品設計等創新活動中,為產品創新作出貢獻。福特公司是這方面的表率,他們將大資料技術應用到了福特福克斯電動車的產品創新和優化中,這款車成為了一款名副其實的 大資料電動車 第...

「工業大資料」之「華山論劍」 也談工業大資料分析

工業大資料,伴隨著 大資料 雲計算 物聯網 人工智慧 等概念的興起而逐漸火了起來。隨之,工業界 投資界 學術界,各界均把目光投向 工業大資料 國外火,國內也火了起來。但 工業大資料 畢竟不是 商業大資料 也不是 金融大資料 似乎也不是純粹的 網際網路大資料 工業大資料 分析的主流方法和思路是什麼?本...