一資料質量筆記記錄

六西格瑪方法指南提供了幾種資料審查方法，如測量系統分析、控制圖和測量裝置校準。這些方法確保測量裝置是可用的，還可使測量系統工作和使用者了解他們的資料異常變化的原因，並予以糾正。

職業生涯中又乙個尷尬的插曲，涉及適當使用二次密封膠的溫度測量。二次密封膠與要求在最低溫度使用的主要密封膠一起使用，才能確保密封。兩種密封膠的**商對兩者的成功應用有具體的指導說明。

在觀察我的一台裝置時，我注意到乙個操作人員在(根據數字讀數)華氏20度溫度塗上密封膠，這一溫度低於所需的最低溫度值。當打**叫來維修人員評估情況時，發現顯示器上的讀數是40華氏度，比原來正在顯示的溫度也低，這意味著實際溫度是華氏60度，仍然低於期望的最低溫度值。

當我面對工廠領導要求定期對裝置進行校準時，我的回答是：「我們沒有時間」。雖然這在今天的工廠裡更多的是藉口，這是當今世界製造業的現實。管理層往往想以更少的投入得到更多收益。然而，這種情況提醒我們要改進用於質量或工藝的資料收集。使用錯誤的資料進行更改會導致錯誤的決定，從而導致更多問題，還不如什麼都不做。

有時，提供產品或部件資料的設施與製造它們的設施不相同，例如考慮現場維修服務資料。根據認證合格的可靠性《工程師手冊》所述，「這些資訊經常是受安裝、環境、操作程式差異和類似的因素影響，難以進行分析。」

在資料不是現場維修服務資料的情況下，它可能是來自執行中的裝置的實時資料，並連續儲存在資料庫中的資料。在這些情況下，重要的是使用的測量儀器或裝置是否準確，是否通過定期校準完成的。

當的資料安排有助於使用者和分析人員深入理解資料記錄以及其中的字段。印度一家電子產品製造商的新興技術部總監阿南德•坦波利，談到處理六西格瑪資料探勘的重要性時，重申了這一點:

「因為經營業績的好壞取決於資料質量和處理方法的好壞，故強烈推薦在測量和分析階段，嚴格遵循資料探勘方法。而六西格瑪本身包含一些資料探勘步驟，它沒有提供這些步驟詳細的技術訣竅。」[⁵]

清理可以消除虛假的資料資訊和彌補缺失的資料資訊。這也是驗證資料集中資料點的完整性的必要步驟。是獲得正確結果的必要步驟

i. 值域分析：分析欄位的值是否滿足指定閥值、分析字段值的統計量（最大、最小、中位數、均值、方差等統計量）；質量報告：最大、最小值越界、發現有null值。

ii. 基數分析：分析欄位中不同值的個數，適用於維度類指標；質量報告：對於度量類指標資料比較集中，部分記錄個數偏多或偏少等。

iii. 型別監測：分析字段真實值是否符合定義的資料型別。

血緣分析：分析表和字段從資料來源到當前表的血緣路徑，以及血緣字段之間存在的關係是否滿足；質量報告：資料的一致性是否滿足、表設計是否合理。

採用知識圖譜（kg）

檢索溯源——資料庫——知識圖譜的結合

表的schema構建知識圖譜

異常點的閾值設定為0.05，即5%.即不超過5%的資料，將被標記為異常資料。

採用多種異常檢測演算法比較，hbos, isolated forest, cblof， pca

考慮到數值存在數量級差異，且有負數，採用sklearn.powertransfer提前進行標準化預處理

按行檢測，檢測結果包含：

演算法名稱

檢測結果（0，1） 0代表正常，1代表異常

檢測分值越大，約異常。注：在同乙個演算法內，分值比較有意義。

檢測批次號。注：在同乙個演算法內，分值比較有意義。

檢測批次號

演算法簡介：

通過4種常用的異常檢測演算法，展示異常檢測的結果。這四種演算法分布是：

hbos, 基於頻數直方圖的無監督異常點檢測演算法

isolated forest, 孤立森林法，

cblof，基於聚類的區域性因子

pca, 主成分分析

這四種演算法在大、中、小資料機上均可以使用。儘管我個人比較偏愛孤立森林法，將其他異常檢測演算法列出來作為參考。截至2月9日，我只收集了疫情資料394條，資料量小。在不包含類別資料是，這些演算法的異常檢測能力類似。

因為在進行範圍查詢的過程中，我們得到的結果集本身並不是按追加的這個欄位來排的，還需要進行一次額外的排序才行。而在這種情況下，可能反序建立索引（排序欄位在前、範圍查詢欄位在後）反而會是乙個比較優的選擇。當然，是否更優也和具體的資料集有關。

谷歌學術：

一手資料：問卷、實驗……

**二手資料：**統計局、爬蟲……

part2：研究方法

一、書，自學。

一資料質量筆記記錄

CG學習記錄（一）資料型別

Pytorch學習筆記（一）資料運算

Mysql筆記（一）資料型別

一 資料質量筆記記錄

CG學習記錄（一）資料型別

Pytorch學習筆記（一） 資料 運算

Mysql筆記（一）資料型別

相關推薦

一資料質量筆記記錄

Pytorch學習筆記（一）資料運算