資料處理方向

2021-09-11 05:43:49 字數 848 閱讀 1930

1.目標和目的清晰

明確資料處理的目的和目標,而後才有針對目的和目標的方法和路徑。

2.設計正確的處理方案,方案需要考慮以下問題:

(1)正確性:

資料執行結果準確無誤,需要做case檢查和統計檢查;

(2)穩定性和魯棒性:

資料能夠穩定的執行,處理過程需要考慮完整的異常處理機制和措施;

(3)可運營

資料處理過程能夠監控到處理的過程和階段性結果;

(4)可快速恢復或重構

出現異常情況,能夠快速的響應和恢復資料;

(5)安全性

測試資料需要保證資料的知曉和使用範圍,盡量做到資料夠用即可;

(6)資料來源

選擇正確的資料來源;

(7)可預期

資料處理的時間可以可靠預估;

(8)可測性:

測試、驗證的方案;測試環境和生產環境的差異帶來的影響;

(9)規範化:

資料處理結果標準化和規範化,需要前置設計資料標準化的方案;

(10)問題域最小化原則:

盡量將問題控制到乙個小的範圍內,避免出現乙個問題導致全域性失效的設計。

(11)部署

資料處理是否需要生產環境部署,部署方案和實施過程如何有效進行。

(12)大規模資料處理通常的方法:

a. 控制資料量範圍,將採用小量代表資料快速驗證和試錯;

b. 在小量資料問題解決完畢後,擴大資料的規模,解決規模帶來的問題;

c. 規模處理的過程需要進行階段或者批次的劃分,將問題影響的範圍進行隔離,避免問題向全域性擴散,也有助於快速區域性重構。

(13)可能遇到的問題和潛在的風險

(14)是否有更好的解決方案,實施的條件是什麼?

資料處理 流資料處理利器

流處理 stream processing 是一種計算機程式設計正規化,其允許給定乙個資料序列 流處理資料來源 一系列資料操作 函式 被應用到流中的每個元素。同時流處理工具可以顯著提高程式設計師的開發效率,允許他們編寫有效 乾淨和簡潔的 流資料處理在我們的日常工作中非常常見,舉個例子,我們在業務開發...

爬蟲 資料處理 pandas資料處理

使用duplicated 函式檢測重複的行,返回元素為布林型別的series物件,每個元素對應一行,如果該行不是第一次出現,則元素為true keep引數 指定保留哪一重複的行資料 dataframe替換操作 使用df.std 函式可以求得dataframe物件每一列的標準差 資料清洗清洗重複值 清...

資料處理 pandas資料處理優化方法小結

資料處理時使用最多的就是pandas庫,pandas在資料處理方面很強大,整合了資料處理和資料視覺化。pandas的視覺化使用的是matplotlib。回到主題 計算資料的某個欄位的所有值,對其欄位所有值進行運算 處理的字段資料為時間戳,需要計算該時間戳距離現在的時間,單位為天。一般方法 使用現在的...