資料加工(一) 資料抽取

2021-08-19 18:00:22 字數 1141 閱讀 1904

資料抽取

(1)字段分列:擷取某一字段的部分資訊

(2)字段合併:將某幾個字段合併為乙個新字段

(3)字段匹配:將原資料表沒有,但其他資料表中有的字段,有效地匹配過來。

(一)字段分列

(1)選單法:

1.資料---分列---「文字分列嚮導-第1步」對話方塊中單擊分隔符---單擊下一步按鈕---「文字分列嚮導-第2步」對話方塊

中根據需要選擇分隔符號,這裡選空格---單擊完成按鈕

(2)函式法

left和right函式:適用於 當我們需要提取特定的幾個字元,或者提取其中的第幾個字元,並且沒有特定的分隔符的時候。

(2)字段合併

concatenate(text1,text2,text3,...........)將幾個文字字串合併為乙個文字字串,text項可以為文字字串,數字,或者對單元格的引用。

(三)字段匹配

vlookup函式:在**的首列查詢指定的資料,並返回指定的資料所在行中的指定列處的單元格內容

資料探勘 (一)資料獲取

1 資料倉儲 全部事實的記錄 必須是全面的 完備的 盡可能詳細的 可以方便的以不同維度抽取和整理資料 資料是拿來用的,一般乙個特定的場景不會使用全部的資料,資料倉儲非常豐富,必須根據不同的應用調取相應的資料,這些被抽取和整理的資料稱為資料集市 dw 1 資料庫 vs 倉庫 資料庫面向業務儲存,需要保...

Kettle資料抽取 增量抽取

使用 kettle 實現資料的增量抽取的方法大致如下 從目標表中讀取最大的時間戳或者增量字段 id,作為條件,然後把源表中所有大於這個增量欄位的資料讀出來,插入到目標表當中去 1.開啟 kettle 工具,開啟新建的全量抽取流 2.選擇 input,再拖出來乙個 表輸入 控制項 開啟表輸入 2,配置...

一 資料探勘基礎

資料探勘的任務 分類與 聚類分析,關聯規則,時序模式,偏差檢測,智慧型排序 資料探勘的建模過程 1.定義挖掘目標 2.資料採集,取樣 隨機抽樣,分層抽樣,等距抽樣,分類抽樣,起始順序抽樣 3.資料探索 異常值分析 缺失值分析 相關性分析 週期性分析,有無明顯規律和趨勢 4.資料預處理 降維處理,缺失...