資料抽取
(1)字段分列:擷取某一字段的部分資訊
(2)字段合併:將某幾個字段合併為乙個新字段
(3)字段匹配:將原資料表沒有,但其他資料表中有的字段,有效地匹配過來。
(一)字段分列
(1)選單法:
1.資料---分列---「文字分列嚮導-第1步」對話方塊中單擊分隔符---單擊下一步按鈕---「文字分列嚮導-第2步」對話方塊
中根據需要選擇分隔符號,這裡選空格---單擊完成按鈕
(2)函式法
left和right函式:適用於 當我們需要提取特定的幾個字元,或者提取其中的第幾個字元,並且沒有特定的分隔符的時候。
(2)字段合併
concatenate(text1,text2,text3,...........)將幾個文字字串合併為乙個文字字串,text項可以為文字字串,數字,或者對單元格的引用。
(三)字段匹配
vlookup函式:在**的首列查詢指定的資料,並返回指定的資料所在行中的指定列處的單元格內容
資料探勘 (一)資料獲取
1 資料倉儲 全部事實的記錄 必須是全面的 完備的 盡可能詳細的 可以方便的以不同維度抽取和整理資料 資料是拿來用的,一般乙個特定的場景不會使用全部的資料,資料倉儲非常豐富,必須根據不同的應用調取相應的資料,這些被抽取和整理的資料稱為資料集市 dw 1 資料庫 vs 倉庫 資料庫面向業務儲存,需要保...
Kettle資料抽取 增量抽取
使用 kettle 實現資料的增量抽取的方法大致如下 從目標表中讀取最大的時間戳或者增量字段 id,作為條件,然後把源表中所有大於這個增量欄位的資料讀出來,插入到目標表當中去 1.開啟 kettle 工具,開啟新建的全量抽取流 2.選擇 input,再拖出來乙個 表輸入 控制項 開啟表輸入 2,配置...
一 資料探勘基礎
資料探勘的任務 分類與 聚類分析,關聯規則,時序模式,偏差檢測,智慧型排序 資料探勘的建模過程 1.定義挖掘目標 2.資料採集,取樣 隨機抽樣,分層抽樣,等距抽樣,分類抽樣,起始順序抽樣 3.資料探索 異常值分析 缺失值分析 相關性分析 週期性分析,有無明顯規律和趨勢 4.資料預處理 降維處理,缺失...