Informatica資料抽取工具

2021-08-29 10:41:57 字數 4814 閱讀 1852

公司介紹

創立於 1993 年,總部位於 palo alto, california of usa 的 informatica ( nasdaq:infa )公司,作為電子商務分析型軟體市場的領先者,一直致力於通過自身的產品和服務提公升企業的競爭性優勢。其拳頭產品 informatica insight network(infrastructure and analytics) 已被全球 1 , 800 多家企業用來整合、分析和個性化企業的關鍵商務資訊,優化整個商務價值鏈的表現和響應速度。擁有包括 citigroup, deutsche bank, at&t, british telecom, motorola, cisco, hp, boeing, national semiconductor, timer warner, news group 在內的廣泛的客戶群。

informatica 作為電子商務分析軟體,資料整合和分析型應用解決方案提供商,擁有包括分析型應用軟體、廣泛的支援服務和強大的資料整合平台在內的綜合性產品家族。 informatica 的基礎設施產品以可伸縮的、可擴充套件的企業級資料整合平台為特點,並廣泛支援來自 informatica 和其他的領先智慧型商務提供商的資料倉儲基礎設施和分析型應用軟體的開發和管理。

informatica 的分析型應用軟體也是建立在資料整合平台之上,旨在為企業解決任何可能出現的有關相關性、效能、瓶頸、戰略和其他的種種問題。

一、總體概述

etl 包括 extract 、 transform 、 cleaning 和 load ,它是用於從生產庫中提取資料到資料倉儲中,再由具體的報表、統計、分析工具對資料倉儲的內容進行分析,分析出自己所需要的資料。

其中 etl 培訓的內容是如何利用 informatic powercenter 把源資料庫的內容提取存放到目標資料庫中。主要

informatic 主要包括四個部分: client , reposity server , reposity database 和 informatic server 每個部分實現自己的功能。

二、系統體系結構

此部分介紹了 informatic etl 工具包括的主要內容。

1.client

informatic client 主要有五個部分。 client 可以和 reposity 分離,通過 tcp/ip 連線,連線到遠端的 reposity server 。

2. reposity manager

主要用於進行乙個 reposity 庫的管理,當使用者使用 client 工具登入乙個 reposity 伺服器之後,進行資料夾許可權的建立,使用者許可權、密碼的管理等。

3. designer

同乙個 reposity 的 folder 之間可以建立 shortcut 方式,多個 reposity 的 folder 之間只能做拷貝。

4. workflow manager

主要用於流程任務( workflow task )的設計。

5. workflow monitor

主要進行流程執行、及任務執行時的流程運**況跟蹤。可以跟蹤日誌。包括 session 日誌和 workflow 日誌,可以設定生成日誌的迴圈個數。分析 session 執行是對源資料庫的資料抽出資訊和對目標資料庫的更新資訊。

主要進行 reposity 的管理,包括 reposity server 的 start , shutdown 操作。進行 reposity 庫的 backup 、 restore 等操作,進行 reposity 庫級別的管理,級別較高。

7. reposity server

reposity server 是為客戶端服務的,客戶端可以和各種 client 不在一台伺服器上。關於資料抽取的設計成果轉換成為 xml 格式的源資料,都是通過 reposity server 存放到 reposity database server 上的。

8. reposity database server

用於存放的是進行 etl 設計的元資料。可以支援各類的資料庫。方式為資料庫中使用者的乙個表目錄和使用者關係即可。

reposity database 可以和 reposity server 不安裝在一台伺服器。如果在一台機器上, server 通過 native 方式連線到 database ,如果不在一台及其上,需要在 database 上安裝乙個 reposity agent ,使用者通過 agent ,以 native 方式連線到 reposity 資料庫,然後 reposity agent 再以 tcp/ip 方式連線到 reposity server 。

9.informatic server

informatic server 是實際執行資料抽取任務的執行環境。即 workflows 、 task 、 sessions 等。它是根據定義的 workflow 元資料庫,然後在自己的實際環境中,執行資料抽取操作。

三、系統元件功能

informatic 的功能主要體現在 designer 和 workflow manager 上,其中 designer 實現的是對資料抽取的資料轉換方式設計,以及效率設計目標等。而在 workflow manager 中再把具體的資料轉換方式應用到乙個具體的工作任務中,包括目標庫、源庫的選擇,以及一條具體的執行任務的屬性設定等等。包括任務的 insert 、 truncate 、 delete 、 increment insert 等。

1.designer 元件

( 1 )工作區

其中每個工作區的功能分別介紹:

source analyzer :

source analyzer 的功能是實現對源資料庫表的設計,可以手工的進行源資料庫的設計,一般都是通過從 flat file 或者 relation dbms 中匯入資料庫的表結構。 xls 檔案結構。

warehouse designer

用於設計目標資料庫庫的結構,可以利用手工設計,也可以利用 import 工具匯入導乙個 warehouse 的結構。

transformation designer

mpplet

設計可以重用的多個元件,只要有 output 元件,可以有 input 元件,也可以沒有 input 元件,實現的功能就和乙個 expression 的功能類似,實現功能。

( 2 ) 元件功能

etl 支援的元件主要包括兩類: active 元件和 passive 元件,其中 active 元件是對輸入記錄集在輸出時個數有變化的元件, passive 元件,輸入的記錄集,輸出時記錄集的個數不發生改變。

informatic 提供的元件包括:

(1) source qualifier: reads data from flat file & relational sources

(2) expression: performs row-level calculations

(3) filter: drops rows conditionally

(4) sorter: sorts data

(5) aggregator: performs aggregate calculations

(6) joiner: joins heterogeneous sources

(7) lookup: looks up values and passes them to other objects

(8) update strategy: tags rows for insert, update, delete, reject

(9) router: splits rows conditionally

(10) sequence generator: generates unique id values

(11) normalizer:izes records from relational or vsam sources

(12) rank: filters the top or bottom range of records

(13) union : merges data from multiple pipelines into one pipeline

(14) transaction control: allows user-defined commits

(15) stored procedure: calls a database stored procedure

(16) external procedure : calls compiled code for each row

(17) custom: calls compiled code for multiple rows

(18) midstream xml parser: reads xml from database table or message queue

(19) midstream xml generator: writes xml to database table or message queue

每一類元件都有自己獨特的功能和特點,這裡介紹主要的元件包括上述紅色的內容。每一種元件的詳細功能這裡不詳細介紹。

2.workflow 元件

workflow 是對執行任務的執行進行控制,可以在執行時對執行的任務進行傳引數進行傳入,這樣就能在執行的時候把資料庫表進行動態的設定。

workflow 中定義 workflow 、 session 等任務,對這些任務的執行進行管理控制。

四、補充說明

source qualifier 支援同構資料來源的連線,衣鉤資料來源的連線通過 n-1 個 jointer 元件實現。

lookup 為 passive 元件,查出的多條記錄集,要麼取 first ,或者 last ,或者報錯。

lookup 可以時動態 / 靜態 ,可以 connected/unconnect 。

Kettle資料抽取 增量抽取

使用 kettle 實現資料的增量抽取的方法大致如下 從目標表中讀取最大的時間戳或者增量字段 id,作為條件,然後把源表中所有大於這個增量欄位的資料讀出來,插入到目標表當中去 1.開啟 kettle 工具,開啟新建的全量抽取流 2.選擇 input,再拖出來乙個 表輸入 控制項 開啟表輸入 2,配置...

informatica中元資料管理

摘自 informaica是乙個很強大的etl工具,workflow manager負責對etl排程流程進行設計與管理和執行,informatica在資料庫中提供以下表來儲存調動流程的相關資訊,以便workflow manager對使用者所設計的調動流程進行管理和執行。opb wflow dep 描...

增量資料抽取

a.觸發器 在要抽取的表上建立需要的觸發器,一般要建立插入 修改 刪除三個觸發器,每當源表中的資料發生變化,就被相應的觸發器將變化的資料寫入乙個臨時表,抽取執行緒從臨時表中抽取資料,臨時表中抽取過的資料被標記或刪除。觸發器方式的優點是資料抽取的效能較高,缺點是要求業務表建立觸發器,對業務系統有一定的...