從文字分析到資料倉儲

2021-04-19 00:29:27 字數 825 閱讀 7536

文字分析概述

文字分析是指使計算機能夠從文字中提取意義的過程。文字分析常被實現為一系列的重複過程,其範圍從簡單的語言檢測、解析和標記,一直到能識別文字所表達的感情等更複雜的過程。uima 為這些不同的過程提供乙個標準化的輸入和輸出格式,以支援不同組合的、來自不同**商的模組的即插即用特性。

文字分析的輸出由原始文字和關於文字的附加元資料組成。有很多不同的應用程式可以使用增強的元資料,包括商業智慧型應用程式、搜尋應用程式、企業內容管理系統和文字挖掘應用程式(見 圖 1)。

圖 1. 文字分析可以增強很多不同的應用程式

omnifind analytics edition 概述

omnifind analytics edition 提供互動式地探索和挖掘文字分析結果以及通常與非結構化文字相關聯的結構化資料的功能。如果熟悉商業智慧型應用程式,您可以將它看作以內容為中心(content-centric)的商業智慧型,它聚合文字分析的結果,以檢測頻率、相關性和趨勢。通常的用例包括:

架構圖 2 是整個系統中內容和資料流的乙個概要圖。首先,原始的文字資料必須是 omnifind analytics edition 能夠理解的格式,即一種被稱作 analysis text markup language(atml)的 xml 格式。omnifind analytics edition 可以自動將使用逗號分隔的檔案(.csv)轉換成 atml。

如 圖 2 所示,文件中既有結構化部分,也有非結構化部分。您必須指定要在哪些文字欄位上執行文字分析(自然語言處理)。

圖 2. omnifind analytics edition 架構

本文**ibm developerworks中國

資料倉儲到搭建資料集市

資料倉儲是一種關聯式資料庫模式,其中儲存了來自乙個或者多個源資料庫的歷史資料和元資料。資料倉儲的目的是便於將資料的報告和分析彙總到多個層次。或者更簡單點 是作為乙個存放企業各個領域的資料的單獨且有組織的庫。典型的資料倉儲有以下的一些特點 涉及多個主題域 有十分詳細的資訊 集合來自不同資料來源的資料 ...

資料倉儲及OLAP分析

資料倉儲是儲存資料的一種組織形式,它從傳統資料庫中獲得原始資料,先按輔助決策的主題要求形成當前基本資料層,再按綜合決策的要求形成綜合資料層 又可分為輕度綜合層和高度綜合層 隨著時間的推移,由時間控制機制將當前基本資料層轉為歷史資料層。可見資料倉儲中邏輯結構資料由3層到 4層資料組成,它們均由元資料 ...

資料倉儲的分析工具

資料倉儲是多種技術的綜合體,它由資料倉儲 資料倉儲管理系統和資料倉儲工具三個部分組成。資料倉儲的資料分析工具用於幫助使用者對資料進行分析 獲取資訊,是資料倉儲系統的重要組成部分。在整個系統中,資料倉儲居於核心地位,是資訊挖掘的基礎。資料倉儲管理系統負責管理整個系統的運轉,是整個系統的引秦。資料倉儲工...