《實體解析與資訊質量》 創作動力

2021-06-27 05:25:10 字數 1440 閱讀 1022

實體解析(er )和資訊質量( iq)是資訊科學領域的兩門新興學科。我寄望這本書能夠為該領域不斷增長的知識儲備做出一定的貢獻。

我覺得參與發起一門新興學科是一件很有意義的事情,籍此來組織資訊質量學科的第乙個研究生學位課程,則猶如一段令人興奮的旅程。這其中的乙個重要挑戰,便為學生們尋找合適的書籍和學習資源, 因為關於這些主題大學水平的教科書實在是少之又少。 比如《introduction to information quality*》, 《journey to data quality**》這些著作都是由非該學科的其他行業的從業者所著。不過,我認為這也並非全然壞事。教學中我們還使用了一些非常詳細且實用的書籍作為教材,也因而獲得了學生和教師的一致好評。比如《 data qualityassessment(arkady madanchik著)》和《 executing data quality projects: ten steps to quality data andtrusted information》。當然,我堅信隨著越來越多的學校開設這方面的課程,將會有更多出色的教科書湧現,以滿足教學的需求。

該書基於阿肯色大學於2023年秋天開設的,名為實體解析和資訊質量的研究生選修課程。在該課程中, 我們主要使用了由  thomasherzog, fritz scheuren 和 william winkler 合著的《資訊質量和記錄鏈技術》。該書在關於 價值推算, fellegi-sunter 記錄鏈結模型的描述,以及一些案例研究方面的內容十分值得推薦,但另一方面,它並沒有能夠覆蓋實體解析的很多其他課題。

當你閱讀本書時,特別是第 2章,你會看到比較全面的,關於資訊質量的基礎知識的介紹。同樣出現在第二章裡的,還有資訊和資料質量國際發展協會( iaidq)指定的,關於資訊質量的知識和技能的六個領域框架,我認為該框架為這門新興學科建立出色的基本準則。同時,該書還從側面佐證了許多目前流行的資訊科技和資訊管理的主題,如主資料管理和資訊治理,它們也都遵循了該資訊質量的基本原則。而其他許多譬如實體和身份識別的應用技術,也和資訊架構與資料質量存在非常緊密的聯絡。

除了和資訊質量相關的內容,該書也介紹了有關實體解析的基礎知識。我編寫該書的其中乙個目標,便是鼓勵實體解析和資訊質量的研究與參與人員能建立起關於這兩個兩個學科全面的,互相印證的整體觀點。

我注意到,已經有許多在這些領域的高素質從業人員和研究人員,曾經發表過相關著作。例如,我們不難找到關於實體解析幾乎任何乙個主題的有深度的**。我希望這本書能夠將各個地方更零散的主題結合起來,構建乙個關於實體解析的整體框架,並通過這樣做來促進其中的思想和技術的相互交流。不是每個人都會完全接受我的定義或分類方式,但這是我提供給讀者的審議意見。畢竟,任何知識的增長,都需要考察和審視不同的觀點,並基於他人的工作成就,才能在點滴中得到積累。

(*由 craig fisher, eitellauria, shobha chengalur-smith, and richard wang 合著)

(**由 yang lee, leo pipino, james funk, and richard wang合著)

《實體解析與資訊質量》 1 2 6 總結

實體解析就是對引用做出判斷,它是否指相等是向現實世界的實體。鏈結是乙個附加的共通的例項引用以此標識他們是等價的。身份識別,記錄鏈結,記錄匹配,記錄去重,合併清除,還有實體解析這些都代表了er的特定形式或方面。廣義地來說,er包含五個主要步驟 實體引用抽取,實體引用準備,實體引用解析,實體身份管理,和...

《實體解析與資訊質量》 1 2 5 實體關係分析

在等價的引用被轉變和識別後,許多應用提出了另乙個問題 這些實體間的多樣化的關係是怎樣的?這其中,第乙個被探索的實體關係是家庭關係 household relationship 即不同的實體居住在同乙個家庭裡,營銷公司最先看到這其中的價值。有趣的是,到目前為止,家庭關係仍是最難定義和管理的。對此最簡單...

《實體解析與資訊質量》 2 2 1 複習題

1.從財務的角度上怎樣定義 資產 資訊在哪些角度符合這種定義?又在哪些角度不符合?2.資訊質量的度量單位是什麼?3.舉例來說明這樣一種情況 同一條資訊在它的當中乙個應用中具有較高質量。在還有乙個應用中的質量則較低。4.找到一篇關於資訊質量或資料質量的多維度框架的文章或書籍。解釋它與wang stro...