書單 資料探勘基礎到應用

2021-09-20 10:18:29 字數 2531 閱讀 5110

**:微軟研究院

不久前我們推出的《推薦演算法不夠精準?讓知識圖譜來解決》以及《如何將知識圖譜特徵學習應用到推薦系統?》系列文章受到了同學們的廣泛歡迎。大家對推薦系統以及與之相關的、底層的資料探勘技術非常關注。

一、基礎篇

1. introduction to data mining

中文譯名:資料探勘導論(完整版)

主要內容:本書內容涵蓋了資料探勘的方方面面,從什麼是資料探勘、什麼是資料以及資料預處理的方法,到具體的資料探勘演算法,比如分類、關聯分析、聚類、異常檢測等,從基本的定義入手,由淺至深地幫助讀者透徹地理解資料探勘的基礎。書中使用大量的圖表、綜合示例、關鍵演算法的簡潔描述等,盡可能地直接聚焦於資料探勘的主要概念。

推薦理由:本書是明尼蘇達大學和密西根州立大學資料探勘課程的教材,是資料探勘領域經典的入門教程。本書內容淺顯易懂,只要求具備很少的統計學或數學背景知識,略去了各個定理的證明部分,通過列舉大量具體的演算法例項來簡要說明演算法的流程和意義,讓初學者可以以最快速度總攬全域性,掌握資料探勘領域的基本要點。

2. data mining: concepts and techniques

中文譯名:資料探勘:概念與技術(原書第三版)

主要內容:本書是最新的第三版,主要從資料庫角度全面系統地介紹了資料探勘的基本概念、方法、技術以及技術的研究進展,並且重點關注了資料探勘領域最新的技術和發展,介紹了社會網路挖掘、流資料探勘和資料立方體計算等最新的研究方法,並**了資料探勘方法在金融等領域的應用。書中引入了許多演算法和實現例項,以易於理解的偽**編寫,適用於實際的大規模資料探勘專案。

推薦理由:本書是一本非常優秀的資料探勘教材,更是資料探勘領域具有里程碑意義的經典著作。它不僅詳盡講述了資料探勘的基本概念和方法,又具有一定的深度,介紹了資料探勘領域近年來最新的課題。它結構合理、調理清晰,每一章都針對關鍵專題有單獨的指導,並且只要求讀者具備少量的程式設計經驗以及了解基本的資料和統計分析方向的知識。

二、 應用篇

主要目標: 在大資料時代,資料的形式多種多樣,在不同科研領域、商業背景、產業型別中的應用也十分豐富。這裡我們通過四本書來為大家介紹資料探勘的方法和思想在三個不同的子領域中的具體應用,幫助大家了解資料探勘領域最前沿的熱門研究方向和應用場景,為大家把握科研或工程的方向提供參考。

1. recommender systems: an introduction

中文譯名:推薦系統

推薦理由:本書內容詳盡,廣泛涵蓋了不同型別的推薦系統,並對這些推薦系統逐一進行了細緻地剖析,並輔以實際應用案例的介紹,適合想要了解推薦系統的基礎和相關研究的讀者作為推薦系統的入門書籍。書中包含了大量的圖、表以及示例,有助於讀者理解和把握相關知識。

2. recommender systems: the textbook

主要內容:本書詳盡地介紹了推薦系統的方方面面,可以大致地被分為三個部分:「演算法和評估」部分**了推薦系統中的基礎演算法,包括協同過濾的方法、基於內容的方法、基於知識的方法、整合方法以及推薦系統的評估方法;「特定領域和上下文下的推薦系統」部分介紹在如時間空間資料、社交資料、標籤資料以及信用度資料等不同的上下文場景資料中如何進行推薦;「高階的主題和應用」部分介紹了和推薦系統的魯棒性相關的內容,如先令系統、攻擊模型以及相應的防禦模型。

推薦理由:這是一本非常優秀的推薦系統教科書,它不僅用簡單的語言闡述了推薦系統的基礎,深入地介紹了核心演算法的概念以及數學論證,還為讀者提供了第三方工具或框架使用時需要查詢的大量資料。它對於推薦系統的基礎、具體應用和相關文獻進行了全面介紹,既適合研究人員作為推薦系統的入門書籍,又適合工業從業人員作為工具參考書。

3. sentiment analysis: mining opinions, sentiments,and emotions

中文譯名:情感分析:挖掘觀點、情感和情緒

主要內容:本書主要從自然語言處理的角度全面地介紹情感分析這個主題中的基礎演算法以及先進的研究技術和科研結果。書中幾乎涵蓋了情感分析所有的核心領域,在介紹了情感分析的基本概念和多種基本的情感分析場景後,又解讀了多個新興的情感分析主題,比如辯論分析、意圖挖掘、假民意檢測等,不僅能夠讓讀者了解通常用於表達觀點和情感的問題和語言的基本結構,還能幫助讀者深入地**大量觀點挖掘和情感分析的演算法和系統。

推薦理由:本書是迄今為止觀點挖掘與情感分析領域最權威、最全面的著作之一。書中幾乎涵蓋了情感分析的方方面面,將理論和實踐相結合,深入淺出,同時兼顧了領域知識的深度和廣度,不僅可以作為剛接觸這一領域的學者或開發者的入門教材,又可以作為了解這一領域最前沿研究成果的經典讀物。

4. 移動資料探勘

主要內容:本書選取當前學術界和工業界的熱點為主題,自成體系,書中以人的軌跡資料,特別是移動社交網路的位置資料為中心,結合人的基本資訊及社交網路等相關資訊來研究個人與群體的移動模式特性,介紹了移動資料探勘的基本概念和方法,具體包括移動資料預處理、使用者移動模型、使用者畫像以及興趣位置推薦等,內容十分新穎。

推薦理由:本書是大資料管理叢書中的一本,書中梳理總結了作者團隊過去十年在人群移動資料理解上展開的研究,這些研究經驗不僅對於很多實際應用有著重要的價值,也有助於解決一些具有社會意義的科學問題。本書在介紹了移動資料的概念及其價值的同時,還細緻地講解了移動資料領域內的多個前沿研究課題,對於想要深入了解這個領域的學者和工業從業人員是非常好的選擇。

看完了書單,還不趕緊挑選幾本!

書單 資料分析入門書籍

這本書真的很簡單,能夠讓你對資料分析的一些基本概念有大致的了解。即便是你毫無資料分析經驗,一兩天也足夠讀完整本書了。這本書的實操性並不強,所以也不建議你去跟著實踐,了解作者傳達出來的資料分析基本思想和原則就ok了,這對你建立巨集觀的視野,和接下來的學習很有幫助。另外,書中提到的一些案例,比如提公升化...

入門簡單資料探勘步驟

由於自己是資料分析與大資料技術專業的,並且最近剛入門資料探勘與機器學習,如有不當之處希望各位讀者指正。在本文開始之前先引入幾個概念。資料集 是資料的集合,所謂的集合表現就是一張資料庫 例如excel表 乙個資料庫 例如會員庫 乙個資料檔案 例如.csv檔案 等,iris.csv就是乙個資料集,裡面包...

資料探勘應用

b 資料探勘解決的典型商業問題 b 需要強調的是,資料探勘技術從一開始就是面向應用的。目前,在很多領域,資料探勘 data mining 都是乙個很時髦的詞,尤其是在如銀行 電信 保險 交通 零售 如超級市場 等商業領域。資料探勘所能解決的典型商業問題包括 資料庫營銷 database market...