看懂資訊檢索和網路資料探勘領域論

2021-07-29 11:25:10 字數 2621 閱讀 7464

資訊檢索和網路資料領域(www, sigir, cikm, wsdm, acl, emnlp等)的**中常用的模型和技術總結

引子:對於這個領域的博士生來說,看懂**是入行了解大家在做什麼的研究基礎,通常我們會去看一本書。看一本書固然是好,但是有乙個很大的缺點:一本書本身自成體系,所以包含太多東西,很多內容看了,但是實際上卻用不到。這雖然不能說是一種浪費,但是卻沒有把有限力氣花在刀口上。

我所處的領域是關於網路資料的處理(國際會議www, sigir, cikm, wsdm, acl, emnlp,等)

我列了乙個我自己認為的在我們這個領域常常遇到的模型或者技術的列表,希望對大家節省時間有所幫助:

1. 概率論初步

主要常用到如下概念:初等概率定義的三個條件,全概率公式,貝葉斯公式,鏈式法則,常用概率分布(dirichlet 分布,高斯分布,多項式分布,玻松分布m)

雖然概率論的內容很多,但是在實際中用到的其實主要就是上述的幾個概念。基於測度論的高等概率論,幾大會議(www,sigir等等)中出現的**中基本都不會出現。

2. 資訊理論基礎

主要常用的概念:熵,條件熵,kl散度,以及這三者之間的關係,最大熵原理,資訊增益(information gain)

3. 分類

樸素貝葉斯,knn,支援向量機,最大熵模型,決策樹的基本原理,以及優缺點,知道常用的軟體包

4. 聚類

非層次聚類的k-means演算法,層次聚類的型別及其區別,以及算距離的方法(如single,complete的區別a),知道常用的軟體包

5. em演算法

理解不完全資料的推斷的困難,理解em原理和推理過程

6. 蒙特卡洛演算法(特別是gibbs取樣演算法o)

知道蒙特卡洛演算法的基本原理,

特別了解gibbs演算法的取樣過程;markov 隨機過程和markov chain等

7. 圖模型

圖模型最近幾年非常的熱,也非常重要,

因為它能把之前的很多研究都包括在內,同時具有直觀之意義。

如crf, 

hmm,topic model都是圖模型的應用和特例。

a. 了解圖模型的一般表示(有向圖和無向圖模型x),通用的學習演算法(

learning)和推斷演算法(inference),

如sum-product演算法,傳播演算法等

b. 熟悉hmm模型,包括它的假設條件,以及前向和後向演算法;

c. 熟悉lda模型,包括它的圖模型表示i,以及它的gibbs 推理演算法;變分推斷演算法不要求掌握。

d. 了解crf模型,主要是了解它的圖模型表示,如果有時間和興趣a,

可以了解推理演算法;

e. 理解hmm,lda, crf和圖模型的一般表示,

通用學習演算法和推理演算法之間的聯絡和差別;

f. 了解markov logic network(mln),

這是建構在圖模型和一階邏輯基礎上的一種語言,

可以用來描述很多現實問題,初步的了解,可以幫助理解圖模型;

8. topic model

這個模型的思想被廣泛地應用,全看完沒有必有也沒有時間,

a. 深入理解plsa和lda,

同時理解plsa和lda之間的聯絡和區別;這兩個模型理解後,

大部分的topic model的**都是可以理解的了,

特別是應用到nlp上的topic 

model。同時,也可以自己設計自己需要的非層次topic model了。

b. 如果想繼續深入,繼續理解hlda模型,

特別是理解背後的數學原理dirichlet process,這樣你就可以自己設計層次topic model了;

c. 對於有監督的topic model,一定要理解s-lda和llda兩個模型,

這兩個模型體現了完全不同的設計思想,可以細細體會,

然後自己設計自己需要的topic model;

d. 對於這些模型的理解,gibbs 取樣演算法是繞不開的坎;

9. 最優化和隨機過程

a. 理解約束條件是等號的最優化問題及其lagrange乘子法求解

; b. 理解約束條件是不等號的凸優化問題,理解單純形法;

c. 理解梯度下降法,模擬退火演算法;

d. 理解爬山法等最優化求解的思想

e. 隨機過程需要了解隨機遊走,排隊論等基本隨機過程(

**中偶爾會有,但不是太常見n),理解markov 隨機過程(非常重要,取樣理論中常用l);

10. 貝葉斯學習

目前越來越多的方法或模型採用貝葉斯學派的思想來處理資料,

因此了解相關的內容非常必要。

a. 理解貝葉斯學派和統計學派的在思想和原理上的差別和聯絡;

b. 理解損失函式,及其在貝葉斯學習中的作用;記住常用的損失函式;

c. 理解貝葉斯先驗的概念和四種常用的選取貝葉斯先驗的方法;

d. 理解引數和超引數的概念,以及區別;

e. 通過lda的先驗選取(或者其它模型i)

來理解貝葉斯資料處理的思想;

11. 資訊檢索模型和工具

a. 理解常用的檢索模型;

b. 了解常用的開源工具(lemur,lucene等ng)

12. 模型選擇和特徵選取

a. 理解常用的特徵選擇方法,從而選擇有效特徵來訓練模型;

b. 看幾個模型選擇的例子,理解如何選擇乙個合適模型;(這玩意只能通過例子來意會了)

資料探勘和資訊檢索

資料探勘和資訊檢索都是一種資訊發現任務。但是它們在很多方面都有所不同。資訊檢索領域的任務是使用資料庫管理系統查詢個別的記錄,或通過網際網路的搜尋引擎查詢特定的web頁面。而資料探勘則是知識發現不可缺少的一部分,是將未加工的資料轉換為有用資訊的過程。資訊檢索主要依賴傳統的計算機科學技術和資料的明顯特徵...

資訊檢索與資料探勘的常用加權技術。

tf idf term frequency inverse document frequency 是一種用於資訊檢索與資料探勘的常用加權技術。外文名 term frequency inverse document frequency 縮 寫 tf idf 用 於 資訊檢索資料探勘的常用加權技術 類 ...

無法檢索資料和目標資料的列資訊 2 檢索資料

select語句應該是 sql 最常用的語句了,用來從乙個表中或者多個表中檢索資料。對於 sql 語句來說,必須至少要給出 2 條資訊 注 作為 sql 組成部分的保留字,關鍵字不能用作表或者列的名字 我們用來示例的表叫 products。select prod name from products...