《資訊檢索導論》(第四章)索引構建

2021-08-04 21:02:17 字數 701 閱讀 3439

1 將需要建立索引的文件集分為幾個大小相同的部分;

2 對每個部分的文件進行分析,建立詞項id-文件id對應關係並載入到設定好的記憶體塊中進行排序,轉換成倒排索引後的中間檔案存入磁碟;

3. 將中間檔案合併形成最終的索引;

1 將需要建立索引的文件集分為幾個大小相同的部分;

2分析其中乙個部分文件的詞項-文件id對應關係並構建詞典,在塊記憶體即將耗盡時將詞典排好序後與磁碟中的倒排記錄合併;

3 對於其他部分的文件,在新的詞典上繼續建立索引;

1 採用基於詞項的分隔方法,將文件集合分割成多個資料片;

2 主控結點根據每個結點計算機運**況將資料片分配給不同的結點分析器;

3 結點分析器分析文件建立詞項id-文件id對,即根據詞項對資料片再進行分割槽;

4 reduce階段將不同分析器的相同一鍵值(詞項id)進行彙總,放入索引器中建立倒排記錄表;

如果文件隨時間的變化不是很多並且可以允許一定的延時,則可以週期性的對文件重新建立索引;

否則,另外一種解決方案是同時保持著兩個索引:乙個是大的主索引,另外乙個是用於儲存新文件資訊的輔助索引,其中輔助索引儲存在記憶體中,輔助索引用於對文件新增內容建立索引,使用者在檢索時對主索引和輔助索引一起檢索,當輔助索引很大時候,將其與磁碟中的主索引進行合併;

資訊檢索導論 第四章讀書筆記

扇區是磁碟中最小的物理儲存單元 作業系統將相鄰的扇區組合在一起,形成乙個資料塊,對塊進行管理,每個塊包含2,4,8,16,32或64個扇區 資料塊是邏輯概念,而非物理概念。乙個資料塊只能放乙個檔案,因此檔案的實際大小是小於等於所佔的儲存空間大小的。作業系統往往以資料塊為單位進行讀寫,因此,讀取乙個位...

《構建之法》 第四章

本章內容是講 兩人合作 眾所周知 三個臭皮匠賽過諸葛亮 無論是從事什麼活動或者工作,可見合作的力量是1 1 2 一 重要性 軟體開發的過程是複雜的,顯然的乙個人的智慧型是不夠的,遇到問題一起解決,工作一起分擔能使開發的效率提高很多。以後到公司團隊工作,合作很大程度上實現優勢互補,比如說有人擅長介面設...

第四章,排序檢索資料

order by 列名 select prod name from products order by prod name輸出以prod name字母順序排列的資料 order by 排序參照列也可以是非選擇的列 order by 列名1,列名2先按照列1排序,在列1相同時,再按照列2排序 desc...