Lemur的引數檔案

2021-06-07 12:26:06 字數 1771 閱讀 4155

lemur的引數檔案

lemur toolkit是乙個新興的實驗系統。它由卡耐基-梅隆大學(cmu)開發,在2023年公布了第乙個公開的版本,目前最新版本是4.6。其特點是在檢索中引入了語言模型,更重要的是,它不僅是乙個完整的檢索系統,而且是以工具包的形式提供的。各功能模組都有良好的封裝,並提供清晰的源**和豐富的文件說明,研究者使用它搭建自己的實驗系統易如反掌。

lemur toolkit的設計目標是促進和幫助在文字資訊檢索和語言模型方面的研究,包括特定目標檢索、分布式檢索、跨語言檢索、文摘系統、資訊過濾和文字分類等各方面技術的研究。工具包支援對大規模文字資料建立索引,對文件和查詢構建簡單的語言模型,同時實現了基於語言模型的檢索系統。整個系統用c和c++語言實現,可在unix和windows系統下執行。

lemur toolkit支援xml檢索,以下分析lemur toolkit的結構時,是針對xml檢索和查詢部分。

引數檔案

lemur在windos下建立索引, 是在命令列下執行以下命令:

indribuildindex.exe parameter file

lemur是根據指定的配置檔案parameter file來對xml文件集建立索引的。parameter file是乙個包含建立索引時必要資訊的xml檔案。乙個引數檔案的樣例如下:

f:\xmltest\index

f:\xmltest\testdoc

xml128m

krovetzaan

thetitle

author

index:表示建立後的索引存放的目錄,示例的配置檔案表示把索引存放在索引存放在f:\xmltest\index目錄下面。

corpus:表示要建立索引的xml文件集。示例的配置檔案表示把f:\xmltest\testdoc目錄下的xml文件集建立索引;class表示文件集的型別,lemur支援html、txt、xml、pdf等型別。

memory:使用128m的記憶體建立memory index(memory index參見2.2.5節),lemur在把xml文件解析後,建立的索引先放在記憶體的memory index,當memory index耗盡後,就把memory index存放的部分索引儲存到硬碟上,之後清空memory index存放餘下的xml文件建立的索引,當索引完整個xml文件集之後,把硬碟上的所有部分索引歸併,形成乙個最終的索引。

stemmer:表示取詞根的方法,lemur支援krovetz和porter 這兩種方法。

stopper:表示stopper word的列表。

field:在文件集中要索引的元素結點,沒指定的不建立索引。示例的配置檔案表示只對xml文件集中title或author的元素結點建立索引。並後的這樣在處理比較大型的文件集時非常不方便,因為不能預先知道文件集中元素結點的名字,所以系統預設的建索引方式有待改進。

lemur在windos下執行查詢, 是在命令列下執行以下命令:

indrirunquery.exe parameter file

lemur是根據指定的配置檔案parameter file來執行查詢的。乙個配置檔案的樣例如下:

d:\test\index

128m

2nexi

//artilcle[about(., microkernel operating systems)]

index:表示要查詢的索引,也就是lemur在建立索引時,索引存放的目錄;

memory:在查詢過程中使用的記憶體的大小;

query:其中number只標識不同查詢的查詢,type表明查詢語句的型別,lemur支援inquery和nexi,text表示具體的查詢語句。

Oracle的引數檔案和伺服器引數檔案

在oracle中通過存在的引數檔案建立伺服器引數檔案 因為spfile.ora檔案為二進位制檔案,有可能手動修改spfile.ora後,oracle無法識別,也就無法啟動了。解決辦法如下 1,找到相應例項的pfile檔案 在10.0.2 admin 例項名 pfile 資料夾下有個init.ora....

oracle引數檔案

pfile靜態引數檔案 spfile是乙個二進位制檔案,不能手工修改只能用命令列修改,只有oracle9i以上的才有 啟動資料庫時候引數檔案的預設讀取順序 spfilesid.ora default spfile initsid.ora default pfile 重建spfile,既pfile同步...

oracle 引數檔案

又被作為靜態的文字檔案來儲存初始化引數的配置,我們可以通過作業系統的文字編譯器 對該檔案進行編譯,可以為乙個初始化引數設定多個值,但是如果設定多個值,後乙個值會把前乙個值覆蓋。即為 動態初始化引數檔案,使用動態引數是因為 修改完一些引數無需重新啟動資料庫 還有就是因為oracle引入了很多自動調整的...