Nutch多格式支援技術方案

nutch可以對多種格式的資源實現抓取，只需要做一些配置上的修改即可，下面就是一些配製方法

1、抓取pdf|doc|xls|ppt|txt

預設情況下可以搜尋txt內容，pdf|doc|xls|ppt 需要配置如下檔案：

1. parse-plugins.xml: 指定檔案使用的parser，預設nutch使用了第三方的tika作為parser

2. nutch-default.xml:

plugin.includes

預設使用tika，若單獨指定，則按照如下格式：

指定從http協議讀取的檔案大小

-1 -1表示無限制，不然可能會有parse incomplete exception

3. regex-urlfilter.txt 將ppt xls從過濾列表中去掉（pdf,doc預設不過濾）

4. crawl-urlfilter.txt 將ppt xls從過濾列表中去掉（pdf,doc預設不過濾）

2、解析pdf|doc|xls|ppt|txt

用命令列執行用ant編譯後的**沒有問題，問題存在於eclipse環境下。

問題原因分析：eclipse下無法區分不同jar包內相同的package下的相同class檔案，而nutch下的parse-pdf外掛程式和lib-jakarta-poi外掛程式分別使用了兩個舊版本的第三方包：pdfbox-0.74-dev.jar和poi-3.5-beta4-20081128.ar, poi-scratchpad-3.5-beta4-20081128.jar。在parse-tika外掛程式下分別使用了pdfbox-1.1.0.jar, poi-scratchpad-3.6.jar(用於解析msoffice)和poi-3.6.jar。為了讓程式執行時能夠呼叫parse-tika所引用的包，需要在build path中remove掉以上給出的三個舊的jar包。

多格式檔案解析的測試方法：執行org.apache.nutch.parse.parserchecker的main函式，引數為需要爬取和解析的檔案url。

3、解析流程

org.apache.nutch.parse.parseutil.parse(content)方法是解析的入口函式，其流程是先根據輸入文件的型別取得相應的parser，再呼叫該parser的getparse方法執行解析。若解析時間未設定為-1(無窮大)，則呼叫runparser方法，通過timer來控制解析的超時。以解析msword為例，呼叫流程為parseutil.parse -> tikaparser.getparse -> officeparser.parse。

Nutch多格式支援技術方案

Quill 1 0發布支援更多格式

pickle可以將很多格式的資料儲存到乙個檔案中

printf支援的格式

Nutch多格式支援技術方案

Quill 1 0發布 支援更多格式

pickle可以將很多格式的資料儲存到乙個檔案中

printf支援的格式

相關推薦

Quill 1 0發布支援更多格式