Nutch多格式支援技術方案

2021-08-31 10:16:23 字數 1512 閱讀 2340

nutch可以對多種格式的資源實現抓取,只需要做一些配置上的修改即可,下面就是一些配製方法

1、抓取pdf|doc|xls|ppt|txt

預設情況下可以搜尋txt內容,pdf|doc|xls|ppt 需要配置如下檔案:

1. parse-plugins.xml: 指定檔案使用的parser,預設nutch使用了第三方的tika作為parser

2. nutch-default.xml:

plugin.includes

預設使用tika,若單獨指定,則按照如下格式:

指定從http協議讀取的檔案大小

-1 -1表示無限制,不然可能會有parse incomplete exception

3. regex-urlfilter.txt 將ppt xls從過濾列表中去掉(pdf,doc預設不過濾)

4. crawl-urlfilter.txt 將ppt xls從過濾列表中去掉(pdf,doc預設不過濾)

2、解析pdf|doc|xls|ppt|txt

用命令列執行用ant編譯後的**沒有問題,問題存在於eclipse環境下。

問題原因分析:eclipse下無法區分不同jar包內相同的package下的相同class檔案,而nutch下的parse-pdf外掛程式和lib-jakarta-poi外掛程式分別使用了兩個舊版本的第三方包:pdfbox-0.74-dev.jar和poi-3.5-beta4-20081128.ar, poi-scratchpad-3.5-beta4-20081128.jar。在parse-tika外掛程式下分別使用了pdfbox-1.1.0.jar, poi-scratchpad-3.6.jar(用於解析msoffice)和poi-3.6.jar。為了讓程式執行時能夠呼叫parse-tika所引用的包,需要在build path中remove掉以上給出的三個舊的jar包。

多格式檔案解析的測試方法:執行org.apache.nutch.parse.parserchecker的main函式,引數為需要爬取和解析的檔案url。

3、解析流程

org.apache.nutch.parse.parseutil.parse(content)方法是解析的入口函式,其流程是先根據輸入文件的型別取得相應的parser,再呼叫該parser的getparse方法執行解析。若解析時間未設定為-1(無窮大),則呼叫runparser方法,通過timer來控制解析的超時。以解析msword為例,呼叫流程為parseutil.parse -> tikaparser.getparse -> officeparser.parse。

Quill 1 0發布 支援更多格式

原文 announcing quill 1.0 作者 quill官網翻譯 賴信濤責編 仲培藝 quill 1.0來啦!今天正好距離quill作為開源軟體發布兩周年。現在,大大小小的專案都開始使用quill,從個人專案到創業公司,再到大型公司,都可以看到它的影子。quill是方便易用的富文字編輯器。使...

pickle可以將很多格式的資料儲存到乙個檔案中

pickle可以將很多格式的資料儲存到乙個檔案中 用途 例如當乙個列表達到幾百行的時候,放到程式裡面太難看。可以壓縮到乙個檔案裡面 city 1,2,3,4,5,6,7,8,1,2,3,4,5,6,7,1,2,3,4,5,6,7,1,2,3,4,5,6,7,1,2,3,4,5,6,7,1,2,3,4...

printf支援的格式

c 單個字元 d 十進位制整數 f 十進位制浮點數 o 八進位制數 s 字串 u 無符號十進位制數 x 十六進製制數 輸出百分號 s b 就是boolean的意思 以下是1.5 api中的解釋 b b 常規 如果引數 arg 為 null,則結果為 false 如果 arg 是乙個 boolean ...