nutch index路徑找不到問題記錄

2021-07-03 13:49:33 字數 2284 閱讀 2353

nutch 在抓取網頁的時代報如下錯誤:

16:25:53,420 debug security.usergroupinformation - privilegedactionexception as:hadoop (auth:******) cause:org.apache.hadoop.mapred.invalidinputexception: input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

input path does

nutch index的時候找segment路徑,是indexingjob的如下**實現

for (int i = 1; i < args.length; i++)  else

if (args[i].equals("-dir"))

} else

if (args[i].equals("-nocommit")) else

if (args[i].equals("-deletegone")) else

if (args[i].equals("-filter")) else

if (args[i].equals("-normalize")) else

if (args[i].equals("-params")) else

}

實際上對呼叫程式傳入的 segment path引數又找了一次子目錄,而crawl指令碼程式傳入的路徑已經到20150630152657時間這一層了,導致路徑多了一層。

crawl指令碼如下:

echo

"indexing $segment on solr index -> $solrurl"

"$bin/nutch" index -d solr.server.url=$solrurl

"$crawl_path"/crawldb -linkdb "$crawl_path"/linkdb "$crawl_path"/segments/$segment ---$segment即是生成的時間路徑

//indexermapreduce 初始化job類負責加上最後的 crawl_fetch、crawl_parse 、parse_data、parse_text 路徑

public static void initmrjob(path crawldb, path linkdb,

collectionsegments,

jobconf job)

fileinputformat.addinputpath(job, new path(crawldb, crawldb.current_name));

if (linkdb!=null)

fileinputformat.addinputpath(job, new path(linkdb, linkdb.current_name));

job.setinputformat(sequencefileinputformat.class);

job.setreducerclass(indexermapreduce.class);

job.setoutputformat(indexeroutputformat.class);

job.setoutputkeyclass(text.class);

job.setmapoutputvalueclass(nutchwritable.class);

job.setoutputvalueclass(nutchwritable.class);

}

修改方法:

修改crawl指令碼 去掉最後的時間路徑 或者修改**不在找子路徑

python open找不到路徑

前幾天需要把寫好的演算法放到django工程中,讓django可以呼叫這個演算法的函式,演算法中有對檔案操作的函式,放了以後結果就是open函式一直讀不到檔案,單獨的演算法工程是可以,把資料夾丟到django目錄下就不行了,整了乙個晚上就是下面這句話。執行python命令遇到的坑 執行python檔...

samba 找不到網路路徑

最近在學samba 呵呵.也是從昨天才開始的.是在 url http redking.blog.51cto.com url 王乾的技術部落格裡面學的.呵呵.乙個linux高手.相信混51cto的人都知道的吧.呵呵.各種配置檔案做好了之後.我用windows 訪問samba 伺服器.直接提示 找不到網...

pycharm 找不到路徑的問題

官方論壇的解決方法。適用於 在shell裡可以正常執行,但在pycharm裡 no module named 而且shell的sys.path和pycharm裡的sys.path列印出來也不一樣 截圖裡的頁面是點file default setting出現的,必須選擇project interpre...