Nutch 應用筆記和solr配合

2021-08-27 17:51:47 字數 461 閱讀 5487

最近要搞個資料探勘的專案,用了開源nutch作為爬蟲;一些坑記錄下來;免得後續忘記。

1. 配置 regex-urlfilter.txt,配置一定要規範,行尾切記不要有特殊字元和空格。

否則nutch不給你工作,會顯示0抓取記錄。

2.每次抓取可以新建資料儲存目錄,否則 urls 裡面的seed 配置不生效。依然爬去的是上乙個配置。

3.和solr配合,請把conf的schema.xml 和 solr 裡面的schema.xml合併。注意去重複的。有了就不要配置了。如果配置不合適,solr的core出不來。

4.solr 顯示查詢頁面

記得把lib 裡面相關的 solr-4.8.1\contrib\velocity\lib 下的jar 加入 solr.war

中。

OpenCV應用筆記

1 使用cvsmooth函式,src與dst的depth要一致,否則會出現raiseexception錯誤。src和dst的位深不能為64位浮點。簡單模糊和高斯模糊支援 1 或 3 通道,8 位元 和 32 位元 浮點影象。這兩種方法可以 in place 方式處理影象。2 關於直接讀取iplima...

session應用筆記

session start 開始session會話處理 session只要用到這個,就必須開啟session start 放在檔案開頭 建立session,直接採用超級全域性變數賦值即可 session是存在伺服器端,一般存放1440秒,如果網頁沒有任何操作,會自動銷毀,當然,可以通過php.ini...

sed 應用筆記

sed 的筆記 sed 的替換指令 有兩款。分別如下 第一款 sed i s g 第二款,帶有 可以出現 在 的前面或者後面。sed i s g 假設 etc sysctl.conf檔案上,有如下的 指令。都替換為net.ipv4.tcp sack 0。net.ipv4.tcp sack 1 net...