NCrawler爬蟲在應用中一些問題

1）html 處理使用的是htmlagilitypack，其中htmlentity.deentitize函式處理文字中的轉義字元後， " " 字元對映為unicode 160，影響某些文字的分詞處理。目前沒有好解決方案，我的方法是在呼叫函式前把這個串過濾掉，畢竟這個串是在文字中出現最多的。

2）關於深度搜尋時候，新增到佇列中的uri，預設情況是：「不是本站點的子鏈結，都過濾，不處理」，這個處理應該加個bool選項，決定是否呼叫i***ternalurl(uri uri)函式；為了改動小，可以在此函式裡判斷返回結果。

並且，ishostmatch(this uri uribase, uri uri)函式存在邏輯問題。

比如：函式認為不是乙個**，但是有些情況下，還是需要作為同乙個區域進行搜尋的。

臨時解決方法為：

string scheme = uribase.getleftpart(uripartial.scheme);

string hostname = uribase.getleftpart(uripartial.authority).substring(scheme.length);

hostname = hostname.trimstart("www.".tochararray());

int off = uri.host.indexof(hostname, stringcomparison.ordinalignorecase);

return off > -1 ? false : true;