HtmlAgilityPack 抓取頁面的亂碼處理

2021-09-09 00:25:34 字數 829 閱讀 7674

htmlagilitypack 抓取頁面的亂碼處理

用來解析 html 確實方便。不過直接讀取網頁時會出現亂碼。

實際上,它是能正確讀到有關字符集的資訊,怎麼會在輸出時,沒有取到正確內容。

因此,讀兩次就可以了。

#if interactive

#r @"e:\htmlagilitypack-99964\trunk\htmlagilitypack\bin\fx.4.0\debug\htmlagilitypack.dll"

#endif

//open system

//open system.xml

//   hexun -- gb2312

//   tianya -- utf-8

//let url = @""

let url = @""

let html = new htmlagilitypack.htmlweb()

let doc0 = html.load  ( url )

html.overrideencoding <- doc0.encoding

let doc = html.load  ( url )

let title = doc.documentnode.selectsinglenode("//title").innertext

printfn "%s" title

doc.documentnode.selectnodes("//div")

|> seq.map ( fun i -> i.innertext )

|> seq.iter   ( printfn "%s" )

HtmlAgilityPack相關網頁

多執行緒 替換webbrowser預設的彈出選單 c webbrowser 獲得選中部分的html原始碼 linq to xml操作xml 向htmlagilitypack道歉 解析html還是你好用 通過 webbrowser 獲取網頁截圖 c 無限迴圈treeview 資料庫 datatable...

C 使用HtmlAgilityPack爬蟲例項

使用htmlagilitypack類庫解析html非常方便,網上的資料有很多,可以自行搜尋了解 下面上乙個非常簡單的小例子 要爬取的資訊如下 首先要引用htmlagilitypack.dll檔案 上 internal void run httptool類 初始化請求 請求頭資訊可以按自己需求增加 p...

使用HtmlAgilityPack抓取網頁資料

剛剛學習了xpath路徑表示式,主要是對xml文件中的節點進行搜尋,通過xpath表示式可以對xml文件中的節點位置進行快速定位和訪問,html也是也是一種類似於xml的標記語言,但是語法沒有那麼嚴謹,在codeplex裡有乙個開源專案htmlagilitypack,提供了用xpath解析html檔...