正規表示式刪除指定的HTML 標籤

1.抓取某網頁的資料後(比如描述),如果照原樣顯示的話,可能會因為它裡面包含沒有閉合的html標籤而打亂了格式,也可能它裡面用了比較讓人 "費解" 的html標籤,把預訂的格式攪亂. 如果全盤刪除裡面的 html 標籤,可能會造成閱讀上的困難(比如 a, img 這些標籤), 最好是刪除一部分,保留一部分.

下面是乙個簡單的函式,把要保留的tag串起來,生成乙個正規表示式,然後把不需要的tag刪除...

private static string removespecifyhtml(string ctx) ;//要保留的 tag

// <(?!((/?\s?li)|(/?\s?ul)|(/?\s?a)|(/?\s?img)|(/?\s?br)|(/?\s?span)|(/?\s?b)))[^>]+>

string regstr = string.format(@"<(?!((/?\s?)))[^>]+>", string.join(@")|(/?\s?", holdtags));

regex reg = new regex(regstr, regexoptions.compiled | regexoptions.multiline | regexoptions.ignorecase);

return reg.replace(ctx, "");

}----------------------------

修正:上面的正則,如果保留了 li , 實際執行會發現 link 也給保留下來了, 保留 a 會把 addr 也給保留下來, 解決辦法就是加 \b 斷言.

<(?!((/?\s?li\b)|(/?\s?ul)|(/?\s?a\b)|(/?\s?img\b)|(/?\s?br\b)|(/?\s?span\b)|(/?\s?b\b)))[^>]+>

private static string removespecifyhtml(string ctx) ;//保留的 tag

string regstr = string.format(@"<(?!((/?\s?)))[^>]+>", string.join(@"\b)|(/?\s?", holdtags));

regex reg = new regex(regstr, regexoptions.compiled | regexoptions.multiline | regexoptions.ignorecase);

return reg.replace(ctx, "");}2.

提取html中img標籤的

public static string getimgurllist(string html)

正規表示式刪除指定的HTML 標籤

HTML 正規表示式

正規表示式相關正規表示式處理html內容

常用HTML正規表示式

正規表示式刪除指定的HTML 標籤

HTML 正規表示式

正規表示式相關 正規表示式處理html內容

常用HTML正規表示式

相關推薦

正規表示式相關正規表示式處理html內容