html標籤及xpath處理相關方法

2021-06-27 22:02:08 字數 3074 閱讀 3483

直接上**

using system;

using system.collections.generic;

using system.linq;

using system.text.regularexpressions;

using system.web;

using htmlagilitypack;

namespace tl.newsgatheringservice.business.implement

/// /// 從一段html中取出乙個url

}/// /// 從字串中取出與正則匹配的字串

///

/// 源字串

/// 正規表示式 如:/\\d/

/// string

public static string getstrbyregx(string inputstr, string strpattern)}}

catch

return retstr;

}/// /// 從字串中取出與正則匹配的字串組

///

/// 源字串

/// 正規表示式 注意要帶分組 分組名固定為:"gname" 如: .*?).*>

/// list-string

public static listgetliststrbyregxgroup(string inputstr, string strpattern)}}

return list;

}/// /// 根據xpath獲取篩選的字串

///

/// 需要提取html的內容

/// xpath表示式

/// 分隔符

/// 提取後的內容

public static string getstrbyxpath(string content, string xpath, string separ)

return text;

}/// /// 根據xpath獲取篩選的字串 每個字串加上字首字尾

///

/// 需要提取html的內容

/// xpath表示式

/// 字首

/// 字尾

///

public static string getstrbyxpath(string content, string xpath, string presepar, string lastsepar)

return text;

}/// /// 獲取某個xpath取到的元素的指定屬性的值

///

/// 原內容

/// xpath表示式

/// 屬性名

///

public static string getattrvaluebyxpath(string content, string xpath, string attrname)

return text;

}/// /// 根據xpath獲取篩選的字串 每個字串加上字首字尾

///

/// 原內容

/// xpath表示式

/// 屬性名

/// 字首

/// 字尾

///

public static string getattrvaluebyxpath(string content, string xpath, string attrname, string presepar, string lastsepar)

return text;

}/// /// 中文轉unicode

///

///

public static string chinese_to_unicode(string str)

}return outstr;

}/// /// unicode轉中文

///

///

public static string unicode_to_chinese(string str)

}catch (formatexception ex)

}return outstr;

}/// /// unicode轉中文(符合js規則的)

///

///

public static string unicode_to_chinese_js(string str)

)");

outstr = reg.replace(str, delegate(match m1)

);return outstr;

}/// /// 中文轉unicode(符合js規則的)

///

///

public static string chinese_to_unicode_js(string str)

else }}

return outstr;} }

}

HTML骨架及標籤

html 標題 頁面內容1.巢狀關係 html 2.並列關係 html html 標題內的文字字型會加粗且根據標題格式改變字型大小,一行只能有乙個標題。段落標籤 html 文字 文字格式化標籤 html 文字加粗 文字為斜體 文字加刪除線 文字加下劃線 html 正常 帶有title為提示文字,即滑...

HTML標籤的overflow處理

使用css來修飾滾動條 1 overflow內容溢位時的設定 overflow x水平方向內容溢位時的設定 overflow y垂直方向內容溢位時的設定 以上三個屬性設定的值為visible 預設值 scroll hidden auto。2 scrollbar 3d light color立體滾動條...

使用xpath獲取指定標籤下html內容

通常使用xpath我們直接定位到標籤後,使用 text 或 text 來獲取標籤對之間的文字值,但特殊情況下我們也需要獲取標籤本身含文字值,操作如下 檔案為html,標籤對結構如下 1h row value 1td row value 2td tr table 如下 from lxml import...