獲取網頁指定內容,終於不用正規表示式

2021-08-31 00:00:02 字數 2989 閱讀 8651

剛設計乙個獲取網頁內中草藥資料提取的軟體,原想找些正規表示式來達到獲取文字資料,試找了些,都是獲取鏈結和鏈結文字的,還有獲取td間文字的沒試過,不過對照獲取到的網頁內容可見效果不很滿意,於是自己對網頁內容進行分析,經過2天的努力,終於不用正規表示式,獲取到想要的純文字資料,下面是使用語句獲取的乙個網頁內容:

我想要的內容是從【中藥名】到【相關藥方】這些內容,而這些內容中還包含了不想要的字元,首先我想到的是如何刪除<>之間的內容,於是寫了乙個處理函式:

string 刪除單字元區間(string 資料, string 分隔符)

return 資料;

}

得到了如下處理的內容:

【中藥名】玄參 xuanshen

【別名】元參、北玄參、黑參、山當歸。

【英文名】scrophulariae radix。

【**】玄參科植物北玄參scrophularia buergeriana miq. (s. oldhamioliv.)的根。

【植物形態】多年生草本,高60~120厘公尺。根肥大,圓柱形,下部常分枝,外皮灰褐色。莖直立,四稜形,有溝紋。下部的葉對生,上部的葉有時互生,均具柄,葉片卵形至長卵形,長5~12厘公尺,寬3.5~12厘公尺,先端尖,基部圓形或近截形,邊緣具細鋸齒。聚傘花序總花序緊縮成穗狀,花序軸及花梗均被腺毛,花萼長2~3公釐,5裂幾達基部,裂片近圓形,邊緣膜質,花冠黃綠色,管部斜壺狀,能育雄蕊4枚,退化雄蕊1枚,近圓形,貼生在花冠管上,子房上位,2室。蒴果卵形,長約6公釐。

【產地分布】喜生於濕潤土壤中。分布於黑龍江、吉林、遼寧、河北、內蒙古等地。

【採收加工】於10~11月挖取根部,除去莖葉及泥土,剝脫子芽供留種栽培用,根部曬至半乾且內部色變黑時,剪去蘆頭及鬚根,堆放3~4天(發汗)後,曬乾或烘乾。

【藥材性狀】圓柱形,中部略粗或上粗下細,有的微彎似羊角,長6~20厘公尺,寬1~3厘公尺。表面灰褐色,有縱皺紋,有細根及細根痕。質堅實,難折斷,斷面略平坦,色黑,微有光澤。有焦糖氣,味甘、微苦,以水浸泡,水呈黑色。以條粗壯、質堅實、斷面色黑者為佳。

【性味歸經】性微寒,味甘、苦、鹹。歸肺經、胃經、腎經。

【功效與作用】涼血滋陰、瀉火解毒。屬清熱藥下分類的清熱涼血藥。

【臨床應用】用量9~15克,內服煎湯,或入丸散,**熱病傷陰、舌降煩渴、溫毒發斑、津傷便秘、骨蒸勞嗽、目赤、咽痛、瘰癧、白喉、癰腫瘡毒、高血壓。外用搗敷或研末調敷。治咽喉連舌腫痛:玄參、射干、黃藥各15克,水煎服。

【藥理研究】北玄參水浸、醇浸液灌服或注射給正常(貓、犬、兔)及腎型高血壓犬均有降壓作用,醇浸膏還能抗缺氧、抗心肌缺血、增加心肌營血量;水浸液對離體豚鼠支氣管有明顯的舒張作用,並能加強腎上腺素的作用。毒性:小鼠腹腔注射水煎劑的ld50為15.99~19.91克/千克。另具有解熱、抗菌、保護心肌缺血、解痙、降血壓、降血糖等作用。

【主要成分】根中含哈巴苷(70%~80%)、8-鄰甲基對香豆醯、哈巴苷,均係變黑的物質。另含哈巴俄苷、玄參三酯苷、玄參種苷、桃葉珊瑚苷、玄參環醚、京尼平苷、賽斯坦苷f、去咖啡醯毛蕊花糖苷、毛蕊花苷等。

【使用禁忌】脾虛便溏或脾胃有濕者禁服。不宜與藜蘆同用。

②治鼻中生瘡:用玄參,水漬軟,塞鼻中,或為末滌之。(《衛生易簡方》)

③治夜臥口渴喉乾:玄參二片含口中,即生津液。(《吉人集驗方》)

④治氣虛血壅,小便赤濁,似血非血,似溺非溺,溺管疼痛:玄參、車前子各30克,水煎服。(《辨證錄》玄車丹)

⑤治因陰陽偏,火有餘而水不足,遇事或多言則心煩,常感胸中擾壤,紛紜而嘈雜:玄參、麥冬各60克,水煎服。(《辨證錄》玄冬湯)

show_view_04();

show_view_03();

中藥常見偏方

。。。。。。

然而還有一些不想要的內容該如何去除?使用【】作為分隔符獲取陣列是可以做到的,然而在檢視獲得的陣列內容後會發現有些不需要的內容:

之間內容就是我需要的,如果能用多字元作為分隔符就可以獲得想要的資料了,為此,修改上面函式為獲取與刪除雙重功能:

string 刪除單字元區間(string 資料, string 分隔符, string 獲取多字元區間)

return 資料;

}

這樣處理後就獲得了我想要的純淨資料了:

如此的完美,興奮之餘,想以最快的速度分享出來。

這樣以後想要獲取網頁內容就方便了,只要找到想要的和不想要的內容,按理來說都是可以任意獲取的了。

string 刪除單字元區間(string 資料, string 分隔符, string 獲取多字元區間)

return 資料;

}

在這次程式設計中還寫了把字串轉為字串陣列和檢查資料表資料是否存在,存在就不新增資料的功能,稍後分享。

/// 刪除單字元區間:刪除以乙個單字元包含的區間所有內容。

/// 要刪除以乙個單字元包含的區間所有內容的字串。

/// 預設單字元包含的區間,也可自定義以兩個單字元所包含的區間,同時刪除分割符自身的字元。

///

string 刪除單字元區間(string 資料, string 單分割符 = "<>")

foreach (char 替換 in 單分割符) 資料 = 資料.replace(替換.tostring(), "");

}return 資料;

}

簡單Python爬蟲獲取指定網頁內容示例

剛開始參考了一篇文章 python獲取網頁指定內容 beautifulsoup工具的使用方法 自己嘗試後,發現出現錯誤 urllib.error.httperror http error 418,查詢後發現是 某些網頁有反爬蟲的機制。解決方法參考 python爬蟲的urllib.error.http...

正規表示式採集網頁內容函式

rule title arr preg message content,rule print r arr 按正規表示式提取需要的內容 規定 關鍵字 屬性 提取文字,其中關鍵字和屬性是可限項,屬性符佔乙個字元 匹配任意文字 關鍵字命名規範 單詞 數字和下劃線任意組合 屬性 u 提取的字串是url p ...

ObjC利用正規表示式抓取網頁內容

在開發專案的過程,很多情況下我們需要利用網際網路上的一些資料,在這種情況下,我們可能要寫乙個爬蟲來爬我們所需要的資料。一般情況下都是利用正規表示式來匹配html,獲取我們所需要的資料。一般情況下分以下三步。1 獲取網頁的html 2 利用正規表示式,獲取我們所需要的資料 3 分析,使用獲取到的資料,...