用於抓取網頁內容的常用正則

2021-08-30 16:40:35 字數 742 閱讀 8688

下面列出在抓取網頁中常用的正則規則,其中$content代表網頁內容,$tmparray為抓取的結果儲存陣列。

抓取html中css裡背景位址

preg_match_all('/(background|background-image):url\([\"\']?([^\)]+)[\"\']?\)/i', $content, $tmparray);

preg_match_all('/]+src=[\"\']([^\"\'\s]+)[\"\'][^>]+>/i', $content, $tmparray);

preg_match_all('/background=[\"\']?([^\"\'\s>]+)[\"\']?/i', $content, $tmparray);

抓取html中的flash位址

preg_match_all('/]+src=[\"\'](([^\"\'\s]+)\.swf)[\"\'][^>]+>/i', $content, $tmparray);

抓取html中的iframe的鏈結位址

preg_match_all('/]+src=[\"\']?([\w\-\/\.]+)[\"\']?[^>]+><\/iframe>/i', $content, $tmparray);

抓取html中的超連結位址

preg_match_all('/]+href=[\"\']([^>\"\']+)[\"\']?[^>]+>([^<]+)<\/a>/i', $content, $iframeurlarray);

用於抓取網頁內容的常用正則

下面列出在抓取網頁中常用的正則規則,其中 content代表網頁內容,tmparray為抓取的結果儲存陣列。抓取html中css裡背景位址 preg match all background background image url i content,tmparray 抓取html中標籤中的位址 ...

PHP 網頁內容抓取 抓取網頁內容的兩種常用方法

說到網頁內容的抓取,最常用的兩種方式 1.利用file get contents 函式,簡簡單單 2.curl抓取工具。curl是乙個非常強大的開源庫,支援很多協議,包括http ftp telnet等,我們使用它來傳送http請求。它給我 們帶來的好處是可以通過靈活的選項設定不同的http協議引數...

網頁內容抓取

之前採用xpath和正規表示式對網頁內容進行抓取,發現在有的地方不如人意,就採用了htmlparser對頁面進行解析,抓取需要的東西。htmlparser有點不好的地方在於不能對starttag和endtag進行匹配。採用了兩種方法進行抓取。第一種,抓取成對的tag之間的內容,採用了queue.qu...