正規表示式採集網頁內容函式

2022-07-08 12:27:10 字數 925 閱讀 5302

<?php

$rule = '|title|';

$arr = preg_message($content, $rule);

print_r($arr);

/** 按正規表示式提取需要的內容

規定:|[關鍵字]|[屬性] 提取文字,其中關鍵字和屬性是可限項,屬性符佔乙個字元

* 匹配任意文字

關鍵字命名規範 :單詞、數字和下劃線任意組合

屬性: u:提取的字串是url

p:提取的字串是url

+:提取的字串可合併到關鍵字相同的內容中

返回: 提取到的內容

訪問:如果||裡面有關鍵字,則按返回陣列的鍵名為關鍵字;如果沒有關鍵字,則按所在位置訪問。

只提取一項內容時,直接返回提取的內容

*/function preg_message($content,$rule,$all=false)

$rule=preg_quote($rule);

$rule=str_replace('\*','[\s\s]*?',$rule);

$rule=str_replace($search,$repalce,$rule);

$rule="#$rule#i";

if($all) preg_match_all($rule,$content,$arr);

else preg_match($rule,$content,$arr);

if(empty($arr) || !is_array($arr)) return false;

if(count($getarr)==1) return $arr[1];

foreach($keyarr as $k=>$key)

return $result;

}?>

ObjC利用正規表示式抓取網頁內容

在開發專案的過程,很多情況下我們需要利用網際網路上的一些資料,在這種情況下,我們可能要寫乙個爬蟲來爬我們所需要的資料。一般情況下都是利用正規表示式來匹配html,獲取我們所需要的資料。一般情況下分以下三步。1 獲取網頁的html 2 利用正規表示式,獲取我們所需要的資料 3 分析,使用獲取到的資料,...

網頁解析正規表示式

在寫爬蟲的過程中,最麻煩的就是寫正規表示式,還要乙個乙個的嘗試,一次次的除錯,很是費時間。於是我就寫了乙個網頁版的,只需要輸入要爬的 和正則式,網頁上就可以顯示爬到的資料。思路 其實很簡單,將 和正則式傳到伺服器,伺服器解析之後,將結果返回到前端。我用的是bootcss 前端 bottle 後台用p...

正規表示式相關 正規表示式處理html內容

前面關於顯示html文字用了瀏覽器控制項來處理 這個不過是為了解決燃眉之急不得已才使用。其實最好還是使用正規表示式處理,也就是自己寫乙個html文字直譯器,當然這個實現起來也是不容易的,首先你得將所有html文字標籤羅列出來,然後一一翻譯。下面先搞乙個簡單的例子吧。public static str...