模擬爬蟲 exec

2021-07-10 09:39:45 字數 512 閱讀 7312

/*模擬爬蟲*/

var html='

go to tmooc

不能為空

go to tedu

panel

';var reg=/]*?)href=['"](.*?)['"](.*?)>(.*?)<\/a>/ig;

var arr=null;//接住本次找到的a元素

var urls=;//儲存本次找到的a

//先呼叫reg的exec查詢html中的a,將結果儲存在arr中,再和null比較

while((arr=reg.exec(html))!=null)

console.log(urls.join("\n"));

['"]:雙引號或單引號

.   :單獨乙個點是除換行符以外的所有字元

.*  :大白話說就是無限制的字元

?就是截止的意思

<\/a>/ig;  :因為有2個/,所以在/前面加\就ok了。

正規表示式:/內容/

\s  :空格 

爬蟲 模擬請求

我們將要爬取人民網某些新聞中的資料,那我們該如何實現呢?首先我們先實現第一步 根據url,模擬url請求,根據url獲取網頁中的內容。設定全域性的標準cookie策略 requestconfig config requestconfig.custom setcookiespec cookiespec...

爬蟲 模擬登入

在一些爬蟲中,需要用到賬號登入進入,才能看到需要爬取的內容,因此實現程式自動模擬登入非常有必要。目前大部分 的登入,都是使用表單提交的方法實現的,這一類 的模擬登入,相信度娘已經給出來的許多例項。還有一類 不是使用網頁自帶表單提交的方法,自己實現了js方法來登入,這就需要進行特別的模擬瀏覽器行為。本...

爬蟲 模擬登入

模擬登入流程 對點選登入按鈕對應的請求進行傳送 post請求 處理請求引數 使用者名稱 密碼 驗證碼 其他的防偽引數 模擬登入cookie操作 1.手動cookie處理 通過抓包工具獲取cookie值,將該值封裝到headers中 2.自動處理cookie 模擬登入post請求後,cookie由伺服...