Day1 Ajax資料爬取

2022-04-05 21:03:20 字數 781 閱讀 9128

一、渲染網頁

document.getelementbyid("mydiv").innerhtml=xmlhttp.responsetext 這裡就是將id是mydiv的節點內部的html**更改為伺服器返回的內容了

6.2、ajax分析方法

1、在微博的頁面中,開啟審查元素中network,重新整理一下頁面久可以看到很多請求了

2、ajax又一種特殊的請求型別,叫做xhr,在乙個請求中的request headers中有乙個元素叫做」

這久標記了這個請求是ajax請求了

----點選preview,就可以看到響應的內容了

----點選response中,可以觀察到真實的返回資料

----一般請求的第一條中response就是這個頁面的原始html

3、過濾請求

可以在審查元素中篩選初所有的ajax請求,選擇xhr ,就可以顯示所有的ajax請求了

6.3 ajax結果提取(用python 實現ajax請求的模擬,從而實現資料的爬取)

分析響應:

是json格式的,其中最關鍵的兩部分資訊就是 cardlistinfo 和 cards

其中的cardlistinfo 包含的重要資訊total 這個其實就是微博的總數量,可以根據這個數字來估算分頁數

在cards裡面的有乙個重要的字段 mblog 展開它就可以看到微博的一些重要資訊了,比如attitudes_count 就是贊的數目;

3、實戰演練

利用Ajax實現資料爬取 爬取微博主頁

有時候我們在利用requests抓取網頁時,得到的結果可能與在瀏覽器中看到的結果不一樣 在瀏覽器中能看到的東西,但是在爬取下來的網頁源 中看不到。這是因為requests獲取的都是最原始的html文件,而瀏覽器中的頁面則是經過js處理資料得到的結果,這些資料的 有很多種,第一種方式是 通過ajax,...

關於python 爬取 ajax頁面

安裝只要按部就班的點next就好 conda的環境管理功能允許我們同時安裝若干不同版本的python,並能自由切換。對於上述安裝過程,假設我們採用的是python 2.7對應的安裝包,那麼python 2.7就是預設的環境 預設名字是root,注意這個root不是超級管理員的意思 假設我們需要安裝p...

爬蟲(五) 爬取AJAX資源

1 很多網頁資料是由ajax檔案傳送的,並不能從源 直接獲取,這時就需要在f12上用network來找到資源的位址,再爬取資訊。2 瀏覽器登陸和爬蟲登入頁面時有差別,所以我們需要自己生成乙個使用者 碼。如下 import requests import re from lxml import etr...