爬取非同步請求（XHR JS）資料方法

之前在做爬蟲的時候，比如在爬取到網頁的時候，發現很多內容明明在瀏覽器看得見，但是請求下來的內容卻沒有，於是開啟f12檢視network發現，如下：

其實會出現看得見，摸不著的情況下是因為網頁的資料是非同步載入的，所以在http抓到的網頁是不包含在裡面的。網頁有些資料呈現是採非同步方式，會是在背景去送httprequest取得，再用ajax或其他把資料回填到網頁上，這部分可以在f12的這裡找找看可能會有資料，取不到資料有可能是他網頁有作多次來回運算，才會呈現最終畫面，可以從f12的status code看有沒有redirect相關（ex 307）。

如果單純用console httprequest比較難（可能背後網頁依賴瀏覽器的東西很多）可以考慮用driver開啟網頁，並用selenium套件操控driver。會省了很多破解時間。

詳細方法見：

用c#+selenium+chromedriver 爬取網頁，完美模擬真實的使用者瀏覽行為

爬取非同步請求（XHR JS）資料方法

使用aiohttp非同步爬取小說

模擬Ajax請求實現動態資料爬取

Pyhton爬取資料的方法總結

爬取非同步請求（XHR JS）資料方法

使用aiohttp非同步爬取小說

模擬Ajax請求實現動態資料爬取

Pyhton爬取資料的方法總結

相關推薦