抓取js動態生成的資料分析案例

2022-07-04 00:18:15 字數 2077 閱讀 7430

需求:爬取頁面中的新聞資料。

分析:1.首先通過分析頁面會發現該頁面中的新聞資料都是動態載入出來的,並且通過抓包工具抓取資料可以發現動態資料也不是ajax請求獲取的動態資料(因為沒有捕獲到ajax請求的資料報),那麼只剩下一種可能,該動態資料是js動態生成的。

2.通過抓包工具查詢到底資料是由哪個js請求產生的動態資料:開啟抓包工具,然後對首頁url(第一行需求中的url)發起請求,捕獲所有的請求資料報。

分析js資料報響應回來的資料:

- 獲取詳情頁中對應的新聞詳情資料:對詳情頁發起請求後,會發現詳情頁的新聞資料也是動態載入出來的,因此還是跟上述步驟一樣,在抓包工具中對詳情頁中的區域性資料進行搜尋,定位到指定的js資料報:

該js資料報的url為:

分析首頁中所有新聞的詳情頁url和新聞詳情資料對應的js資料報的url之間的關聯:

- 首頁中某一新聞詳情頁的url:           

5c39c314138da31babf0b16af5a55da4/e43e220633a65f9b6d8b53712cba9caa.html

- 該新聞詳情資料對應的js資料報的url:

5c39c314138da31babf0b16af5a55da4

/datae43e220633a65f9b6d8b53712cba9caa.js

- 所有的新聞詳情對應的js資料報的黃色選中部分都是一樣的只是紅色部分各自不同,但是紅色部分卻和該新聞詳情頁的url中的紅色部分是相同的!!!新聞詳情頁的url是可以在上述過程中解析出來的。因此現在就可以批量產生出詳情資料對應js資料報的url的,然後批量進行資料請求,獲取響應資料,然後對響應資料進行解析即可完成最終的需求!

需求:爬取頁面中的新聞資料。

分析:1.首先通過分析頁面會發現該頁面中的新聞資料都是動態載入出來的,並且通過抓包工具抓取資料可以發現動態資料也不是ajax請求獲取的動態資料(因為沒有捕獲到ajax請求的資料報),那麼只剩下一種可能,該動態資料是js動態生成的。

2.通過抓包工具查詢到底資料是由哪個js請求產生的動態資料:開啟抓包工具,然後對首頁url(第一行需求中的url)發起請求,捕獲所有的請求資料報。

分析js資料報響應回來的資料:

- 獲取詳情頁中對應的新聞詳情資料:對詳情頁發起請求後,會發現詳情頁的新聞資料也是動態載入出來的,因此還是跟上述步驟一樣,在抓包工具中對詳情頁中的區域性資料進行搜尋,定位到指定的js資料報:

該js資料報的url為:

分析首頁中所有新聞的詳情頁url和新聞詳情資料對應的js資料報的url之間的關聯:

- 首頁中某一新聞詳情頁的url:           

5c39c314138da31babf0b16af5a55da4/e43e220633a65f9b6d8b53712cba9caa.html

- 該新聞詳情資料對應的js資料報的url:

5c39c314138da31babf0b16af5a55da4

/datae43e220633a65f9b6d8b53712cba9caa.js

- 所有的新聞詳情對應的js資料報的黃色選中部分都是一樣的只是紅色部分各自不同,但是紅色部分卻和該新聞詳情頁的url中的紅色部分是相同的!!!新聞詳情頁的url是可以在上述過程中解析出來的。因此現在就可以批量產生出詳情資料對應js資料報的url的,然後批量進行資料請求,獲取響應資料,然後對響應資料進行解析即可完成最終的需求!

js動態生成資料的抓取

需求 爬取頁面中的新聞資料。分析 1.首先通過分析頁面會發現該頁面中的新聞資料都是動態載入出來的,並且通過抓包工具抓取資料可以發現動態資料也不是ajax請求獲取的動態資料 因為沒有捕獲到ajax請求的資料報 那麼只剩下一種可能,該動態資料是js動態生成的。2.通過抓包工具查詢到底資料是由哪個js請求...

資料抓取,資料分析

seo優化分析 region seo優化分析 string evaluate 1 id evaluate 1 htmlnode html evaluate 1 document.documentnode.selectsinglenode evaluate 1 yhfx evaluate 1 html...

pandas資料分析案例

1 資料分析步驟 資料分析步驟 1 先載入資料 pandas.read cvs path 2 檢視資料詳情 df.info df.describe df.head 3 根據業務獲取資料 複雜在此 4 展現資料 2 案例 coding utf 8 911資料中不同月份不同型別的 的次數的變化情況 im...