爬蟲學習之動態載入的頁面的爬取

2021-09-25 12:59:31 字數 1229 閱讀 6647

selenium安裝及環境搭建

首先我們通過url來解析頁面,再對頁面的資訊進行爬取

'''

引入必要的包

'''from selenium.webdriver import firefox

from selenium.webdriver.firefox.options import options

#通過spider方法便可以獲取乙個動態的頁面,然後就可以使用靜態頁面的爬取方法進行獲取需要的資訊了

def get(url):

opt = options()

opt.add_argument('-headless')

driver = firefox(options=opt)

driver.get(url)

html = driver.page_source

driver.quit()

return html

#####################################

# 設定firefox為無介面瀏覽器

options = options()

options.add_argument('--headless')

# 開啟瀏覽器

browser = webdriver.firefox(options=options)

# 利用get請求請求瀏覽器的乙個網頁

browser.get(url=url)

# 列印輸出這個網頁的源**

print(browser.page_source)

# 關閉瀏覽器

browser.close()

# 殺死chrome瀏覽器的連線橋(chromedriver)的程序

browser.quit()

通過上面其實已經獲取到了頁面的資訊可以通過pyquery來進行資料的爬取

def spider(url):

html = get(url)

doc = pq(html)

img = doc('img').items()

for i in img:

print(i.attr('src'))

#通過pq對html進行初始化 變為pyquery物件然後獲取頁面中的全部鏈結並輸出

if __name__ == '__main__':

spider('')

爬取動態載入的資料

下面展示一些 要請求到每一家企業的id,對應的header裡 import requests url 首頁的url data headers fp open company detail.txt w encoding utf 8 該json 的返回值中就有每家企業的id值 data dic requ...

爬蟲學習3 Python爬取動態頁面思路(一)

chrome瀏覽器 果殼網 科學人 頁面 1.進入果殼網 科學人分頁 2.f12開啟 審查元素 選則network窗格並重新整理頁面以抓包 3.在頁面上滑動滑鼠滾輪使頁面向下 此時可以看到頁面是動態載入的 相應的在監控視窗可以看到有資料收發 下圖紅圈處 所以非同步傳輸資料必然是在此時發生的 4.雙擊...

python爬蟲學習 爬取網頁中的動態資料

在之前的爬蟲豆瓣電影top250學習中,爬取的內容都直接在網頁原始碼中,而實際上很多資料都是在網頁中實時ajax請求,並不會顯示在源 中 例如豆瓣電影分類排行榜 動作片為例,開啟f12,選擇network xhr,當向下滑動網頁時,我們可以看到新的檔案出現 通過鏈結 我們大體可以猜測出start與l...