python爬蟲常用的模組

2021-06-20 04:23:15 字數 1258 閱讀 1950

由於作者經常有抓取**內容的需要,所以就對使用過的爬蟲工具進行了總結,以備後續查詢
某台灣大神開發的,功能簡單,能夠自動抓取某個**的所有內容,當然你也可是設定那些url需要抓。

功能介面:

set_content_type_filter:

設定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:

過濾url,傳入的可以是正規表示式

set_follow_mode:

設定遞迴模式,f_any:該頁面上所有鏈結都會抓取。 f_same_domain和f_same_host類似。即同乙個網域名稱的都會抓取。f_same_path:同一路徑的抓取。例如bag.vancl.com/l1/d3/1.jpg path為l1/d3/1.jpg,則path為l1/d3/*的都會抓取。這裡可以根據需要增加自己的遞迴模式

set_concurrency_level:

設定執行緒最大數

process_document:

一般需要重寫,處理網頁內容,提取自己需要的內容。

視覺化介面,抓取自動化,api使用超簡單,完全像是自己在操作瀏覽器。

官方**:

python官方**

webdriver api(很好用,建議多了解一下)

docs/03_webdriver.jsp

以下是乙個例子

抓取凡客**

from selenium import webdriver

from selenium.webdriver.common.keys import keys

import time

browser = webdriver.firefox()

browser.get('')

elem = browser.find_element_by_name('ch_bag-3-page-next') # find the search box

time.sleep(1)

print elem.get_attribute("href")

elem.click()

time.sleep(1)

elem = browser.find_element_by_name('ch_bag-3-page-next') # find the search box

print elem.get_attribute("href")

elem.click()

python爬蟲模式 python爬蟲模組理解

url管理器 用來管理要抓取的url和已抓取的url,防止重複抓取和迴圈抓取,url管理器的五個最小功能 1 新增url到容器中 2 獲取乙個url 3 判斷url是否已在容器中 4 判斷是否還有待爬取的url 5 將待爬取的url移到已爬取的url 2 新增data和http header 3 新...

python爬蟲requests模組

首先,沒有安裝的先安裝 cmd pip conda install requests 先給大家乙個模板,如果已經很熟悉了,直接忽略,不懂得就可以看看了 接下來解釋一下相應的 的意思 這個和上和上面的是一樣的,執行後輸出的 都是一樣的啦 coding utf 8 引入網路請求模組,該模組有兩個重要的物...

python爬蟲 requests模組

功能 模擬瀏覽器發請求 指定url 發起請求 獲取響應資料 持久化儲存 import requests 指定url url 發起請求,返回乙個響應對像 response requests.get url url 獲取響應資料 text返回的是字串型別的響應資料 page text response....