python爬蟲基礎實現 Python實現基礎爬蟲

2021-10-11 11:45:23 字數 853 閱讀 1028

"""初次使用urllib實現爬蟲的資料請求

urllib.request.urlopen(url) 發起get請求

urllib.parse.quote() 將中文進行url編碼

from urllib.request importurlopen, urlretrieve, requestfrom urllib.parse importquoteimportssl

ssl._create_default_https_context=ssl._create_unverified_contextdef search_baidu(wd='千峰'):#網路資源的介面(url)

url = ''

#生成請求物件,封裝請求的url和頭header

request = request(url %quote(wd),

'like gecko) chrome/84.0.4147.125 safari/537.36'})

response= urlopen(request) #發起請求

assert response.code == 200

print('請求成功')#讀取響應的資料

bytes_ =response.read()

with open('%s.html' % wd, 'wb') as file:

file.write(bytes_)defdownload_img(url):#從url中獲取檔名

python爬蟲基礎

一 什麼是爬蟲 通常爬蟲是從某個 的某個頁面開始,爬取這個頁面的內容,找到網頁中的其他鏈結位址,然後從這個位址爬到下乙個頁面,這樣一直不停的爬下去,進去批量的抓取資訊。那麼,我們可以看出網路爬蟲就是乙個不停爬取網頁抓取資訊的程式。二 爬蟲的基本流程 1,發起請求 向目標站點傳送乙個requests請...

python爬蟲基礎

爬蟲 爬蟲,全稱網路爬蟲,指按照一定的規則 模擬瀏覽器人工登入網頁的方式 自動抓取網路資訊資料的程式。簡單的說,就是將瀏覽器上網所能看到頁面上的內容通過爬蟲程式自動獲取下來,並進行儲存。爬蟲其實就是乙個程式自動收集獲取指定網路資料資訊的過程,網路資料資訊量十分龐大,人工獲取無法完成,這時就需要爬蟲來...

python 爬蟲基礎

urllib 或 requests re 01 r 大圖的 pat re.compile re 01 建立乙個正規表示式的模板 imgurls re.findall pat,data 開始匹配 print len imgurls imgurls i 0 for imgurl in imgurls i...