記第一次爬蟲

2021-09-23 01:45:09 字數 1199 閱讀 9049

在學習爬蟲的過程中,我首先進行的是對豆瓣top250的爬取,步驟可分為如下幾步:

第一步:抓包(url)

第二步:請求url

第三步:解析,提取出我需要的資訊

第四步:存入檔案

首先我對豆瓣的網頁進行了分析,開啟要抓取的網頁,f12->f5,這樣你就可以看到網頁原始碼了,進入到network,找到要抓取的包:

然後進入到headers,找到url

接下來就是進入到pycharm中進行**的編寫,資料的爬取了,以下是我的**:`

import requests

from bs4 import beautifulsoup

i=0urls=[''+str(n)+'&filter='for n in range(0,250,50)]

for url in urls:

wb_data=requests.get(url)

soup=beautifulsoup(wb_data.text,'lxml')

titles=soup.select('div.hd>a')

rates=soup.select('span.rating_num')

imgs=soup.select('img[width="100"]')

for title,rate,img in zip(titles,rates,imgs):

data=

i+=1

filename=str(i)+'丶'+data['title'][0]+' '+data['rate']+'分.jpg'

pic=requests.get(data['img'])

with open('c:/users/spider-man/pycharmprojects/untitled'+filename,'wb')as photo:

photo.write(pic.content)

print(data )

結果如下:

記第一次爬蟲

出不來結果的時候,真是著急,期間犯了很多錯誤,這個過程痛苦並快樂著 哈哈哈哈哈,哈哈哈哈哈 import urllib.request import re import os url page urllib.request.urlopen url read page page.decode gbk ...

爬蟲第一次

由於面試的需要,昨天看了下爬蟲,python的,原先一直以為很高階,但是才發現大體思路很清晰。1。連線到要抓取的某網 注意import urllib,比如這個樣子 def gethtml url page urllib.urlopen url html page.read return html 這...

第一次爬蟲

from bs4 import beautifulsoup import requests import time def get item info url 如何從詳情頁裡面要爬取的內容 url wb data requests.get url soup beautifulsoup wb data...