爬蟲學習日記

2021-08-15 09:19:18 字數 1814 閱讀 1225

由於之前沒有python基礎,能不能跟上還是很慌的,但還是得盡力

1.檢視網頁robots協議,了解爬取需要遵守的規則 

2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取

3.安裝scrapy

爬取**介面部分資訊(獲取書包搜尋介面的商品名稱和**)

import requests

import re

2. 獲取頁面 gethtmltext

def gethtmltext(url):

try:

r = requests.get(url, timeout = 30)

r.raise_for_status()

return r.text

except:

return""

3. 對獲得頁面進行解析 parsepage

檢視網頁源**得知**由view_price構成,名稱由raw_title構成,用正規表示式提取資訊,內容分別儲存在變數plt和tlt中。

for迴圈:將資訊關聯起來並儲存在變數price和title中

def parsepage(ilt, html):

try:

plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)

tlt = re.findall(r'\"raw_title"\:\".*?\"',html)

for i in range(len(plt)):

price = eval(plt[i].split(':')[1])

title = eval(tlt[i].split(':')[1])

except:

print("")

4.將獲取資訊顯示在螢幕上 printgoodslist

tplt:定義槽的寬度

count for定義商品序號,**,名稱的顯示

def printgoodslist(ilt):

tplt = "\t\t"

print(tplt.format("序號","**","名稱"))

count = 0

for g in ilt:

count = count+ 1

print(tplt.format(count,g[0],g[1]))

5執行的主函式 main

goods: 搜尋名稱

depth :深度

start_url: 相關url

infolist: 輸出結果

for迴圈: 對每乙個url進行單獨處理,將結果儲存在infolist中

def main():

goods = '書包'

爬蟲學習日記 一)

最近對爬蟲有點感興趣,打算用python寫爬蟲試試。記錄下學習過程中的所思所想以及遇到的一些有意思的問題。持續更新中。將爬取到的網頁解碼str str.decode utf 8 然後列印print str 的時候會出現錯誤 unicodeencodeerror gbk codec can t enc...

爬蟲學習日記(三)

之前做的task發現commit的時候出現點問題,失敗了,具體失敗的原因還不知道。而且cindy姐姐給我們講qa的時候,也跟我講了我做的有點問題,應該說是方向有點不對,郵件裡面東哥說的是要改stack裡面的資訊,但是其實cindy姐姐要的是改掉content裡面的東西,只要搜尋不到的船的資訊,這樣子...

爬蟲學習日記(七)

今天上午繼續在弄whlc的東西,是環境的問題。關於這個是因為我之前研究過這個 確實是不能搜尋超過乙個月,會報乙個錯,所以當時間超過1個月是,我會返回乙個noresult的exception,我以為這是正確的。但是站在客戶的角度講,他可能會需要搜尋到兩個月,三個月的的資訊,而這些資訊是存在的,只要在 ...