爬蟲學習日記

由於之前沒有python基礎，能不能跟上還是很慌的，但還是得盡力

1.檢視網頁robots協議，了解爬取需要遵守的規則

2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取

3.安裝scrapy

爬取**介面部分資訊（獲取書包搜尋介面的商品名稱和**）

import requests
import re

2. 獲取頁面 gethtmltext

def gethtmltext(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
return r.text
except:
return""

3. 對獲得頁面進行解析 parsepage

檢視網頁源**得知**由view_price構成，名稱由raw_title構成，用正規表示式提取資訊，內容分別儲存在變數plt和tlt中。

for迴圈：將資訊關聯起來並儲存在變數price和title中

def parsepage(ilt, html):
try:
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
tlt = re.findall(r'\"raw_title"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
except:
print("")

4.將獲取資訊顯示在螢幕上 printgoodslist

tplt：定義槽的寬度

count for定義商品序號，**，名稱的顯示

def printgoodslist(ilt):
tplt = "\t\t"
print(tplt.format("序號","**","名稱"))
count = 0
for g in ilt:
count = count+ 1
print(tplt.format(count,g[0],g[1]))

5執行的主函式 main

goods：搜尋名稱

depth ：深度

start_url: 相關url

infolist: 輸出結果

for迴圈: 對每乙個url進行單獨處理，將結果儲存在infolist中

def main():
goods = '書包'
爬蟲學習日記 一）
最近對爬蟲有點感興趣，打算用python寫爬蟲試試。記錄下學習過程中的所思所想以及遇到的一些有意思的問題。持續更新中。將爬取到的網頁解碼str str.decode utf 8 然後列印print str 的時候會出現錯誤 unicodeencodeerror gbk codec can t enc...
爬蟲學習日記（三）
之前做的task發現commit的時候出現點問題，失敗了，具體失敗的原因還不知道。而且cindy姐姐給我們講qa的時候，也跟我講了我做的有點問題，應該說是方向有點不對，郵件裡面東哥說的是要改stack裡面的資訊，但是其實cindy姐姐要的是改掉content裡面的東西，只要搜尋不到的船的資訊，這樣子...
爬蟲學習日記（七）
今天上午繼續在弄whlc的東西，是環境的問題。關於這個是因為我之前研究過這個 確實是不能搜尋超過乙個月，會報乙個錯，所以當時間超過1個月是，我會返回乙個noresult的exception，我以為這是正確的。但是站在客戶的角度講，他可能會需要搜尋到兩個月，三個月的的資訊，而這些資訊是存在的，只要在 ...

爬蟲學習日記

爬蟲學習日記 一）

爬蟲學習日記（三）

爬蟲學習日記（七）

相關推薦

爬蟲學習日記一）