由於之前沒有python基礎,能不能跟上還是很慌的,但還是得盡力
1.檢視網頁robots協議,了解爬取需要遵守的規則
2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取
3.安裝scrapy
爬取**介面部分資訊(獲取書包搜尋介面的商品名稱和**)
import requests
import re
2. 獲取頁面 gethtmltext
def gethtmltext(url):
try:
r = requests.get(url, timeout = 30)
r.raise_for_status()
return r.text
except:
return""
3. 對獲得頁面進行解析 parsepage
檢視網頁源**得知**由view_price構成,名稱由raw_title構成,用正規表示式提取資訊,內容分別儲存在變數plt和tlt中。
for迴圈:將資訊關聯起來並儲存在變數price和title中
def parsepage(ilt, html):
try:
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
tlt = re.findall(r'\"raw_title"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
except:
print("")
4.將獲取資訊顯示在螢幕上 printgoodslist
tplt:定義槽的寬度
count for定義商品序號,**,名稱的顯示
def printgoodslist(ilt):
tplt = "\t\t"
print(tplt.format("序號","**","名稱"))
count = 0
for g in ilt:
count = count+ 1
print(tplt.format(count,g[0],g[1]))
5執行的主函式 main
goods: 搜尋名稱
depth :深度
start_url: 相關url
infolist: 輸出結果
for迴圈: 對每乙個url進行單獨處理,將結果儲存在infolist中
def main():
goods = '書包'
爬蟲學習日記 一)
最近對爬蟲有點感興趣,打算用python寫爬蟲試試。記錄下學習過程中的所思所想以及遇到的一些有意思的問題。持續更新中。將爬取到的網頁解碼str str.decode utf 8 然後列印print str 的時候會出現錯誤 unicodeencodeerror gbk codec can t enc...
爬蟲學習日記(三)
之前做的task發現commit的時候出現點問題,失敗了,具體失敗的原因還不知道。而且cindy姐姐給我們講qa的時候,也跟我講了我做的有點問題,應該說是方向有點不對,郵件裡面東哥說的是要改stack裡面的資訊,但是其實cindy姐姐要的是改掉content裡面的東西,只要搜尋不到的船的資訊,這樣子...
爬蟲學習日記(七)
今天上午繼續在弄whlc的東西,是環境的問題。關於這個是因為我之前研究過這個 確實是不能搜尋超過乙個月,會報乙個錯,所以當時間超過1個月是,我會返回乙個noresult的exception,我以為這是正確的。但是站在客戶的角度講,他可能會需要搜尋到兩個月,三個月的的資訊,而這些資訊是存在的,只要在 ...