python網路爬蟲 開發第二天

2021-09-20 00:01:26 字數 711 閱讀 2610

url->子網域名稱->具體文章

爬取**需要策略

1.畫出**url結構圖

鏈結是有環路的 所有url都向下爬取 陷入死迴圈 無限返回主頁 取第乙個url

2.url去重

爬取晚後把url放到爬起歷史中 下一次提取到url出現再歷史爬取中 直接跳過 進入第二個url中

不會形成環路

abc

defg

hi一步一步往下走 走完了退回來

(優先左邊)a-

>b-

>d-

>e-

>i-

>c-

>f-

>g-

>

hscrapy預設使用深度優先,深度優先用遞迴實現

遞迴不跳出 一直遞迴 遞迴過深 棧會溢位

同上一模組樹

先訪問兄弟節點,再訪問子節點

第一層節點訪問完 訪問第二層節點

廣度優先也叫做按層次遍歷

也叫寬度優先演算法a-

>b-

>c-

>d-

>e-

>f-

>g-

>h-

>

i廣度優先演算法通過佇列實現

python爬蟲第二天

時間字串轉換 contents獲取內容 strftime轉化時間格式 內文的提取 實參位置用空格分隔 加一級的標籤 import requests import json jd json.loads comments.text.strip 需剔除部分 抓取內文資訊方法寫成函式 commenturl ...

Python爬蟲第二天

python爬蟲第二天 超時設定 有時候訪問網頁時長時間未響應,系統就會判斷網頁超時,無法開啟網頁。如果需要自己設定超時時間則 通過urlopen 開啟網頁時使用timeout欄位設定 import urllib.request for i in range 1,100 迴圈99次 try file...

python第二天 網路爬蟲

學python的第二天,學習來自於 coding cp936 import urllib2 import re import sys 獲取當前系統編碼格式 type sys.getfilesystemencoding j 0 url content urllib2.urlopen url read ...