python第二天 網路爬蟲

2021-06-19 10:56:28 字數 479 閱讀 4444

學python的第二天,學習來自於 

# -*- coding: cp936 -*-

#import urllib2

import re

import sys

# 獲取當前系統編碼格式

type = sys.getfilesystemencoding()

j = 0

url = ''

content = urllib2.urlopen(url).read()

match = re.findall(r' (.*?)', content)

for i in range(0,2000):

print match[i]

print len(match)

自己打了一篇,然後就萌生出想獲取貼吧的帖子的想法。

但最終只獲取到了置頂帖子的名字。

分析了一下原因 應該是出現在url上的獲取 沒有乙個重新賦值的過程,今天繼續加油。

python爬蟲第二天

時間字串轉換 contents獲取內容 strftime轉化時間格式 內文的提取 實參位置用空格分隔 加一級的標籤 import requests import json jd json.loads comments.text.strip 需剔除部分 抓取內文資訊方法寫成函式 commenturl ...

Python爬蟲第二天

python爬蟲第二天 超時設定 有時候訪問網頁時長時間未響應,系統就會判斷網頁超時,無法開啟網頁。如果需要自己設定超時時間則 通過urlopen 開啟網頁時使用timeout欄位設定 import urllib.request for i in range 1,100 迴圈99次 try file...

python網路爬蟲 開發第二天

url 子網域名稱 具體文章 爬取 需要策略 1.畫出 url結構圖 鏈結是有環路的 所有url都向下爬取 陷入死迴圈 無限返回主頁 取第乙個url 2.url去重 爬取晚後把url放到爬起歷史中 下一次提取到url出現再歷史爬取中 直接跳過 進入第二個url中 不會形成環路 abc defg hi...