Python自學爬蟲

2021-10-03 16:44:47 字數 1090 閱讀 1840

解除安裝前面:

這是乙個半自動爬蟲,也就是手動的比較多 ,也是個人學習效果展示

如果對看到的人有幫助 ,那再好不過了

# 匯入正規表示式模組和csv模組

import re

import csv

#讀取檔案

with open('source.txt','r',encoding='gbk') as f:

all_str = f.read()

# 每乙個發帖人所佔網頁中一塊

# 正規表示式:

user_block = re.findall(block_str,all_str,re.s) #讀取出每一塊的內容

resulat =

#將三個列表通過迴圈的方式 存入字典

# 正規表示式為

user_n_str = 'username="(.*?)"' # 匹配發帖人姓名

user_m_str = 'd_post_content j_d_post_content " style="display:;">(.*?)<' # 發帖人的內容

user_t_str = 'tail-info">(\d.*?)<' # 使用者發表內容的時間

# 因為是匹配每一塊,所以表示式要用迴圈分別儲存每一塊的內容

for i in user_block:

dic={}

dic['username'] = re.findall(user_n_str,i,re.s)[0]

dic['usermsge'] = re.findall(user_m_str,i,re.s)[0]

dic['usertime'] = re.findall(user_t_str,i,re.s)[0] #使用者發評時間

# 寫入csv檔案

with open('user1.csv','a',encoding='gbk') as f:

writer=csv.dictwriter(f,fieldnames=['username','usermsge','usertime'])

writer.writeheader()

writer.writerows(resulat)

杭州自學python爬蟲 自學PYTHON爬蟲

response urllib2.urlopen urlopen url,data,timeout 第乙個引數url即為url,第二個引數data是訪問url時要傳送的資料,第三個timeout是設定超時時間。第二三個引數是可以不傳送的,data預設為空none,timeout預設為 socket....

python免費自學爬蟲 python爬蟲學習

近日,學習爬蟲基礎,自己寫了乙個小指令碼。目標 每天晚上定時傳送第二天的工作專案到qq郵箱。目的 頭天晚上得到第二天的工作計畫,好決定頭天晚上是否能喝酒過量 是否能麻將通宵等等等等。哈哈!思路 1 從停電申請系統,統計出第二日的工作專案。2 每天晚上定時傳送該專案到qq郵箱。要解決的主要問題 1 從...

python爬蟲自學寶典 引言

1 通過網路向制定的url傳送請求,獲取伺服器的響應。2 使用某種技術 正規表示式,xpath等 提取頁面的資訊。3 高效的識別響應頁面中的鏈結資訊,順著這些鏈結遞迴執行上述第 一 二步。4 使用多執行緒有效的管理網路通訊互動。注 使用正規表示式雖然可以實現核心工作,但是正規表示式的效率沒有xpat...