貼吧小爬蟲案例

2021-08-19 05:34:45 字數 1328 閱讀 2203

**如下:

#!/usr/bin/env python

# -*-coding:utf-8 -*-

import urllib

import urllib2

def loadpage(url,filename):

"""作用:根據url傳送請求,獲取伺服器響應檔案

url:需要爬取的url位址

filename:處理檔名

"""request=urllib2.request(url,headers=headers)

return urllib2.urlopen(request).read()

def writepage(html,filename):

"""作用:將html內容寫入本地

html:伺服器相應檔案內容

"""print "正在儲存" + filename

with open(filename,"w") as f:

f.write(html)

print "-"*30

def tiebaspider(url,beginpage,endpage):

"""作用:貼吧爬蟲排程器,負責組合處理每個頁面的url

url:貼吧url的前部分

beginpage:起始頁

endpage:結束頁

"""for page in range(beginpage,endpage+1)

pn=(page-1)*50

filename="第"+str(page)+"頁.html"

fullurl=url+"&pn="+str(pn)

#print fullurl

html=loadpage(fullurl,filename)

#print html

writepage(html,filename)

print "謝謝使用"

if __name__=="__main__":

kw=raw_input("請輸入需要爬取的貼吧名:")

beginpage=int(raw_input("請輸入起始頁:"))

endpage=int(raw_input("請輸入結束頁:"))

url=""

key=urllib.urlencode()

fullurl=url+key

tiebaspider(fullurl,beginpage,endpage)

Python貼吧小爬蟲

不用登陸,cookie,header 用了一點正規表示式 coding utf 8 created on sun apr 10 14 00 32 2016 author albert import urllib2 import re i 0begin int raw input u 輸入起始頁 en...

百度貼吧爬蟲 案例練習 GET 請求

usr bin env python coding utf 8 import urllib.request import urllib.parse import ssl get url 全域性取消證書驗證 作用 傳送請求,獲得響應 param search keywords 要查詢的關鍵字,para...

Python爬蟲 獲取貼吧內容

參考寫的第乙個比較完整的python爬蟲程式。coding utf 8 import urllib import urllib2 import re 處理頁面標籤類 class tool 去除img標籤,7位長空格 removeimg re.compile 刪除超連結標籤 removeaddr re...