貼吧小爬蟲案例

**如下：

#!/usr/bin/env python
# -*-coding:utf-8 -*-
import urllib
import urllib2
def loadpage(url,filename):
"""作用：根據url傳送請求，獲取伺服器響應檔案
url:需要爬取的url位址
filename:處理檔名
"""request=urllib2.request(url,headers=headers)
return urllib2.urlopen(request).read()
def writepage(html,filename):
"""作用：將html內容寫入本地
html：伺服器相應檔案內容
"""print "正在儲存" + filename
with open(filename,"w") as f:
f.write(html)
print "-"*30
def tiebaspider(url,beginpage,endpage):
"""作用：貼吧爬蟲排程器，負責組合處理每個頁面的url
url：貼吧url的前部分
beginpage:起始頁
endpage:結束頁
"""for page in range(beginpage,endpage+1)
pn=(page-1)*50
filename="第"+str(page)+"頁.html"
fullurl=url+"&pn="+str(pn)
#print fullurl
html=loadpage(fullurl,filename)
#print html
writepage(html,filename)
print "謝謝使用"
if __name__=="__main__":
kw=raw_input("請輸入需要爬取的貼吧名：")
beginpage=int(raw_input("請輸入起始頁："))
endpage=int(raw_input("請輸入結束頁："))
url=""
key=urllib.urlencode()
fullurl=url+key
tiebaspider(fullurl,beginpage,endpage)

Python貼吧小爬蟲

不用登陸，cookie，header 用了一點正規表示式 coding utf 8 created on sun apr 10 14 00 32 2016 author albert import urllib2 import re i 0begin int raw input u 輸入起始頁 en...

百度貼吧爬蟲案例練習 GET 請求

usr bin env python coding utf 8 import urllib.request import urllib.parse import ssl get url 全域性取消證書驗證作用傳送請求，獲得響應 param search keywords 要查詢的關鍵字，para...

Python爬蟲獲取貼吧內容

參考寫的第乙個比較完整的python爬蟲程式。coding utf 8 import urllib import urllib2 import re 處理頁面標籤類 class tool 去除img標籤,7位長空格 removeimg re.compile 刪除超連結標籤 removeaddr re...

貼吧小爬蟲案例

Python貼吧小爬蟲

百度貼吧爬蟲 案例練習 GET 請求

Python爬蟲 獲取貼吧內容

相關推薦

百度貼吧爬蟲案例練習 GET 請求

Python爬蟲獲取貼吧內容