Python爬取貼吧(簡潔版)

2022-09-11 14:06:25 字數 1093 閱讀 5552

#encoding=utf-8

import urllib2,urllib

class tieba:

def tiebaspider(self,name,starpage,endpage):

#要爬取得網路位址

url = ""

#要爬取得帶關鍵字的位址

url = url+urllib.urlencode()+"&"

#迴圈起始位置到終止為止

for i in range(starpage,endpage+1):

pagenum = (i-1)*50

fullurl = url+urllib.urlencode()

html = self.loadpage(fullurl,i)

self.writepage(html,i)

def loadpage(self,url,pagenum):

header =

print "正在爬取第"+str(pagenum)+"頁資料......"

request = urllib2.request(url,headers=header)

response = urllib2.urlopen(request)

html = response.read()

return html

def writepage(self,html,pagenum):

filename = "di"+str(pagenum)+"ye.html"

print "正在寫入"+filename

with open(filename,"w") as file:

file.writelines(html)

if __name__=='__main__':

name = raw_input("請輸入要搜尋的貼吧名:")

startpage = input("請輸入起始頁:")

endpage = input("請輸入乙個終止頁:")

tieba = tieba()

tieba.tiebaspider(name,startpage,endpage)

print "爬取結束!"

爬取貼吧小專案

實現任意貼吧的爬蟲,儲存網頁到本地 思路 import requests 定義乙個貼吧爬蟲類 class tiebacrawler object 基礎url basic url 初始化方法 def init self,name,start,end self.name name self.start ...

Python爬蟲爬取百度貼吧多執行緒版

xpath提取內容 定位根節點 往下層尋找 提取文字內容 text 提取屬性內容 x 常規匹配 coding utf8 from lxml import etree html 極客學院 點我開啟課程庫 selector etree.html html 提取文字 content selector.xp...

Python爬蟲爬取百度貼吧多執行緒版

xpath提取內容 定位根節點 往下層尋找 提取文字內容 text 提取屬性內容 x 常規匹配 coding utf8 from lxml import etree html 極客學院 點我開啟課程庫 selector etree.html html 提取文字 content selector.xp...