Python貼吧小爬蟲

2021-07-11 02:42:01 字數 761 閱讀 5584

不用登陸,cookie,header

用了一點正規表示式

# -*- coding: utf-8 -*-

"""created on sun apr 10 14:00:32 2016

@author: albert

"""import urllib2

import re

i=0begin=int(raw_input(u'輸入起始頁'))

end=int(raw_input(u'輸入結束頁'))

f.write("第%d頁\n"%i)

i=i+1

url=r'吉林大學&ie=utf-8&pn='+'%d'%(50*(i-1))

html=urllib2.urlopen(url)

page=html.read()

patten=re.findall('(.*?)

',page,re.s)

for line in patten:

f.write(line+'\n')

f.close()

爬出來的是帖子標題

對於正則,先觀察源**,再去匹配

class="threadlist_abs threadlist_abs_onlyline">

這是源**

(.*?)

這是表示式

貼吧小爬蟲案例

如下 usr bin env python coding utf 8 import urllib import urllib2 def loadpage url,filename 作用 根據url傳送請求,獲取伺服器響應檔案 url 需要爬取的url位址 filename 處理檔名 request ...

Python爬蟲 獲取貼吧內容

參考寫的第乙個比較完整的python爬蟲程式。coding utf 8 import urllib import urllib2 import re 處理頁面標籤類 class tool 去除img標籤,7位長空格 removeimg re.compile 刪除超連結標籤 removeaddr re...

python貼吧 貼吧python登入

2017年12月,雲 社群對外發布,從最開始的技術部落格到現在擁有多個社群產品。未來,我們一起乘風破浪,創造無限可能。python 資料探勘 請求與響應 https tieba.baidu.comf?kw 爬蟲 ie utf 8 pn 200https tieba.baidu.comf?是基礎部分,...