python爬蟲百度貼吧標題資料

2021-07-04 03:34:49 字數 1652 閱讀 7432

使用pip命令進行安裝

那麼現在進行requests的安裝,在終端下輸入sudo pip install requests,提示成功安裝後,在/library/python/2.7/site-packages發現requests資料夾,但是此時你使用 import requests語句會提示「importerror: no module named requests」錯誤,所以此時你需要更改project interpreter 選擇 file -> settings ->project-> single-thread-crawler ->project interpreter

如圖1所示:

那麼以上步驟完成後,python爬蟲所需要的requests構建完成。

兩種方式:

首先我們需要先獲取源**,**如下

#-*-coding:utf-8-*-

import requests

#下面三行是編碼轉換的功能,大家現在不用關心。

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

html = requests.get('大連理工大學城市學院&ie=utf-8&pn=0')

print html.text

python的預設編碼檔案是用的ascii碼,你將檔案存成了utf-8也沒用,解決辦法很簡單

觀察原始碼你可以發現規律,每乙個標題的都在」class=」j_th_tit 「>**< a>」之間

既然觀察出如下規律,我們就可以設計出相應的**

#-*-coding:utf8-*-

import requests

import re

#下面三行是編碼轉換的功能,大家現在不用關心。

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

html = requests.get('大連理工大學城市學院&ie=utf-8&pn=0')

html.encoding = 'utf-8'

#將編碼轉為utf-8fa防止中文亂碼。

title = re.findall('class="j_th_tit ">(.*?)',html.text,re.s)

for title in title:

print title

執行結果:

在這裡我們講解下re.findall(『class=」j_th_tit 「>(.*?)』,html.text,re.s)

我們使用re.findall來進行資料匹對,根據規律設計出 class=」j _ th_tit 「>(.?)< /a> ,其中(. ?)代表的意思是非貪心演算法:各個排查

Python爬蟲 百度貼吧

get請求 from urllib import request import urllib import time 第一頁 第二頁 2 1 50 第三頁 3 1 50 第四頁 4 1 50 第n頁 n 1 50 推測第一頁 headers 根據url傳送請求,獲取伺服器響應檔案 defloadpa...

python百度貼吧爬蟲

coding utf 8 coding utf 8 import urllib import urllib2 import reimport thread import time class bdtb def init self,baseurl,seelz self.baseurl baseurl ...

百度貼吧爬蟲

encoding utf 8 import urllib.request import urllib.parse import time import random def load page url 通過url來獲取網頁內容jfa param url 待獲取的頁面 return url對應的網頁內...