python爬蟲百度貼吧標題資料

使用pip命令進行安裝

那麼現在進行requests的安裝，在終端下輸入sudo pip install requests，提示成功安裝後，在/library/python/2.7/site-packages發現requests資料夾，但是此時你使用 import requests語句會提示「importerror: no module named requests」錯誤，所以此時你需要更改project interpreter 選擇 file -> settings ->project-> single-thread-crawler ->project interpreter

如圖1所示：

那麼以上步驟完成後，python爬蟲所需要的requests構建完成。

兩種方式：

首先我們需要先獲取源**，**如下

#-*-coding:utf-8-*-
import requests
#下面三行是編碼轉換的功能，大家現在不用關心。
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
html = requests.get('大連理工大學城市學院&ie=utf-8&pn=0')
print html.text

python的預設編碼檔案是用的ascii碼，你將檔案存成了utf-8也沒用，解決辦法很簡單

觀察原始碼你可以發現規律，每乙個標題的都在」class=」j_th_tit 「>**< a>」之間

既然觀察出如下規律，我們就可以設計出相應的**

#-*-coding:utf8-*-
import requests
import re
#下面三行是編碼轉換的功能，大家現在不用關心。
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
html = requests.get('大連理工大學城市學院&ie=utf-8&pn=0')
html.encoding = 'utf-8'
#將編碼轉為utf-8fa防止中文亂碼。
title = re.findall('class="j_th_tit ">(.*?)',html.text,re.s)
for title in title:
print title

執行結果：

在這裡我們講解下re.findall(『class=」j_th_tit 「>(.*?)』,html.text,re.s)

我們使用re.findall來進行資料匹對，根據規律設計出 class=」j _ th_tit 「>(.?)< /a> ，其中（. ?）代表的意思是非貪心演算法：各個排查

Python爬蟲百度貼吧

get請求 from urllib import request import urllib import time 第一頁第二頁 2 1 50 第三頁 3 1 50 第四頁 4 1 50 第n頁 n 1 50 推測第一頁 headers 根據url傳送請求，獲取伺服器響應檔案 defloadpa...

python百度貼吧爬蟲

coding utf 8 coding utf 8 import urllib import urllib2 import reimport thread import time class bdtb def init self,baseurl,seelz self.baseurl baseurl ...

百度貼吧爬蟲

encoding utf 8 import urllib.request import urllib.parse import time import random def load page url 通過url來獲取網頁內容jfa param url 待獲取的頁面 return url對應的網頁內...

python爬蟲百度貼吧標題資料

Python爬蟲 百度貼吧

python百度貼吧爬蟲

百度貼吧爬蟲

相關推薦

Python爬蟲百度貼吧