python爬蟲思路

2021-09-21 02:46:23 字數 730 閱讀 4442

python2

爬蟲:從網頁上採取資料

爬蟲模組:urllib,urllib2,re,bs4,requests,scrapy,xlml

1.urllib

2.request

3.bs4

4.正則re

5種資料型別

(1)數字number

(2)字串string

(3)列表list 中文在可迭代物件就是unicode物件

(4)元組tuple()

(5)字典set{}

爬蟲思路:

1.靜態 urlopen開啟網頁------獲取原始碼read

2.requests(模組) get/post請求----獲取原始碼 text()方法 content()方法(建議)

3.bs4 能夠解析html和xml 

#-- coding:utf-8 --

from bs4 import beautifulsoup

#1#html="2018.1.8 14:03

"#soup=beautifulsoup(html,'html.parser') #解析網頁

#print soup.div

#2從檔案中讀取

html=''

soup=beautifulsoup(open('index.html'),'html.parser')

print soup.prettify()

4.獲取所需資訊

Python 爬蟲亂碼解決思路

這裡從網頁的壓縮方式提供兩種解決方法。方法1 檢視headers中是否設定 accept encoding gzip,deflate,br 如果有,修改為 accept encoding gzip 方法2 安裝brotlipy。import brotli data brotli.decompress...

構建基礎python爬蟲思路

目的意義 基礎爬蟲分5個模組,使用多個檔案相互配合,實現乙個相對完善的資料爬取方案,便於以後更完善的爬蟲做準備。本文思路 書籍。其 部分 書籍。功能模組 主檔案 爬蟲排程器,通過呼叫其他檔案中的方法,完成最終功能實現。設計思路 定義spiderman類作為爬蟲排程器。輸入根url開始爬取資料然後爬取...

Python網路爬蟲的流程與思路

靜態網頁的爬取過程一般是 傳送請求 獲得頁面 解析頁面 抽取並儲存內容 所以分別需要學習用到的 請求庫 解析庫 儲存庫 urllib requests 我這裡詳細學習的是requests,在某些方面上,requests的確要比urllib更加簡單。import requestslxml xpath ...