python爬蟲思路

python2

爬蟲：從網頁上採取資料

爬蟲模組：urllib,urllib2,re,bs4,requests,scrapy,xlml

1.urllib

2.request

3.bs4

4.正則re

5種資料型別

(1)數字number

(2)字串string

(3)列表list 中文在可迭代物件就是unicode物件

(4)元組tuple()

(5)字典set{}

爬蟲思路：

1.靜態 urlopen開啟網頁------獲取原始碼read

2.requests(模組) get/post請求----獲取原始碼 text()方法 content()方法(建議)

3.bs4 能夠解析html和xml

#-- coding:utf-8 --

from bs4 import beautifulsoup

#1#html="2018.1.8 14:03

"#soup=beautifulsoup(html,'html.parser') #解析網頁

#print soup.div

#2從檔案中讀取

html=''

soup=beautifulsoup(open('index.html'),'html.parser')

print soup.prettify()

4.獲取所需資訊

Python 爬蟲亂碼解決思路

這裡從網頁的壓縮方式提供兩種解決方法。方法1 檢視headers中是否設定 accept encoding gzip,deflate,br 如果有，修改為 accept encoding gzip 方法2 安裝brotlipy。import brotli data brotli.decompress...

構建基礎python爬蟲思路

目的意義基礎爬蟲分5個模組，使用多個檔案相互配合，實現乙個相對完善的資料爬取方案，便於以後更完善的爬蟲做準備。本文思路書籍。其部分書籍。功能模組主檔案爬蟲排程器，通過呼叫其他檔案中的方法，完成最終功能實現。設計思路定義spiderman類作為爬蟲排程器。輸入根url開始爬取資料然後爬取...

Python網路爬蟲的流程與思路

靜態網頁的爬取過程一般是傳送請求獲得頁面解析頁面抽取並儲存內容所以分別需要學習用到的請求庫解析庫儲存庫 urllib requests 我這裡詳細學習的是requests，在某些方面上，requests的確要比urllib更加簡單。import requestslxml xpath ...

python爬蟲思路

Python 爬蟲亂碼解決思路

構建基礎python爬蟲思路

Python網路爬蟲的流程與思路

相關推薦