Python 爬蟲 坑 持續更新中

2021-08-11 13:59:07 字數 728 閱讀 7709

記錄下學習爬蟲中遇到的坑

python2要支援中文需要在頭部新增

# -*- coding: utf-8 -*-
python3直接支援中文

python2中直接可以呼叫urllib2

python3中需要

from urllib import request
python2中直接可以獲取response的文字

python3中需要對獲取的文字進行轉碼

response.body.decode('utf-8')#根據不同的格式轉碼
python2直接print 後邊跟你要輸出的就可以了

python3需要加上()

print

()

# 注意,python2.x預設編碼環境是ascii,當和取回的資料編碼格式不一致時,可能會造成亂碼;

# 我們可以指定儲存內容的編碼格式,一般情況下,我們可以在**最上方新增:

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

# 這三行**是python2.x裡解決中文編碼的****,經過這麼多年的吐槽後python3學乖了,預設編碼是unicode了...(祝大家早日擁抱python3)

python爬蟲筆記 持續更新

爬蟲主要分為兩個部分,第乙個是網頁介面的獲取,第二個是網頁介面的解析 爬蟲的原理是利用 模擬瀏覽器訪問 與瀏覽器不同的是,爬蟲獲取到的是網頁的源 沒有了瀏覽器的翻譯效果。這裡我們使用urllib2進行 頁面的獲取 首先匯入urllib2模組包 import urllib2 呼叫urllib2中的ur...

Python爬蟲學習 持續更新

當伺服器通過request的header中的使用者資訊防止爬取時,修改header改為乙個瀏覽器就好 import requests from bs4 import beautifulsoup kv r requests.get headers kv print r.encoding soup be...

python爬蟲scrapy(持續更新)

pip install scrapy scrapy startproject stock 建立資料夾 scrapy genspider stock xx 網域名稱 建立爬蟲py檔案 scrapy crawl stock o json spider中必須包含stock.py檔案 scrapy craw...