python 爬蟲日記

首先是三大問題，跟搞哲學的差不多：

爬蟲是什麼

爬蟲能做什麼

怎麼學爬蟲

既然是學習，就要做好付出時間和精力在這上面的思想準備；如果是新手，更應該知道接觸新的知識可能會產生挫敗感！沒有一路坎坷，哪有累累碩果！

言歸正傳，學習爬蟲技術，就需要知道他涉及的知識點，再根據自己的實際情況，劃重點，攻克難點，總結要點；自然可以旗開得勝，無往而不勝。

先來個小例子練練手：

import requests
import beautifulsoup

爬蟲的基礎知識：

url (universal resource locator) 統一資源定位符，

http：（hypertext transfer protocol）超文字傳輸協議

html（hypertext markup language）

好了，鋪墊已經做完了，接下來該講講原理了。

學習沒有這麼快的，不要著急！

速成！！！

在這裡沒有！

乙份耕耘，乙份收穫。除非搶劫，侵占別人的勞動成果，據為己有，這是強盜！

install scrapy

sudo python3 -m pip install scrapy

http協議入門 – 阮一峰

requests.session

requests.get

requests.post

url

http報文

請求報文（請求行，+ headers + body），響應報文(狀態行+headers + body)

headers

status_code

context

content

content-type:

text/html:

x-www-form-urlencoded: web 頁面純文字表單的提交方式

multitype/form-data 頁面含有二進位制檔案時的提交方式

匯入包

from bs4 import beautifulsoup

requests and beautifulsoup; 兩個類

1. url: 統一資源定位符；

2. 網頁請求與網頁解析 get and request; request and response

3. html 超文字標記語言標籤

4. chrome 檢視原始碼工具

5. cookies 與 sessions 的原理，一種加密機制

6. headers 的作用

一種網路傳輸協議，位於tcp/ip的最頂層；

http的工作方式

url 和 http報文：url 格式：協議型別，伺服器位址（和埠號），路徑

報文格式: 請求報文（請求行，+ headers + body），響應報文(狀態行+headers + body)

request method:

get, post, put, delete, delete, head, etc.

狀態碼： status code ： 2xx, 4xx, 5xx

header 首部

python爬蟲學習日記 20180106

1.建立爬蟲工程 scrapy startproject name 2.定義item item是爬蟲的資料模型的 item.py 3.新建spider scrapy genspider 4.編寫爬蟲檔案主要是start urls和def parse解析方法 5.在settings.py中修改use...

python 3 5 爬蟲日記2

from urllib import request 輸入正規表示式模組 import re page 1 url r request.request url r.add header user agent abc 讀取首頁原碼並命名為content content request.urlopen ...

爬蟲學習日記

由於之前沒有python基礎，能不能跟上還是很慌的，但還是得盡力 1.檢視網頁robots協議，了解爬取需要遵守的規則 2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取 3.安裝scrapy 爬取介面部分資訊獲取書包搜尋介面的商品名稱和 import requests impor...

python 爬蟲日記

python爬蟲學習日記 20180106

python 3 5 爬蟲日記2

爬蟲學習日記

相關推薦