python 爬蟲日記

2021-09-27 18:34:01 字數 1654 閱讀 9417

首先是三大問題,跟搞哲學的差不多:

爬蟲是什麼

爬蟲能做什麼

怎麼學爬蟲

既然是學習,就要做好付出時間和精力在這上面的思想準備;如果是新手,更應該知道接觸新的知識可能會產生挫敗感!沒有一路坎坷,哪有累累碩果!

言歸正傳,學習爬蟲技術,就需要知道他涉及的知識點,再根據自己的實際情況,劃重點,攻克難點,總結要點;自然可以旗開得勝,無往而不勝。

先來個小例子練練手:

import requests

import beautifulsoup

爬蟲的基礎知識:

url (universal resource locator) 統一資源定位符,

http:(hypertext transfer protocol)超文字傳輸協議

html(hypertext markup language)

好了,鋪墊已經做完了,接下來該講講原理了。

學習沒有這麼快的,不要著急!

速成!!!

在這裡沒有!

乙份耕耘,乙份收穫。除非搶劫,侵占別人的勞動成果,據為己有,這是強盜!

install scrapy

sudo python3 -m pip install scrapy
http協議入門 – 阮一峰

requests.session

requests.get

requests.post

url

http報文

請求報文(請求行,+ headers + body),響應報文(狀態行+headers + body)

headers

status_code

context

content

content-type:

text/html:

x-www-form-urlencoded: web 頁面純文字表單的提交方式

multitype/form-data 頁面含有二進位制檔案時的提交方式

匯入包

from bs4 import beautifulsoup
requests and beautifulsoup; 兩個類

1. url: 統一資源定位符;

2. 網頁請求與網頁解析 get and request; request and response

3. html 超文字標記語言 標籤

4. chrome 檢視原始碼工具

5. cookies 與 sessions 的原理,一種加密機制

6. headers 的作用

一種網路傳輸協議,位於tcp/ip的最頂層;

http的工作方式

url 和 http報文:url 格式: 協議型別,伺服器位址(和埠號),路徑

報文格式: 請求報文(請求行,+ headers + body),響應報文(狀態行+headers + body)

request method:

get, post, put, delete, delete, head, etc.

狀態碼: status code : 2xx, 4xx, 5xx

header 首部

python爬蟲學習日記 20180106

1.建立爬蟲工程 scrapy startproject name 2.定義item item是爬蟲的資料模型的 item.py 3.新建spider scrapy genspider 4.編寫爬蟲檔案 主要是start urls和def parse解析方法 5.在settings.py中修改use...

python 3 5 爬蟲日記2

from urllib import request 輸入正規表示式模組 import re page 1 url r request.request url r.add header user agent abc 讀取首頁原碼並命名為content content request.urlopen ...

爬蟲學習日記

由於之前沒有python基礎,能不能跟上還是很慌的,但還是得盡力 1.檢視網頁robots協議,了解爬取需要遵守的規則 2.使用url re bs4 對單一靜態或動態的介面資訊進行爬取 3.安裝scrapy 爬取 介面部分資訊 獲取書包搜尋介面的商品名稱和 import requests impor...