一 python爬蟲學習 爬蟲基本概念

2021-10-19 18:13:28 字數 1568 閱讀 8731

例如:

url 專業一些的叫法是統一資源定位符(uniform resource locator),它的一般格式如下(帶方括號的為可選項):

protocol ?/ hostname[:port] / path / [;parameters][?query]#fragment

url 的格式主要由前個三部分組成:

:443

這兩個url都可以開啟網頁,區別在於乙個是 http 協議,乙個是 https 協。

http協議預設使用的埠是80,https協議預設使用的埠是443。

每乙個url的背後,其實都是對應著一台伺服器的,甚至成千上萬臺。

在講解爬蟲內容之前,我們需要先學習一項寫爬蟲的必備技能:審查元素。

在瀏覽器的位址列輸入 url 位址,在網頁處右鍵單擊,找到檢查。(不同瀏覽器的叫法不同,chrome 瀏覽器叫做檢查,firefox 瀏覽器叫做檢視元素,但是功能都是相同的)

**瀏覽器就是作為客戶端從伺服器端獲取資訊,然後將資訊解析,並展示給我們的。**我們可以在本地修改 html 資訊,為網頁"整容",但是我們修改的資訊不會回傳到伺服器,伺服器儲存的 html 資訊不會改變。重新整理一下介面,頁面還會回到原本的樣子。這就跟人整容一樣,我們能改變一些表面的東西,但是不能改變我們的基因。

pip install requests
requests庫的官方教程

import requests

if __name__ == '__main__':

target = ""

req = requests.get(url = target)

req.encoding = 'utf-8'

print(req.text)

網頁解析器:將乙個網頁字串進行解析,可以按照我們的要求來提取出我們有用的資訊,也可以根據dom樹的解析方式來解析。網頁解析器有正規表示式(直觀,將網頁轉成字串通過模糊匹配的方式來提取有價值的資訊,當文件比較複雜的時候,該方法提取資料的時候就會非常的困難)、html.parser(python自帶的)、beautifulsoup(第三方外掛程式,可以使用python自帶的html.parser進行解析,也可以使用lxml進行解析,相對於其他幾種來說要強大一些)、lxml(第三方外掛程式,可以解析 xml 和 html),html.parser 和 beautifulsoup 以及 lxml 都是以 dom 樹的方式進行解析的。

應用程式:就是從網頁中提取的有用資料組成的乙個應用。

下面用乙個圖來解釋一下排程器是如何協調工作的:

大致分三個步驟:

發起請求就用requests

解析資料有xpath、beautiful soup、正規表示式等,本文用beautifulsoup

儲存資料:用常規的文字儲存,後續繼續用docx和xlsx儲存

pip install bs4
官方中文教

Python爬蟲學習(一) 基本介紹

爬蟲 通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。聚焦爬蟲 聚焦爬蟲是根據指定的需求抓取網路上指定的資料。例如 獲取豆瓣上電影的名稱和影評,而不是獲取整張頁面中所有的資料值。門戶 通過制定相應的策略和技術手段,防止爬蟲程式進行 資料的爬取。爬蟲程式通過相應的策略和技術手段,破解...

Python爬蟲筆記 一 爬蟲基本入門

最近在做乙個專案,這個專案需要使用網路爬蟲從特定 上爬取資料,於是乎,我打算寫乙個爬蟲系列的文章,與大家分享如何編寫乙個爬蟲。這是這個專案的第一篇文章,這次就簡單介紹一下python爬蟲,後面根據專案進展會持續更新。一 何謂網路爬蟲 網路爬蟲的概念其實不難理解,大家可以將網際網路理解為一張巨大無比的...

python爬蟲基本流程 Python爬蟲流程

python爬蟲流程 主要分為三個部分 1 獲取網頁 2 解析網頁 獲取資料 儲存資料 三個流程的技術實現 1.獲取網頁 獲取網頁的技術基礎 urllib requests selenium 獲取網頁的高階技術 多執行緒抓取 登入抓取 突破ip限制和伺服器抓取 2.解析網頁 解析網頁的技術基礎 re...