網路爬蟲的基礎知識

網路爬蟲(web crawler)，也叫做網路蜘蛛(spider)，是一種用來自動瀏覽全球資訊網的網路機械人。如果我們將全球資訊網比作一張網，每個網頁就是其中的乙個節點，節點之間的連線就是網頁之間的鏈結關係，網路爬蟲就是通過訪問節點，獲取了資訊，並繼續通過鏈結向下乙個節點爬取，一步步獲得整個網路的資訊。

網路爬蟲按照系統結果和實現技術，大致可以分為：

robots協議的全稱是「網路爬蟲排除標準」，該協議是國際網際網路界通行的道德規範，建議大家遵守，不做強制要求。

robots.txt通常存在於web伺服器的頂級目錄中，當爬蟲想要爬取乙個網頁的時候，會首先檢查robots.txt 檔案。

robots.txt檔案的用法：

精緻網路爬蟲訪問**的任何部分

user-agent: * # 允許所有的搜尋引擎訪問 disallow: / # 不允許訪問除規定以外的其他頁面

# disallow: # 允許訪問**的任何部分

排除單個爬蟲

user-agent: badbot

disallow: /

utl和uri

uri 叫統一資源標誌符，url叫統一資源定位符。乙個鏈結既是乙個url也是uri，但有時uri不但定位資源還命名資源，而url只定位資源。

超文字

超文字英文名叫：hypertext，我們在瀏覽器裡面看到的網頁是一系列的html**，被瀏覽器解析之後便成了我們平常看到的網頁，而網頁的源**html就可以稱作超文字。

http和https

網頁鏈結的開頭都會有http或https（列：這是訪問資源需要的協議型別。當然也有其他的，如：ftp、sftp、smb。但我們通常所遇到的就是http和https兩種。

http中文叫超文字傳輸協議，用於從網路傳輸超文字資料到本地瀏覽器的傳送協議，它能保證高效而準確的傳輸文字文件。

https是以安全為目標的http通道，相當於就是http的安全版，是在http下加入了ssl層，所以叫https。

我們在瀏覽器中輸入乙個**之後，瀏覽器中便會出現內容，實際上這裡面包含了乙個請求、響應的過程。

請求

請求是由客服端像伺服器傳送的

**分類

http**伺服器，主要用於訪問網頁，一般有內容過濾和快取的功能，埠一般是80、8080、3128.

ssl/tls**，主要用於訪問加密**，一般有ssl或tls加密功能，埠一般是443

telnet**，主要用於telnet遠端控制（黑客入侵計算時常用語隱藏省份），埠一般是23

pop3/smtp**，主要用於pop3/smtp方式收發郵件，一般具有快取功能，埠一般是110/25.

socks**，只是單純的傳遞資料報，不關心協議和用法，所以速度很快，分為socks4和socks45，埠一般是1080

@快樂是一切

Python網路爬蟲基礎知識學習

對python 有一些簡單了解的朋友都知識 python 程式語言有個很強大的功能，那就是 python網路爬蟲一提到python 就會想到相關的 python 爬蟲和scrapy 等等，今天就來簡單認識學習 python 爬蟲的基礎知識，有了一定的相關爬蟲知識，以後學習 scrapy urlli...

爬蟲基礎知識

大資料時代，要進行資料分析，首先要有資料來源。而學習爬蟲，可以讓我們獲取更多的資料來源，並且這些資料來源可以按我們的目的進行採集，去掉很多無關資料。網路爬蟲又被稱為網頁蜘蛛，網路機械人就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。只要是瀏覽器能做的事...

Python網路爬蟲原理及基礎知識

爬蟲步驟 1.獲取網頁，使用urllib,requests等第三方庫構造http請求 2.提取資訊，使用正規表示式或者beautifulsoup，pyquery，lxml等工具分析網頁原始碼，提取所需要的資料 3.儲存資料，mongodb,mysql等多種工具 4.自動化程式，抓取過程中的批處理，異...

網路爬蟲的基礎知識

Python網路爬蟲基礎知識學習

爬蟲基礎知識

Python網路爬蟲 原理及基礎知識

相關推薦

Python網路爬蟲原理及基礎知識