爬蟲第二天

2021-09-24 04:45:27 字數 383 閱讀 6128

**

作用:**網路使用者去取得網路信任

1.突破自身ip限制,去訪問一些不能訪問的站點

2.提高網路速度,**服務通過有比較大的硬碟快取區,當外界資訊訪問通過後,將資訊儲存在緩衝區,其他使用者訪問相同資訊,直接在緩衝區拿

3.隱藏真實ip,對於爬蟲來說為了隱藏自身ip,防止自身ip被封鎖

爬蟲**分類:

1.ftp**伺服器:21

2.http**伺服器,埠號:8080,3128

3.ssl/tls:用於訪問加密**

4.rtsp:訪問real流**伺服器 554

5.telnet:遠端控制埠554

6.pop/smtp:郵件

7.socks:只是單純傳遞資料報,埠1080

python爬蟲第二天

時間字串轉換 contents獲取內容 strftime轉化時間格式 內文的提取 實參位置用空格分隔 加一級的標籤 import requests import json jd json.loads comments.text.strip 需剔除部分 抓取內文資訊方法寫成函式 commenturl ...

爬蟲學習第二天

概念 乙個基於網路請求的模組,作用就是模擬瀏覽器發起請求 編碼流程 制定url 進行請求的傳送 獲取響應資料 爬取到的資料 持久化儲存 制定url url 傳送請求,返回值是乙個響應物件 response requests.get url url 獲取相應,text返回的是字串形式的相應資料 pag...

Python爬蟲第二天

python爬蟲第二天 超時設定 有時候訪問網頁時長時間未響應,系統就會判斷網頁超時,無法開啟網頁。如果需要自己設定超時時間則 通過urlopen 開啟網頁時使用timeout欄位設定 import urllib.request for i in range 1,100 迴圈99次 try file...