Python爬蟲基礎1

2021-08-15 00:24:10 字數 1593 閱讀 4795

python版本:3.6

編譯器:pycharm

系統:win 10

1、file —> new project —> create

2、右擊建立的專案 —>new —>python file

3、開始輸入**

import urllib.request

response =urllib.request

.urlopen("")

print(response.read())

執行

這樣網頁的原始碼已經被我們扒下來了

response =urllib.request

.urlopen("")

urllib.request模組定義了方法和類,幫助開啟url(主要是http)在乙個複雜的世界——基本和摘要式身份驗證,重定向,cookies等等。

urllib.request.urlopen開啟**url,這可以是乙個字串或乙個 request物件。

urlopen(url,data,timeout)
第乙個引數url即為url,第二個引數data是訪問url時要傳送的資料,第三個timeout是設定超時時間。

第二三個引數是可以不傳送的,data預設為空none,timeout預設為 socket._global_default_timeout

response.read()
response物件有乙個read方法,可以返回獲取到的網頁內容。

上面的程式演示了最基本的網頁抓取,不過,現在大多數**都是動態網頁,需要你動態地傳遞引數給它,它做出對應的響應。所以,在訪問時,我們需要傳遞資料給它。最常見的情況是什麼?對了,就是登入註冊的時候呀。

把資料使用者名稱和密碼傳送到乙個url,然後你得到伺服器處理之後的響應,這個該怎麼辦?下面讓我來為小夥伴們揭曉吧!

資料傳送分為post和get兩種方式,兩種方式有什麼區別呢?

最重要的區別是get方式是直接以鏈結形式訪問,鏈結中包含了所有的引數,當然如果包含了密碼的話是一種不安全的選擇,不過你可以直觀地看到自己提交了什麼內容。post則不會在**上顯示所有的引數,不過如果你想直接檢視提交了什麼就不太方便了,大家可以酌情選擇

python 3.x版本後的urllib和urllib2

現在的python已經出到了3.6.4

在python 3以後的版本中,urllib2這個模組已經不單獨存在(也就是說當你import urllib2時,系統提示你沒這個模組),urllib2被合併到了urllib中,叫做urllib.request 和 urllib.error 。

urllib整個模組分為urllib.request, urllib.parse, urllib.error。

例: 其中urllib2.urlopen()變成了urllib.request.urlopen()

urllib2.request()變成了urllib.request.request()

Python爬蟲基礎 1

url uniform resource locator 統一資源定位符。採用url可以用一種統一的格式來描述各種資訊資源,包括檔案 伺服器的位址和目錄等。url的一般格式為 帶方括號的為可選項 protocol hostname port path parameters query fragmen...

Python爬蟲 1 基礎

爬蟲 spider 是用指令碼代替瀏覽器請求伺服器獲取伺服器資源的程式。python爬蟲優勢,支援模組很多,有scrapy非常強大的爬蟲框架 1.通用爬蟲 2 功能 訪問網頁 抓取資料 資料儲存 資料處理 提供檢索服務 3 爬取流程 給定一些起始的url,放入待爬取佇列 從佇列中獲取url物件,開始...

python爬蟲基礎(1)

例 開啟bing搜尋頁面檔案 c users desktop mkdir xy web scraping 在桌面建立乙個新資料夾 ps c users desktop cd xy web scraping 進入該資料夾 ps c users desktop xy web scraping pytho...