Python爬蟲基礎1

python版本：3.6

編譯器：pycharm

系統：win 10

1、file —> new project —> create

2、右擊建立的專案 —>new —>python file

3、開始輸入**

import urllib.request
response =urllib.request
.urlopen("")
print(response.read())

執行

這樣網頁的原始碼已經被我們扒下來了

response =urllib.request
.urlopen("")

urllib.request模組定義了方法和類,幫助開啟url(主要是http)在乙個複雜的世界——基本和摘要式身份驗證,重定向,cookies等等。

urllib.request.urlopen開啟**url,這可以是乙個字串或乙個 request物件。

urlopen(url,data,timeout)

第乙個引數url即為url，第二個引數data是訪問url時要傳送的資料，第三個timeout是設定超時時間。

第二三個引數是可以不傳送的，data預設為空none，timeout預設為 socket._global_default_timeout

response.read()

response物件有乙個read方法，可以返回獲取到的網頁內容。

上面的程式演示了最基本的網頁抓取，不過，現在大多數**都是動態網頁，需要你動態地傳遞引數給它，它做出對應的響應。所以，在訪問時，我們需要傳遞資料給它。最常見的情況是什麼？對了，就是登入註冊的時候呀。

把資料使用者名稱和密碼傳送到乙個url，然後你得到伺服器處理之後的響應，這個該怎麼辦？下面讓我來為小夥伴們揭曉吧！

資料傳送分為post和get兩種方式，兩種方式有什麼區別呢？

最重要的區別是get方式是直接以鏈結形式訪問，鏈結中包含了所有的引數，當然如果包含了密碼的話是一種不安全的選擇，不過你可以直觀地看到自己提交了什麼內容。post則不會在**上顯示所有的引數，不過如果你想直接檢視提交了什麼就不太方便了，大家可以酌情選擇

python 3.x版本後的urllib和urllib2

現在的python已經出到了3.6.4

在python 3以後的版本中，urllib2這個模組已經不單獨存在（也就是說當你import urllib2時，系統提示你沒這個模組），urllib2被合併到了urllib中，叫做urllib.request 和 urllib.error 。

urllib整個模組分為urllib.request, urllib.parse, urllib.error。

例：其中urllib2.urlopen()變成了urllib.request.urlopen()

urllib2.request()變成了urllib.request.request()