python3爬蟲第一步 爬取網頁原始碼

2021-09-30 14:27:39 字數 914 閱讀 4861

import urllib.request

def gethtml(url):

page=urllib.request.urlopen(url)

html=page.read()

return html

html=gethtml(「

print(html)

列印結果如下:

結果正確進一步儲存爬蟲結果

import urllib.request

f=open(「./title.html」,」w」)

def gethtml(url):

page=urllib.request.urlopen(url)

html=page.read()

return html

html=gethtml(「

print(html)

f.write(html)

然後就報錯了:

折騰好久,終於找到原因,檔案開啟方式有問題,把之前的開啟語句修改為用二進位制方式開啟就沒有問題

import urllib.request

f=open(「./title.html」,」wb+」)

def gethtml(url):

page=urllib.request.urlopen(url)

html=page.read()

return html

html=gethtml(「

print(html)

f.write(html)

結果就正確了!

記錄下來共勉。

python3爬蟲第一步 傳送請求

引入request,呼叫方法前面都是用request來呼叫 python3把urllib和urllib2封裝了 from urllib import request 像指定 發請求 res request.urlopen 用read 讀取響應內容,並且儲存到content裡面 content res...

Python3 程式設計第一步

這個例子介紹了幾個新特徵。1.a,b b,a b 第一行包含了乙個復合賦值 變數 a 和 b 同時得到新值 0 和 1。最後一行再次使用了同樣的方法,可以看到,右邊的表示式會在賦值變動之前執行。右邊表示式的執行順序是從左往右的 2.end 關鍵字 關鍵字end可以用於將結果輸出到同一行,或者在輸出的...

4chan 爬蟲 爬蟲第一步 爬取網頁

一 安裝庫 爬蟲主要使用python 字串 urllib selenium phantomjs beautifulsoup。還另外需要pip install httplib2。由於案例是python2,一些語句使用python3時會報錯 1 import urllib.request 2 write...