爬取百度百科1000個頁面資料

**實現：

自己遇到的問題以及處理方法：

q1：response=urlib.request.urlopen() response.read()多次read為空b''

a1：read()後，原response會被清空

q2:使用python寫檔案的時候，或者將網路資料流寫入到本地檔案的時候，大部分情況下會遇到：unicodeencodeerror: 『gbk』 codec can』t encode character 『\xa0』 in position … 這個問題

a2:需要注意網頁資料流編碼，目標檔案編碼和python指令碼檔案本身的編碼。

將網路資料流寫入檔案時時，我們會遇到幾個編碼：

1： #encoding=』***』這裡(也就是python檔案第一行的內容)的編碼是指該python指令碼檔案本身的編碼，無關緊要。只要***和檔案本身的編碼相同就行了。比如notepad++ 「格式」選單裡面裡可以設定各種編碼，這時需要保證該選單裡設定的編碼和encoding ***相同就行了，不同的話會報錯

2：網路資料流的編碼比如獲取網頁，那麼網路資料流的編碼就是網頁的編碼。需要使用decode解碼成unicode編碼。

3：目標檔案的編碼要將網路資料流的編碼寫入到新檔案，那麼我麼需要指定新檔案的編碼。寫檔案**如：

f.write(txt)

，那麼txt是乙個字串，它是通過decode解碼過的字串。關鍵點就要來了：目標檔案的編碼是導致標題所指問題的罪魁禍首。如果我們開啟乙個檔案：

f = open("out.html","w")

，在windows下面，新檔案的預設編碼是gbk，這樣的話，python直譯器會用gbk編碼去解析我們的網路資料流txt，然而txt此時已經是decode過的unicode編碼，這樣的話就會導致解析不了，出現上述問題。解決的辦法就是，改變目標檔案的編碼：

f = open("out.html","w",encoding='utf-8')

。這樣，問題將不復存在。

爬取百度百科1000個頁面資料

java爬取百度百科詞條

python3爬取百度百科

百度百科基本資訊欄資料爬取

爬取百度百科1000個頁面資料

java爬取百度百科詞條

python3爬取百度百科

百度百科基本資訊欄資料爬取

相關推薦