python加cookie爬取知乎主頁

2021-10-05 23:45:50 字數 572 閱讀 6542

from urllib import request

zhihu_url=""

headers=

req=request.request(url=zhihu_url,headers=headers)

resp=request.urlopen(req)

with open('zhihu.html','w',encoding='utf-8') as fp:

#gbk encode()轉化為』bytes』

#在windows下面,新檔案的預設編碼是gbk,這樣的話,python直譯器會用gbk編碼去解析我們的網路資料流txt,

# 然而txt此時已經是decode過的unicode編碼,

# 這樣的話就會導致解析不了,出現上述問題。 解決的辦法就是,改變目標檔案的編碼:

#resp.read()是乙個bytes()資料型別,

#write必須讀入str(utf-8)型別

fp.write(resp.read().decode('utf-8'))

python動態爬取知乎 python爬取微博動態

在初學爬蟲的過程中,我們會發現很多 都使用ajax技術動態載入資料,和常規的 不一樣,資料是動態載入的,如果我們使用常規的方法爬取網頁,得到的只是一堆html 沒有任何的資料。比如微博就是如此,我們可以通過下滑來獲取更多的動態。對於這樣的網頁該如何抓取呢?我們以微博使用者動態為例,抓取某名使用者的文...

Python爬取小說

感覺這個夠蛋疼的,因為你如果正常寫的話,前幾次執行沒問題,之後你連 都沒改,再執行就出錯了。其實這可能是網路請求失敗,或者有反爬蟲的東西吧。但這就會讓你寫的時候非常苦惱,所以這這東西,健壯性及其重要!import requests from bs4 import beautifulsoup impo...

python 爬取小說

前些天突然想看一些 可能是因為壓力大,所以就要有補償機制吧。為了節省流量,就想著把內容爬下來,然後就可以在路上看了。於是有了下面的指令碼。usr bin env python coding utf 8 import requests from lxml import etree 為了解決unicod...