知乎爬蟲入門問題如何解決

2021-09-22 23:26:05 字數 1844 閱讀 3146

眾所周知,爬取知乎真的不簡單。

閒話少說,直接上不太正確的源**:

#-*- coding:utf-8 -*-

import requests

import ******json as json

import pandas as pd

import time

import re

headers =

# url= ''

user_data =

def get_user_data(page):

for i in range(page):#翻頁

url = ''.format(i*20)

response = requests.get(url, headers=headers).json()['data']

user_data.extend(response) #把response資料新增進user_data

print('正在爬取第%s頁' % str(i+1))

time.sleep(1) #設定爬取網頁的時間間隔為1秒

if __name__ == '__main__':

get_user_data(10)

df = pd.dataframe.from_dict(user_data)#以字典儲存資料

df.to_csv('zhihu.csv',encoding='utf_8_sig')#儲存到使用者名為zhihu的csv檔案中,encoding='utf_8_sig'引數是為了解決中文亂碼的問題

print(df)

這個**在python3.7版本執行就報錯,十分苦惱,一直在尋求答案。

traceback (most recent call last):

file "", line 1, in file "c:\program files\jetbrains\pycharm 2018.2.4\helpers\pydev\_pydev_bundle\pydev_umd.py", line 197, in runfile

pydev_imports.execfile(filename, global_vars, local_vars) # execute the script

file "c:\program files\jetbrains\pycharm 2018.2.4\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile

exec(compile(contents+"\n", file, 'exec'), glob, loc)

file "c:/users/1/pycharmprojects/python爬蟲實戰/知乎爬蟲/zhihu.py", line 27, in get_user_data(10)

file "c:/users/1/pycharmprojects/python爬蟲實戰/知乎爬蟲/zhihu.py", line 21, in get_user_data

response = requests.get(url, headers=headers).json()['data']

return complexjson.loads(self.text, **kwargs)

return _default_decoder.decode(s)

obj, end = self.raw_decode(s)

return self.scan_once(s, idx=_w(s, idx).end())

******json.errors.jsondecodeerror: expecting value: line 1 column 1 (char 0)

如何解決知乎引流常見問題,獲得平台推送

從事網際網路營銷的人都知道,軟文營銷是所有營銷中最有效果的一種方式,只要文章不刪,那麼可以持續不斷的為產品帶來流量。與硬廣告相比,軟文之所以叫做軟文,精妙之處就在於乙個軟字,讓使用者不受強制廣告的宣傳下,文章內容與廣告的完美結合,從而達到廣告宣傳的效果,在營銷界,一篇好的軟文價值是上千萬的 軟文的本...

如何解決python爬蟲亂碼問題

直接上 import requests url html requests.get url text print html 輸出結果亂碼,可這是為什麼呢?很明顯是編碼問題造成的 import requests import sys 輸出我們編譯器所用的編碼 print sys.getdefaulte...

個人知乎 基礎九 爬蟲入門PySpider

安裝 pip install pyspider scheduler 排程器,排程乙個url處理 processor 處理網頁器,並解析出新的urlclass return 參考資料 pyquery css選擇器參考資料 乙個網頁的框架 docurl text header cookies css選擇...