關於爬蟲的編碼格式問題

2022-03-03 12:36:16 字數 628 閱讀 7891

unicodeencodeerror: 'gbk' codec can't encode character '\uc0ac' in position

爬蟲編碼想從把構造的字典資訊寫進檔案。

有兩種方法:

一、用json

import json

js=json.dumps(a)

fp.writelines(js+'\n')

二、直接強制轉換

fp.write(str(a)+'\n')

利用第一種方法輸入網頁資訊,中文會變成編碼。

採用第二種方法,中文資訊進行保留,但是,有時候會提出錯誤'unicodeencodeerror: 'gbk' codec can't encode character '\uc0ac' in position'.

此時,在檔案的目錄下面創造乙個utf-8編碼的txt。並且fp的編碼格式改為utf-8

Python爬蟲系列解決編碼格式問題

1.顯示編碼問題 有時候當我們使用爬蟲爬取網頁源 時,因為編碼格式的不同導致亂碼 例如 www.4399.com 網頁源 我們可以看出4399的編碼格式指定為 gb2312 而 pycharm 預設的編碼格式是 utf 8 所以當我們獲取源 時,漢字就會出現亂碼 import requests ur...

爬蟲編碼問題

在獲取網頁時會遇到各種各樣的編碼問題,我們有不同的編碼方式,但是在使用beautifulsoup時,他有自動檢測編碼的功能,但是這樣遍歷一遍,知道編碼也是乙個很慢的過程。而且依然有可能出錯。因此我們可以在例項化beautifulsoup時,加上編碼規則,這樣就可避免錯誤。首先我們先檢視爬蟲的頁面的編...

爬蟲 關於網頁編碼

當我們用爬蟲成功獲取網頁原始碼後,可能列印出來卻是亂碼的,因為使用requests模組時,程式會根據http頭自動判斷網頁編碼,但這樣做就顯得不太準確,所以還需要我們手動修改。手動修改網頁編碼顯得繁瑣且笨拙,我們引入乙個新的模組cchardet來幫助我們完成這一系列的工作。可以看到,requests...