html 亂碼 爬蟲 網頁亂碼

2021-10-11 09:04:48 字數 706 閱讀 4132

很多同學會遇到python爬蟲得到的html亂碼的問題。其實這個問題搞清楚邏輯,就能夠解決。

一般爬蟲

import
點開html中的鏈結,看到亂碼了。

圖1:亂碼

2. 問題處理

①首先,在google中輸入電影「無名之輩」的鏈結(然後ctrl+u,檢視源**頁。

圖2:點開google瀏覽器的源**頁

②在源**第4行,找到charset=gb2312,說明這個網頁的字型是gb2312的格式。python預設字型是utf-8。轉碼!

③轉碼

import
加上轉碼一行,那麼html就正常了。

圖3:轉碼之後的爬蟲結果

3.結語

以上就是亂碼問題的處理。希望對大家有益~

html網頁亂碼

html亂碼原因與網頁亂碼解決方法,瀏覽器瀏覽網頁內容出現亂碼符合解決篇 html中文亂碼 造成html網頁亂碼原因主要是html源 內中文字內容與html編碼不同造成。但無論是哪種情況造成亂碼在網頁開始時候都需要設定網頁編碼。charset編碼設定 html網頁亂碼效果截圖 1 比如網頁源 是gb...

Python網頁爬蟲之中文亂碼

python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...

Python網頁爬蟲之中文亂碼

python是個好工具,但是也有其固有的一些缺點。最近在學習網頁爬蟲時就遇到了這樣一種問題,中文 爬取下來的內容往往中文顯示亂碼。看過我之前部落格的同學可能知道,之前爬取的乙個學校網頁就出現了這個問題,但是當時並沒有解決,這著實成了我乙個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。co...