獲取網頁亂碼

2022-02-28 17:36:03 字數 1751 閱讀 3849

亂碼:curl www.1ting.com |more

亂碼:curl -h "accept-encoding: gzip"www.1ting.com | more

不亂碼:curl -h "accept-encoding: gzip"www.1ting.com | gunzip | more

不亂碼:curl www.1616.net |more

亂碼:curl -h "accept-encoding: gzip"www.1616.net | more

不亂碼:curl -h "accept-encoding: gzip"www.1616.net | gunzip | more

下面的a,b解釋的是www.1ting.com,c,d解釋是的www.1616.net

a.某個url,如果用不加任何選項的curl命令抓取後亂碼,在curl後面加上accept-encoding:gzip,後面不加gunzip,則抓取的資料會亂碼。

b.某個url,如果用不加任何選項的curl命令抓取後亂碼,在curl後面加上accept-encoding:gzip,後面加上gunzip,則抓取的資料不會亂碼。

c.某個url,如果用不加任何選項的curl命令抓取後不亂碼,在curl後面加上accept-encoding:gzip,後面不加gunzip,則抓取的資料會亂碼。

d.某個url,如果用不加任何選項的curl命令抓取後不亂碼,在curl後面加上accept-encoding:gzip,後面加上gunzip,則抓取的資料不會亂碼。

小總:也就是說在curl後面加上accept-encoding:gzip,再用gunzip解壓縮,則基本上可以儲存資料不亂碼。

2.gbk或者utf8漢字之類的亂碼

curl -fgb2312 -t utf-8

set lang="gb2312"

export lang

curl

iconv命令的詳細語法:

iconv [選項..] [檔案..]

選項:-f 輸入編碼

-t 輸出編碼

-l 列出所有已知的編碼

-o 輸出檔案

對比採用php curl庫的post getheader三種方法之間的差異

比較post getheader這三種方法的區別:

引數post

getheader

curlopt_url有有

有curlopt_post

開啟關閉

關閉curlopt_httpheader

如果有$header,則開啟

如果有$header,則開啟

如果有$header,則開啟

curlopt_header

false

false

true

curlopt_nobody

false

false

true

curlopt_postfileds

true

false

false

從上表中可以看出:

post方法:開啟post連線,然後傳送post報文體。關閉header和nobody

應該說上述三種方法,乙個明顯的區別是,箱採用什麼方法的時候,就開啟對應的curl選項。

curl_httpheader與curopt_header的區別:

前者是設定http頭部資訊的乙個陣列

後者是將標頭檔案的資訊以資料流的方式輸出

html 亂碼 爬蟲 網頁亂碼

很多同學會遇到python爬蟲得到的html亂碼的問題。其實這個問題搞清楚邏輯,就能夠解決。一般爬蟲 import點開html中的鏈結,看到亂碼了。圖1 亂碼 2.問題處理 首先,在google中輸入電影 無名之輩 的鏈結 然後ctrl u,檢視源 頁。圖2 點開google瀏覽器的源 頁 在源 第...

網頁亂碼問題

顯然,只有傳送端和接收端指代的是同樣的內容,我們才能得到正確的結果。那麼,對於一次搜尋請求中關鍵字的提交,我們有3種方式,簡稱發1,發2,發3 發1 表單post提交 發2 表單get提交 發3 將搜尋項直接內含在url裡,如春節 先來討論發1和發2情況。在阮一峰的這篇文章中,我們看到,對於get和...

網頁中文亂碼

如果網頁顯式申明了支援中文的編碼 如 原因1網頁內容本身的編碼與utf 8不相容。是你之前用某工具編輯過網頁內容,儲存為另乙個編碼格式。解決方案 用eclipse webstrom ue等,新建乙個html文件,將 copy過去,儲存為utf 8。原因2 後台返回的資料與utf 8不相容 解決方案 ...