iconv 中文截斷問題的解決方法

2022-07-08 21:06:08 字數 1219 閱讀 3801

iconv 中文截斷問題的解決方法

今天做了乙個採集程式,原理很簡單,使用curl方法把對方頁面的html獲取分析,然後正則提取需要的資料並儲存在資料庫。

由於對方頁面是gb2312編碼,而本地使用的是utf-8編碼。因此在採集後需要進行編碼轉換。

使用了iconv方法進行編碼轉換

iconv

— 字串按要求的字元編碼來轉換

string

iconv ( string

$in_charset , string

$out_charset , string

$str

) 將字串 str 從 in_charset 轉換編碼到 out_charset 。

轉換的方法很簡單,直接使用iconv方法就可以了

<?php  

$content = iconv('gb2312', 'utf-8', $content); //

$content為採集到的內容

?>

試驗了幾個頁面,都能正常採集。但在之後的採集中,有幾個頁面採集不完整。

一開始考慮是否正則有錯,檢查後排除此問題。經過排查,發現經過iconv轉碼後的內容比採集的內容少了一大段。

翻查手冊,看到以下說明

如果你在 out_charset 後新增了字串 //translit,將啟用轉寫(transliteration)功能。這個意思是,當乙個字元不能被目標字符集所表示時,它可以通過乙個或多個形似的字元來近似表達。 

如果你新增了字串 //ignore,不能以目標字符集表達的字元將被默默丟棄。 否則, str 從第乙個無效字元開始截斷並導致乙個 e_notice 。

原來iconv遇到不能識別的內容,會從第乙個不能識別的字元開始截斷,並生成乙個e_notice。因此後邊的內容被丟棄了。

而在輸出字符集後加上//ignore則只丟棄不能識別的內容,而不會截斷和丟棄後面的內容。

修改程式後一切正常

<?php  

$content = iconv('gb2312', 'utf-8//ignore', $content); //

$content為採集到的內容

?>

tips:使用iconv時,如果要使用utf-8編碼的,請使用utf-8而不要使用utf8,因為utf8有些伺服器會有問題。

php使用iconv中文截斷問題的解決方法

今天做了乙個採集程式,原理很簡單,使用curl方法把對方頁面的html獲取分析,然後正則提取需要的資料並儲存在資料庫。由於對方頁面是gb2312編碼,而本地使用的是utf 8編碼。因此在採集後需要進行編碼轉換。使用了iconv方法進行編碼轉換 iconv 字串按要求的字元編碼來轉換 n程式設計客棧b...

iconv 中文截斷問題的解決方法

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!iconv 中文截斷問題的解決方法 今天做了乙個採集程式,原理很簡單,使用curl方法把對方頁面的html獲取分析,然後正則提取需要的資料並儲存在資料庫。由於對方頁面是gb2312編碼,而本地使用的是utf 8編碼。因此在採集後需要進行編碼轉換。使...

iconv工具解決csv檔案中文亂碼問題

1 iconv 簡介 iconv是知名的開源跨平台編碼轉換庫,iconv.exe是iconv庫在windows下的命令列工具 作用為 對於給定檔案把它的內容從一種編碼轉換成另一種編碼。2 iconv用法 iconv help f encoding 把字元從encoding編碼開始轉換。t encod...