iconv 中文截斷問題的解決方法

2021-08-31 22:21:25 字數 4422 閱讀 9783

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!

iconv 中文截斷問題的解決方法

今天做了乙個採集程式,原理很簡單,使用curl方法把對方頁面的html獲取分析,然後正則提取需要的資料並儲存在資料庫。

由於對方頁面是gb2312編碼,而本地使用的是utf-8編碼。因此在採集後需要進行編碼轉換。

使用了iconv方法進行編碼轉換

iconv — 字串按要求的字元編碼來轉換string iconv ( string $in_charset , string $out_charset , string $str )將字串 str 從 in_charset 轉換編碼到 out_charset 。
轉換的方法很簡單,直接使用iconv方法就可以了

<?php $content = iconv('gb2312', 'utf-8', $content); // $content為採集到的內容

?>

試驗了幾個頁面,都能正常採集。但在之後的採集中,有幾個頁面採集不完整。

一開始考慮是否正則有錯,檢查後排除此問題。經過排查,發現經過iconv轉碼後的內容比採集的內容少了一大段。

翻查手冊,看到以下說明

如果你在 out_charset 後新增了字串 //translit,將啟用轉寫(transliteration)功能。這個意思是,當乙個字元不能被目標字符集所表示時,它可以通過乙個或多個形似的字元來近似表達。 

如果你新增了字串 //ignore,不能以目標字符集表達的字元將被默默丟棄。 否則, str 從第乙個無效字元開始截斷並導致乙個 e_notice 。 

原來iconv遇到不能識別的內容,會從第乙個不能識別的字元開始截斷,並生成乙個e_notice。因此後邊的內容被丟棄了。

而在輸出字符集後加上//ignore則只丟棄不能識別的內容,而不會截斷和丟棄後面的內容。

修改程式後一切正常

<?php $content = iconv('gb2312', 'utf-8//ignore', $content); // $content為採集到的內容

?>

tips:使用iconv時,如果要使用utf-8編碼的,請使用utf-8而不要使用utf8,因為utf8有些伺服器會有問題。

給我老師的人工智慧教程打call!

你好! 這是你第一次使用 **markdown編輯器** 所展示的歡迎頁。如果你想學習如何使用markdown編輯器, 可以仔細閱讀這篇文章,了解一下markdown的基本語法知識。全新的介面設計,將會帶來全新的寫作體驗;

在創作中心設定你喜愛的**高亮樣式,markdown將**片顯示選擇的高亮樣式進行展示;

全新的katex數學公式語法;

增加了支援甘特圖的mermaid語法1

功能;增加了焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定等功能,功能按鈕位於編輯區域與預覽區域中間;

增加了檢查列表功能。

撤銷:ctrl/command + z

重做:ctrl/command + y

加粗:ctrl/command + b

斜體:ctrl/command + i

無序列表:ctrl/command + shift + u

有序列表:ctrl/command + shift + o

檢查列表:ctrl/command + shift + c

插入**:ctrl/command + shift + k

插入:ctrl/command + shift + g

直接輸入1次#,並按下space後,將生成1級標題。

輸入2次#,並按下space後,將生成2級標題。

以此類推,我們支援6級標題。有助於使用toc語法後生成乙個完美的目錄。

強調文字

強調文字

加粗文字加粗文字

標記文字

刪除文字

引用文字

h2o is是液體。

210 運算結果是 1024.

帶尺寸的:

當然,我們為了讓使用者更加便捷,我們增加了拖拽功能。

去部落格設定頁面,選擇一款你喜歡的**片高亮樣式,下面展示同樣高亮的**片.

// an highlighted block var foo = 'bar';
專案1專案2

專案3乙個簡單的**是這麼建立的:

專案value

電腦$1600

手機$12

導管$1

使用:---------:居中

使用:----------居左

使用----------:居右

第一列第二列

第三列第一列文字居中

第二列文字居右

第三列文字居左

smartypants將ascii標點字元轉換為「智慧型」印刷標點html實體。例如:

type

ascii

html

single backticks

'isn't this fun?'『isn』t this fun?』

quotes

"isn't this fun?"「isn』t this fun?」

dashes

-- is en-dash, --- is em-dash– is en-dash, — is em-dash

markdown

text-to-

html conversion tool

authors

john

luke

乙個具有註腳的文字。2

markdown將文字轉換為 html。

您可以使用渲染latex數學表示式 katex:

gamma公式展示 γ(n

)=(n

−1)!

∀n∈n

\gamma(n) = (n-1)!\quad\forall n\in\mathbb n

γ(n)=(

n−1)

!∀n∈

n 是通過尤拉積分

γ (z

)=∫0

∞tz−

1e−t

dt.\gamma(z) = \int_0^\infty t^e^dt\,.

γ(z)=∫

0∞​t

z−1e

−tdt

.

你可以找到更多關於的資訊latex數學表示式here.

gantt

dateformat yyyy-mm-dd

title adding gantt diagram functionality to mermaid

section 現有任務

已完成 :done, des1, 2014-01-06,2014-01-08

進行中 :active, des2, 2014-01-09, 3d

計畫一 : des3, after des2, 5d

計畫二 : des4, after des3, 5d

可以使用uml圖表進行渲染。 mermaid. 例如下面產生的乙個序列圖::

這將產生乙個流程圖。:

我們依舊會支援flowchart的流程圖:

如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到文章匯出,生成乙個.md檔案或者.html檔案進行本地儲存。

如果你想載入一篇你寫過的.md檔案或者.html檔案,在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入,

繼續你的創作。

mermaid語法說明↩︎

註腳的解釋 ↩︎

php使用iconv中文截斷問題的解決方法

今天做了乙個採集程式,原理很簡單,使用curl方法把對方頁面的html獲取分析,然後正則提取需要的資料並儲存在資料庫。由於對方頁面是gb2312編碼,而本地使用的是utf 8編碼。因此在採集後需要進行編碼轉換。使用了iconv方法進行編碼轉換 iconv 字串按要求的字元編碼來轉換 n程式設計客棧b...

iconv 中文截斷問題的解決方法

iconv 中文截斷問題的解決方法 今天做了乙個採集程式,原理很簡單,使用curl方法把對方頁面的html獲取分析,然後正則提取需要的資料並儲存在資料庫。由於對方頁面是gb2312編碼,而本地使用的是utf 8編碼。因此在採集後需要進行編碼轉換。使用了iconv方法進行編碼轉換 iconv 字串按要...

iconv工具解決csv檔案中文亂碼問題

1 iconv 簡介 iconv是知名的開源跨平台編碼轉換庫,iconv.exe是iconv庫在windows下的命令列工具 作用為 對於給定檔案把它的內容從一種編碼轉換成另一種編碼。2 iconv用法 iconv help f encoding 把字元從encoding編碼開始轉換。t encod...