java字串編碼型別獲取

2021-08-29 13:26:54 字數 878 閱讀 8541

漢字編碼是一項較為麻煩的事情,弄不好就會造出些誰都看不懂的亂碼。比如我想做個針對漢字**的爬蟲系統,需要對非特定的頁面進行資料解析處理,而此時我所訪問的頁面編碼格式未知,如果不能正確處理頁面編碼,則很難獲得我們理想中的資料。

通常這時候可能有幾種選擇:

一是根據response的contenttype獲得,如果伺服器支援的話此項中會返回charset數值,解析即可。但對不返回或者不支援的伺服器則無能為力。

二是使用正則或自定**析函式擷取頁面中『charset=』後的資料,採取死釘戰術,但萬一採集的頁面中沒有此項或者此項有錯,也就回天乏術。

三就是老老實實的解析全文,最後返回乙個符合的編碼格式。

此例中我演示了幾種較常見編碼的識別方法,通過統計編碼為指定編碼的或然率, 而後返回可能性最高的編碼方式。在無法獲得確切編碼之時,這可說是一種唯一的選擇。

這種識別方式主要是針對漢字編碼而來,所以對應頁面中的漢字數目越多,統計結果就越準確,反之則很難識別出正確結果。

package org.wing.encoding;

/** *//**

* * title: loonframework

* *

* description:編碼基本型別集合

* *

* *

* license:

* *

* @author chenpeng

* @email:[email protected]

* @version 0.1

*/public class encoding ...

public string toencoding(final int type) ...

}

java 字串編碼轉換

public class changecharset 將字元編碼轉換成iso 8859 1碼 public static string toiso 8859 1 string str throws unsupportedencodingexception 將字元編碼轉換成utf 8碼 public ...

字串編碼

1.unicode 的編碼方式 編碼類似1小時和60分鐘的關係,本質的時間刻度還是相同的。unicode 編碼有 utf 8 utf 16 和 utf 32 它們都是將數字轉換到程式資料的編碼方案。utf 8 以位元組為單位。表示乙個字元時,能用乙個位元組就不用兩個或者三個位元組表示。utf 16 ...

獲取字串的unicode編碼

平時我們在開發移動終端應用程式的時候,經常需要把字串資源轉化為unicode編碼。本文來介紹乙個較為簡單的方法,將整個字串的unicode編碼轉化出來。方便演示 只是寫了個控制台的程式,大家需要的話,可以根據下面的方法,寫個mfc的應用程式。具體的 如下 在vc6上執行,測試ok。輸入 please...