Java 解決採集UTF 8網頁空格變成問號亂碼

問題的根源，在於utf-8這種編碼裡面，存在乙個特殊的字元，其編碼是「0xc2 0xa0」，轉換成字元的時候，表現為乙個空格，跟一般的半形空格（ascii 0x20）一樣，唯一的不同是它的寬度不會被壓縮，因此比較多的被用於網頁排版（如首行縮排之類）。而其他的編碼方式如gb2312、unicode之類並沒有這樣的字元，因此如果簡單地進行編碼轉換，生成地gb2312/unocode字串中，這個字元就會被替換成為問號（ascii ox3f）。此時如果進行寫庫、寫檔案之類，就會把問號直接寫入了。當然此時會有一種山寨方式：直接替換問號為空格。可是這種方法，會把原本真正的問號也*斃掉。

使用utf-8進行htmldecode的時候，對於語句開頭的（），就會被自動轉換成為這個特殊的空格，可能是判斷為放在開頭的空格，一定是用來排版的。在轉換為其他編碼之前，這個特殊的空格受到的待遇與普通的半形空格是一致的，甚至也會被trim()去掉。

因此，碰到這個問題的原因有兩種：一種是在utf-8編碼下進行了轉換，產生了這個字元；還有一種就是網頁中直接採用了這個字元進行排版。

byte bytes = ;
string utfspace = new string(bytes,"utf-8");
html = html.replaceall(utfspace, " ");

這樣做，就不會把串裡面本來應該有的問號錯誤的替換為空格。也不會看到討厭的問號，能儲存原來字串的真面目了。

需要強調的是，替換之前不能進行編碼轉換，一定要繼續使用utf-8編碼。如果已經轉換成其他編碼，那麼錯誤就已經不可逆轉了。沒有辦法再區分這個錯誤的問號和正常的問號之間的差別了。

Java 解決採集UTF 8網頁空格變成問號亂碼

Java 解決採集UTF 8網頁空格變成問號亂碼

UTF 8亂碼解決

《轉》亂碼UTF8和UTF 8網頁編碼

Java 解決採集UTF 8網頁空格變成問號亂碼

Java 解決採集UTF 8網頁空格變成問號亂碼

UTF 8亂碼解決

《轉》亂碼UTF8和UTF 8網頁編碼

相關推薦