php 空格無法替換,utf 8空格惹的禍

2022-05-21 08:34:02 字數 1523 閱讀 2956

一次坑爹的小bug。讀取一段文字(編碼utf-8),想替換掉空格,str_replace(" "..)、preg_replace("/\s/"..)都不起作用。

<?php

// 替換後4個空格

$str = file_get_contents("");

$str = str_replace(" ", "-", $str);

$str = preg_replace("/\s/", "-", $str);

echo $str; // 不起作用

沒辦法,將替換不了的空格ord()下才看到,這個utf-8空格比較特殊。ascii 194 + 160出來的。

<?php

// 替換後4個空格

$str = file_get_contents("");

$str = str_replace(chr(194) . chr(160), "-", $str); // 解決方法

echo $str; // ok

實驗下這個空格。

<?php

// utf-8無bom檔案下,四個空格

$s1 = chr(194) . chr(160);

$s2 = chr(32);

$s3 = " ";

$s4 = " "; // 全形空格

$s = $s1 . $s2 . $s3 . $s4;

// 判斷

$r = '';

if ($s1 == $s2) $r .= 1;

if ($s1 == $s3) $r .= 2;

if ($s1 == $s4) $r .= 3;

if ($s2 == $s3) $r .= 4;

if ($s2 == $s4) $r .= 5;

if ($s3 == $s4) $r .= 6;

// 結果

echo $s, "#####", $r, "####", str_replace(" ", "-", $s), "####", preg_replace("/\s/", "-", $s);

結果:為方便書寫,|代表空格,|代表全形空格。

||||####4####|--|####|--|

改下瀏覽器編碼為gbk,結果:聽 銆€#####4####聽--銆€####聽--銆€

問題的根源,在於utf-8這種編碼裡面,存在乙個特殊的字元,其編碼是「0xc2 0xa0」(194 160),轉換成字元的時候,表現為乙個空格,跟一般的半形空格(ascii 0x20)一樣,唯一的不同是它的寬度不會被壓縮,因此比較多的被用於網頁排版(如首行縮排之類)。而其他的編碼方式如gb2312、unicode之類並沒有這樣的字元。

總結下來就是:替換不了的字元,列印出ascii碼來總能替換掉吧。

參考:解決採集utf-8網頁空格變成問號亂碼

詭異的utf8空格

UTF 8編碼的空格(194 160)問題

前台的字串傳遞到後台進行處理,發現了乙個較詭異的問題 字串中的乙個空格 ascii 32 被utf 8編碼之後變成了乙個詭異的字元 ascii 194 和 160的組合 但在後台其表象還是空格。在utf 8編碼裡面存在乙個特殊的字元,其編碼是 0xc2 0xa0 轉換成字元的時候表現為乙個半角空格,...

UTF 8編碼的空格(194 160)問題

前台的字串傳遞到後台進行處理,發現了乙個較詭異的問題 字串中的乙個空格 ascii 32 被utf 8編碼之後變成了乙個詭異的字元 ascii 194 和 160的組合 但在後台其表象還是空格。在utf 8編碼裡面存在乙個特殊的字元,其編碼是 0xc2 0xa0 轉換成字元的時候表現為乙個半角空格,...

Java 解決採集UTF 8網頁空格變成問號亂碼

問題的根源,在於utf 8這種編碼裡面,存在乙個特殊的字元,其編碼是 0xc2 0xa0 轉換成字元的時候,表現為乙個空格,跟一般的半形空格 ascii 0x20 一樣,唯一的不同是它的寬度不會被壓縮,因此比較多的被用於網頁排版 如首行縮排之類 而其他的編碼方式如gb2312 unicode之類並沒...