url中有空格等特殊字元及中文字元處理

2021-08-20 18:54:23 字數 559 閱讀 7178

在做爬蟲時,爬下來的書籍的url位址各式各樣,什麼情況都有。

有的url位址既有中文,又有%20 空格等特殊字元。如 不成問題的問題%20-%20老舍.mobi

如果是在url中有中文需要轉碼,但轉碼後會將%號替換成%25,導致url不能訪問了。

解決的辦法,先判斷url中是否有中文,如果有中文,則替換特殊字元,再進行轉碼。

**如下:

判斷字串是否含有中文的方法:

public static boolean iscontainchinese(string str)

return false;

}#先判斷是否有中文,然後替換特殊字元,再轉碼,一般來說英文的url是不需要轉碼的。

中文特殊字元 空格

zc 全形空格儲存 以後直接複製就可以使用了 全形空格 與漢字一樣作為gbk的乙個字元,它對應的十進位製碼是 定義上是2個半形空格的大小,在網頁中卻大約相當於3 4個半形空格的大小,而且它自身不易被左對齊。全形空格一般適用於在強制性左對齊的情況下需要居中或者在其他特定位置的時候。一些亂碼字中也會出現...

URL 中文 特殊字元 亂碼處理

前提先了解瀏覽器解析url 關於不同瀏覽器對url編碼的分析 1.encodeuricomponent 與 encodeurl區別 encodeuri 該函式對傳入字串中的所有非 基本字元 mark字元和保留字元 進行轉義編碼 escaping 這些 用於分隔 uri 元件的標點符號 進行編碼 2....

html中的特殊字元(空格,括號等)

tml字元實體 html character entities 第一部分是乙個 符號,英文叫ampersand 第二部分是實體 entity 名字或者是 加上實體 entity 編號 第三部分是乙個分號。用實體 entity 名字的好處是比較好理解,一看lt,大概就猜出是less than的意思,但...