Java把Html格式文字轉換成純文字的問題

2021-07-09 08:49:32 字數 926 閱讀 7351

工作上需要把一段html內容轉換成純文字。

最簡單的辦法,是用正規表示式把全部的標籤替換成空字串,然後把被轉義的內容(尖括號,空格等)轉回來。這裡用到了stringescapeutils,來自apache commons lang library (commons-lang3-3.0.1.jar)

str = str.replaceall("\\<.*?\\>","");

str = stringescapeutils.unescapehtml(str);

上面的方法有點兒簡單粗暴。

稍微高階點兒的做法,保留換行。**如下:

public static string toplaintext(final string html)

final document document = jsoup.parse(html);

final outputsettings outputsettings = new document.outputsettings().prettyprint(false);

document.outputsettings(outputsettings);

document.select("p").prepend("\\n");

final string newhtml = document.html().replaceall("\\\\n", "\n");

final string plaintext = jsoup.clean(newhtml, "", whitelist.none(), outputsettings);

final string result = stringescapeutils.unescapehtml(plaintext.trim());

return result;

}

jsoup

HTML 格式,文字標籤

aaa aaaaa aaaaaaaa bbbbbbbbbbbbbbbb ccccccccccccccccccccc dddddddddddddddd aaaaaaaaaaaaaaaaaaaaaa bbbbbbbbbbbbbbbbbbbbbb cccccccccccccccccccccc dddddd...

HTML 文字格式化

html 使用標籤與對輸出的文字進行格式,如 粗體or 斜體 這些html標籤被稱為格式化標籤 請檢視底部完整標籤參考手冊 通常標籤替換加粗標籤來使用,替換 標籤使用。然而,這些標籤的含義是不同的 與定義粗體或斜體文字。或者 意味著你要呈現的文字是重要的,所以要突出顯示。現今所有主要瀏覽器都能渲染各...

HTML 文字格式化

1.定義粗體 bold 用標籤 2.定義大號字 標籤 3.定義著重文字 emphasized 標籤 4.定義斜體字 italic 標籤 5.定義小號字 small 標籤 6.定義加重語氣 strong 標籤 7.定義下標字 subscript 標籤 8.定義上標字 superscript 標籤 9....