使用pageoffice的坑

2021-08-24 17:45:58 字數 1139 閱讀 5681

我需要讀取pageoffice編輯儲存後的文件內容,但是我們新建的word檔案大多數都是iso88591格式的,所以讀出後都是亂碼,用了各種解碼編碼都不行,pageoffice生成的.htm檔案本身是gb2312格式的,所以我用gb2312格式讀出再轉utf-8格式後沒有出現亂碼

具體核心**如下

file fi=new file(htmlpath);

if(fi.exists())

byte data = outhtml.tobytearray();

htm=new string(data,"gb2312");

htm=gb2312toutf8(htm);

htm=htm.replaceall(filename,allcommonimagepath);

}catch(ioexception e)

}// 將 gb2312 編碼格式的字串轉換為 utf-8 格式的字串:

public static string gb2312toutf8(string str) catch (unsupportedencodingexception e)

return urlencode;

但是對於生成的word檔案怎麼試都不行,讀出都是亂碼,我使用檔案流寫入另外乙個檔案也沒亂碼問題啊,後來發現因為兩個檔案編碼格式都是iso88591,所以正常,

後來看資料說poi方式可以正常讀出,試了一下果然可以,喜出望外,不料又帶來了新的問題,poi的方式在不同電腦上會表現出不一樣的,我的word編輯器是wps,使用如下方式讀出檔案內容(jar包自己網上找,我記得我用的是3.16,但是有個高版本的確沒有,這裡也被坑)

fileinputstream fis = new fileinputstream(file);

hwpfdocument cx = new hwpfdocument(fis);

txtcontent=cx.getdocumenttext();

file file=new file(pgfilepath);//建立乙個新的file例項

if(file.exists()) catch (invalidformatexception e) catch (ioexception e) finallyelse

return txtcontent;

}}else

PentestBox使用的坑

開啟時如果出現,doskey不是內部或外部指令,把c windows system32新增進入環境變數 使用一些命令時表示不是內部或外部指令,先輸入cmd回車然後再輸入指令 使用一些python指令 eg toolsmanager 時可能會出現錯誤 是因為該工具使用python2,要把環境變數中的p...

StringUtils使用的坑

url中只有乙個位址,測試由stringutils.split url,轉換出來為null 對字串進行賦值例如 url 1,2,3,9 stringutils.split url,按道理來說會拆分成四個元素,但實際列印出來的長度為2,包含1和2,3,9 我去網上查詢資料發現使用 沒有問題啊,也沒有找...

layui table使用的坑

先來個完整案例 layui table lay even lay skin nob id trecord lay filter test table function layuitable 資料介面 page true 開啟分頁 limit 15 展示的最大行數 cols 表頭,載入完畢 done ...