使用XPDF將PDF轉換為HTML

2021-08-29 21:49:44 字數 1733 閱讀 5652

使用xpdf將pdf轉換為html

1.6 word/excel/pdf檔案轉換成html整理

4、解壓除錯

1) 先將xpdf-3.02pl2-win32.zip解壓,解壓後的內容可根據需要進行刪減,如果只需要轉換為txt格式,其他的

exe檔案可以刪除,只保留pdftotext.exe,以此類推;

2) 然後將xpdf-chinese-simplified.tar.gz解壓到剛才xpdf-3.02pl2-win32.zip的解壓目錄;

3) 將pdftohtml-0.39-win32.tar.gz解壓,pdftohtml.exe解壓到xpdf-3.02pl2-win32.zip的解壓目錄;

4) 目錄結構:

+---[x:\xpdf]

|-------各種轉換用到的exe檔案

||-------xpdfrc

|+------[x:\xpdf\xpdf-chinese-simplified]

| 1.6 word/excel/pdf檔案轉換成html整理

|+-------很多轉換時需要用到的字元檔案

xpdfrc:此檔案是用來宣告轉換字符集對應路徑的檔案

5) 修改xpdfrc檔案(檔案原名為sample-xpdfrc)

修改檔案內容為:

#----- begin chinese simplified support package

cidtounicode adobe-gb1 xpdf-chinese-simplified\adobe-gb1.cidtounicode

unicodemap iso-2022-cn xpdf-chinese-simplified\iso-2022-cn.unicodemap

unicodemap euc-cn xpdf-chinese-simplified\euc-cn.unicodemap

unicodemap gbk xpdf-chinese-simplified\gbk.unicodemap

cmapdir adobe-gb1 xpdf-chinese-simplified\cmap

tounicodedir xpdf-chinese-simplified\cmap

fontdir c:\windows\fonts

displaycidfonttt adobe-gb1 c:\windows\fonts\simhei.ttf

#----- end chinese simplified support package

6) 建立bat檔案pdftohtml.bat(放置的路徑不能包含空格)

內容為:

@echo off

set folderpath=%1

set filepath=%2

cd /d %folderpath%

pdftohtml -enc gbk %filepath%

exit

1.6 word/excel/pdf檔案轉換成html整理

7) 建立類

public class convertpdf

}private static int checkcontenttype()

private static void tohtml()

catch (ioexception e)}}

}string cmd = "....";此處**是呼叫建立的bat檔案進行轉換

8) 測試轉換

public static void main(string args)

使用XPDF將PDF轉換為HTML

4 解壓除錯 1 先將xpdf 3.02pl4 win32.zip解壓,解壓後的內容可根據需要進行刪減,如果只需要轉換為txt格式,其他的exe檔案可以刪除,只保留pdftotext.exe,以此類推 2 然後將xpdf chinese simplified.tar.gz解壓到剛才xpdf 3.02...

將Office文件轉換為PDF

匯入的包 pom.xml中 com.github.livesense jodconverter core 1.0.5 param sourcefile 原始檔,絕對路徑.可以是office2003 2007全部格式的文件,office2010的沒測試.包括.doc,docx,xls,xlsx,ppt...

Jsp結合XML XSLT將輸出轉換為Html格式

xstl即可可擴充套件的樣式表轉換語言 可採用xslt技術將xml結構的資料轉換為html頁面的 jakarta.apache.org 提供的有三個關鍵包 xerces.jar xalan.jar xsl.jar 我們知道 xml xslt就可以直接輸出到支援xml的瀏覽器上,如ie 5.0以上,但...