Linux下PDF操作與轉換

2021-09-07 23:25:54 字數 3430 閱讀 6223

如果說pdf是電子紙張,那麼pdftk就是電子起釘器、打孔機、粘合劑、解密指環和 x光鏡片。pdftk是乙個簡單的工具,可以對pdf文件進行各種日常操作。pdftk可以讓你簡單而自由地操作pdf。它不需要acrobat,並且可 以執行在 linux, windows, mac os x, freebsd和solaris之上。在debian/ubuntu中你可以通過apt安裝pdftk:

$ sudo aptitude install pdftk

將兩個或更多個pdf合併成乙個新文件

$ pdftk 1.pdf 2.pdf 3.pdf cat output 123.pdf

或者 (使用控制代碼):

$ pdftk a=1.pdf b=2.pdf cat a b output 12.pdf

或者 (使用萬用字元):

$ pdftk *.pdf cat output combined.pdf

將多個pdf中選定的頁面分離出來並形成乙個新文件

$ pdftk a=one.pdf b=two.pdf cat a1-7 b1-5 a8 output combined.pdf

將pdf的第一頁順時針旋轉90度

$ pdftk in.pdf cat 1e 2-end output out.pdf

將整個pdf文件的頁面旋轉180度

$ pdftk in.pdf cat 1-ends output out.pdf

用128位強度(預設)對乙個pdf進行加密,保留所有權利(預設)

$ pdftk mydoc.pdf output mydoc.128.pdf owner_pw foopass

同上,唯一例外的是需要密碼才能開啟這個pdf

$ pdftk mydoc.pdf output mydoc.128.pdf owner_pw foo user_pw baz

同上,例外的是允許列印(在pdf被開啟以後)

$ pdftk mydoc.pdf output mydoc.128.pdf owner_pw foo user_pw baz allow printing

加密乙個pdf

$ pdftk secured.pdf input_pw foopass output unsecured.pdf

合併兩個檔案,其中乙個是加密的 (輸出是不加密的)

$ pdftk a=secured.pdf mydoc.pdf input_pw a=foopass cat output combined.pdf

解壓pdf頁面流,以便可以在文字編輯器中編輯pdf**

$ pdftk mydoc.pdf output mydoc.clear.pdf uncompress

修復乙個pdf被破壞的xref表和流長度 (如果可能的話)

$ pdftk broken.pdf output fixed.pdf

將單個pdf文件拆分成乙個個頁面,並且將相關資料報告到doc_data.txt

$ pdftk mydoc.pdf burst

報告pdf文件的元資料、書籤和頁面標籤

$ pdftk mydoc.pdf dump_data output report.txt

poppler是乙個基於xpdf-3.0**基礎的pdf渲染庫。 poppler-utils軟體包包括了pdftops (pdf到postscript的轉換器), pdfinfo (pdf文件資訊提取器), pdfimages (pdf影象提取器), pdftohtml (pdf到html的轉換器), pdftotext (pdf到text的轉換器), 以及pdffonts (pdf字型分析器)。debian/ubuntu使用者可以通過apt安裝poppler:

$ sudo aptitude install poppler-utils

轉換pdf到text

pdftotext將可移植文件格式(pdf)檔案轉換成純文字。

$ pdftotext example.pdf example.txt

如果文字檔案未指定, pdftotext將file.pdf轉換成file.txt。如果文字檔案是 ?-』,則文字會被送到標準輸出。

轉換第3到7頁(包括3和7)使用:

$ pdftotext -f 3 -l 7 example.pdf example.txt

只提取第3頁

$ pdftotext -f 3 -l 3 example.pdf example.txt

$ pdftotext -layout example.pdf example.txt

上面的命令可以維持原始的物理布局並按閱讀順序輸出文字。如果不想插入頁面分隔符你可以設定-nopgbrk選項。如果pdf檔案有密碼保護,可以設定-opw (擁有者密碼)或者-upw (使用者密碼)選項。

從pdf提取影象

pdfimages從可移植文件格式(pdf)檔案中提取,儲存為可移植畫素圖(ppm), 可移植位圖(pbm), 或者jpeg檔案。pdfimages讀取pdf檔案,掃瞄乙個或多個頁面,並將每乙個影象寫入乙個名為image-root-nnn.***的ppm、 pbm或者jpeg檔案,其中nnn是影象編號,***是影象型別(.ppm, .pbm, .jpg)。pdfimages從pdf檔案提取原始影象資料,不做任何額外的變化。任何pdf內容流裡的旋轉,剪下,顏色反轉等動作都被忽略。

$ pfdimages example.pdf exampleimage

上面這個命令會從example.pdf提取所有的影象。影象會被儲存為ppm格式。

使用-j選項將影象儲存為jpg格式

$ pfdimages -j example.pdf exampleimage

使用-f和-l選項制定起始頁和結束頁。為了掃瞄第3至7頁(包括3和7)使用:

$ pfdimages -f 3 -l 7 example.pdf exampleimage

只掃瞄指定的某一頁使用:

$ pfdimages -f 3 -l 3 example.pdf exampleimage

如果pdf檔案有密碼保護使用-opw和-upw選項:

-opw 擁有著密碼

-upw 使用者密碼

轉換pdf到html

pdftohtml是乙個將pdf文件轉換成html的程式。它在當前工作目錄中產生輸出。

用法:$ pdftohtml file.pdf file.html

如果你想要看到圖形,需要使用 -c (也就是「complex」) 選項:

$ pdftohtml -c file.pdf file.html

轉換pdf到影象

首先你的機器上必須已經安裝 imagemagick。要在debian/ubuntu上安裝imagemagick可以執行下面的命令:

$ sudo aptitude install imagemagick

要將 pdf 檔案轉換成影象使用『convert『 命令:

$ convert doc.pdf doc.jpeg

轉換成 tiff

$ convert doc.pdf doc.tiff

多個PDF合併怎麼操作?用爍光PDF轉換器!

多個pdf合併怎麼操作?pdf檔案在工作學習生活中運用得越來越多了,有時候不可避免地會碰上需要將多個pdf檔案合併成為乙個pdf檔案的需求,比如需要批量列印pdf檔案的時候,那麼有什麼方法可以合併pdf檔案嗎?pdf合併該怎麼做?今天給大家推薦一款非常值得安利的pdf轉換器 爍光pdf轉換器。爍光p...

txt轉換pdf格式的操作步驟解析

很多使用者在使用網上免費的pdf軟體轉txt為pdf後,發現生成的pdf文件裡面的文字全是亂碼,只有部分的段落顯示正常,而其他部分的文字和 都是模糊不清的符號?這究竟是怎麼回事?選擇什麼txt轉換成pdf轉換器才能保證轉出的pdf檔案不存在亂碼現象?要解決這一難題,我們還需從軟體自身的識別機制上談起...

PDF操作指南之linux作業系統

無論是出於辦公需求,還是個人生活需求,如今電腦中的office常用軟體已經擴充套件到pdf之中,無論是ppt還是word文件經常需要轉換成pdf格式。而對於linux系統而言,並沒有自帶的pdf軟體。對linux使用者而言,要找到乙個合適的 好用的pdf編輯器並不是乙個容易完成的任務。今天筆者試著為...