第三者插足 Lucene的新歡xpdf

2021-05-24 05:36:21 字數 1733 閱讀 1204

有一天lucene

與pdfbox

之間多了一位,這便是

xpdf

。pdfbox

女士責罵

lucene

先生說:「我的

api功能如此強大,甚至能和你進行無縫結合,你為什麼還要去找別的女人?」可是

lucene

先生說:「你是知道的,

i love china

,可是你偏偏不支援中文文字的提取

……」於是乎,

lucene

先生就跟

xpdf

女士好上了。

好了,以上就是

xpdf

相對於pdfbox

的優勢了。那麼

lucene

僅憑藉這一原因就拋棄了

pdfbox

了嗎?不,當然不是。每一種技術在它獨有的領域裡面發揮著它最大的能量,

pdfbox

對於lucene

而言,當然還有其他可用之處的。況且每一種技術都更新的很快,現在的

pdfbox

想必已經更新很多次,增加了很多功能了吧。

xpdf

對pdf

檔案的txt

格式轉化,較

pdfbox

xpdf

的所有jar

包和程式。

(我用的是這個版本)和

xpsf-chinese-simplified.tar.gz

xpdf-3.02pl4-win32

解壓後發現有乙個叫做

pdftotext.exe

的應用程式,這個就是

xpdf

將pdf

轉化為txt

的工具了。做乙個小小的示範:將自己的

pdf檔案放到和

pdftotext.exe

檔案所在的同一目錄下;然後開啟

windows

命令列並進入到該目錄下;最後只要在命令列裡輸入這樣的一句話就大功告成了

pdftotxttest.pdftest.txt(

其中,test.pdf

是要轉化的

pdf檔案,

test.txt

是給轉化後

txt檔案命名

)。或者,直接將

test.pdf

拖入到pdftotxt.exe

檔案中,即可直接轉化成

txt檔案了。

通過以上的操作,我們不難發現,

xpdf

是簡單了不少吧。但是,上一會我們也提到,要將

pdf轉化為

txt,並不是看起來那麼簡單的事情,比如轉化後時候保持原來檔案的布局,編碼方式又如何設定,時候列印提示訊息,頁面之間是否加入分頁,如果不保持原來的布局又該怎麼設定等等一系列的

pdf屬性,都需要我們來處理。所以,我們在此寫乙個類,將這些屬性設定進行封裝,最後讓其返回乙個命令列命令的字串,直接呼叫

windows

命令列就

ok了。

(**如下)

這就是對

xpdf

中pdf

檔案的的屬性的封裝了,這裡只列舉了部分屬性,還有其他屬性和用法可以在

xpdf

的官網上學習。

最後,我們在寫乙個測試類進行測試,這裡也可以說是客戶端了。

(**如下)

第三者出現後

當證實他在外面跟情人有那種關係之後,我相信那一刻我的心是痛的,真心的傷心。一直以來我以為我不會再為他去傷心,卻沒有想到心還是那麼痛。哭了乙個下午,我黯然的回到那個家,開啟 不知道能做什麼,眼淚就忍不住流了下來。我聽到女兒幼稚的聲音在跟她奶奶說話,她說,奶奶,我媽媽剛剛哭了,我都沒有哭她還哭。然後聽到...

愛情六十課,總有第三者

在愛情裡,你最怕什麼?80 以上的人,都會說,怕 第三者 但是,大家最怕的 第三者 是一定會出現的。所以,請做好心理準備,即使它不是乙個有形的人,它也會以其他形式存在。第三者,究其定義,是橫在愛情兩個人之間的第三樣事物,它間隔了兩個人黏在一起的時間。讓你在某段時間裡,不能走入他的世界。因為那個時候,...

GTK GDK GLIB三者的關係

什麼是glib?glib庫提供了一系列函式 functions 和定義 definitions 在設計gdk和gtk程式時很有用.它提供了一些標準c函式庫 standard libc 的替代函式,比如malloc,但在其他的系統上使用時有很多問題.什麼是gtk gtk 是乙個小型而高效的控制項庫,具...