PHP讀取各種文件內容並轉換為TXT文件

2021-09-30 09:34:21 字數 911 閱讀 1369

最近研究全文索引技術,要對區域網內各個資源站的全部內容進行全部索引。為了提高索引精度,要求索引ms word 的doc、docx檔案格式、ppt、pptx,excel的xls/xlsx檔案和pdf檔案的內容。要索引這些二進位制檔案,必須先把他們轉換成純文字格式才行。查到很多資料,很多都是利用office的com元件來讀取這些檔案的內容。但是這種方法只適用於windows平台,而我們的php系統的執行平台是linux生產伺服器。多方搜尋發現國內很少有這些資料。無奈去google。在瀏覽了大量相關論壇之後終於成功解決這個php 解析二進位制文件檔案轉換為txt文字格式的問題。

具體方法如下:

1. msdoc文件

使用catdoc命令轉換為text文字格式,命令如下

catdoc test.doc > test.txt

2. msxls文件

使用xls2cvs命令轉換xls為cvs逗號分隔符檔案,命令如下

xls2csv test.xls > test.xls.txt

3. msppt文件

使用catppt命令轉換為text文字格式,命令如下

catppt test.ppt > test.txt

4. msdocx文件

zip解壓縮檔案,讀取word/document.xml中節點定界段落,以定界文字分段,連綴即可。

tar zxvf xpdf-chinese-simplified.tar.gz

mkdir /usr/local/share/xpdf

cp xpdf-chinese-simplified /usr/local/share/xpdf/chinese-simplified

cp /usr/local/share/xpdf/chinese-simplified/add-to-xpdfrc /usr/local/etc/xpdfrc

上傳Text文件並轉換為PDF

今天在asp.net mvc環境中學習一些pdf相關的知識,想法是上傳檔案成功時,並把檔案轉換為pdf文件。在控制器建立操作 action 再在控制器中,建立另乙個操作方法,是處理檔案上傳以及轉換pdf的功能 filestream類去開啟檔案並讀取,獲取文件的byte array。itextshar...

上傳Text文件並轉換為PDF 解決亂碼

前些日子,insus.net有分享一篇 上傳text文件並轉換為pdf 它是按最簡單與預設方式來處理。它在處理帶有中文的文字檔案時,轉換為pdf時,中文不能正常顯示,亂碼。本篇算得上是在那基礎上,進行重構,解決亂碼問題。為了解決字元問題,我們需要在專案下建立乙個目錄,如fonts是用來儲存字型。我們...

python讀取TXT檔案資料並轉換為對應的矩陣

from numpy import a zeros 4,4 dtype float 先建立乙個全零方陣a,並且資料的型別設定為float浮點型 f open d b.txt 開啟資料檔案檔案 lines f.readlines 把全部資料檔案讀到乙個列表lines中 a row 0 表示矩陣的行,從...