java處理office文件與pdf檔案 一

2021-09-01 19:21:58 字數 523 閱讀 4472

需求說明:

使用者可以上傳word,excel,ppt,pdf檔案。在頁面能夠預覽該檔案,並可以通過搜尋,找到對應的檔案記錄。

使用技術:

通過jacob將office轉化為html,使用poi進行檔案提取;

在前期調研的時候,搜尋其他將office轉化為html的技術,發現其轉化之後的頁面都不怎麼逼真。但是,使用jacob轉化的時候樣式還可以就是有一點,該專案必須部署在windows環境上。通過協調之後,準備放棄相容性使用jacob做html的轉化。對於pdf的處理思路,在搜尋pdf轉化時,發現很多技術轉化之後,檔案都不怎麼好看。想到直接使用html的embed標籤實現。因為該專案主要在內網執行,所以載入相對較快。但是在使用該方案時,必須在ie時設定activex的級別,並且客戶端主機需安裝對應的pdf閱讀器。

資料庫:

oracle10g

實現思路整理:

1、檔案上傳至upload資料夾

2、將檔案轉化為html;

3、提取檔案內容以作搜尋使用。

第二章 傳送門 

給開發處理office文件的經驗

1.從內部試題 上提取試題到excel中,做為題庫 內部試題 不能通過提取 的方法來直接得到 只能複製到excel 但是複製過來的資料分行顯示在單元格裡,一合併就只顯示第乙個單元格的內容 進一步解決 解決excel 自動篩選時只顯示合併單元格的第一行問題 問題1 有一行資料的行高不能調整,原因是達到...

Office文件,pdf文件轉swf

以下操作的環境,ubuntu server版本,64位 openoffice swftools 先檢視操作是多少位的,然後去相應的jdk,和tomcat,最少是jdk6以上的版本 將jdk和tomcat解壓 開啟 etc environment 檔案 在path後面新增配置資訊 在path最後加上乙...

Office 文件解析 文件格式和協議

本文討論的 office 文件指的是 office 2007 及以後的 pptx 和 xlsx 等格式的檔案。在 office 2007 之前使用的不公開標準的二進位制格式定義。在 office 2007 之後的文件格式使用 ooxml 國際標準定義,本文將告訴大家這個標準的協議和格式 在 offi...