怎麼把PDF中的文字提取出來

2021-07-10 19:44:58 字數 497 閱讀 8490

pdf文件大家也都見過,這種格式的文件編輯起來不像word文件那樣方便。在使用裡面的內容的時候也比較繁瑣。若要提取裡面的一些文字內容,一般都會想到複製,但是一次只能複製少量的文字內容,而且複製到word或者txt文件中後排版可能會亂。那有什麼高效的方法呢。

首先是我們用來開啟檢視pdf檔案都會用到的adobe reader,利用這個也是可以提取裡面的文字內容的。

先開啟pdf檔案,然後選擇「檔案-另存為」,將文件以文字格式儲存,也就是儲存為txt文字文件。

這種方法可以很快將pdf文件中的文字匯入到txt文字中,但是可以看到在排版上還是有一些錯誤,轉換後還需要對txt進行編輯。

安裝乙個pdf轉換工具,開啟選擇裡面的對應選項——檔案轉txt。然後將pdf檔案新增進來,用轉換工具可以一次對多個pdf檔案進行操作,而且可以轉換指定的頁面內容。

設定好儲存位置後,點開始轉換文件將自動進行轉換,pdf檔案中的文字型別的內容會轉換為txt文字文件。轉換後的文件排版不會改變,在後期編輯使用時比較方便。

把日期字串中的年月日提取出來

include stdafx.h include int monthday 12 bool parse date string const char date string,int year,int month,int day 存放格式為 月日年 len 0 int i 0 int temp 0 臨...

實踐 將無用的索引提取出來

將無用的索引提取出來 條件 1.monitoring一段時間,沒有使用過 2.不屬於pk unique約束的一部分 3.和外來鍵無關 這個裡面有漏洞,如果乙個外來鍵次序和多條索引匹配,則乙個都不匹配 滿足以上3個條件,認為這個索引是無效的,沒有用處的 select from v object usa...

把url中的引數取出來按照鍵值對的形式放在Map中

public class test 方法2 先取出後面的ie utf 8 f 3 rsv bp 1 在取出 ie utf 8,f 3,int index a.indexof string substring a.substring index string splits substring.spli...