python讀取docx內容

2022-08-03 16:09:14 字數 798 閱讀 8868

環境:pycharm python3.7

#獲取文章全部內容

doc=docx.document('d:\\users\\administrator\\pycharmprojects\\bigdata\\detail\\a.docx')

一級標題

for p in doc.paragraphs:

if p.style.name=='heading 1':

print(p.text)

#二級標題

for p in doc.paragraphs:

if p.style.name=='heading 2':

print(p.text)

#所有標題

import re

for p in doc.paragraphs:

if re.match("^heading \d+$",p.style.name):

print(p.text)

#所有內容

for p in doc.paragraphs:

if p.style.name=='normal':

print(p.text)

#從前面可以看出,如果知道不同內容的style.name,那麼要讀這些內容是極其方便的,這些style.name可以通過:

#print(p.style.name)得到

for p in doc.paragraphs:

if p.style.name=='級別3:黑體 13磅 20行距 段落前後20 左對齊':

print(p.text)

#輸出對應內容

python獲取docx文件的內容 文字

簡單的說,docx裡面的每乙個段落都是乙個paragraph物件,段落中文字如果有不同的樣式 加粗,斜體 就會有不同的run物件,而且paragraph和run物件都有乙個text屬性,表示的是他包含的文字 import docx defgettext filename doc docx.docum...

Python讀取PDF內容

1,引言 晚上翻看 python網路資料採集 這本書,看到讀取pdf內容的 想起來前幾天 集搜客剛剛發布了乙個 抓取網頁pdf內容的抓取規則 這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於firefox解析pdf的能力,能夠把pdf格式轉換成html標籤,比如,div之類的標籤,...

Python讀取Excel內容

xlsxwrite openpyxl xlrd xlwt microsoft excel,其差異大致如下 此次專案有個需求是前端頁面上傳乙份excel檔案,後端這邊將其內容讀取到,並存入資料庫中 大概有兩個點,接收上傳的檔案,讀取excel內容,存入資料庫中 2.1flask有個處理接收到的檔案的方...