Python HTML轉換為TXT的指令碼

2021-04-12 16:00:20 字數 2091 閱讀 6037

朋友給我發了一些文章,是html格式的。但是我的a1200手機只適合看txt格式的書,所以寫了乙個指令碼,把某個目錄下的所有.htm檔案轉換成txt,並放到txt目錄下。

1 

from formatter import abstractformatter, nullwriter

2 from htmllib import htmlparser

3 4

def_(str, in_encoder="gbk", out_encoder="utf8"):

5returnunicode(str, in_encoder).encode(out_encoder)

6 7

8classmywriter(nullwriter):

9def__init__(self):

10 nullwriter.__init__(self)

11 self._bodytext =

12 13

def

16def_get_bodytext(self):

17return'/n'.join(self._bodytext)

18 19 bodytext = property(_get_bodytext, none, none, 'plain text from body')

20 21

classmyhtmlparser(htmlparser):

22defdo_meta(self, attrs):

23 self.metas = attrs

24 25

defconvertfile(filename):

26 mywriter = mywriter()

27 absformatter = abstractformatter(mywriter)

28 parser = myhtmlparser(absformatter)

29 parser.feed(open(filename).read())

30return( _(parser.title), parser.formatter.writer.bodytext )

31 32

import os

33 import os.path

34 35 outputdir = "./txt"

36 inputdir = "."

37if__name__ == "__main__":

38ifnotos.path.exists(outputdir):

39 os.mkdir(outputdir)

40 41

forfileinos.listdir(inputdir):

42iffile[-4:] == '.htm':

43print"coverting", file,

44 outfilename, text = convertfile(file)

45 outfilename = outfilename + '.txt'

46 outfullname = os.path.join(outputdir, outfilename)

47 open(outfullname, "wt").write(text)

48print"done!"

49 btw:以上這段**是用vim的 :tohtml 命令轉換而成。

pythonvbb轉換txt VB讀取txt的資料

vb讀取txt的資料 1概述vb通常結合其他的計算工具進行相關的二次開發,在呼叫軟體進行計算時產生的結果檔案很多都是txt格式的,或者有時候為了方便輸出會在計算軟體裡面有意將想要的結果輸出為txt格式的檔案進行儲存。在vb裡除了需要呼叫計算,還需要對txt的結果進行讀取並顯示,以及做相關的計算。vb...

word轉換為txt txt轉換為word 等等

在工作中,有可能需要將大量word的doc文件格式轉換為txt文字檔案格式。如果轉換量少,可以在word中利用 另存為 命令,但是當轉換量比較大 的時候用 另存為 的方法就很麻煩也很慢了,我們下面介紹如何在word中利用 轉換嚮導 快速完成這個任務的方法。具體操作以word2003為例,其 它版本可...

把int轉換為char把int轉換為char

char ultoa unsigned long value,char string,int radix 將無符號整型數value轉換成字串並返回該字串,radix為轉換時所用基數 char ltoa long value,char string,int radix 將長整型數value轉換成字串並...