python 得到HTML指定ID的內容

2021-06-19 14:30:00 字數 1730 閱讀 6377

大多時候,我們需要得到乙個html檔案中指定的內容,比如得到指定id的內容,寫了個指令碼,就實現了這個功能,和大家一起分享一下。

##

# created by gudonghua#gmail.com

# posted in @ 2011-12-23

# ##

import re

import os

ignore_tags_start = [

"]*id=['"]?""" + id_name + """['" ][^>]*>"""

id_tag = re.findall(patt_id_tag, content, re.dotall|re.ignorecase)

if id_tag:

id_tag = id_tag[0]

return id_tag

def find_all_tags(content):

tag_patt = """<[^>]*>"""

tags = re.findall(tag_patt, content)

return tags

def get_html_id(content, id_name):

tag_content = ""

all_tags = find_all_tags(content)

id_tag = get_id_tag(content, id_name)

print "id_tag", id_tag

tag_stack =

if not id_tag:

return ""

in_tag = 0

id_content = ""

index = 0

for tag in all_tags:

if in_tag == 0 and tag == id_tag:

start_index = content.find(tag)

index = start_index + len(tag)

in_tag = 1

print "in_tag", tag

elif in_tag == 1:

print len(tag_stack), tag_stack[0:2]

ignore_flag = 0

for t in ignore_tags_start:

if tag.startswith(t):

ignore_flag = 1; break

for t in ignore_tags_end:

if tag.endswith(t):

ignore_flag = 1; break

if ignore_flag:

continue

if tag.startswith("tag_stack.pop()

else:

index = content.find(tag, index)

index += len(tag)

if not tag_stack:

id_content = content[start_index: index]

break

return id_content

if __name__ == "__main__":

content = open("ft2.htm").read()

print get_html_id(content, "bodytext")

得到指定檔案的資訊

char szfilename c enochshen.exe dword dwsize getfileversioninfosize szfilename,null lpvoid pblock malloc dwsize getfileversioninfo szfilename,0,dwsize...

得到占用指定dll的程序

接之前的一篇文章 在製作軟體的安裝解除安裝時,有時一些動態庫被某些程序占用,不可以直接刪除,需要先將占用這個動態庫的程序結束。怎麼才能知道動態庫被哪個程序占用呢?開始的思路是這樣的,在dos裡面有這樣乙個命令 tasklist m dll 這個命令會列出所有占用了 dll的程序。ok,原理簡單。只要...

Qt Windows API給指定網絡卡增加IP

pro檔案中加入network模組 include include windows api相關依賴 include iphlpapi.h pragma comment lib,iphlpapi.lib windows api相關依賴 pip adapter info結構體儲存本機網絡卡資訊,包括本地...