python寫的乙個簡單的spider

2021-06-16 03:01:55 字數 313 閱讀 7390

1.  html parser:  繼承sgmlparser類, 對html頁面中的正文(tag )和錨點 (tag ) 的內容進行提取

2.  spider:  用urllib開啟html page,通過myparser提取頁面資訊(正文和錨點). 通過關鍵字提取有用資訊:只有包含了關鍵字的資訊才會被保留下來,其他資訊都會被捨棄掉。這個功能非常適合在網頁上搜取想要的資訊。 如果關鍵字為空,則預設把所有資訊都保留下來。

不足(待改進):

1)不支援遞迴搜尋

2)  只提取網頁中的正文資訊和錨點資訊

3)  關鍵字搜尋功能有待加強

用python寫乙個簡單的視窗

import sys if name main 建立乙個視窗 w qwidget 設定視窗的尺寸 w.resize 400,200 移動視窗 w.move 300,300 設定視窗的標題 w.setwindowtitle 第乙個基於pyqt5的桌面應用 顯示視窗 w.show 進入程式的主迴圈 並通...

python寫乙個服務 Python寫乙個服務

coding utf 8 import json from urllib.parse import parse qs from wsgiref.server import make server 定義函式,引數是函式的兩個引數,都是python本身定義的,預設就行了。定義檔案請求的型別和當前請求成功...

寫乙個簡單的迷宮

二話不說 上迷宮 include include define number 13 int fx 4 int fy 4 void prin char arr number 列印 bool work char arr number int x,int y 判斷是否可以走 bool mymap char...