python 網頁抓取資訊

2022-03-01 12:42:42 字數 2118 閱讀 7284

目標:從下面這個網頁抓取前10頁ip、埠、運營商、位址、最後檢測時間並存入mysql資料庫

#匯入需要使用到的模組

class

huoqu():

#讀入資料

def__init__

(self):

self.num=1

for i in range(10):

#獲取網頁資訊

response = requests.get('

'%i)

self.html =response.text

#print(html)

#是乙個字串

#提取資訊

self.ip = re.compile(r'

.*?(.*?).*?(.*?).*?(.*?).*?(.*?).*?(.*?).*?

',re.s)

self.res =re.findall(self.ip,self.html)

self.dbutil(self.res)

defdbutil(self,res):

#建立資料庫連線

self.db=pymysql.connect('

localhost

','root

','root

','python_an')

#獲取游標物件

self.cursor =self.db.cursor()

for ip_ in

self.res:

self.num+=1

#插入資料語句

query = """

insert into catering_sale (num,ip,port,geographical,perators,final_detection) values (%s,%s,%s,%s,%s,%s)

"""#去\t \n操作

values = (self.num,ip_[0].replace('

\n', '').replace('

\t', ''),ip_[1].replace('

\n', '').replace('

\t', ''),ip_[2].replace('

\n', '').replace('

\t', ''),ip_[3].replace('

\n', '').replace('

\t', ''),ip_[4].replace('

\n', '').replace('

\t', ''

)) self.cursor.execute(query,values)

#關閉游標,提交,關閉資料庫連線

#如果沒有這些關閉操作,執行後在資料庫中檢視不到資料

self.cursor.close()

self.db.commit()

self.db.close()

if__name__=='

__main__':

huoqu=huoqu()

huoqu.

__init__

.*?

(.*?)

.*?(.*?)

.*?(.*?)

.*?(.*?)

.*?(.*?)

.*?對應原始碼:

101.4.136.34

8080

北京市教育網

2019/08/05 17:30:08

資料庫:

測試結果:

python爬蟲抓取資訊 urllib

自己晚上寫的 本來抓取的是匯率 沒寫完 唉 路還長 繼續走 import requests import urllib.request import urllib.request import re import datetime def get headers 定義請求頭 換著請求頭進行爬取 he...

python 爬蟲實現網頁資訊抓取

首先實現關於網頁解析 讀取等操作我們要用到以下幾個模組 import urllib import urllib2 import re def test f urllib.urlopen while true firstline f.readline print firstline 我們大概要做幾件事...

php 抓取網頁資訊

最近要抓取網頁資料,就用php試了下,發現了乙個不錯的php抓取資料的整合類 html dom.php,而根據網頁的特點大致分為兩類,一類是網頁dom結構相同,url類似只是改了部分引數,這個 直接用 html file get html url 然後根據網頁dom用 html find plain...