python抓取script VAR變數

2021-10-08 15:34:19 字數 891 閱讀 5083

因工作需要對乙個指令碼裡的var變數進行提取,看了很多教程,安裝了一堆的庫lxml、bs4、json,後來發現都沒有用,最基本的re和requests就夠了,先上var所在script 內容

var mymarhq ='';

clearinterval

(mymarhq);$

('.tbl-body tbody').

empty()

;$('.tbl-header tbody').

empty()

;var str ='';

var items =[,

,,,]

;var items_ =

0

需要提取 var items 後面的內容,想了很多辦法,都不好用,最後用正規表示式搞定。

import re

import requests

url =

'your url'

#var 所在網頁

resp = requests.get(url)

text = resp.text

# print(text)

cbrbms = re.findall(r""".+?cbrbm":"(.+?)"

.+?cbrmc":"(.+?)"

""", text, re.verbose | re.dotall)

# '.+?'意思是任意一串字元,cbrbm和後面的符號表示用於識別的關鍵字,()表示要提取的內容,()後的雙引號表示提取結束的標識, re.verbose | re.dotall什麼意思我也不太懂,但是乙個不能少,少了就提取不出來。

效果就是提取了,cbrbm(人員編碼)和cbrmc(人員名稱),取回來是list型別。

Python抓取網頁

在python中,使用urllib2這個元件來抓取網頁。coding utf 8 urllib2是python的乙個獲取urls uniform resource locators 的元件。import urllib2 它以urlopen函式的形式提供了乙個非常簡單的介面 response urll...

Python抓取小說

這個指令碼命令mac在抓取 寫,使用python它有幾個碼。coding utf 8 import re import urllib2 import chardet import sys from bs4 import beautifulsoup import codecs class spider...

Python網頁抓取

coding utf 8 import urllib 匯入模組 print dir urllib 檢視urllib方法 print help urllib.urlopen 檢視幫助文件 url 定義 html urllib.urlopen url 開啟url print html.read urlo...