獲取網頁中IP資源

2021-09-28 21:39:31 字數 1822 閱讀 2577

應對增量/離線爬蟲業務場景,其特點是對時間要求低,併發大,ip**資源需求多,如果減少成本是重點問題,調查發現網上許多免費的ip**資源,可以運用爬蟲技術適當的採集、驗證、使用。但是免費資源效能低,經過驗證之後可用資源少,需要大量資料來源配置,但帶來了解析問題,如何運用適當的解析方式,統一清洗可靠的ip資源,是乙個問題。

一、採用機器學習文字分類進行:精度不足,訓練成本高

二、採用多重正則識別:準確度稍差,對***支援較低

# -*- coding:utf-8 -*-

import re

defget_html

(h_str)

: txt = h_str

m = re.findall(r'<.+?>'

, txt, re.m | re.i)

for i in m:

if"none"

in i:

m1 = re.findall(r''

+ i +

'(.*?)

, txt, re.m | re.i)

print

("m1:"

, m1)

for x in m1:

if x =='':

m1.remove(x)

for j in m1:

print

("m1:"

, i + j)

txt = txt.replace(i + j,"")

result = re.

compile

(r'<.+?>'

, re.s)

.sub(

'', txt)

res = re.findall(r"\b(?:[0-9]\.)[0-9]\b:[0-9]"

, result)

ip_list =

if res ==

: res = re.findall(r"\b(?:[0-9]\.)[0-9]\b"

, result)

for i in res:

m1 = re.findall(r'^.*?([0-9])'

, result.split(i)[1

], re.m | re.i)[0

]str

(i)+

":"+

str(m1)

)else

: ip_list = res

return ip_list

if __name__ ==

"__main__"

: h_str =

'''125.62.193.209:83

高匿名ip**

中國 北京 北京 ucloud/聯通/電信 **ip

6.73

27天 13小時 50分鐘 3秒

2023年10月22日 20:09

6992

123.62.193.209:83

2 高匿名ip**

中國 北京 北京 ucloud/聯通/電信 **ip

6.73

27天 13小時 50分鐘 3秒

2023年10月22日 20:09

6992

'''print

(get_html(h_str)

)

輸出結果

[

'125.62.193.209:83'

,'123.62.193.209:83'

]

C 中獲取資源檔案

1.可以在系統自動建立的資源檔案中新增物件 2.獲取的時候用properties.resources.3 可以自己建立資源檔案,例如stocksql.resx 用來存放sql,新增資源testsql 4.通過stocksql.testsql來獲取,系統其實是通過在properties.resourc...

Spring中Resource(資源)的獲取

spring中獲取資源的方式一共有以下四種 下面是對每種方式的詳細講解 resource介面的實現類有 實現類說明 classpathresource 通過類路徑獲取資源檔案 filesystemresource 通過檔案系統獲取資源 urlresource 通過url位址獲取資源 bytearra...

獲取網頁中滑鼠的座標

主要是兩段 把這兩段 加入你儲存後的頁面檔案中就可以了,加入方法如下 1.在 標記之前插入如下一段 如插入後的示例如下 2.在標記中加入如下一段 nm usem ve statusreport 加入後的示例如下 3.儲存檔案 用ie瀏覽器開啟修改過的頁面後,在頁面中移動滑鼠,滑鼠所在位置的x,y座標...