獲取網頁中IP資源

應對增量/離線爬蟲業務場景，其特點是對時間要求低，併發大，ip**資源需求多，如果減少成本是重點問題，調查發現網上許多免費的ip**資源，可以運用爬蟲技術適當的採集、驗證、使用。但是免費資源效能低，經過驗證之後可用資源少，需要大量資料來源配置，但帶來了解析問題，如何運用適當的解析方式，統一清洗可靠的ip資源，是乙個問題。

一、採用機器學習文字分類進行：精度不足，訓練成本高

二、採用多重正則識別：準確度稍差，對***支援較低

# -*- coding:utf-8 -*-
import re
defget_html
(h_str)
: txt = h_str
m = re.findall(r'<.+?>'
, txt, re.m | re.i)
for i in m:
if"none"
in i:
m1 = re.findall(r''
+ i +
'(.*?)
, txt, re.m | re.i)
print
("m1:"
, m1)
for x in m1:
if x =='':
m1.remove(x)
for j in m1:
print
("m1:"
, i + j)
txt = txt.replace(i + j,"")
result = re.
compile
(r'<.+?>'
, re.s)
.sub(
'', txt)
res = re.findall(r"\b(?:[0-9]\.)[0-9]\b:[0-9]"
, result)
ip_list =
if res ==
: res = re.findall(r"\b(?:[0-9]\.)[0-9]\b"
, result)
for i in res:
m1 = re.findall(r'^.*?([0-9])'
, result.split(i)[1
], re.m | re.i)[0
]str
(i)+
":"+
str(m1)
)else
: ip_list = res
return ip_list
if __name__ ==
"__main__"
: h_str =
'''125.62.193.209:83
高匿名ip**
中國 北京 北京 ucloud/聯通/電信 **ip
6.73
27天 13小時 50分鐘 3秒
2023年10月22日 20:09
6992
123.62.193.209:83
2 高匿名ip**
中國 北京 北京 ucloud/聯通/電信 **ip
6.73
27天 13小時 50分鐘 3秒
2023年10月22日 20:09
6992
'''print
(get_html(h_str)
)

輸出結果

[
'125.62.193.209:83'
,'123.62.193.209:83'
]

C 中獲取資源檔案

1.可以在系統自動建立的資源檔案中新增物件 2.獲取的時候用properties.resources.3 可以自己建立資源檔案，例如stocksql.resx 用來存放sql，新增資源testsql 4.通過stocksql.testsql來獲取，系統其實是通過在properties.resourc...

Spring中Resource（資源）的獲取

spring中獲取資源的方式一共有以下四種下面是對每種方式的詳細講解 resource介面的實現類有實現類說明 classpathresource 通過類路徑獲取資源檔案 filesystemresource 通過檔案系統獲取資源 urlresource 通過url位址獲取資源 bytearra...

獲取網頁中滑鼠的座標

主要是兩段把這兩段加入你儲存後的頁面檔案中就可以了，加入方法如下 1.在標記之前插入如下一段如插入後的示例如下 2.在標記中加入如下一段 nm usem ve statusreport 加入後的示例如下 3.儲存檔案用ie瀏覽器開啟修改過的頁面後，在頁面中移動滑鼠，滑鼠所在位置的x，y座標...

獲取網頁中IP資源

C 中獲取資源檔案

Spring中Resource（資源）的獲取

獲取網頁中滑鼠的座標

相關推薦