應對增量/離線爬蟲業務場景,其特點是對時間要求低,併發大,ip**資源需求多,如果減少成本是重點問題,調查發現網上許多免費的ip**資源,可以運用爬蟲技術適當的採集、驗證、使用。但是免費資源效能低,經過驗證之後可用資源少,需要大量資料來源配置,但帶來了解析問題,如何運用適當的解析方式,統一清洗可靠的ip資源,是乙個問題。
一、採用機器學習文字分類進行:精度不足,訓練成本高
二、採用多重正則識別:準確度稍差,對***支援較低
# -*- coding:utf-8 -*-
import re
defget_html
(h_str)
: txt = h_str
m = re.findall(r'<.+?>'
, txt, re.m | re.i)
for i in m:
if"none"
in i:
m1 = re.findall(r''
+ i +
'(.*?)
, txt, re.m | re.i)
print
("m1:"
, m1)
for x in m1:
if x =='':
m1.remove(x)
for j in m1:
print
("m1:"
, i + j)
txt = txt.replace(i + j,"")
result = re.
compile
(r'<.+?>'
, re.s)
.sub(
'', txt)
res = re.findall(r"\b(?:[0-9]\.)[0-9]\b:[0-9]"
, result)
ip_list =
if res ==
: res = re.findall(r"\b(?:[0-9]\.)[0-9]\b"
, result)
for i in res:
m1 = re.findall(r'^.*?([0-9])'
, result.split(i)[1
], re.m | re.i)[0
]str
(i)+
":"+
str(m1)
)else
: ip_list = res
return ip_list
if __name__ ==
"__main__"
: h_str =
'''125.62.193.209:83
高匿名ip**
中國 北京 北京 ucloud/聯通/電信 **ip
6.73
27天 13小時 50分鐘 3秒
2023年10月22日 20:09
6992
123.62.193.209:83
2 高匿名ip**
中國 北京 北京 ucloud/聯通/電信 **ip
6.73
27天 13小時 50分鐘 3秒
2023年10月22日 20:09
6992
'''print
(get_html(h_str)
)
輸出結果
[
'125.62.193.209:83'
,'123.62.193.209:83'
]
C 中獲取資源檔案
1.可以在系統自動建立的資源檔案中新增物件 2.獲取的時候用properties.resources.3 可以自己建立資源檔案,例如stocksql.resx 用來存放sql,新增資源testsql 4.通過stocksql.testsql來獲取,系統其實是通過在properties.resourc...
Spring中Resource(資源)的獲取
spring中獲取資源的方式一共有以下四種 下面是對每種方式的詳細講解 resource介面的實現類有 實現類說明 classpathresource 通過類路徑獲取資源檔案 filesystemresource 通過檔案系統獲取資源 urlresource 通過url位址獲取資源 bytearra...
獲取網頁中滑鼠的座標
主要是兩段 把這兩段 加入你儲存後的頁面檔案中就可以了,加入方法如下 1.在 標記之前插入如下一段 如插入後的示例如下 2.在標記中加入如下一段 nm usem ve statusreport 加入後的示例如下 3.儲存檔案 用ie瀏覽器開啟修改過的頁面後,在頁面中移動滑鼠,滑鼠所在位置的x,y座標...