反爬蟲中技術點的定義

2021-10-05 16:32:12 字數 1732 閱讀 3001

是乙個分布式的,容錯的,高效的訊息通到。主要用於做實時的資料流、構建實時應用等。

設計目標:為處理實時資料提供乙個統

一、高吞吐量、低延遲的平台。

kafka是乙個分布式訊息佇列:生產者、消費者的功能。

啟動:先保證zk集群啟動

再啟動kafka

[root@hadoop01 kafka_2.11-1.1.1]# nohup ./bin/kafka-server-start.sh ./config/server.properties > /var/log/kafka.log 2>&1 &

[root@hadoop02 kafka_2.11-1.1.1]# nohup ./bin/kafka-server-start.sh ./config/server.properties > /var/log/kafka.log 2>&1 &

[root@hadoop03 kafka_2.11-1.1.1]# nohup ./bin/kafka-server-start.sh ./config/server.properties > /var/log/kafka.log 2>&1 &

關閉:./bin/kafka-server-stop.sh

組成:broker(**): kafka 節點,乙個 kafka 節點就是乙個 broker,多個 broker 可以組成乙個 kafka 集群,每乙個broker可以有多個topic。(乙個虛擬機器對應乙個broker)

producer(生產者): 生產 message (資料)傳送到 topic。

consumer(消費者): 訂閱 topic 消費 message,consumer 作為乙個執行緒來消費。

consumer group(消費組): 乙個 consumer group 包含多個 consumer,這個是預先在配置檔案中配置好的。

topic(主題): 一種類別,每一條傳送到kafka集群的訊息都可以有乙個類別,這個類別叫做topic,不同的訊息會進行分開儲存,如果topic很大,可以分布到多個broker上,例如 page view 日誌、click 日誌

等都可以以 topic的形式存在,kafka 集群能夠同時負責多個 topic 的分發。也可以這樣理解:topic被認為是乙個佇列,每一條訊息都必須指定它的topic,可以說我們需要明確把訊息放入哪乙個佇列。

partition(分割槽): topic 物理上的分組,乙個 topic 可以分為多個 partition,每個 partition 是乙個有序的佇列。

replicas(副本): 每乙個分割槽,根據副本因子n,會有n個副本。比如在broker1上有乙個topic,分割槽為topic-1, 副本因子為2,那麼在兩個broker的資料目錄裡,就都有乙個topic-1,其中乙個是leader,乙個replicas。

segment: partition 物理上由多個 segment 組成,每個 segment 存著 message 資訊。

producer api(生產者api)允許乙個應用程式去推送流式記錄到乙個或者多個kafka的topic中。

consumer api(消費者api)允許乙個應用程式去訂閱消費乙個或者多個主題,並處理生產給他們的流式記錄。

streams api(流式api)允許應用程式作為乙個流處理器,消費乙個或多個主題的輸入流,並生成乙個或多個主題到輸出流,從而有效地將輸入流轉換為輸出流。

connector api(聯結器api)允許構建和執行將kafka主題連線到已經存在應用程式或資料系統的可重用生產者或消費者。例如,到關聯式資料庫的聯結器可能捕獲對錶的每個更改。

dmp中技術點的定義

etl,資料倉儲技術,是英文extract transform load的縮寫,用來描述將資料從 端經過抽取 extract 轉換 transform 載入 load 至目的端的過程。etl一詞較常用在資料倉儲,但其物件並不限於資料倉儲。etl是將業務系統的資料經過抽取 清洗轉換之後載入到資料倉儲的...

最全的反爬蟲技術

反爬蟲 的技術大概分為四個種類 注 文末有福利!傳統反爬蟲手段 1 後台對訪問進行統計,如果單個ip訪問超過閾值,予以封鎖。這個雖然效果還不錯,但是其實有兩個缺陷,乙個是非常容易誤傷普通使用者,另乙個就是,ip其實不值錢,幾十塊錢甚至有可能買到幾十萬個ip。所以總體來說是比較虧的。不過針對三月份呢爬...

反爬蟲技術和爬蟲特點

防爬規則 1.按照ip段聚合,5分鐘內的ip段 前兩位訪問量 2.按照ip段聚合,某個ip,5分鐘訪問總量 3.按照ip段聚合,某個ip,5分鐘內的關鍵頁面訪問總量 4.按照ip段聚合,某個ip,5分鐘內的ua種類統計 5.按照ip位址聚合,某個ip,5分鐘內頁面查詢不同行程的次數。6.按照ip位址...