Flink利用process運算元進行分流操作

2021-10-25 12:15:55 字數 770 閱讀 7087

kafka中存有從metricbeat收集的各種資料系統指標資料存到同乙個topic中,但是各種指標資料不盡相同,這時候需要將相同結構的資料收集到一起分開處理,就用到了flink的分流操作。

主要有flink、kafka和解析json的依賴。

org.apache.flink

flink-streaming-scala_2.11

1.11.1

org.apache.flink

flink-clients_2.11

1.11.1

org.apache.flink

flink-connector-kafka-0.10_2.11

1.11.1

com.alibaba

fastjson

1.2.62

compile

object kafkademo 

} else }})

//主輸出流可以直接print

// splitedds.print()

//側輸出流需要使用getsideoutput獲取

splitedds.getsideoutput(new outputtag[jsonobject]("unknown"))

.print()

env.execute("process function demo")

}}

process function的功能當然還有很多,是flink中非常強大的函式。

利用NLTK sklearn進行垃圾郵件分類

利用nltk來進行資料處理和提取特徵,再交由sklearn進行機器學習訓練分類器,嘗試了多個機器學習演算法並評價分類效能。上 import nltk from nltk.corpus import stopwords from nltk.stem import wordnetlemmatizer i...

二分 利用結果範圍進行查詢

給定起點和終點之間的距離 l 在起點和終點之間存在 n 個點,給出這 n 個點距離起點的距離,求把這n個點中去掉m個點後剩餘點之間可能的最小值的最大值 即求 n m 個點之 間距離最小值的最大值 首先知道結果必然存在於在不操作的最小值和l之間,答案範圍確定。然後就是給定middle含義 比最小值略小...

讀書筆記2 利用Python進行資料分

series 索引index和資料values。可以看成乙個定長的有序字典。通過字典建立series df series s1 s1為字典。傳入字典,結果series中的索引就是原字典的鍵 有序排列 例如s a b df1 series df,index s nan 非數字,not a number...