學習進度筆記

2022-06-20 08:48:08 字數 699 閱讀 7386

學習進度筆記24

讀取檔案演示

import org.apache.spark.sparkconf

import org.apache.spark.streaming.

import org.apache.spark.streaming.streamingcontext._

object filewordcount {

def main(args: array[string]) {

// 建立streaming的上下文,包括spark的配置和時間間隔,這裡時間為間隔20秒

val ssc = new streamingcontext(sparkconf, seconds(20))

// 指定監控的目錄,在這裡為/home/hadoop/temp/

val lines = ssc.textfilestream("/home/hadoop/temp/")

// 對指定資料夾變化的資料進行單詞統計並且列印

val words = lines.flatmap(_.split(" "))

val wordcounts = words.map(x => (x, 1)).reducebykey(_ + _)

wordcounts.print()

// 啟動streaming

ssc.start()

ssc.awaittermination()

學習進度筆記

學習進度筆記26 分類演算法 分類演算法屬於監督式學習,使用類標籤已知的樣本建立乙個分類函式或分類模型,應用分類模型,能把資料庫中的類標籤未知的資料進行歸類。分類在資料探勘中是一項重要的任務,目前在商業上應用最多,常見的典型應用場景有流失 精確營銷 客戶獲取 個性偏好等。mllib 目前支援分類演算...

學習進度筆記

學習進度筆記16 scala語言學習 object testmap def ttt f int int unit val r f 10 println r val f0 x int x x 定義了乙個方法 def m0 x int int 傳遞進來的引數乘以10 x 10 將方法轉換成函式,利用了神...

學習進度筆記

學習進度筆記03 今天學習了python的檔案讀寫 io在計算機中指input output,也就是輸入和輸出。由於程式和執行時資料是在記憶體中駐留,由cpu這個超快的計算核心來執行,涉及到資料交換的地方,通常是磁碟 網路等,就需要io介面。由於cpu和記憶體的速度遠遠高於外設的速度,所以,在io程...