mysql 統計單詞 Spark單詞統計示例

2021-10-18 21:05:51 字數 1724 閱讀 5282

在spark字數統計示例中,將找出指定檔案中存在的每個單詞的出現頻率。在這裡,我們使用scala語言來執行spark操作。

執行spark字數計算示例的步驟

在此示例中,查詢並顯示每個單詞的出現次數。在本地計算機中建立乙個文字檔案並在其中寫入一些文字。

檢查sparkdata.txt檔案中寫入的文字。

$ cat sparkdata.txt

在hdfs中建立乙個目錄,儲存文字檔案。

$ hdfs dfs -mkdir /spark

將hdd上的sparkdata.txt 檔案上傳到特定目錄中。

現在,按照以下命令在scala模式下開啟spark。

使用以下命令建立乙個rdd。

scala> val data=sc.textfile("sparkdata.txt")

在這裡,傳遞包含資料的任何檔名。現在,可以使用以下命令讀取生成的結果。

在這裡,使用以下命令以單個單詞的形式拆分現有資料。

scala> val splitdata = data.flatmap(line => line.split(" "));

現在,可以使用以下命令讀取生成的結果。

接下來,執行對映操作。

scala> val mapdata = splitdata.map(word => (word,1));

在這裡,為每個單詞分配值1。可以使用以下命令讀取生成的結果。

現在,執行reduce操作 -

scala> val reducedata = mapdata.reducebykey(_+_);

在這裡,我彙總了生成的資料。使用以下命令讀取生成的結果。

¥ 我要打賞

糾錯/補充

收藏加qq群啦,易百教程官方技術學習群

注意:建議每個人選自己的技術方向**,同乙個qq最多限加 3 個群。

統計單詞個數

輸入 檔名稱 sum123.cpp 作 者 林海雲 完成日期 2014年12月16日 版 本 號 v2.0 問題描述 統計各陣列中單詞的個數 程式輸入 程式輸出 統計結果 include includeusing namespace std int pwordnum char str int mai...

統計單詞個數

qaq 話說這個題目跟那個乘號的比較像啊,用f i j 表示前i個字母劃分為j段的單詞最大數 那麼我們很容易就得到乙個狀態轉移方程 f i j max f i j f l 1 j w w為l i區間裡單詞的數目 現在的問題是w咋求 之前我做的乙個題是劃分乘號的 那個我們處理了乙個sum i j 陣列...

考研單詞統計

距離上次寫統計考研單詞已經過了好幾個月了吧,我真的太懶了。但是好飯不怕晚,趁著今晚摸了電腦我就寫完了。本次主要粗略統計了2004 2015年的考研英語單詞 真實性不詳 但還是挺可靠的 偷偷告訴你們lz有好多單詞不認識,好慌啊。廢話少說,上 include include include includ...