Spark Scala 讀取GBK檔案的方法

2021-08-22 11:29:32 字數 684 閱讀 5695

import org.apache.hadoop.io.

import org.apache.hadoop.mapred.textinputformat

import org.apache.spark.rdd.rdd

import org.apache.spark.

object gbktoutf8

def transfer(sc:sparkcontext,path:string):rdd[string]=

}

2. 構建測試檔案
如果你用的是mac os,可以按照我如下步驟操作(開啟bashcd /users/hduser/downloads/gbk

echo "bonnie 大資料|學姐筆記 果果學姐" > test_utf8.txt轉換命令iconv -f utf-8 -t gbk test_utf8.txt > test_gbk.txt

在idea執行上述程式,結果如下

bonnie ����ݣ�ѧ��ʼ� ���ѧ��

bonnie 大資料|學姐筆記 果果學姐

可以看到第一次呼叫textfile時,顯示檔案為亂碼

而第二次呼叫gbk檔案的讀取方法是,顯示檔案正常

spark scala 常用函式

將多個字串連線成乙個字串並用分隔符隔開 key相同的元素的value進行binary function的合併操作,如若括號內為 x,y x y則表示對key相同元素value求和 用來丟棄指定列 類似於subtrac,刪掉 rdd 中鍵與 other rdd 中的鍵相同的元素 表一.join 表二,...

Spark Scala程式設計常用技巧集錦

1 獲取filesystem 1.生成filesystem def gethdfs path string filesystem 2 根據時間戳獲取最新目錄def findcandidate filesystem filesystem,fspath string path 3 讀取最新目錄下全部有效...

win10 uwp 讀取文字GBK錯誤

本文講的是解決uwp文字gbk開啟亂碼錯誤,如何去讀取gbk,包括網頁gbk。最後本文給出乙個方法追加文字。我使用notepad記事本儲存檔案,格式ascii,用微軟示例開啟檔案方式讀取,出現錯誤 在多位元組的目標 頁中,沒有此 unicode 字元可以對映到的字元 這個問題看來很簡單,不就是編碼錯...