大資料 基礎知識2

2021-10-09 09:35:51 字數 738 閱讀 1023

小白學資料,只為記錄學習程序,對每個問題有新的理解會及時更正。

二、如何把linux本地資料上傳到hdfs

hdfs dfs -put 本地檔案路徑 hdfs檔案路徑

例:hdfs dfs -put /home/hdfs/files/test.txt /input

三、grep命令

grep使用:

grep [可選指令] 「匹配model」 檔案路徑

常用指令:

-i : 表示不區分大小寫匹配

-v: 顯示不符合匹配model的行

-c: 統計符合model的字段出現的次數,不顯示具體內容

-n: 顯示符合匹配模式行所在的行號,並且顯示具體行

-a n: 顯示符合匹配model的行以及後面的n行

-b n: 顯示符合匹配model的行以及前面的n行

-c n: 顯示符合匹配model的行以及前後的n行

匹配model支援正規表示式,常用正則如下:

[a-z] : 匹配所有大寫字母

[a-z] : 匹配所有小子字母

[0-9] : 匹配所有數字

[.] : 匹配任意字元

*:匹配之前的字元任意次

?: 匹配之前的字元0或1次

<: 錨定字元開始,": 錨定字元結尾,"grep>"匹配以grep結束的行

a: 匹配a連續出現m次

a : 匹配a連續出現至少m次

a :匹配a至少出現m次,至多出現n次

大資料基礎知識

一種規模大到在獲取 儲存 管理 分析方面大大超出了傳統資料庫 軟體工具能力範圍的資料集合,具有海量的資料規模 快速的資料流轉 多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理 mpp 資料庫 資料探勘 分布式檔案...

大資料基礎知識(待續)

最近要參與大資料治理專案,但大資料相關知識是零,因此從頭開始了解學習。本人學習目的是用於測試,因此jindui 第二步了解mr,mapreduce,mr對hadoop來說是至關重要的,關於這個概念的理解,可以參考這位知友的回答當然慕課網上也有,可以花五分鐘看一下,基於此,基本對hadoop有基本了解...

大資料相關基礎知識

apache hadoop專案包括以下四個主要模組 1 hadoop common hadoop的通用工具集 2 hadoop distributed file system hdfs 分布式檔案系統 3 hadoop yarn 任務排程 集群資源管理框架 4 hadoop mapreduce 基於...