套裝二《知識點彙總》

isr副本同步機制（副本同步佇列）

*** **分時日月周 crontab檔案的一些例子： 3021** *./sqoop_export.sh 上面的例子表示每晚的21 :30重啟apache。 454 上面的例子表示每月1、10、22日的4 :45重啟apache。 101 上面的例子表示每週六、週日的1 :10重啟apache。 0, 上面的例子表示在每天18 :00至23 :00之間每隔30分鐘重啟apache。 023 上面的例子表示每星期六的11 :00 pm重啟apache。 ** 每一小時重啟apache *23

晚上11點到早上7點之間，每隔一小時重啟apache

awk 按指定的域分隔符劃分域，填充域，$0則表示所有域, $1表示第乙個域,$n表示第n個域。預設域分隔符是"空白鍵" 或 "[tab]鍵" 1、僅取出前五行 [root@www ~ ]# last -n 5 root pts/ 1192.168 .1.100 tuefeb 1011 :21 still logged in root pts/ 1192.168 .1.100 tuefeb 1000:46 -02:28 (01:41 )root pts/ 1192.168 .1.100 monfeb911 :41-18 :30(06 :48)dmtsai pts/ 1192.168 .1.100 monfeb911 :41-11 :41(00 :00)root tty1 : 0fri sep514: 09-14: 10(00: 01)如果只是顯示最近登入的5個帳號在shell端登入的是展示ip位址，在虛擬機器登入的是則展示為 : 02、僅輸出第一列 #last -n 5 | awk ''root root root dmtsai root 5後面的豎槓（|）是管道符的含義 3、awk預設是以 "空白鍵" 或 "[tab]鍵" 分割的，但是如果有特殊的話，則用 -f 指定分隔符 [root@node132 /root/data/logs]#cat /etc/passwd *** **原資料 xulei:x: 1001 :1001:: /home/xulei: /bin/bash mysql:x:27: 27:mysql server: /var /lib/mysql: /bin/ false k:x: 1008 :1001:: /home/k: /bin/bash [root@node132 /root/data/logs]#cat /etc/passwd | awk -f ":"''* ***篩選之後以逗號隔開的 xulei, /bin/bash mysql, /bin/ false

k,/bin/bash

d 刪除（delete） i 新增（insert）

s 列印指定內容

/etc/passwd 內容是以 : 來分隔的，我想以第三欄來排序，該如何 [root@www ~ ]# cat /etc/passwd | sort -t ':' -k 3** **** awk 是以-f分割$來選擇域；sort是以-t 分割 -k來選擇域 root:x:0: 0:root: /root: /bin/bash uucp:x:10: 14:uucp: /var /spool/uucp: /sbin/nologin operator :x:11:0 :operator :/root: /sbin/nologin bin:x:1: 1:bin: /bin: /sbin/nologin games:x:12: 100:games: /usr/games: /sbin/nologin

預設是以字串來排序的，如果想要使用數字排序：

當乙個job需要輸出大量資料時，應用lzo壓縮可以提高輸出端的輸出效能。這是因為預設情況下每個檔案的輸出都會儲存3個幅本，1gb的輸出檔案你將要儲存3gb的磁碟資料，當採用壓縮後當然更能節省空間並提高效能。

為了使lzo壓縮有效，請設定引數mapred.compress.map.output值為true。

配置hahadoop

解決方法

有些應用程式要使用外部檔案，如字典，配置檔案等，這些檔案需要在所有task之間共享，可以放到分布式快取distributedcache中（或直接採用-files選項，機制相同）。

編輯 hdfs-site.xml

dfs.namenode.handler.count=20 * log2(cluster size)，比如集群規模為8台時，此引數設定為60

作用：

用來處理不同datanode的併發心跳以及客戶端併發的元資料操作

hdfs集群分為兩大角色：namenode、datanode  (secondary namenode)

namenode負責管理整個檔案系統的元資料

datanode 負責管理使用者的檔案資料塊

檔案會按照固定的大小（blocksize）切成若干塊後分布式儲存在若干臺datanode上

每乙個檔案塊可以有多個副本，並存放在不同的datanode上

datanode會定期向namenode匯報自身所儲存的檔案block資訊，而namenode則會負責保持檔案的副本數量

hdfs的內部工作機制對客戶端保持透明，客戶端請求訪問hdfs都是通過向namenode申請來進行

原理

套裝二《知識點彙總》

演算法知識點彙總

小知識點彙總

Hadoop ZooKeeper知識點彙總

套裝二《知識點彙總》

演算法知識點彙總

小知識點彙總

Hadoop ZooKeeper知識點彙總

相關推薦