套裝二《知識點彙總》

2021-10-04 22:47:16 字數 3868 閱讀 9032

isr副本同步機制(副本同步佇列)

***

**分 時 日 月 周

crontab檔案的一些例子:

3021**

*./sqoop_export.sh

上面的例子表示每晚的21

:30重啟apache。 454

上面的例子表示每月1、10、22日的4

:45重啟apache。 101

上面的例子表示每週

六、週日的1

:10重啟apache。 0,

上面的例子表示在每天18

:00至23

:00之間每隔30分鐘重啟apache。 023

上面的例子表示每星期六的11

:00 pm重啟apache。 **

每一小時重啟apache *23

晚上11點到早上7點之間,每隔一小時重啟apache

awk 按指定的域分隔符劃分域,填充域,$0則表示所有域, $1表示第乙個域,$n表示第n個域。預設域分隔符是"空白鍵" 或 "[tab]鍵"

1、僅取出前五行

[root@www ~

]# last -n 5

root pts/

1192.168

.1.100

tuefeb

1011

:21 still logged in

root pts/

1192.168

.1.100

tuefeb

1000:46

-02:28

(01:41

)root pts/

1192.168

.1.100

monfeb911

:41-18

:30(06

:48)dmtsai pts/

1192.168

.1.100

monfeb911

:41-11

:41(00

:00)root tty1 :

0fri

sep514:

09-14:

10(00:

01)如果只是顯示最近登入的5個帳號 在shell端登入的是展示ip位址,在虛擬機器登入的是則展示為 :

02、僅輸出第一列

#last -n 5 | awk

''root

root

root

dmtsai

root

5後面的豎槓(|)是管道符的含義

3、awk預設是以 "空白鍵" 或 "[tab]鍵" 分割的,但是如果有特殊的話,則用 -f 指定分隔符

[root@node132 /root/data/logs]#cat /etc/passwd ***

**原資料

xulei:x:

1001

:1001::

/home/xulei:

/bin/bash

mysql:x:27:

27:mysql server:

/var

/lib/mysql:

/bin/

false

k:x:

1008

:1001::

/home/k:

/bin/bash

[root@node132 /root/data/logs]#cat /etc/passwd | awk -f ":"''*

***篩選之後以逗號隔開的

xulei,

/bin/bash

mysql,

/bin/

false

k,/bin/bash

d 刪除(delete)

i 新增(insert)

s 列印指定內容

/etc/passwd 內容是以 : 來分隔的,我想以第三欄來排序,該如何

[root@www ~

]# cat /etc/passwd | sort -t ':'

-k 3**

**** awk 是以-f分割$來選擇域;sort是以-t 分割 -k來選擇域

root:x:0:

0:root:

/root:

/bin/bash

uucp:x:10:

14:uucp:

/var

/spool/uucp:

/sbin/nologin

operator

:x:11:0

:operator

:/root:

/sbin/nologin

bin:x:1:

1:bin:

/bin:

/sbin/nologin

games:x:12:

100:games:

/usr/games:

/sbin/nologin

預設是以字串來排序的,如果想要使用數字排序:

當乙個job需要輸出大量資料時,應用lzo壓縮可以提高輸出端的輸出效能。這是因為預設情況下每個檔案的輸出都會儲存3個幅本,1gb的輸出檔案你將要儲存3gb的磁碟資料,當採用壓縮後當然更能節省空間並提高效能。
為了使lzo壓縮有效,請設定引數mapred.compress.map.output值為true。

配置hahadoop

解決方法

有些應用程式要使用外部檔案,如字典,配置檔案等,這些檔案需要在所有task之間共享,可以放到分布式快取distributedcache中(或直接採用-files選項,機制相同)。

編輯 hdfs-site.xml

dfs.namenode.handler.count=20 * log2(cluster size),比如集群規模為8台時,此引數設定為60

作用:

用來處理不同datanode的併發心跳以及客戶端併發的元資料操作

hdfs集群分為兩大角色:namenode、datanode  (secondary namenode)

namenode負責管理整個檔案系統的元資料

datanode 負責管理使用者的檔案資料塊

檔案會按照固定的大小(blocksize)切成若干塊後分布式儲存在若干臺datanode上

每乙個檔案塊可以有多個副本,並存放在不同的datanode上

datanode會定期向namenode匯報自身所儲存的檔案block資訊,而namenode則會負責保持檔案的副本數量

hdfs的內部工作機制對客戶端保持透明,客戶端請求訪問hdfs都是通過向namenode申請來進行
原理

演算法知識點彙總

1.求陣列元素之間相鄰的元素個數或者求字串的長度 指向同乙個陣列的不同元素的兩個指標可以相減,其差便是兩個指標之間相隔的元素個數。例如在乙個字串中,讓乙個指向該串的首元素,讓另乙個指向字串的結束符,兩個指標相減,其差便是字串的長度 2.怎樣判斷兩個指標指向的是陣列的同乙個元素?指標可以互相比較。如指...

小知識點彙總

1 為什麼乙個數的各位數之和可以被3整除時,這個數就可以被3整除 設乙個n位數number,從個位起每一位為a1 an 則number a1 a2 10 a3 10 2 an 10 n 1 1 先證必要性 如果number的各位數之和是3的倍數,則a1 a2 an 3k k為正整數 2 由 2 得a...

Hadoop ZooKeeper知識點彙總

echo 顯示出jdk的安裝目錄 echo 2 myid 把2寫到myid檔案 覆蓋原內容 cat myid 檢視myid檔案的內容 zkserver.sh start 啟動zookeeper zkserver.sh status 檢視zookeeper的啟動狀態 netstat nltp 檢視埠占...