shell 隨機從檔案中抽取若干行

2022-03-21 04:34:23 字數 552 閱讀 2547

shuf-n5 main.txt

sort-r main.txt | head -5

awk-vn=5 -vc="`wc -l file`" 'begin'

shuf 命令的選項:

-e, --echo                  :將每個引數視為輸入行

-i, --input-range=lo-hi :將lo 到hi 的每個數字視為輸入行

-n, --head-count=行數 : 最多輸出指定的行數

-o, --output=檔案 :將結果輸出到指定檔案而非標準輸出

--random-source=檔案 :從指定檔案獲得隨機位元

-z, --zero-terminated :以0 結束行而非新行

--help :顯示此幫助資訊並退出

--version :顯示版本資訊並退出

ref:

從大檔案中隨機抽取一定資料

在建模的時候,時常需要構造訓練集和測試集,但當總資料比較大的時候,如何進行簡單抽樣也是乙個問題。假設有這樣乙個情況,乙份資料總共有1,000,000條,要從中抽取100,000條左右的資料。每條資料相對比較大,把所有資料一次放入記憶體不靠譜,那麼如何抽樣呢?最齪的方法就是抽取頭100,000或100...

linux 隨機抽取檔案中N行

1.shell命令 直接用shuf n5 t.txt l則隨機在t.txt 中抽取5列 到l中 2.awkawk begin input file sort nk 1 head n line num awk f t 3.pythonimport random import linecache 乙個1...

python 隨機抽取Fastq檔案

參考 最近要做乙個二代測序的模擬,所以網上找了個小指令碼,做了些注釋,希望能夠幫助大家。from future import division import random number to sample 3000000 number of replicates 10 計算行數 with open ...