資料分析常用命令

2021-09-19 17:50:30 字數 1375 閱讀 4723

chipo = pd.read_csv(path1, sep = '\t')

預處理資料:

檢視資料有多少列:info()

抽樣檢視:df.sample(frac=0.1,random_state=42)

以item name對quantity進行分類,看quantity的總量

c = chipo[['item_name','quantity']].groupby(['item_name'],as_index=false).agg()

檢視不同類別總數/多少種商品:

chipo[『item_name』].nunique()

查詢資料:

loc:

data.loc[(data['所在樓層'] == '高樓層') & (data['電梯'].isnull()),'電梯'] = '有'

loc【條件,列】,條件中可以使用&來表示多個條件的並。例項中把高樓層中電梯一欄為空的填寫為有。

value_count:

data['朝向'].value_counts()

用來檢視朝向一列所有值的種類都是什麼

選取除了倒數第三列之外的全部列:

euro12.iloc[: , :-3]

找到三個國家的射正率:

euro12.loc[euro12.team.isin(['england', 'italy', 'russia']), ['team','shooting accuracy']]

視覺化:

處理資料:

整數類的四捨五入:round()

合併資料:

把data2加入到data1下面,行合併

all_data = pd.concat([data1, data2])

列合併pd.concat([data1, data2], axis = 1)

按照id合併:

pd.merge(all_data, data3, on='subject_id')

generator object不可見:

使用list(object)就可以見了。

更改review列第一條的資料為b:

data.review.iloc[0] = 'b'

map()是 python 內建的高階函式,它接收乙個函式 f 和乙個 list,並通過把函式 f 依次作用在 list 的每個元素上,得到乙個新的object並返回。

apache日誌分析常用命令

假設apache日誌格式為 問題1 在apachelog中找出訪問次數最多的10個ip。awk apache log sort uniq c sort nr head n 10 awk 首先將每條日誌中的ip抓出來,如日誌格式被自定義過,可以 f 定義分隔符和 print指定列 sort進行初次排序...

linux日誌分析常用命令

1.檢視檔案內容 cat n 顯示行號 2.分頁顯示 more enter 顯示下一行 f 顯示下一屏 b 顯示上一屏 less get 查詢 get 字串並高亮顯示 3.顯示檔案尾 tail f 不退出持續顯示 n 顯示檔案最後n行 4.顯示標頭檔案 head n 顯示檔案開始n行 5.內容排序 ...

Linux 日至分析常用命令

注轉貼,位址詳見末尾!1.grep查詢匹配文字 a 在檔案中查詢 grep failed to initialize beanfactory upp account.log b 查詢並顯示匹配行及以下的200行 grep a 200 failed to initialize beanfactory ...