Alfred資料分析專案實踐筆記

2021-09-25 13:01:38 字數 1604 閱讀 3857

2. pandas (pd)

3. numpy (np)

4. re 正則

5. seaborn 視覺化圖表

1. matplotlib (plt)

1.1 美化風格ggplot & 顯示調整

2.1 concat 資料組合

2.2 split 字串分割

原始:

分割後:

2.3 loc iloc資料提取

pandas中loc用於提取資料,預設提取行資料。

區別:

loc根據索引,而iloc根據行列編號。如圖:

以上是求不同城市平均工資的平均值

groupby用法

2.5 value_counts()

value_counts()是一種檢視**某列中有多少個不同值的快捷方法,並計算每個不同值有在該列中有多少重複值。

.nlargest(11) 取最大的10個值。

2.6 drop_duplicates 去重

2.7 head 取前五行資料

2.8 merge將兩個**合併

2.9 sort_value 排序

3. numpy (np)

3.1 常見計算np.round、np.floor、np.ceil、np.where

3.2 astype 型別轉換

4. re 正則

re.findall 正則匹配

5. seaborn 視覺化圖表

seaborn視覺化,官方**

aspect 寬高比

size 圖表的大小

xlim x軸限制範圍

部落格

大資料分析專案中的「最差」實踐

如果它是那麼簡單就好了。當bi 商樂呵呵地告訴你他們的客戶已經成功部署大資料分析專案時,他們不會告訴你還有那麼多失敗的案例。大資料分析專案令 人失望是有一些潛在原因的。你可以找到大量關於大資料分析最佳實踐的建議。但下面是一些大資料分析專案的最差實踐,你需要了解如何避免它們。盲目跟風 這種觀點重複犯了...

python資料分析實踐(三)

處理維基百科all time olympic games medals資料集。import pandas as pd 讀取資料,選取第一列作為index,並跳過第一行,以第二行作為我的column name df pd.read csv olympics.csv index col 0,skipro...

python資料分析之pandas學習筆記

import pandas as pd import numpy as np from matplotlib import pyplot as plt from matplotlib import font manager plt.rcparams font.sans serif simhei 這句...