資料分析 Task1 資料載入及探索性分析

2021-10-23 12:50:10 字數 927 閱讀 5168

1.關於read_csv和read_table的區別

read_csv和read_table的區別在於separator分隔符。

csv是逗號分隔值(comma-separated values),僅能正確讀入以 「,」 分割的資料。read_table的分隔符是tab

tsv檔案與csv檔案的區別

tsv 是tab-separated values的縮寫,即製表符分隔值。

相對來說csv,comma-separated values(逗號分隔值)更常見一些。

tsv與csv的區別:

1)從名稱上即可知道,tsv是用製表符(tab,』\t』)作為字段值的分隔符;csv是用半形逗號(』,』)作為字段值的分隔符;

2)iana規定的標準tsv格式,字段值之中是不允許出現製表符的。

因此,一般read_table讀取的是tsv檔案,read_csv讀取的是csv檔案。

2.df.head()和df.tail()

分別檢視前x行資料和後x行資料

3.dataframe刪除行和列的方式

刪除多餘的列

方式1:del test_1[『a』]

方式2:

test_1.drop([「a」],axis = 1)

其中,axis=0代表刪除行

區別:del在原始**中改動,而drop不改變原表

如果drop需要改變原表,則增加引數inplace = true

4.關於loc和iloc區別

loc的引數必須是**中的名稱,而iloc的引數為**中的索引。

此外,當取某幾個值時,用單括號,當取一系列值時,去掉單括號。

例子:

Task 1 資料載入及初步觀察 筆記

2 pandas兩常用資料結構 series和dataframe 讀取 可用with open 的方法,也可用pd.read csv 儲存 可用pd.to csv shares.to csv titanic train chinese.csv 相對路徑 當要匯入的檔案在和當前檔案在同乙個目錄下時,直...

Task01 資料載入及探索性資料分析

pandas.read csv 報錯 oserror initializing from file failed,一般由兩種情況引起 一種是函式引數為路徑而非檔名稱,另一種是函式引數帶有中文。對於第一種情況很簡單,原因就是沒有把檔名稱放到路徑的後面,把檔名稱新增到路徑後面就可以了。第二種情況,即使路...

資料分析 Task2 資料清洗及特徵處理

1.重複值,df.duplicated drop duplicates,刪除整行重複值 2.連續型變數離散化 分箱 1.將連續變數age平均分箱成5個年齡段,並分別用類別變數12345表示 df box pd.cut df 年齡 5,labels 1 2 3 4 5 2.將連續變數age劃分為 0,...