Task01 資料載入及探索性資料分析

2021-10-23 12:50:10 字數 1361 閱讀 1732

pandas.read_csv() 報錯 oserror: initializing from file failed,一般由兩種情況引起:一種是函式引數為路徑而非檔名稱,另一種是函式引數帶有中文。

對於第一種情況很簡單,原因就是沒有把檔名稱放到路徑的後面,把檔名稱新增到路徑後面就可以了。

第二種情況,即使路徑、檔名都完整,還是報錯的原因是這個引數中有中文,但是python3不是已經支援中文了嗎?參考了錯誤原因和pandas的原始碼,發現呼叫pandas的read_csv()方法時,預設使用c engine作為parser engine,而當檔名中含有中文的時候,用c engine在部分情況下就會出錯。所以在呼叫read_csv()方法時指定engine為python就可以解決問題了。

da4=pd.read_csv(

'f:\\資料來源\\工程清單.csv'

,engine=

'python'

)

對於第二種情況還有另外一種解決方法,就是使員工open函式開啟檔案,再取訪問裡面的資料:

da3=pd.read_csv(

open

('f:\\4.0 居配工程監測\\2.0 資料來源\\02.南京新居配工程清單.csv'

))

通過不同的axis,numpy會沿著不同的方向進行操作:如果不設定,那麼對所有的元素操作;如果axis=0,則沿著縱軸進行操作;axis=1,則沿著橫軸進行操作。但這只是簡單的二位陣列,如果是多維的呢?可以總結為一句話:設axis=i,則numpy沿著第i個下標變化的方向進行操作。

簡要概括axis的用法是:假設axis = i,則numpy沿著第 i 個下標變化的方向進行操作

pandas 中 inplace 引數在很多函式中都會有,它的作用是:是否在原物件基礎上進行修改

​ inplace = true:不建立新的物件,直接對原始物件進行修改;

​ inplace = false:對資料進行修改,建立並返回新的物件承載其修改結果。

預設是false,即建立新的物件進行修改。

刪除行、列

print

(frame.drop(

['a'])

)print

(frame.drop(

['b'

], axis =1)

)#drop函式預設刪除行,列需要加axis = 1

reset_index用來重置索引,因為有時候對dataframe做處理後索引可能是亂的。

drop=true就是dao把原來的索引index列去掉,重置index。

drop=false就是保留原來的索引,新增重置的index。

資料分析 Task1 資料載入及探索性分析

1.關於read csv和read table的區別 read csv和read table的區別在於separator分隔符。csv是逗號分隔值 comma separated values 僅能正確讀入以 分割的資料。read table的分隔符是tab tsv檔案與csv檔案的區別 tsv 是...

01 探索性資料分析

資料競賽基本流程 美國國家標準與技術研究院 national institute of standards and technology,nist 提出探索性資料分析 eda 主要有如下功能 載入各種資料科學以及視覺化庫 載入資料 資料預覽 判斷資料缺失和異常 缺失值檢測 nan視覺化 missin...

Task02 資料的探索性分析

賽題概況 比賽要求參賽選手根據給定的資料集,建立模型,二手汽車的交易 來自 ebay kleinanzeigen 報廢的二手車,數量超過 370,000,包含 20 列變數資訊,為了保證 比賽的公平性,將 會從中抽取 10 萬條作為訓練集,5 萬條作為測試集 a,5 萬條作為測試集 b。同時會對名稱...