資料分析第一次打卡

2021-10-23 13:17:06 字數 855 閱讀 8780

【思考】知道資料載入的方法後,試試pd.read_csv()和pd.read_table()的不同,如果想讓他們效果一樣,需要怎麼做?了解一下』.tsv』和』.csv』的不同,如何載入這兩個資料集?

【答】tsv與csv的區別:

從名稱上即可知道。

tsv是用製表符(tab,』\t』)作為字段值的分隔符;iana規定的標準tsv格式,字段值之中是不允許出現製表符的。

csv是用半形逗號(』,』)作為字段值的分隔符;

【思考】什麼是逐塊讀取?為什麼要逐塊讀取呢?

【答】是指通過指定乙個chunksize分塊大小來逐步讀取檔案,因為pandas讀取檔案時候常常通過大檔案,這樣可以減小對電腦記憶體的壓力。

值得注意的是這裡返回的df2是乙個可迭代的物件textfilereader,可以通過for chunk in df: 迭代

【思考】對於乙個資料,還可以從哪些方面來觀察?找找答案,這個將對下面的資料分析有很大的幫助

【答】檢視每列的平均數,zip大數,平均數等等

【思考】還有其他的刪除多餘的列的方式嗎?

【總結】通過pandas刪除列有以下幾種情況

1.del df[『columns』] #改變原始資料

2.df.drop(『columns』,axis=1)#刪除不改表原始資料,可以通過重新賦值的方式賦值該資料;df.drop(『columns』,axis=1,inplace=true) #改變原始資料

【思考】這個reset_index()函式的作用是什麼?如果不用這個函式,下面的任務會出現什麼情況?

【答】 reset_index()是重置索引,因為前面對資料進行了篩選,所以索引不再是連續的了。而drop=true是表示不想保留原來的index,預設 false。

爬蟲第一次打卡

url data headers response requests.post url,data data,headers headers 發起請求 json data response.json print json data import requests from bs4 import bea...

python第一次打卡

號 表示注釋,作用於整行 多行注釋,用三個雙引號 運算子分為算術運算子 比較運算子 邏輯運算子 位運算子 三元運算子 其他運算子 運算子的優先順序 一元運算子優於二元運算子,先算術運算,後移位運算,最後位運算,邏輯運算最後結合。is,is not 對比的是兩個變數的記憶體位址 對比的是兩個變數的值 ...

Datawhale 第一次打卡

開源內容 1.enumerate enumerate is a built in function of python.my list banana grapes pear for c,value in enumerate my list,1 print c,value 類似於對錶進行排列,方便讀取...