用Python做資料分析初探(四)

2021-08-03 03:34:44 字數 1166 閱讀 9576

我們可以用 dataframe 的describe()函式列出一些統計資訊:

該函式列出了dataframe 的行數,均值,方差,最大最小值, 25%, 50%, 75%處的值,讓我們能對資料有個大概的了解。

然後我想按檔案的尺寸排序,了解哪些檔案的尺寸是最大的,用sort_values()函式即可。在jupter notebook 裡,可以用help命令方便地檢視文件:

這是sort_values 的結果,按尺寸的降序排列:

我們也可以對某列做一些統計:

接下來,我想按檔案型別對檔案做乙個計數,看哪些型別的檔案數量最多。先把檔名的字尾取出來:

def

get_suffix

(name):

return os.path.splitext(name)[1]

suffix = map(get_suffix, file['name'])

suffix 是所有字尾的列表,它有許多重複項,和 file[『name』]的長度是一樣的:

我們把它轉化為pandas 的series 物件,並作圖:

我們看到, 數量最多的是 htm 檔案。

Python資料分析初探

usr bin python coding utf8 import os import pandas as pd import time,datetime import xlrd 解決讀入 xlsx 檔案import numpy as np import matplotlib.pyplot as p...

利用python做資料分析

3.2 資料分析的目的 主要就是為了在複雜 龐大的資料庫中提取對我們有用的資訊。讓這些資料產生一定的價值,幫助人們在日常生活中做一些決策時做一些參考。比如,在 中買東西,我們會首先看到物品的銷量 排行 以及顧客對物品的評價。這些都是經過資料分析得出來的。可見,資料分析在其中扮演著多麼重要的角色。3....

Python實戰(四) Python 資料分析

在python 機器學習的開發環境搭建 numpy,scipy,matplotlib 一文中,介紹了使用python進行資料分析的工具安裝,環境配置。下面分享具體使用 一 numpy 1 安裝 pip install numpy命令 2 資料分析 import numpy as np np heig...