資料分析(三)

2021-08-31 21:32:31 字數 841 閱讀 2469

pandas的資料結構

匯入pandas:

資料分析三劍客 numpy pandas matplotlib

# 三劍客

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from pandas import series,dataframe

1、series

series是一種類似於一維陣列的物件,由下面兩個部分組成:

1)series的建立

兩種建立方式:

(1) 用列表形式建立

(2) 用字典形式建立

2)series的索引和切片

顯式索引:

示例:隱式索引:

示例:3)series的常用屬性和方法

可以把series看成乙個定長的有序字典

可以通過shape,size,index,values等得到series的屬性

可以通過head(),tail()快速檢視series物件的樣式

s.head(2)看頭兩個 s.tail(1)看後乙個

series中如果值是none,會被轉成nan。並且計算時會被當成0(ndarray不會)

可以使用pd.isnull(),pd.notnull(),或自帶isnull(),notnull() 函式檢測值為none或nan的資料

另外 series物件有乙個name屬性可以用來區分不同的series

4)series的運算

(1) 適用於numpy的陣列運算也適用於series

(2) series之間的運算

資料分析 資料分析概述

了解業務 了解資料 確認業務和資料 預期分析和管理 資料分析方式01.了解資料資料 1.測量標度型別 屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。屬性的型別 測量尺度 nominal 標稱 等於或者不等於 一對一的變換 ordinal 序數 大於或者小於 單調函式的變...

python資料分析實踐(三)

處理維基百科all time olympic games medals資料集。import pandas as pd 讀取資料,選取第一列作為index,並跳過第一行,以第二行作為我的column name df pd.read csv olympics.csv index col 0,skipro...

Movielens IMDB電影資料分析 三

電影時長不是數值,而是字串 電影流派不是原子資料,很難提取特定的流派做分析。上映年份格式修正 投票數修正為整型 本來以為自己爬取的資料存在兩個瑕疵,但是在實際應用中發現,還有乙個巨大的瑕疵 desecribe的時候,發現votes一列不能被describe。進行info檢視資訊的時候,發現votes...