Python 機器學習入門 pandas的使用

2021-10-08 18:32:39 字數 3664 閱讀 4468

一、pandas是什麼?

pandas 是基於numpy 的一種工具,該工具是為了解決資料分析任務而建立的。pandas 納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法。你很快就會發現,它是使python成為強大而高效的資料分析環境的重要因素之一。

常用資料結構為series(一維陣列)和dataframe(二維陣列),可見矩陣在資料分析當中有著相當重要的地位,學好計算機,矩陣論很值得去看看。

補充:numpy(numerical python) 是 python 語言的乙個擴充套件程式庫,支援大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量的數學函式庫

二、使用步驟

1.引入庫

matplotlib.pyplot與seaborn: 作圖(記得使用plt.show(),否則不會顯示)

ssl:跳過認證,不然報錯(小提示 https和http略微區別,https含有安全監測,安全性更高)

2.讀入資料

data = pd.read_csv(

'')print

(data.head(

))

該處使用的url網路請求的資料,,另外還可以使用excel,sql等資料型別,詳情見官網

3.分析資料

常用方法:

1. describe():列出mean,min,count等數值特徵值

2. head():前五行資料

3. columns:列出列的屬性(資料龐大一般只顯示前面和後面幾列)

[『列名』]進行選取某一列,,[() & ()] 進行條件篩選,**如下

print

(data[

(data[

'***']==

'female')&

(data[

'salary']==

'<=50k')]

.describe(

))

製圖

sns.countplot

df.pivot_table(

['total day calls'

,'total eve calls'

,'total night calls'],

['area code'

], aggfunc=

'mean'

)

效果

完整**

import numpy as np

import pandas as pd

import ssl

# 忽略警告

import warnings

# 載入模組,配置繪圖

# read_csv(url):讀取資料

data = pd.read_csv(

'')# 1.獲取相關資訊(整體性方面的)

# 特徵值 顯示矩陣的行列(術語:維度、特徵名稱和特徵型別)

print

("特徵值:"

, data.shape)

# 所有資訊 (思考方法的呼叫,需要括號??)

print

("info1:"

, data.info())

print

("info2:"

, data.info)

print

("data:"

, data)

# 數值特徵(int64 和 float64)的基本統計學特性,

# 如未缺失值的數值、均值、標準差、範圍、四分位數等

# include篩查型別

print

("describe :"

, data.describe())

print

("describe2 :"

, data.describe(include=

['bool'])

)# 均值

print

("均值:"

, data.mean)

# 前五行

print

("head:"

, data.head())

# 2.排序,篩選

# 進行列篩選

print

("的使用"

, data[

'churn'])

# sort的使用 by=[,,], ascending

print

("sort "

, data.sort_values(by=

['churn'

], ascending=

false))

# 中進行條件篩選 data[data['churn'] == 1]

# df[(df['churn'] == 0) & (df['international plan'] == 'no')]['total intl minutes'].max()

# 進行多條件並列?

# 3.分析展示

# pivot_table()透視表

# pd.pivot_table(['total day calls', 'total eve calls', 'total night calls'],

# ['area code'], aggfunc='mean')

# 交叉圖

pd.crosstab(data[

'churn'

], data[

'voice mail plan'

], normalize=

true

)# 建立直方圖

sns.countplot(x=

'international plan'

, hue=

'churn'

, data=data)

# 顯示圖(不僅限於plt作圖)

plt.show(

)

Python機器學習入門

numpy python科學計算基礎包 import numpy as np 匯入numpy庫並起別名為np numpy array np.array 1,3,5 2,4,6 print numpy array scipy python中用於科學計算的函式集合 from scipy import s...

Python機器學習快速入門

以下 作為個人筆記 python機器學習快速入門 talk is cheap,show me the code import pandas as pd 1 fss dat iris.csv df pd.read csv fss,index col false print df.tail print ...

Python機器學習入門教程

如果你對機器學習感興趣,甚至是想從事相關職業,那麼這本書非常適合作為你的第一本機器學習資料。市面上大部分的機器學習書籍要麼是告訴你如何推導模型公式要麼就是如何 實現模型演算法,這對於零基礎的新手來說,閱讀起來相當困難。而這本書,在介紹必要的基礎概念後,著重從如何呼叫機器學習演算法解決實際問題入手,一...