python 資料分析

2021-10-07 13:07:45 字數 3627 閱讀 5212

2.2 pandas

2.3 正規表示式

3 python在資料分析中的應用

之前做的資料分析小平台?

推薦書籍

①快速高效的多維陣列物件ndarray

②用於對陣列執行元素級計算以及直接對陣列執行數**算的函式

③用於讀寫硬碟上基於陣列的資料集的工具

④線性代數運算、傅利葉變換,以及隨機數生成

⑤用於將c、c++、fortran**整合到python的工具

官網/菜鳥……

兩種都可,但推薦第二種安裝方法(映象),快,一般不會出錯

1、多維陣列物件 ndarray

存放同型別元素的多維陣列

import numpy as np    # 引用numpy包,將其稱為np,便於後續使用

a = np.array([1

,2,3

])# a: [ 1 , 2, 3]

a = np.array([[

1,2]

,[3,

4]])

# a:[[1, 2] [3, 4]]

# 建立全0陣列

np.zeros(5)

# [0, 0, 0, 0, 0]

# 建立全1陣列

np.ones(5)

# [1, 1, 1, 1, 1]

# 建立空陣列(沒有具體數值)

# 注:empty中返回的數值不是0,而是未初始化數值

2、切片和索引

# slice函式

a = np.arange(10)

s =slice(2

,7,2

)# 從索引 2 開始到索引 7 停止,間隔為2

# [2 4 6]

整數陣列索引

x = np.array([[

1,2]

,[3,

4],[

5,6]

]) y = x[[0

,1,2

],[0

,1,0

]]# [1 4 5]

布林索引

3、陣列操作

numpy.reshape:不改變資料,改變形狀

a = np.arange(8)

# a: [0 1 2 3 4 5 6 7]

b = a.reshape(4,

2)# b:[[0 1]

# [2 3]

# [4 5]

# [6 7]]

numpy.transpose :對換陣列維度

a = np.arange(12)

.reshape(3,

4)#a: [[ 0 1 2 3]

# [ 4 5 6 7]

# [ 8 9 10 11]]

b = np.transpose(a)

)# b:[[ 0 4 8]

# [ 1 5 9]

# [ 2 6 10]

# [ 3 7 11]]

基於numpy構建,讓以numpy為中心的應用變得更加簡單。

①提供能夠快速便捷地處理結構化資料的大量資料結構和函式

②使python成為強大而高效的資料分析環境

③物件dataframe,面向列(column-oriented)的二維表結構,含有行標和列標

④兼具numpy高效能的陣列計算功能以及電子**和關係型資料庫(如sql)靈活的資料處理功能

官網

1、series類似於一維陣列的物件

一組資料(各種numpy資料型別) + 一組與之相關的資料標籤(即索引)

obj = series([4

,7,-

5,3]

,index=

['a'

,'b'

,'c'

,'d'])

# a.b.c.d分別對應4.5.-7.3

a 4

b 7

c -

5d 3

2、dataframe**型資料結構

含有一組有序的列,每列可以是不同的值型別(數值、字串、布林值等)。

有行索引、列索引,可被看做由series組成的字典(共用同乙個索引)。

data =

frame = dataframe(data)

# 行索引0 1 2 3 4 ,列索引pop state year

pop state year

01.5 ohio 2000

11.7 ohio 2001

23.6 ohio 2002

32.4 nevada 2001

42.9 nevada 2002

3、處理缺失值

4、索引、資料統計

……

菜鳥

具體內容戳鏈結?

1、藥物拆分,形成0-1矩陣資料;

2、對照藥物同異名,進行藥物名稱規範;

3、利用正規表示式,過濾掉錯誤字元,如炙蜈蚣條->炙蜈蚣;過濾中藥制法,如炙蜈蚣->蜈蚣

1、認識資料

2、獲取資料

3、資料處理,獲得有價值的資料

以圖表的形式展現資料, 增強資料的展現⼒,

柱狀圖、餅狀圖、直⽅圖、折線圖、散點圖等

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...

python資料分析

陣列間的算術運算 npwhere pandas的使用 np.random.rand 3,4 產生乙個3行4列的矩陣 0 1之間的 in 32 data1 1,2,3,4.0 in 34 arr1 np.array data1 in 35 arr1 out 35 array 1.2.3.4.in 37...

python資料分析

1.資料分析的含義與目標 2.python與資料分析 3.python資料分析大家族 4.python環境搭建 一 numpy 功能 ndarray 多維操作 線性代數 官網 numpy是python語言的乙個擴充程式庫。支援高階大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量的數學函式庫。nu...