用Python玩轉資料 第五周資料統計和視覺化

2022-05-16 23:06:24 字數 1237 閱讀 2240

一、資料獲取

1.本地資料

with 語句,pd.read_csv('data.csv')

2.**上資料

2.1 直接獲取網頁原始碼,在用正規表示式進行刪選

2.2 api介面獲取---以豆瓣為例

import requests

r=requests.get(  

其他電影或者**可以直接網上搜尋豆瓣api,會有相應教程教你如何使用,切記要直接看官網的

3.nltk 語料庫(自然語言工具包)

需要首先pip install nltk

包括古藤保語料庫,布朗語料庫,路透社語料庫,這些都可以在檢視其官網上看

二、資料準備

2.1 修改列索引和行索引

data.index=range(1,len(data)+1)

cols=['code',『name』,'lasttrade']

2.2 建立時間序列

import pandas as pd

dates=pd.date_range('20170520',periods=7)  建立了7個連續時間序列

建立乙個dataframe時間二維表

data=pd.dataframe(np.random.randn(7,3),index=dates,colums=list('abc'))

三、資料顯示

3.1 一維資料

data.head(5)  檢視前5個;data.tail(5)  檢視後5個;data.shape   維度;data.size 個數;

3.2 二維資料

loc類和iloc類,前者可以用標籤,後者只能用物理位置的引數

data.loc[1:5,['code','lasttrade']]

data.loc[1:6,[0,2]]

data.iat[1,'code'] 選擇乙個之可以有iat也可以用loc類

/// data.iloc[1:5,[0,2]]  中括號裡面只能是數字

四、分組grouping

data.groupby('month').count()

concat是連線兩個碎片,pd.concat([pieces1,pieces2],igonre_index=true)

join兩張表合併,必須要有相同的字段

pd.merge(data.drop(['code'],axis=1),data2,on='code') 給予code將data1和data2兩張表合併,並且將data1中code列刪除

《用Python玩轉資料》學習筆記第3周Part1

1 前面我們學到了乙個函式的argument前面有 表示可變長的元組。今天學到了如果argument前面有 則表示可變長的字典。deffunc args1,args2,args3 print args1 print args2 print args3 func a b c d 1,e 2,f 3 a...

用Pyton玩轉資料練習題 第二週

找前5個默尼森數。p是素數且m也是素數,並且滿足等式m 2 p 1,則稱m為默尼森數。例如,p 5,m 2 p 1 31,5和31都是素數,因此31是默尼森數。1 coding utf 8 2import math34 defisprime n 5if n int n or n 1 6return ...

精英計畫第五周資料結構試驗總結 飛鷹組

本週 2010 8 16到2010 8 20 試驗分為兩個階段,第一階段 前兩天 主要是大家一起學習 資料結構。第二階段 後三天 我們結合所學到的資料結構知識完成乙個小型的專案 模擬操作系 統執行 第一階段,我們把資料結構中從線性表到樹 還包括排序 的內容分給組內的各個成員,讓他們 完成各自的tas...