DataWhale 21期資料分析組隊學習

2021-10-14 12:54:15 字數 1428 閱讀 4072

總結day1

今天是參加datawhale——21期資料分析組隊學習的第一天,在參加這個組隊學習之前我心裡是很猶豫的,因為我的python基礎不是很好,雖然我自學了python基礎,但是我還沒有真正用到案例上的經歷,並且很多東西因為用的少,學習的時間長了有點淡忘了,如果我以後要從事資料分析類的工作的話幾乎就沒有機會了,雖然我一直有好好學習資料探勘和資料分析的打算,那麼參加這個組隊學習就是乙個開始吧。不管怎麼樣,15天的學習我一定會堅持下來的。

雖然每天的學習計畫大概是3-5個小時,可能我基礎還是有點太差了,又或者我把事情想的簡單了,晚上從7點多開始學習,目前為止,我大概了解了一下這次學習會用到的庫,這次會用到的庫還是挺多的,下面會介紹,除了requests、json、matplotlib之前有用到,其他的都沒有用過,因此我了解了一下其他的模組。最後我想嘗試一下從網頁爬取資料,但是沒有成功,這個任務留給明天吧。

**如下(示例):

import seaborn as sns #用於畫圖

from bs4 import beautifulsoup #用於爬取arxiv的資料

import re #用於正規表示式,匹配字串的模式

import requests #用於網連線,傳送網路請求,使用網域名稱獲取對應資訊

import json #讀取資料,我們的資料為json格式的

import pandas as pd #資料處理,資料分析

import matplotlib.pyplot as plt #畫圖工具

**如下(示例):

url =

'' #資料****

req = requests.

get(url) #用requests獲取資料

filename =

"arxiv-metadata-oai-snapshot.json"

with open (filename,

'w') as f_obj:

json.

dump

(req,f_obj) #將資料寫成json格式

# 讀入據

data =

#初始化

#使用with語句優勢:1.自動關閉檔案控制代碼;2.自動顯示(處理)檔案讀取資料異常

with open

(filename,

'r') as f:

for line in f:

data.

(json.

loads

(line)

)data = pd.

dataframe

(data) #將list變為dataframe格式,方便使用pandas進行分析

data.shape #顯示資料大小

該處使用的url網路請求的資料。

明天一定要改好資料讀取部分!繼續加油!

Datawhale 第20期 資料視覺化Task1

matplotlib的影象是畫在figure 如windows,jupyter窗體 上的,每乙個figure又包含了乙個或多個axes 乙個可以指定座標系的子區域 最簡單的建立figure以及axes的方式是通過pyplot.subplots命令,建立axes以後,可以使用axes.plot繪製最簡...

第 39 期 資料分段討論

現代計算機一般都有多 cpu 核,而日益廣泛應用的固態硬碟也有較強的併發能力,這些硬體資源都為平行計算提供了有力的保證。不過,要實現平行計算還需要有較好的資料分段技術,也就是能方便地把待計算的資料拆分成若干部分,讓每個執行緒 或程序,這裡以多執行緒為例討論,多程序情況是類似的 分別處理。設計資料分段...

日期資料操作第1期 datetime庫

日期資料操作挺重要的,之前分享過 python中處理日期時間庫的使用方法 arrow日期時間處理庫 現在覺得日期資料的操作挺重要的,準備分割成小知識點,連續更新幾天。今天更新第一期 datetime庫 日期時間類,常用的引數包含year month day hour minute second mi...