Task 2 資料分析(EDA)

2021-10-04 09:01:26 字數 2366 閱讀 7983

在此之前基本沒有關於python以及資料探勘的經驗,所以前期不管是庫的安裝還是按照指導pdf敲**,都經常遇到錯誤,小白只能邊查邊改邊學,頭禿的同時也強迫自己學到了不少東西。前半部分的**還能勉強一邊敲一邊理解,後面只能走一下流程,粗略地了解一下eda的整體步驟,具體的**以及過程中蒐集的知識、遇到的問題將在時間充裕的情況下另外補充。

在第一步載入資料就遇到了問題,實用read_csv( )函式時簡單的將資料集所在檔案路徑直徑複製導致報錯filenotfounderro,最後採用絕對路徑解決了問題。

(1)insnull( )函式可以判斷缺失值,若為缺失值則返回true,反之則返回false;

(2)sample(,n),train_data.sample(n) 隨機獲取n個元素作為乙個片段返回;

(3)了解了類別特徵嚴重傾斜的情況,並對相應特徵進行刪除。

(1)通過plt.figure( )建立自定義影象;

(2)plt.hist( ) 繪製直方圖;

(3)檢視分布狀況利用了johnson su變換以及正態變換,做log變換等。

(1)cat_fea代表categorical_features,後面的col不知道和numeric_features什麼關係。。aconda進不去了,後面搞清楚會進行補充;

(2)format函式對字串進行格式化,此處用到的用法如下:

print(』……』.fomat(『傳入x』, 『傳入y』))

(3)unique( )函式以陣列形式返回列的所有唯一值,

nunique( )則返回唯一值的個數。

(1)**中有一段時將』price』新增在numeric_features列的最後,但是如果直接在numeric_features定義時直接新增對後面的結果並沒有影響;開始執行**時將price編入了categorical_features中執行會報錯;

(2)data.corr( )得到相關係數矩陣,給出任意兩個變數之間的相關係數。

寫這篇日誌之前不知道**搞錯了,現在jupyter lab進不去了,腦殼疼。

traceback (most recent call last)

: file "d:\anaconda\scripts\jupyter-lab-script.py"

, line 5,in

, line 14,in

from jupyterlab_server import slugify, workspace_extension

file "d:\anaconda\lib\site-packages\jupyterlab_server\__init__.py"

, line 4,in

from

, line 9,in

from

file "d:\anaconda\lib\site-packages\jupyterlab_server\server.py"

, line 20,in

, line 83,in

from

.services.contents.manager import contentsmanager

file "d:\anaconda\lib\site-packages\notebook\services\contents\manager.py"

, line 17,in

from nbformat import sign, validate as validate_nb, validationerror

file "d:\anaconda\lib\site-packages\nbformat\__init__.py"

, line 33,in

from

.validator import validate, validationerror

file "d:\anaconda\lib\site-packages\nbformat\validator.py"

, line 12,in

from jsonschema import validationerror

file "d:\anaconda\lib\site-packages\jsonschema\__init__.py"

, line 12,in

from jsonschema.exceptions import

( file "d:\anaconda\lib\site-packages\jsonschema\exceptions.py"

, line 141,in

@attr.s(

hash

=true

)attributeerror: module 'attr' has no attribute 's'

錯誤如上所示,按照其他部落格裡面扒下來的方法目前都沒辦法解決,如果後續解決了這個問題會繼續補充。

資料探勘 task2資料探索分析EDA

2.示例 載入各種資料科學以及視覺化庫 載入資料 資料總覽 判斷資料缺失和異常 了解 值的分布 特徵分為類別特徵和數字特徵,並對類別特徵檢視unique分布 數字特徵分析 型別特徵分析 用pandas profiling生成資料報告 import pandas as pd import numpy ...

動手學資料分析 Task 2

常用的函式有dropna 和fillna dataframe.dropna axis 0,how any thresh none,subset none,inplace false 屬性說明 預設引數axis 0,根據索引 index 刪除指定的行 axis 1,根據列名 columns 刪除指定的...

Task2 資料讀取與資料分析

先用pandas讀取資料 train df pd.read csv data train set.csv sep t train df.head label為新聞類別,text為之後的文章內容。讀取資料後計算每條新聞的文字長度。用plt庫繪製直方圖。1 假設字元3750,字元900和字元648是句子...