Python 資料初步處理

2021-10-03 20:02:10 字數 2476 閱讀 1632

email:[email protected]

python 字典操作

python 陣列操作

import pandas as pd

import numpy as np

df = pd.read_csv(

'***.csv'

,encoding =

'latin-1'

)#使用pandas讀取csv,注意檔案路徑

df.columns=

["columns1"

,"columns2"

,"columns3"

,"columns4"

,"columns5"

,"columns6"

]#columns1-6 分別為csv列名

print

(df)

df.to_csv(

'***.csv'

,encoding=

'utf-8'

)

df1[

'columns7']=

''df1

df1 = df[

'columns4'

].value_counts(

)df1

for i in

range

(len

(df1)):

if df1[

'count'

][i]

>=30:

#這裡以count=30為分界點

df1[

'***'

][i]=1

else

: df1[

'***'

][i]

=0

df_sum = df[

'columns5'

].groupby(df[

'columns4'])

.sum()

print

(df_sum)

#兩個字典,如果 columns4 的 value 相同,根據 df2 的 columns6 的 value,對 df1 的 columns6 進行賦值

for i in

range

(len

(df1)):

for j in

range

(len

(df2)):

if df1[

'columns4'

][i]

== df2[

'columns4'

][j]

: df1[

'columns5'

][i]

= df2[

'columns5'

][j]

df1[

'columns6'

]= df1[

'columns5'

]/df1[

'count'

]print

(df1)

x = df[

["columns1"

,"columns2"]]

#提取df中的兩列至x

x = np.array(x)

#使用nupmy將提取的兩列轉化為陣列

print

(x)

y = df[

"columns3"

]#提取df中的一列至y

y = np.array(y)

#使用nupmy將其轉化為陣列

print

(y)

np.random.seed(

100)

#隨機種子數不變,每次亂序後順序相同

np.random.shuffle(x)

np.random.seed(

100)

np.random.shuffle(y)

print

(x)print

(y)

x_train, x_test = x[

:10000

], x[

10000:]

#以10000為分界點,分割為兩個陣列

y_train, y_test = y[

:10000

], y[

10000:]

print

(x_train)

print

(x_test)

print

(y_train)

print

(y_test)

資料預處理初步解釋

一 資料預處理 總結資料預處理的主要作用 提高資料計算的效果和效率,資料預處理需要考慮資料的質量要求和計算要求,質量要求 資料預處理可以把對最終分析結果影響較大的不一致資料 虛假資料 錯誤資料等等資料排除在外,保證了資料分析結果具有較大的準確性,大資料分析分析出來的結果是作為決策方面的依據,故結果的...

資料預處理 機器學習初步

這兩個是我們每次都需要匯入的庫。numpy包含數學計算函式。pandas用於匯入和管理資料集。資料集通常是.csv格式。csv檔案以文字形式儲存 資料。檔案的每一行是一條資料記錄。我們使用pandas的read csv方法讀取本地csv檔案為乙個資料幀。然後,從資料幀中製作自變數和因變數的矩陣和向量...

Python 資料型別初步 Numbers

本篇內容 今天主要簡介了幾種數字的資料型別和一些稍微比較常用的方法。int bytes float bool complex long python裡面的使用變數的時候並不需要提前宣告,直接用,然後他才會申請記憶體。python會識別出來你所要儲存的值的型別,然後再儲存。a 10 b 1.1 c 1...