Python 資料初步處理

email：[email protected]

python 字典操作

python 陣列操作

import pandas as pd
import numpy as np

df = pd.read_csv(
'***.csv'
,encoding =
'latin-1'
)#使用pandas讀取csv，注意檔案路徑
df.columns=
["columns1"
,"columns2"
,"columns3"
,"columns4"
,"columns5"
,"columns6"
]#columns1-6 分別為csv列名
print
(df)

df.to_csv(
'***.csv'
,encoding=
'utf-8'
)

df1[
'columns7']=
''df1

df1 = df[
'columns4'
].value_counts(
)df1

for i in
range
(len
(df1)):
if df1[
'count'
][i]
>=30:
#這裡以count=30為分界點
df1[
'***'
][i]=1
else
: df1[
'***'
][i]
=0

df_sum = df[
'columns5'
].groupby(df[
'columns4'])
.sum()
print
(df_sum)

#兩個字典，如果 columns4 的 value 相同，根據 df2 的 columns6 的 value，對 df1 的 columns6 進行賦值
for i in
range
(len
(df1)):
for j in
range
(len
(df2)):
if df1[
'columns4'
][i]
== df2[
'columns4'
][j]
: df1[
'columns5'
][i]
= df2[
'columns5'
][j]

df1[
'columns6'
]= df1[
'columns5'
]/df1[
'count'
]print
(df1)

x = df[
["columns1"
,"columns2"]]
#提取df中的兩列至x
x = np.array(x)
#使用nupmy將提取的兩列轉化為陣列
print
(x)

y = df[
"columns3"
]#提取df中的一列至y
y = np.array(y)
#使用nupmy將其轉化為陣列
print
(y)

np.random.seed(
100)
#隨機種子數不變，每次亂序後順序相同
np.random.shuffle(x) 
np.random.seed(
100)
np.random.shuffle(y)
print
(x)print
(y)

x_train, x_test = x[
:10000
], x[
10000:]
#以10000為分界點，分割為兩個陣列
y_train, y_test = y[
:10000
], y[
10000:]
print
(x_train)
print
(x_test)
print
(y_train)
print
(y_test)

資料預處理初步解釋

一資料預處理總結資料預處理的主要作用提高資料計算的效果和效率，資料預處理需要考慮資料的質量要求和計算要求，質量要求資料預處理可以把對最終分析結果影響較大的不一致資料虛假資料錯誤資料等等資料排除在外，保證了資料分析結果具有較大的準確性，大資料分析分析出來的結果是作為決策方面的依據，故結果的...

資料預處理機器學習初步

這兩個是我們每次都需要匯入的庫。numpy包含數學計算函式。pandas用於匯入和管理資料集。資料集通常是.csv格式。csv檔案以文字形式儲存資料。檔案的每一行是一條資料記錄。我們使用pandas的read csv方法讀取本地csv檔案為乙個資料幀。然後,從資料幀中製作自變數和因變數的矩陣和向量...

Python 資料型別初步 Numbers

本篇內容今天主要簡介了幾種數字的資料型別和一些稍微比較常用的方法。int bytes float bool complex long python裡面的使用變數的時候並不需要提前宣告，直接用，然後他才會申請記憶體。python會識別出來你所要儲存的值的型別，然後再儲存。a 10 b 1.1 c 1...

Python 資料初步處理

資料預處理初步解釋

資料預處理 機器學習初步

Python 資料型別初步 Numbers

相關推薦

資料預處理機器學習初步