資料清洗(二) 資料轉換

2021-09-09 07:39:42 字數 1360 閱讀 5425

這個比較簡單,基本上用軟體開啟電子**後選擇另存為就可以定義另存檔案的格式和編碼了,這是比較簡單快捷的。不過也有一些地方需要注意:

電子**轉換為json資料稍微麻煩一點,但是也有很多方法解決了;

使用mysql的命令列輸出csv檔案:

select concat(firstname, " ", lastname) as name, email_id

into outfile 'filename.csv'

fields terminated by ',' optionally enclosed by '"'

lines terminated by '\n'

from tbl_name;

但這種方式無法輸出為json格式的資料。

使用工具phpmyadmin

phpmyadmin是基於web的mysql資料庫客戶端程式,它可以將一整張表的資料或查詢出來的結果資料直接輸出為csv或json格式的檔案。具體就不演示了,安裝好後稍微研究一下就會使用了。

用程式的方式轉換方式有多種多樣,最簡單的能想象到的就是使用內建的csv和json庫。

import json

import csv

# 讀取csv檔案

with open('filename.csv') as file:

file_csv = csv.dictreader(file)

output = '['

# 處理每乙個目錄

for row in file_csv:

output += json.dumps(row) + ','

output = output.rstrip(',') + ']'

# 把檔案寫入磁碟

f = open('filename.json', 'w')

f.write(output)

f.close()

也還可以使用python工具包的csvkit庫來實現。

讀取json檔案並轉換為csv:

import json

import csv

with open('filename.json', 'r') as f:

dicts = json.load(f)

out = open('filename.csv', 'w')

writer = csv.dictwriter(out, dicts[0].keys())

writer.writeheader()

writer.writerrows(dicts)

out.close()

資料清洗之資料轉換

1.日期格式資料處理 import numpy as np import pandas as pd import os os.chdir r f csdn 課程內容 和資料 df pd.read csv baby trade history.csv encoding utf 8 dtype df.h...

資料清洗和轉換

實際生產環境中機器學習比較耗時的一部分 大部分的機器學習模型所處理的都是特徵,特徵通常是輸入變數所對應的可用於模型的 數值表示 大部分情況下 收集得到的資料需要經過預處理後才能夠為演算法所使用,預處理的操作 主要包括以下幾個部分 對資料進行初步的預處理,需要將其轉換為一種適合機器學習模型的表示形式,...

04 資料清洗和轉換

大部分機器學習模型處理的都是特徵,是實際工作中最耗時的一部分。大部分情況下,收集到的資料需要經過預處理後才能被後續的機器學習演算法所使用。一 資料預處理包括以下幾個步驟 1 資料過濾 比如使用者id是乙個唯一值,當出現兩個相同的使用者id就需要過濾掉乙個。2 處理資料缺失 如果有500個樣本,其中第...