Python之pandas資料載入 儲存

2021-07-09 08:02:34 字數 1141 閱讀 4271

0. 輸入與輸出大致可分為三類:

0.1 讀取文字檔案和其他更好效的磁碟儲存格式

2.2 使用資料庫中的資料

0.3 利用web api操作網路資源

1. 讀取文字檔案和其他更好效的磁碟儲存格式
pandas提供了一些用於將**型資料讀取為dataframe物件的函式。

1.1 pandas中的解析函式:

read_csv 從檔案、url、檔案型物件中載入帶分隔符的資料。預設分隔符為逗號

read_table 從檔案、url、檔案型物件中載入帶分隔符的資料。預設分隔符為製表符("\t")

read_clipboard 讀取剪貼簿中的資料,可以看做read_table的剪貼簿版。在將網頁轉換為**時很有用

其中,read_csv、read_table使用較多。

1.2 逐塊讀取文字檔案

讀取幾行nrows

逐塊讀取chunksize(行數)

1.3 將資料寫到文字格式

利用dataframe的to_csv

2. 使用資料庫中的資料
2.1 使用關係型資料庫中的資料,可以使用python sql驅動器(pyodbc、psycopg2、mysqldb、pymssql等)

2.2 使用非關係型資料庫中的資料,如mongodb,用其官方驅動器pymongo通過預設埠進行連線。

3. 利用web api操作網路資源
3.1 應用lxml.html處理html

步驟:1)利用urllib2將url開啟,然後由lxml解析得到資料流

2)得到url和鏈結文字

使用文件根節點的findall方法以及乙個xpath,以及個物件的get方法(針對url)和text_content方法(針對顯示文字)

3)通過反覆試驗從文件中找到正確**

4)將所有步驟結合起來,將資料轉換為乙個dataframe

3.2 應用lxml.objectify處理xml

1)使用lxml.objetify解析檔案

2)通過getroot得到xml檔案的根節點

3.3 使用**通過jsom及其他格式提供資料的公共的api

使用requests包訪問這些api

Python之pandas資料載入 儲存

0.輸入與輸出大致可分為三類 0.1 讀取文字檔案和其他更好效的磁碟儲存格式 2.2 使用資料庫中的資料 0.3 利用web api操作網路資源1.讀取文字檔案和其他更好效的磁碟儲存格式pandas提供了一些用於將 型資料讀取為dataframe物件的函式。1.1 pandas中的解析函式 read...

Python 資料框之Pandas包

2.刪除 賦值 3.資料框的其他操作 從r語言轉戰python的小夥伴們,經常會遇到資料格式轉換上的問題。與r語言常用資料框格式不同,python以陣列矩陣儲存資料為主。但是python也是相容資料框格式,需要使用到pandas包。下面介紹幾種資料框的常用操作。df.columns 提取列名 df....

python資料分析之pandas

matplotlib inline import pandas as pd import numpy as np import matplotlib.pyplot as plt 1.建立dataframe dates pd.date range 20200401 periods 6,freq 2d ...