Python資料分析 pandas針對字串操作

2022-01-30 01:21:19 字數 3482 閱讀 2240

目錄在pandas中針對字串配備了一套方法,使其容易對陣列的每個元素進行操作。

# 通過str屬性操作,會自動排除丟失nan值

import numpy as np

import pandas as pd

s = pd.series(['ace','bbb','hello','100',np.nan,'black'])

df = pd.dataframe()

print(s)

print(df)

print('-' * 50)

print(s.str.count('b')) # 統計每個字串中含有b字母的數量

print(df['key1'].str.upper()) # 將字串轉化為大寫

print('-' * 50)

# 字串索引

print('-------str[0]字串索引結果-------')

print(df['key2'].str[0]) # 取第乙個字元

print('-------str[:2]字串索引結果-------')

print(df['key2'].str[:2]) # 取前2個字元

print('-' * 50)

# df.columns可以直接使用str屬性,並且df.columns返回的物件可以直接使用list或者tolist()轉化為字典.

df.columns = df.columns.str.upper()

print(df)

輸出結果:

print(s.str.lower(),'------全部小寫\n')

print(s.str.upper(),'------全部大寫\n')

print(s.str.len(),'------求每個字串的長度\n')

print(s.str.startswith('h'),'------判斷起始是否為h\n')

print(s.str.endswith('d'),'------判斷結束是否為d\n')

print(s.str.strip(),"------strip()的案例結果\n") # 去除字串兩邊的空格

print(s.str.lstrip(),"-----lstrip()的案例結果\n") # 去除字串左邊的空格

print(s.str.rstrip(),"-----rstrip()的案例結果\n") # 去除字串右邊的空格

print('--------------------')

df.columns = df.columns.str.strip() # 去掉列名兩邊的空格,中間的空格沒去掉

print(df)

輸出結果:

# 替換replace

import pandas as pd

df = pd.dataframe(np.random.randn(3, 2), columns=[' column a ', ' column b '],

index=range(3))

df.columns = df.columns.str.replace(' ','-')

print(df)

# 替換

df.columns = df.columns.str.replace('-','***',n=1) # n:替換個數

print(df)

輸出結果:

print(s.str.split(',')) # 分割

print('-' * 50 )

# 獲取分割後的第乙個list

print(s.str.split(',')[0])

print('-' * 50 )

#使用get或符號訪問拆分列表中的元素

print(s.str.split(',').str[0])

print('------------str.get(0)的測試結果--------------')

print(s.str.split(',').str.get(0))

print('------------expand=true的測試結果-------------' )

print(s.str.split(',',expand=true))

print('------------expand=true & n=3 的測試結果-------------' )

print(s.str.split(',',expand=true,n=3)) # n引數限制分割數,n=3表示對前3列分割,後面的全部作為一列

print('------------rsplit 的測試結果-------------' )

print(s.str.rsplit(',',expand=true,n=3)) # rsplit類似於split,反向工作,即從字串的末尾到字串的開頭

# dataframe使用字元分割

df = pd.dataframe()

print(df)

print('----------dataframe使用split結果----------')

# 對key2列使用split

panda資料分析

1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...

python資料分析筆記中panda 3

1 按照空格將一列的內容分為兩列 1 from pandas import series 2from pandas import dataframe 3from pandas import read csv 45 欄位的拆分 按照固定的字元 拆分已有的字串 6 函式 splite sep,n.exp...

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...