pyspark dataframe的常用操作

2021-10-21 00:15:26 字數 1143 閱讀 6529

1、列重新命名:

train_data = train_data.todf('imei', 'pkgname', 'timestamp')
2、刪除某一列:

df = df.drop('col')
3、選取某些列:

train_data = train_data.filter(train_data.date != "2021-03-01")
4、自定義函式,udf,而且有多個輸入量:

from pyspark.sql.functions import *

from pyspark.sql.types import *

from pyspark.sql.functions import udf

from pyspark.sql.types import integertype,stringtype

def get_hours(cur_day, cur_hour):

return cur_day * 24 + cur_hour

get_hours_udf = udf(get_hours,integertype()

train_data2 = train_data2.withcolumn('hours',get_hours_udf(train_data2['day'],train_data2["hour"]))

5、groupby聚合並拼接:

from pyspark.sql.functions import window, column, desc, col,collect_list

u1 = train_data2.groupby(['user','hour','day']).agg(collect_list(train_data2["pkgname"])).alias('pkgname_list')

#還有collect_set

6、列資料型別轉換:

7、從pyspark dataframe中抽取符合某條件的物件

train_data2= train_data.filter(train_data.day == "2020-05-04")

Oracle data guard常用維護操作命令

data guard是oracle提供的一種高可用性解決方案,用於資料保護和容災,通過日誌同步來把資料及時傳送到備用節點,現總結一下data guard環境下常用的維護命令 1 在生產庫停止data guard操作 sql show parameter log archive dest sql al...

JavaWeb response物件常用操作

方式一response.setcontenttype contenttype 方式二response.setheader content type contenttype response.setcontenttype mime 的作用 讓伺服器告訴瀏覽器它傳送的資料屬於什麼檔案型別,使客戶端瀏覽器...

JavaWeb response物件常用操作

方式一response.setcontenttype contenttype 方式二response.setheader content type contenttype response.setcontenttype mime 的作用 讓伺服器告訴瀏覽器它傳送的資料屬於什麼檔案型別,使客戶端瀏覽器...