使用pyspark讀寫hive資料表

2021-10-09 03:09:46 字數 761 閱讀 6413

pyspark提供了操作hive的介面,可以直接使用sql語句從hive裡面查詢需要的資料,**如下:

# -*- coding: utf-8 -*-

import sys

from pyspark.sql import sparksession, hivecontext

reload(sys)

sys.setdefaultencoding("utf-8")

#_spark_host = "spark://spark-master:7077"

# 使用拼接sql語句的方式查詢hive 表,返回dataframe格式資料

hive_database = "test" # 要操作的資料庫

hive_table = "table_01" # 要操作的資料表

hive_read_sql = "select * from {}.{}".format(hive_database, hive_table)

read_df = spark.sql(hive_read_sql)

# hive_context = hivecontext(spark)

# hive_context.setloglevel("warn") # 或者info等

# read_df = hive_context.sql(hive_read_sql)

print(read_df.show(10))

print('

pyspark讀取hive資料寫入到redis

1 首先把redis包引入工程,這樣就不需要在集群裡每台機器上安裝redis客戶端。pip install redis cd usr local lib python3.6 dist packages 找到自己環境的路徑 zip r redis.zip redis hdfs dfs put redi...

大資料實戰 pyspark使用

解壓 tar xvf python 3.6.3.tgz原始碼編譯安裝python3 yum install zlib devel bzip2 devel openssl devel ncurses devel sqlite devel readline devel tk devel gcc make...

Hive 3 Hive 基本使用

1 建立庫 create database if not exists mydb 2 檢視庫 show databases 3 切換資料庫 use mydb 4 建立表 create table if not exists t user id string,name string 或 create ...