AWS

AWS Glue로 S3 에 저장된 parquet 파일 읽어보기

whistory 2023. 1. 5. 08:09
반응형

 

 

pyspark으로  읽어본다.

 

spark.read.parqeut 명령어로 간단하게 읽어볼 수 있다.

 

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

df = spark.read.parquet("s3://bucket_name/kosis_file.parquet")
df.show()

job = Job(glueContext)
job.init(args['JOB_NAME'], args)
job.commit()
+-------+-------------+---------------------+-----+----+
|yyyyymm|     category|                 item|value|unit|
+-------+-------------+---------------------+-----+----+
| 202112|     농수축산|전년동월대비 매출증감률|-14.3|   %|
| 202201|     농수축산|전년동월대비 매출증감률|   -4|   %|
| 202202|     농수축산|전년동월대비 매출증감률|-16.2|   %|
| 202203|     농수축산|전년동월대비 매출증감률|  2.3|   %|
| 202204|     농수축산|전년동월대비 매출증감률| -4.5|   %|
| 202205|     농수축산|전년동월대비 매출증감률| -5.6|   %|
| 202206|     농수축산|전년동월대비 매출증감률| -5.1|   %|
| 202207|     농수축산|전년동월대비 매출증감률| -5.7|   %|
| 202208|     농수축산|전년동월대비 매출증감률| -2.6|   %|
| 202209|     농수축산|전년동월대비 매출증감률| -6.5|   %|
| 202112|신선·조리식품|전년동월대비 매출증감률|-11.6|   %|
| 202201|신선·조리식품|전년동월대비 매출증감률| -4.2|   %|
| 202202|신선·조리식품|전년동월대비 매출증감률|   -2|   %|
| 202203|신선·조리식품|전년동월대비 매출증감률|  4.6|   %|
| 202204|신선·조리식품|전년동월대비 매출증감률| -1.9|   %|
| 202205|신선·조리식품|전년동월대비 매출증감률| -2.7|   %|
| 202206|신선·조리식품|전년동월대비 매출증감률|   -2|   %|
| 202207|신선·조리식품|전년동월대비 매출증감률| -4.2|   %|
| 202208|신선·조리식품|전년동월대비 매출증감률| -0.9|   %|
| 202209|신선·조리식품|전년동월대비 매출증감률|    5|   %|
+-------+-------------+---------------------+-----+----+
only showing top 20 rows
반응형