반응형
pyspark으로 읽어본다.
spark.read.parqeut 명령어로 간단하게 읽어볼 수 있다.
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
df = spark.read.parquet("s3://bucket_name/kosis_file.parquet")
df.show()
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
job.commit()
+-------+-------------+---------------------+-----+----+
|yyyyymm| category| item|value|unit|
+-------+-------------+---------------------+-----+----+
| 202112| 농수축산|전년동월대비 매출증감률|-14.3| %|
| 202201| 농수축산|전년동월대비 매출증감률| -4| %|
| 202202| 농수축산|전년동월대비 매출증감률|-16.2| %|
| 202203| 농수축산|전년동월대비 매출증감률| 2.3| %|
| 202204| 농수축산|전년동월대비 매출증감률| -4.5| %|
| 202205| 농수축산|전년동월대비 매출증감률| -5.6| %|
| 202206| 농수축산|전년동월대비 매출증감률| -5.1| %|
| 202207| 농수축산|전년동월대비 매출증감률| -5.7| %|
| 202208| 농수축산|전년동월대비 매출증감률| -2.6| %|
| 202209| 농수축산|전년동월대비 매출증감률| -6.5| %|
| 202112|신선·조리식품|전년동월대비 매출증감률|-11.6| %|
| 202201|신선·조리식품|전년동월대비 매출증감률| -4.2| %|
| 202202|신선·조리식품|전년동월대비 매출증감률| -2| %|
| 202203|신선·조리식품|전년동월대비 매출증감률| 4.6| %|
| 202204|신선·조리식품|전년동월대비 매출증감률| -1.9| %|
| 202205|신선·조리식품|전년동월대비 매출증감률| -2.7| %|
| 202206|신선·조리식품|전년동월대비 매출증감률| -2| %|
| 202207|신선·조리식품|전년동월대비 매출증감률| -4.2| %|
| 202208|신선·조리식품|전년동월대비 매출증감률| -0.9| %|
| 202209|신선·조리식품|전년동월대비 매출증감률| 5| %|
+-------+-------------+---------------------+-----+----+
only showing top 20 rows
반응형
'AWS' 카테고리의 다른 글
databricks 에서 Storage Credential 과 External Location 등록해 AWS S3를 Table로 생성하기. (0) | 2023.02.27 |
---|---|
AWS DMS(Data Migration Service)를 사용하여 Aurora PostgreSQL 를 AWS S3에 날짜 기준으로 파티셔닝 하여 적재 (0) | 2023.02.23 |
AWS Glue에서 ngdbc 를 이용해 SAP HANA CLOUD 데이터를 S3에 저장하기 (0) | 2023.01.04 |
AWS Glue에서 hdbcli 를 이용해 SAP BW 데이터를 S3에 저장하기 (0) | 2023.01.04 |
AWS Glue에서 Spark를 이용해 MSSQL 데이터를 S3에 파티션 구조로 저장하기 (0) | 2023.01.02 |