'Spark' 태그의 글 목록

Spark 2

AWS Glue에서 Spark를 이용해 MSSQL 데이터를 S3에 파티션 구조로 저장하기

1억 건이 넘는 데이터를 한 파일로 S3에 저장했다. parquet 파일로 저장을 했고, 파일이 2GB가 넘는다. Athena에서 count 쿼리를 날려보니 1억 2천 건이다. Select * FROM table 명령어를 날려본다. 조회하는데 12분이 걸린다. 해당 데이터는 날짜기준 컬럼이 있다. 이 컬름을 기준으로 파티셔닝을 진행해본다. spark 의 partitionBy() 를 사용한다. partitionBy 에서 파티셔닝 할 컬럼명을 입력해준다. import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue...

AWS 2023.01.02

AWS Glue에서 Spark를 이용해 MSSQL 데이터를 S3에 저장하기

python job을 생성하여 싱글노드로 MSSQL 데이터를 S3에 저장하다보니, 데이터의 양이 1억건이 넘어가면 메모리부족이 발생했다. 데이터 사이즈가 큰 테이블의 경우에는, Spark을 이용해 분산저장을 해야겠다. 일단 Glue Job에서, [Spark script editor] 을 통해 Spark job을 생성한다. import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.job import Job ## @params: [JOB_NA..

AWS 2022.12.26

CognitiveService, GoogleSheets, AppsScript, googleappsscript, S3, AWS, GCP, Python, GAS, bigquery, AZURE, FormRecognizer, GoogleForms, gws, KAKAO, kosis, Glue, Google, spreadsheet, openapi,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

whistory

Spark 2

티스토리툴바