1억 건이 넘는 데이터를 한 파일로 S3에 저장했다. parquet 파일로 저장을 했고, 파일이 2GB가 넘는다. Athena에서 count 쿼리를 날려보니 1억 2천 건이다. Select * FROM table 명령어를 날려본다. 조회하는데 12분이 걸린다. 해당 데이터는 날짜기준 컬럼이 있다. 이 컬름을 기준으로 파티셔닝을 진행해본다. spark 의 partitionBy() 를 사용한다. partitionBy 에서 파티셔닝 할 컬럼명을 입력해준다. import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue...