반응형

분류 전체보기 708

KOSIS openAPI 호출을 위한 AWS Lambda 생성

앞에서 만든 python을 AWS Lambda에 등록해본다. https://whiseung.tistory.com/entry/KOSIS%EA%B5%AD%EA%B0%80%ED%86%B5%EA%B3%84%ED%8F%AC%ED%84%B8-%EB%8C%80%EC%9A%A9%EB%9F%89%ED%86%B5%EA%B3%84%EC%9E%90%EB%A3%8C-openAPI-%EC%82%AC%EC%9A%A9 KOSIS(국가통계포털) 대용량통계자료 openAPI 사용 kosis 에서 제공하는건, [통계자료]와 [대용량통계자료] 두가지가 존재한다. 현재로썬, [대용량통계자료] 를 쓸일이 없긴한데 일단 테스트를 진행한다. 자료등록 URL을 생성하고, [URL생성]을 누른다 whiseung.tistory.com Lambda 함수..

AWS 2022.12.09

python으로 AWS S3 파일 읽고 쓰기

KOSIS openAPI 를 가져왔으니, 이를 AWS S3에 올리려고 한다. 일단 S3에 접근할수 있는 IAM 자격정보를 가져온다 [IAM] - [액세스 관리] - [사용] 로 이동한다. 사용자를 클릭하고, [보안 자격 증명] 으로 이동한 뒤 [엑세스 키 만들기] 를 클릭한다. 액세스키를 만들고, 엑세스 키 ID 와, 비밀 액세스 키 를 이용해 python에서 S3에 접근한다. 로컬에, parquet 파일 만들기 (SDMX) import pandas as pd import requests from bs4 import BeautifulSoup open_url = "https://kosis.kr/openapi/statisticsBigData.do?method=getList&apiKey=api_key&form..

AWS 2022.12.06

KOSIS(국가통계포털) 대용량통계자료 openAPI 사용

kosis 에서 제공하는건, [통계자료]와 [대용량통계자료] 두가지가 존재한다. 현재로썬, [대용량통계자료] 를 쓸일이 없긴한데 일단 테스트를 진행한다. 자료등록 URL을 생성하고, [URL생성]을 누른다. 대용량통계자료는 XLS와 SDMX를 제공한다. XLS는 엑셀형식이고, SDMX는 KOSIS에서 아래와 같이 설명하고 있다. KOSIS 공유서비스 자료 제공형태 중에서 SDMX는 XML의 일종으로서 통계에 특화된 XML로 보시면 됩니다. SDMX는 Statistical Data and Metadata eXchange의 약어로 통계작성기구(기관)간의 다양한 형태의 통계자료를 XML 기반으로 제공하여 교환과 공유를 효율적으로 지원합니다. SDMX 표준은 국제결제은행(BIS), 유럽중앙은행, 유럽통계처(Eu..

Study 2022.12.02

KOSIS(국가통계포털) 통계자료 openAPI 사용

💡국가통계포털(KOSIS) 에서 제공하는 openAPI를 이용해 통계데이터를 수집해본다. 국가통계포털에서 제공하는 openAPI를 가져와 데이터를 적재하는 프로젝트가 생겼다. 일단 target은 AWS S3 일것으로 추측. 한스텝씩 테스트를 진행한다. KOSIS 통계자료 openAPI 사용 KOSIS 대용량통계자료 openAPI 를 이용해 parquet 파일 생성 KOSIS openAPI를 이용해 가져온 데이터를 AWS S3에 parquet 파일로 저장 일단 KOSIS의 openAPI 사용법을 확인해본다. KOSIS openAPI 사이트로 이동한다. (https://kosis.kr/openapi/index/index.jsp) 활용신청을 하고, [개발가이드] - [통계자료] 로 이동한다. [URL 생성] ..

Study 2022.11.29

kafka install (작성중)

0. 서버 기본 설정 0.1 hostname 변경하기 (모든서버에서 작업) 구성할 kafka 서버에 hostname들을 각각 변경한 [ws@localhost~]$ sudo hostnamectl set-hostname kserver01 [sudo] ws의 암호: [ws@localhost~]$ [ws@localhost~]$ sudo hostnamectl set-hostname kserver02 [sudo] ws의 암호: [ws@localhost~]$ [ws@localhost~]$ sudo hostnamectl set-hostname kserver03 [sudo] ws의 암호: [ws@localhost~]$ 0.2 hosts 변경하기 (모든서버에서 작업) [ws@kserver01~]$ sudo vi /etc/..

Study 2022.11.24

Docker 설치 및 사용

신규 프로젝트가 대기중이다. docker 나 k8s를 사용하는 프로젝트라고 이야기를 듣고, 공부를 시작하게됫다. 개념같은건 인터넷에 많으니까.. 난알고있고 테스트를 진행한다. 도커 설치 [ws@zserver03 ~]$ curl -fsSL | sudo sh [sudo] ws의 암호: # Executing docker install script, commit: 4f282167c425347a931ccfd95cc91fab041d414f + sh -c 'yum install -y -q yum-utils' Delta RPMs disabled because /usr/bin/applydeltarpm not installed. + sh -c 'yum-config-manager --add-repo ' Loaded plug..

Study 2022.11.18

JAVA 프로젝트로 GCP BigQuery의 Bulk INSERT(Streaming buffer) 테이블 truncate 이슈

이 프로세스로 API를 가져와 BigQuery에 데이터를 저장하는 프로그램 개발한다. 테스트 중 InsertAll 로 저장한 테이블이 마음대로 컨트롤되지 않는다. 구글링해보니, InsertAll로 저장한 데이터는 일정시간동안 삭제할수 없다. BigQuery: 404 "Table is truncated." when insert right after truncate BigQuery: 404 "Table is truncated." when insert right after truncate I truncate my table by executing a queryJob described here: https://cloud.google.com/bigquery/docs/quickstarts/quickstart-cli..

GCP 2022.11.14

JAVA 프로젝트로 GCP BigQuery의 데이터 조작하기(Insert / Update)

GCP BigQuery에 쿼리문을 통해 데이터를 INSERT/UPDATE 한다. void contextLoads() throws Exception { System.out.println("############### start ###############"); String projectId = "projectId "; String datasetName = "datasetName "; String tableName = "tableName "; String bgDateTimeNow = ZonedDateTime.now().format(DateTimeFormatter.ofPattern("yyyy-MM-dd")) + "T" + ZonedDateTime.now().format(DateTimeFormatter.ofPa..

GCP 2022.11.04
반응형