-
2024.04.30 Batch system design questionTIL 2024. 4. 30. 22:44
10 Best Practices for Writing SpringBoot APIs Like a Pro
기본 적인 글
Data Engineering: Practice System Design Question and Solution: Batch
배치 파이프라인 시스템 디자인 관련 글입니다.
질답을 통해 요구사항, 제약 조건 얻어내는 것이 첫 번째.
데이터의 양, 데이터의 시작점, 앞으로의 확장성, 사용처 등을 질문합니다.
Airflow를 사용해서 데이터 파이프라인을 통제한다고 한다.
Redshift이라는 데이터 웨어하우스도 사용한다.
Airflow를 통해 DB로부터 꺼낸 데이터를 S3에 올리면 Apache Spark를 통해 데이터 변환 프로세스를 시작한다.
S3에 CSV형태로 올리면 Pqrquet 형태로 다른 S3버킷에 저장한다.
이후 데이터 검증은 Great Expectations를 통해 한다.
Redshift Spectrum를 통해 S3에 직접 쿼리를 실행한다.
데이터 파이프라인 관련해서는 처음 보는 기술들이 많고 재밌어 보인다..
'TIL' 카테고리의 다른 글
2024.05.02 Galera cluster streaming replication (0) 2024.05.02 2024.05.01 ContextualDeserializer (0) 2024.05.01 2024.04.29 interview question (0) 2024.04.29 2024.04.28 kafka c#, spotify system design (0) 2024.04.28 2024.04.27 html form CORS (0) 2024.04.27