안녕하세요! 데이터 엔지니어(DE)로의 도전을 응원합니다. 현재 준비 중이신 SQLP는 데이터 모델링과 쿼리 최적화 역량을, AWS SAA는 클라우드 기반의 인프라 설계 능력을 증명하기에 매우 좋은 시작점입니다.
하지만 실제 실무에서는 데이터를 '어떻게 최적화해서 보느냐'를 넘어, '어떻게 안정적으로 흘려보낼 것인가'가 핵심입니다. 추가로 준비하시면 좋을 3가지 핵심 영역을 추천드립니다.
1. 분산 처리 프레임워크 (Spark)
데이터 엔지니어링의 꽃은 대용량 데이터를 처리하는 능력입니다. 단순한 SQL을 넘어 수 TB 단위의 데이터를 분산 환경에서 처리하는 Apache Spark 공부를 추천드립니다.
추천 자격증: Databricks Certified Data Engineer Associate
학습 방향: PySpark 또는 Scala를 활용한 데이터 가공 실무.
2. 워크플로우 관리 도구 (Airflow)
수많은 데이터 파이프라인을 체계적으로 관리하고 스케줄링하는 도구가 필수적입니다. 현재 업계 표준은 Apache Airflow입니다.
학습 방향: Python을 이용해 DAG(Directed Acyclic Graph)를 설계하고, 파이프라인의 의존성을 관리하는 방법을 익히시면 강력한 무기가 됩니다.
3. 데이터 웨어하우스(DW) 및 데이터 레이크 이해
AWS SAA를 준비 중이시니, AWS의 데이터 관련 서비스들을 깊게 파보시는 것을 추천합니다.
핵심 서비스: Amazon Redshift(DW), Amazon S3(Data Lake), AWS Glue(ETL).
학습 방향: 정형 데이터뿐만 아니라 비정형 데이터를 어떻게 수집하고 적재할 것인지에 대한 아키텍처 설계 역량.