[책리뷰] 견고한 데이터 엔지니어링
https://product.kyobobook.co.kr/detail/S000202731288
데이터 엔지니어로서 이직 준비를 본격적으로 시작하며 무작정 채용시장에서 요하는 기술을 공부하기보다 일단 업계의 흐름을 보고자 했다.
여러 데이터 엔지니어링 관련 글, 컨퍼런스, 오픈 채팅방 에서 얻은 정보들은 많았지만 실제로 경험해 본 것들이 아니기에 머리가 복잡했다. 데이터 엔지니어링 입문의 교과서로 꼽히는 책인 빅데이터를 지탱하는 기술 을 먼저 봤는데 너무 많은 내용을 담고 있어 오히려 혼란만 더 커졌다. 그리고 다음으로 추천받은 책 견고한 데이터 엔지니어링을 읽고 마침내 머릿속에 틀이 생겼다.
아하! 포인트를 만났달까..
목차는 이렇다.
목차
[PART I 데이터 엔지니어링 기반 구축하기]
CHAPTER 1 데이터 엔지니어링 상세
CHAPTER 2 데이터 엔지니어링 수명 주기
CHAPTER 3 우수한 데이터 아키텍처 설계
CHAPTER 4 데이터 엔지니어링 수명 주기 전체에 걸친 기술 선택
[PART II 데이터 엔지니어링 수명 주기 심층 분석]
CHAPTER 5 1단계: 원천 시스템에서의 데이터 생성
CHAPTER 6 2단계: 데이터 저장
CHAPTER 7 3단계: 데이터 수집
CHAPTER 8 4단계: 쿼리 모델링 및 데이터 변환
CHAPTER 9 5단계: 분석, 머신러닝 및 역 ETL을 위한 데이터 서빙
[PART III 보안, 개인정보보호 및 데이터 엔지니어링의 미래]
CHAPTER 10 보안과 개인정보보호
CHAPTER 11 데이터 엔지니어링의 미래
이책은 딱 데이터의 수명주기, 데이터 파이프라인 구축/설계의 핵심만 담고 있다.
코드나 실습에 관한 내용은 없어 딱 입문으로 읽기 좋다.
오라일리 X 한빛미디어
가격은 정가로 38,000원이다.
두께는 그리 두껍지 않다.
코드 설명 없이 이론만 저 정도면 두꺼운 것 같기도...
초판 2023년
최신 데이터 인프라 / 엔지니어링 의 내용을 담고 있다고 하니 더 믿음이 갔다.
빅지기도 좋은 책이지만 2018년 책이라.. 그새 환경이 많이 변한 거 같아서..
추천하는 대상 독자가 이렇다.
- 데이터 엔지니어링 분야의 큰 그림을 그리고 싶은 분
- 데이터 엔지니어 업무를 희망하는 분
- 데이터 엔지니어 업무를 하고 계신 분
- 데이터 분석가, 데이터 과학자 직무 담당자로서 데이터 엔지니어링을 이해하려는 분
중간중간 그림도 있고
적당히 목차도 잘 나뉘어 있어 공부하는데 크게 어렵지 않았다.
책의 구성 [ 개요 / 자세한 설명 / 끝맺음 ] 이 잘되어 있었음
이 책에서 핵심인 데이터 엔지니어링 수명주기 (5단계 + 드러나지 않는 요소) 가 계속 반복되며 다각도에서 설명이 되는데
그래서 더 이해하기 좋았다.
다만 설명마다 길이가 길어 조금은 지루하기도 🙄
나와 같이 데이터 엔지니어로 커리어 전환하고자 하는 사람들에게 강력 추천하는 책
💎 정리한 부분
데이터 엔지니어는 데이터를 수집하고 데이터로부터 가치를 제공 ⇒ 데이터 과학과 분석
조직 내 데이터 엔지니어
데이터 생산자 ← 데이터 엔지니어 → 데이터 소비자
=> 사이의 허브 역할
데이터 엔지니어링 수명주기
⨀ 5 단계
- 데이터 생성
- 데이터 수집
- 데이터 저장
- 데이터 변환
- 데이터 서빙
⨀ 드러나지 않는 요소
- 보안
- 데이터 관리
- 데이터옵스
- 데이터 아키텍처
- 오케스트레이션
- 소프트웨어 엔지니어링
데이터 아키텍처
: 기업의 진화하는 데이터 요구 사항을 지원하는 시스템 설계
모던 데이터 스택
: 클라우드 기반의 플러그 앤 플레이 (PnP) 방식과 사용하기 쉬운 기성 구성 요소를 써서 모듈식이면서도 비용 효율적인 데이터 아키텍처 구축
라이브 데이터 스택
: 스트리밍 기술 기반, 실시간 분석, ML을 애플리케이션에 융합해 애플리케이션 원천 시스템에서 데이터 처리, ML에 이르는 전체 데이터 수명주기를 포괄
데이터 카탈로그
: 조직 전체의 모든 데이터에 대한 중앙 집중식 메타 데이터 저장소
- 다양한 시스템 및 추상화와 통합됨
- 운영 및 분석 데이터 원천에서 작동
- 데이터 계통과 데이터 관계 표현을 통합
- 사용자가 데이터 설명을 편집할 수 있게 함
데이터 수집 vs 데이터 통합
- 데이터 수집 : A 지점에서 B 지점으로 데이터 이동
- 데이터 통합 : 서로 다른 소스의 데이터를 새로운 데이터 셋으로 결합
변환 vs 쿼리
- 변환 : 추가 변환 또는 쿼리를 통해 결과 계속 사용할 수 있도록 유지 > 오케스트레이션에 매우 의존
- 쿼리 : 필터링 및 조인 로직에 따라 다양한 원천에서 데이터를 검색
견고한 데이터 엔지니어링을 통해 기반을 잡았으니 한단계 나아가 프로젝트도 진행해봐야겠다.
커리어 전환 화이팅~
2024.06 공부함