1. 데이터 직군
- 데이터 사이언티스트
- 데이터 엔지니어
- 데이터 애널리스트
데이터 사이언티스트와 데이터 엔지니어 사이에 데이터 애널리스트가 존재한다고 생각하면된다.
하지만, 내가 들어가고자 하는 회사가 데이터 사이언티스트, 애널리스트, 엔지니어가 모두 갖추어져 있지않을 수도 있다.
그러므로 각자의 분야에 대해 어느정도의 지식과 스킬을 사용할 수 있어야 한다!
공통적으로 할 수 있어야 하는 데이터 엔지니어링 분야는 다음과 같다.
- 데이터 수집 (Pull)
- 데이터 저장 (Store)
- API 서비스 개발 (Service)
- 데이터 분석을 위한 대시보드 개발 (Dashboard)
그리고 기본적으로 활용할 수 있어야 하는 것은
Visual Studio Code와 같은 터미널 사용 가능해야 하며
ANACONDA와 같은 가상환경을 사용할 수 있어야 하며
Git과 GitHub을 사용하여 팀프로젝트 진행툴을 사용 가능해야 한다.
2. 데이터베이스
그리고 데이터베이스를 활용하고 사용 가능해야 한다.
데이터는 주로 데이터베이스 안에 저장이 되고, 문자열 데이터가 관계형 데이터베이스 안에 저장이 된다.
JSON 파일, 사진, 동영상 등은 파일 서버에 저장이 된다.
3. 데이터레이크(Data Lake), 데이터 웨어하우스(WareHouse)
: 자연상태의 비정형, 반정형 데이터들을 모아두는 저장소이다. 이후에 정형화된 데이터는 데이터 웨어하우스로 옮겨진다.
데이터 웨어하우스로 옮겨진 데이터는 용도에 맞게 다양하게 활용되고 상업적으로 이용이 된다.
'데이터 사이언스' 카테고리의 다른 글
[파이썬 라이브러리] tqdm (0) | 2022.10.11 |
---|