728x90
- 본 포스팅은 'Google Advanced Data Analytics Professional Certificate' 과정을 수강하며 요약/정리하기 위한 포스팅입니다.
EDA를 6가지 절차로 구분하여 소개하지만,
순차적인 가이드라인이 아닌, 반복적이고 비순서적으로 진행되어야만 한다,
데이터셋의 형태는 다양하기 때문에, 탐색하려는 접근 방식은 각각 다르다.
이는 EDA 절차를 할 때 논리와 경험에서 비롯된 통찰이 수반되어야 한다는 것을 의미한다.
Visual example

- Discovering: 데이터의 전반적인 모양, 사이즈, 형식 및 기본 정보를 확인한다.
- Joining: 데이터를 추가한다.
- Validating: 새로운 데이터가 문제가 있는지 확인한다.
- Structuring: 데이터를 분석에 용이한 형태로 구조를 변경한다. 분석에 도움이 될 새로운 컬럼을 추가한다.
- Validating: 변경한 데이터가 타당한지, 틀린 건 없는지 확인한다.
- Cleaning: 이상치나 결측치를 확인한다. 데이터 변환을 진행한다.
- Validating: 데이터 클리닝이 제대로 반영되었는지, 놓친 건 없는지 확인한다.
- Presenting: 동료들에게 데이터를 공유한다.
위 8가지 절차는 하나의 예시일 뿐이다.
포인트는 탐색적 분석 과정에서 Validating을 거듭함으로써 틀린 건 없는지 확인하고,
혹여 다음 절차를 진행 중에 놓치거나 부족한 부분을 확인하면, 이전 절차로 다시 돌아가서 보완하는 것이다.
관습적으로 이런 EDA 절차를 여러 번 진행해서 정말 '클린'하다고 생각 될 때 분석에 들어간다.
머신러닝 모델에 따라 모든 입력 데이터가 동일한 데이터 타입 (숫자, boolean 등)으로 동일해야 하는 경우도 있으므로,
모델이 확정 된 경우라면 이를 유념하여 분석하면 좋다.
주의할 점:
데이터 클리닝 과정에서 특정 수치에 편향되게끔 조정한다거나,
한 쪽으로 치우친 데이터를 추가하는 등, 분석을 진행하는 사람의 주관이 개입되지 않아야 한다.
728x90
'데이터사이언스 > Google Advanced Data Analytics' 카테고리의 다른 글
데이터 시각화 도구 'Tableau' 만지작 거려보기 (기초 실습) (0) | 2023.05.16 |
---|---|
Label encoding / One-hot encoding: 무엇을 적용하는게 더 적절할까? (0) | 2023.05.10 |
데이터 분석가가 고려해야 할 필수적인 역량 | 효과적인 프레젠테이션 / 데이터 검증 (0) | 2023.04.26 |
데이터 분석가에게 필요한 비기술적인 역량 6가지 + 채용 공고 예시 (0) | 2023.04.25 |
Google Advanced Data Analytics Professional Certificate(구글 고급 데이터 분석 전문 인증서) 소개 및 취득 후기 | 캡스톤디자인 + 포트폴리오에 도움이 될까? (0) | 2023.04.22 |