데이터사이언스/Google Advanced Data Analytics

[데이터분석] EDA(탐색적 데이터 분석) 6가지 과정 | Discovering, Joining, Structuring, Cleaning, Validating, Presenting

누군가의 이야기 2023. 5. 3. 14:37
728x90
 

 

- 본 포스팅은 'Google Advanced Data Analytics Professional Certificate' 과정을 수강하며 요약/정리하기 위한 포스팅입니다.

 

EDA를 6가지 절차로 구분하여 소개하지만,

순차적인 가이드라인이 아닌, 반복적이고 비순서적으로 진행되어야만 한다,

 

데이터셋의 형태는 다양하기 때문에, 탐색하려는 접근 방식은 각각 다르다.

 

이는 EDA 절차를 할 때 논리와 경험에서 비롯된 통찰이 수반되어야 한다는 것을 의미한다.

 

Visual example

  1. Discovering: 데이터의 전반적인 모양, 사이즈, 형식 및 기본 정보를 확인한다.
  2. Joining: 데이터를 추가한다.
  3. Validating: 새로운 데이터가 문제가 있는지 확인한다. 
  4. Structuring: 데이터를 분석에 용이한 형태로 구조를 변경한다. 분석에 도움이 될 새로운 컬럼을 추가한다.
  5. Validating: 변경한 데이터가 타당한지, 틀린 건 없는지 확인한다.
  6. Cleaning: 이상치나 결측치를 확인한다. 데이터 변환을 진행한다.
  7. Validating: 데이터 클리닝이 제대로 반영되었는지, 놓친 건 없는지 확인한다.
  8. Presenting: 동료들에게 데이터를 공유한다.

 

위 8가지 절차는 하나의 예시일 뿐이다.

 

포인트는 탐색적 분석 과정에서 Validating을 거듭함으로써 틀린 건 없는지 확인하고,

 

혹여 다음 절차를 진행 중에 놓치거나 부족한 부분을 확인하면, 이전 절차로 다시 돌아가서 보완하는 것이다.

 

관습적으로 이런 EDA 절차를 여러 번 진행해서 정말 '클린'하다고 생각 될 때 분석에 들어간다.

 

머신러닝 모델에 따라 모든 입력 데이터가 동일한 데이터 타입 (숫자, boolean 등)으로 동일해야 하는 경우도 있으므로, 

 

모델이 확정 된 경우라면 이를 유념하여 분석하면 좋다.

 

 

주의할 점:

데이터 클리닝 과정에서 특정 수치에 편향되게끔 조정한다거나,

한 쪽으로 치우친 데이터를 추가하는 등, 분석을 진행하는 사람의 주관이 개입되지 않아야 한다.

 

 

728x90