데이터사이언스/머신러닝

앙상블 - 배깅 공부하다 끄적

누군가의 이야기 2022. 8. 9. 16:26
728x90

앙상블의 핵심은 다양성 (데이터 / 모델의 다양성으로 나뉨)

 

배깅의 가장 큰 특징은 데이터 복원 추출한다는 점이다.

 

부트스트랩(Bootstrap)이란? 

- 복원 추출해서 구성한 데이터 샘플 단위 (부트스트랩은 원래 데이터 샘플과 같은 크기여야 한다)

ex) 원레 데이터 [1, 2, 3, 4, 5] / 부트스트랩 샘플 [2, 5, 4, 4, 1]

 

부트스트랩 개수는 무한하게 설정할 수 있다.

 

모든 데이터가 부트스트랩에 하나 이상 포함될 확률은 약 2/3 정도? 

 

복원 추출 -> 학습의 관점에서는 검증 신뢰도가 높아짐

모든 데이터 샘플을 한 번 이상 검증함으로써 일반화에 유리함

 

복잡도가 높은 알고리즘(분산이 높은)을 개별적으로 학습을 하여 결합하면 효과적이라 한다.

 

배깅은 모델보다는 테크닉에 가깝다고 한다.

 

모델에 인공신경망 / SVM / 의사결정나무 등 전부 사용 가능하기 때문

 

여기서 모델로 의사결정나무를 사용하는 특수한 경우를 랜덤 포레스트라고 한다.

 

OOB - 변수의 중요도를 산출할 수 있는 지표

728x90