데이터사이언스/머신러닝
앙상블 - 배깅 공부하다 끄적
누군가의 이야기
2022. 8. 9. 16:26
728x90
앙상블의 핵심은 다양성 (데이터 / 모델의 다양성으로 나뉨)
배깅의 가장 큰 특징은 데이터 복원 추출한다는 점이다.
부트스트랩(Bootstrap)이란?
- 복원 추출해서 구성한 데이터 샘플 단위 (부트스트랩은 원래 데이터 샘플과 같은 크기여야 한다)
ex) 원레 데이터 [1, 2, 3, 4, 5] / 부트스트랩 샘플 [2, 5, 4, 4, 1]
부트스트랩 개수는 무한하게 설정할 수 있다.
모든 데이터가 부트스트랩에 하나 이상 포함될 확률은 약 2/3 정도?
복원 추출 -> 학습의 관점에서는 검증 신뢰도가 높아짐
모든 데이터 샘플을 한 번 이상 검증함으로써 일반화에 유리함
복잡도가 높은 알고리즘(분산이 높은)을 개별적으로 학습을 하여 결합하면 효과적이라 한다.
배깅은 모델보다는 테크닉에 가깝다고 한다.
모델에 인공신경망 / SVM / 의사결정나무 등 전부 사용 가능하기 때문
여기서 모델로 의사결정나무를 사용하는 특수한 경우를 랜덤 포레스트라고 한다.
OOB - 변수의 중요도를 산출할 수 있는 지표
728x90