데이터사이언스/빅데이터분석기사 준비 26

[빅분기 실기] 작업 3유형 대비 - 가설 검정 코드

https://youtu.be/37GqFZVjc1Y 위 영상을 보며 공부한 내용 기억해두고자 적어봅니다. t검정은 데이터가 정규성을 따른다는 가정을 수반하기 때문에 실은 정규성 검정을 먼저 수행해야 한다. (빅분기 실기에선 필수적이지 않고, 문항의 지시를 따르면 된다고 함) 정규성은 샤피로 검정으로 확인한다. 데이터가 정규성을 만족하지 않을 땐, 단일 표본 t검정이 아닌, 윌콕스 부호순위 검정을 고려한다. 동일핸 개체의 실험 전과 후 차이값들의 평균으로 검정 주의할 점은 등분산을 가정한다는 것이다. 이분산일 경우 합동 표본 분산을 사용할 수 없기 때문이다. 정규성을 만족하지 않는 데이터가 하나라도 존재한다면, 독립 표본 t검정이 아닌 윌콕슨의 순위합 검정을 사용해야 한다. 등분산성은 바틀렛 검정을 활용한..

[빅분기 실기] 시험 중 함수 사용법 확인하기 (__all__, help())

어떤 기능이 있는지 알아보기 위해서 불러온 라이브러리에 .__all__ 을 붙여서 print문으로 출력하고 사용 방법이 궁금한 함수에 help()를 적용하면 공식 문서와 같은 활용 방법을 불러올 수 있다.\ 아예 모르는 걸 저 공식 문서 놓고 임기응변으로 해보는 건 리스크가 클 것 같고, 공부해둔 기능은 매우 유용하게 참고할 수 있을 듯 메모장에 적절하게 복사 붙여넣기 해서 활용해볼 것

주성분분석 / 다차원축소법 / 선형판별분석 등 - 차원 축소 기법, 다변량데이터 탐색

거리 가까운 것끼리 유사성이 높다는 것을 의미한다. 주성분분석을 시각화 한 바이플롯 해석 1. 붉은 화살표가 평행한 쪽의 주성분에 더 많은 영향을 미친다. 2. 화살표의 길이는 분산의 크기를 나타낸다. 3. 화살표는 원 변수와 주성분의 상관계수를 의미한다. 주성분분석과 차이 비교해서 알고 있어야 한다. 조건부플롯과 평행좌표플롯 정의 구분 참고: https://youtu.be/GAMMxrlpbb4?list=PLNsNSwihNQrdexHDbgk00j9ovFas_ID3_

변수 선택 방법 (필터기법, 래퍼기법, 임베디드기법)

필터기법은 통계적으로 필터링 한다고 이해하면 좋음 래퍼기법은 가장 성능 좋은 부분집합을 뽑아내는 것 최적의 부분집합 찾기까지 여러 번 학습 진행하기 때문에 시간 오래 걸림 래퍼기법과 임베디드 기법 중 한 문제는 무조건 나오기 마련이다. 참고: https://youtu.be/x8QGgChSI30?list=PLNsNSwihNQrdexHDbgk00j9ovFas_ID3_