데이터사이언스/머신러닝

핸즈온 머신러닝 2 - 1장 기계학습 개요

누군가의 이야기 2022. 9. 19. 19:58
728x90

https://www.youtube.com/playlist?list=PLJN246lAkhQjX3LOdLVnfdFaCbGouEBeb 

 

핸즈온 머신러닝 2

핸즈온 머신러닝 2 플레이리스트 핸즈온 머신러닝 2: https://tensorflow.blog/handson-ml2 깃허브: http://bit.ly/homl2-git 슬라이드: http://bit.ly/homl2-slide 유튜브: http://bit.ly/homl2-youtube

www.youtube.com

 

https://github.com/rickiepark/handson-ml2

 

GitHub - rickiepark/handson-ml2: 핸즈온 머신러닝 2/E의 주피터 노트북

핸즈온 머신러닝 2/E의 주피터 노트북. Contribute to rickiepark/handson-ml2 development by creating an account on GitHub.

github.com

 

핸즈온 머신러닝2의 한글판 옮긴이인 박해선님의 강의 영상과 깃허브를 참고하여 요약 공부한 내용을 업로드할 계획이다.

올해 마무리하기 전까지 1장~9장에 해당하는 내용을 요약해보는 것이 목표이다.

영상과 깃허브 링크는 상단에 참조하였다.


초창기 기계학습 정의

명확한 프로그래밍 없이도 컴퓨터에게 배울 수 있는 능력을 주는 영역의 학문 by Arthur Samuel. 1959

현대적 정의

어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정할 때, 경험 E로 인해 성능이 향상됐다면, 이 컴퓨터 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것 by Tom Mitchell. 1997

 

현대적 정의에 이해를 돕기 위해 체스 플레이어의 예를 든다

E(Experience) : 많은 체스 게임을 해본 경험 / the experience of playing many games of checkers

T(Task) : 체스 게임 / the task of playing checkers.

P(Performance measure) : 예상 승률 (평가 척도) / the probability that the program will win the next game.

 

대표적인 머신러닝 어플리케이션

- 제품 이미지를 보고 자동으로 분류 (CNN)

- 자동으로 뉴스 기사 분류하기 (NLP <- RNN, CNN, 트랜스포머)

- 내년도 회사의 수익을 예측하기 (회귀분석)

- 구매 이력 기반으로 고객 나누기 (군집분석)

 

머신러닝 시스템 종류

- 크게 지도 학습 / 비지도 학습 / 강화 학습

 

1. 지도 학습 - 정답 레이블이 있는 경우 (대표적으로 분류와 회귀)

(ex. 선형 회귀, 로지스틱 회귀, SVM, 결정트리, 신경망 등)

 

2. 비지도 학습 - 정답 레이블이 없는 경우 (대표적으로 군집화)

(ex. k-평균, DBSCAN, PCA, 가우시안 혼합 등)

 

3. 준지도 학습 - 정답 레이블이 일부만 있는 경우

 

4. 강화 학습 - 행동의 보상이 있는 경우

 

온라인 학습과 배치 학습

- 온라인 학습 (적은 데이터로 점진적으로 훈련 / 실시간 시스템이나 메모리가 부족한 경우)

- 배치 학습 (전체 데이터를 사용해 오프라인에서 훈련 / 컴퓨팅 자원이 풍부한 경우에 사용)

 

머신러닝 프로젝트 수행 중 당면하는 주요 문제들

1. 충분하지 않은 양의 훈련 데이터

 

2. 대표성 없는 훈련 데이터

(우연히 대표성 없는 표본이 생기는 걸 샘플링 잡음 / 표본 추출 방법이 잘못됐으면 샘플링 편향)

 

3. 낮은 품질의 데이터 처리 (이상치, 결측치)

 

4. 관련 없는 특성 (feature engineering(특성 공학)으로 해결)

 

5. 과대적합 / 과소적합 (규제를 통해 조절 가능)

 

1장에선 기초적인 선형 회귀 모델 실습을 하였다.

728x90