728x90
일반적으로 하둡이라고 하면 하둡 에코시스템을 일컫는다.
하둡 에코시스템을 운영하는 데 제일 기본적인 두 개의 컴포넌트로서 빅데이터의 스토리지를 담당하는 HDFS (Hadoop Distributed File System), 빅데이터의 계산 및 분석을 담당하는 MapReduce가 있다.
이 외에도, YARN, Flume, HBase, Cassandra 등 하둡 에코시스템에서 적극적으로 사용되는 다양한 컴포넌트들이 있다.
컴포넌트들의 이름과 기능 암기할 것.
스파크 -> 인메모리 기반이 키워드
정형 데이터 수집에 사용되는 Sqoop
참고:
https://youtu.be/YQMbgkgy6jw?list=PLNsNSwihNQrdexHDbgk00j9ovFas_ID3_
728x90
'데이터사이언스 > 빅데이터분석기사 준비' 카테고리의 다른 글
데이터 분석 계획 (분석 유형 구분) (0) | 2023.08.27 |
---|---|
데이터 3법 (개인정보보호법, 정보통신망법, 신용정보법) (0) | 2023.08.26 |
'데이터 거버넌스' 정의와 체계 요소 (0) | 2023.08.25 |
분석 성숙도 모델 | 도입, 활용, 확산, 최적화 (0) | 2023.08.25 |
빅데이터 조직 구조 (집중구조 / 기능구조 / 분산구조) (0) | 2023.08.25 |