데이터사이언스/빅데이터분석기사 준비

하둡 에코시스템 기능 별로 구분

누군가의 이야기 2023. 8. 25. 19:50
728x90

 

일반적으로 하둡이라고 하면 하둡 에코시스템을 일컫는다.

 

하둡 에코시스템을 운영하는 데 제일 기본적인 두 개의 컴포넌트로서 빅데이터의 스토리지를 담당하는 HDFS (Hadoop Distributed  File System), 빅데이터의 계산 및 분석을 담당하는 MapReduce가 있다.

 

이 외에도, YARN, Flume, HBase, Cassandra 등 하둡 에코시스템에서 적극적으로 사용되는 다양한 컴포넌트들이 있다.

 

컴포넌트들의 이름과 기능 암기할 것.

 

 

스파크 -> 인메모리 기반이 키워드

 

 

 

정형 데이터 수집에 사용되는 Sqoop

 

 

 

 

 

참고:

https://youtu.be/YQMbgkgy6jw?list=PLNsNSwihNQrdexHDbgk00j9ovFas_ID3_

728x90