IT/Spark

1) 스파크 용어 정리

성진팍 2017. 6. 10. 12:42

자주 등장하는 용어 들이 있다.


대충 특징별로 정리해보겠다. 스파트2 프로그래밍 책을 참고하여 정리한 것

 


1) 데이터 수집 관련


- 플럼 Flume

- 카프카 Kafka

- 스쿱 Sqoop



2) 데이터 저장/ 처리


- 하둡

- HBase

- 카산드라

- 레디스

- 피그

- 하이브


- 스파크


파일시스템이 하둡이라면, 스파크는 인메모리.

하둡/하이브 기존의 솔루션들과 연동될 수 있고.


마이크로배치방식으로, 실시간 처리/ML의 라이브러리 같은 BigData처리 관련 기능 지원



3) 데이터 분석


- R, Cloudera, Hortonworks


Hortonworks 같은거 쓰면 뭐가 좋은거지


차라리 여기서 주는 배포판 같은걸 받아서 쓰는게 낫다?


빅데이터 프레임웤은 데이터 수집/저장/처리 다양한 SW들이 존재하는데 이게 서로 라이브러리 버전 충돌이나 환경설정문제가 클 수 있어서

이것들을 통합해놓은 전문벤더들의 배포판을 쓰면 좋다


마니 알려진게 Cloudera나 hortonworks 라는데..


'IT > Spark' 카테고리의 다른 글

플젝) Spark Streaming 이용한 온라인러닝 시작1  (0) 2017.06.25
3) 시작하기 앞서 간단  (0) 2017.06.15
3) Scala 기본적인 문법들  (0) 2017.06.12
2) 환경구축!!  (0) 2017.06.10