자주 등장하는 용어 들이 있다.
대충 특징별로 정리해보겠다. 스파트2 프로그래밍 책을 참고하여 정리한 것
1) 데이터 수집 관련
- 플럼 Flume
- 카프카 Kafka
- 스쿱 Sqoop
2) 데이터 저장/ 처리
- 하둡
- HBase
- 카산드라
- 레디스
- 피그
- 하이브
- 스파크
파일시스템이 하둡이라면, 스파크는 인메모리.
하둡/하이브 기존의 솔루션들과 연동될 수 있고.
마이크로배치방식으로, 실시간 처리/ML의 라이브러리 같은 BigData처리 관련 기능 지원
3) 데이터 분석
- R, Cloudera, Hortonworks
Hortonworks 같은거 쓰면 뭐가 좋은거지
차라리 여기서 주는 배포판 같은걸 받아서 쓰는게 낫다?
빅데이터 프레임웤은 데이터 수집/저장/처리 다양한 SW들이 존재하는데 이게 서로 라이브러리 버전 충돌이나 환경설정문제가 클 수 있어서
이것들을 통합해놓은 전문벤더들의 배포판을 쓰면 좋다
마니 알려진게 Cloudera나 hortonworks 라는데..
'IT > Spark' 카테고리의 다른 글
플젝) Spark Streaming 이용한 온라인러닝 시작1 (0) | 2017.06.25 |
---|---|
3) 시작하기 앞서 간단 (0) | 2017.06.15 |
3) Scala 기본적인 문법들 (0) | 2017.06.12 |
2) 환경구축!! (0) | 2017.06.10 |