1) 스파크 용어 정리

IT/Spark

성진팍 2017. 6. 10. 12:42

자주 등장하는 용어 들이 있다.

대충 특징별로 정리해보겠다. 스파트2 프로그래밍 책을 참고하여 정리한 것

1) 데이터 수집 관련

- 플럼 Flume

- 카프카 Kafka

- 스쿱 Sqoop

2) 데이터 저장/ 처리

- 하둡

- HBase

- 카산드라

- 레디스

- 피그

- 하이브

- 스파크

파일시스템이 하둡이라면, 스파크는 인메모리.

하둡/하이브 기존의 솔루션들과 연동될 수 있고.

마이크로배치방식으로, 실시간 처리/ML의 라이브러리 같은 BigData처리 관련 기능 지원

3) 데이터 분석

- R, Cloudera, Hortonworks

Hortonworks 같은거 쓰면 뭐가 좋은거지

차라리 여기서 주는 배포판 같은걸 받아서 쓰는게 낫다?

빅데이터 프레임웤은 데이터 수집/저장/처리 다양한 SW들이 존재하는데 이게 서로 라이브러리 버전 충돌이나 환경설정문제가 클 수 있어서

이것들을 통합해놓은 전문벤더들의 배포판을 쓰면 좋다

마니 알려진게 Cloudera나 hortonworks 라는데..

플젝) Spark Streaming 이용한 온라인러닝 시작1 (0)	2017.06.25
3) 시작하기 앞서 간단 (0)	2017.06.15
3) Scala 기본적인 문법들 (0)	2017.06.12
2) 환경구축!! (0)	2017.06.10

jin's blog

Endure

Regularizing Trajectory Optimization with Denoising Autoencoders, TCAV, Learning Directed Exploration Strategies, R-CNN, CAV, XAI, Paper리뷰, Concept vector, RL논문, intergrated gradient, smoothGrad, Interpretability Beyond Feature Attribution:Quantitative Testing with Concept Activation Vectors, Fast R-CNN, Deconvolution Network, Axiomatic Attribution for Deep Networks, They Are Features, Quantifying Attention Flow in Transformers, Never Give Up, Adversarial Examples Are Not Bugs, vision transformer,

jin's blog