전체 글 50

플젝) Spark Streaming 이용한 온라인러닝 시작1

요즘 포공에서 머신러닝 수업을 듣고 있다. 과목별로 1주씩.. 비율이 1주일에 이론/실습/자유실습 이라 실상 이론은 16시간 뿐이다. 훌륭하신 교수님들과 조교님들께 배우고 있고 많은 것을 알아가고 있지만, 1 아쉬운 게 있다. 너무 이론에만 치우쳐있다는 것 ㅠㅠ 교육 과정 막판에 1-2주정도로 빡세게 하도록 개인 or 팀플 같은걸 추가했다면 좋지 않았을까 하는 생각이 든다.여기엔 전문가들께서 많이 계시니까, 실전에서 플젝하며 부딪혀보고 많은걸 물어볼 수 있었을텐데 ㅠㅠ 좀 아쉽다.물론 이론을 탄탄하게 다져놔야 하는게 맞고, 기존엔 그냥 라이브러리만 사용하는 단계였다면, 이번 교육을 통해서 각 알고리즘 수식들이 어떻게 도출되었는지, 또 어떤 다른 알고리즘과 결합된 것 인지 등 본질적인 이해를 깊게 하게 되..

IT/Spark 2017.06.25

3) 시작하기 앞서 간단

1. 스파크 클러스터 - 여러대 서버가 마치 한대처럼..- 클러스터 환경, 대량의 데이터를 나누어 각 서버에서 병렬로 처리- 네트워크 , 장애, 자원스케쥴링등 스파크에서 관여 2. 분산데이터 - RDD resillient distributed datasets, 회복력 가진 분산 데이터 집합 literally!!회복력이 있다?데이터 처리 중 문제가 생겨도 다시 알아서 회복할 수 있다는 말anyway, 분산 데이터 집합.일정 단위의 작은 집합으로 쪼개져서, 스파크 클러스터에 흩어져서 저장됨 3. RDD 불변성 - 스파크는 RDD 만들어내는 방법을 기억하고 있다.- how?- 리니지. 계보 - 스파크는 데이터가 유실되면 다시 백업해둔걸 불러오는게 아니라. 기억해둔 방식으로 데이터를 다시 만들어낸다. - 한번 ..

IT/Spark 2017.06.15

3) Scala 기본적인 문법들

Scala 기본적인 문법들은 집고 가야 할 것 같아서..ㄷㄷ //class 선언 없이도 object로만 돌아갈수도 잇다. //object test { // single ton 객체 느낌. static 변수같은 느낌// // var bb = 1// def main(args:Array[String]): Unit ={// // var mutable = 1// // val immutable = 2// // println("aaaaaa")// // //immutable = 3// var a:Int = 3// // //java랑 다르게 기본형 타입이 다 클래스이다. java는 int, Integer 따로 있었는데..// // //Byte, Short, Int, Long..등 있고// // //Python이랑 진짜 ..

IT/Spark 2017.06.12

1) 스파크 용어 정리

자주 등장하는 용어 들이 있다. 대충 특징별로 정리해보겠다. 스파트2 프로그래밍 책을 참고하여 정리한 것 1) 데이터 수집 관련 - 플럼 Flume- 카프카 Kafka- 스쿱 Sqoop 2) 데이터 저장/ 처리 - 하둡- HBase- 카산드라- 레디스- 피그- 하이브 - 스파크 파일시스템이 하둡이라면, 스파크는 인메모리.하둡/하이브 기존의 솔루션들과 연동될 수 있고. 마이크로배치방식으로, 실시간 처리/ML의 라이브러리 같은 BigData처리 관련 기능 지원 3) 데이터 분석 - R, Cloudera, Hortonworks Hortonworks 같은거 쓰면 뭐가 좋은거지 차라리 여기서 주는 배포판 같은걸 받아서 쓰는게 낫다? 빅데이터 프레임웤은 데이터 수집/저장/처리 다양한 SW들이 존재하는데 이게 서로 ..

IT/Spark 2017.06.10