Apache Spark™ 란?



Apache Spark™ is a fast and general engine for large-scale data processing.

Apache Spark는 빠르고 general-purpose cluster computing system이다. 다시 말해서 기존에는 batch processing을 하기 위해서 MapReduce를 사용하고, sql을 사용하기 위해서는 hive를 사용하는 등 다양한 플랫폼을 도입해야 했다. 하지만 이제는 Spark 하나의 시스템만을 설치해도 batch, streaming, graph processing, sql 등의 처리가 가능하다. 또한 Spark는 Java, Scala, Python, 그리고 R언어의 API를 제공하기 때문에 보다 쉽게 구현을 할 수 있다.

Spark의 주요 기능은 다음과 같다. 
  • Map & Reduce (cf. Hadoop)
  • Streaming 데이타 핸들링 (cf. Apache Storm)
  • SQL 기반의 데이타 쿼리 (cf. Hadoop의 Hive)
  • 머신 러닝 라이브러리 (cf. Apache Mahout)



Spark의 장점은 속도가 빠르며, 플랫폼으로서의 특성을 제공한다. 실시간 데이터 분석에 유용하다.

댓글

이 블로그의 인기 게시물

macOS가 갑자기 부팅이 되지 않을 경우 데이터 복구 또는 백업 방법

C++로 프로그래밍할 때 인자 또는 리턴 값으로 std::vector 등 STL 데이터 타입 처리하는 좋은 방법

Git 저장소를 병합하는 방법(How to merge repositories in Git)