(Spark) 스파크의 특징

8월 05, 2018

1. 활용 배경

반복적인 처리와 연속으로 이루어지는 변환처리의 고속화
시행착오에 적합한 환경 제공
서로 다른 처리를 통합해 이용할 수 있는 환경 제공

1-1. 반복적인 처리와 연속으로 이루어지는 변환처리의 고속화

특정한 데이터셋에 대해 반복처리와 연속으로 이루어지는 변환처리를 고속화할 목적으로 개발되었다.

그전에는 맵리듀스가 널리 활용 되었다. 데이터의 지역성을 의시간 처리와 내결함성 그리고 확장성 등의 기능을 종합적으로 제공함으로써 복수의 머신으로 구성된 환경을 통한 병렬분산머신 처리를 더 쉽게 실현할수 있게 되었고, 그 결과 맵리듀스는 대량의 데이터 처리가 필요한 사용자들에게 널리 보급되었다.

맵리듀스는 기본적으로 입력데이터를 스토리지에서 읽고 복수의 머신에서 분산처리를 수행한 후 그 결과를 스토리지에 보존한다. 이 처리가 한번에 끝나지 않는 경우에는 데이터 플로형식으로 처리되어
읽기 -> 분산처리 -> 보존을 반복 수행한다.

맵 리듀스의 단점은 중간과정을 모두 메모리에 담을 수 없다는 것이다.
하지만 하드웨어의 발전으로 메모리의 크기가 커지면서 모든 데이터를 메모리에 담을 수 있게 되며 스파크를 사용하게 되었다.

1-2. 시행착오에 적합한 환경 제공

지금까지는 데이터의 통계분석과 머신러닝과 같은 처리를 하려면 표 계산 소프트웨어, 파이썬, R, 매틀랩 또는 BI툴을 이용했다.

이러한 것들은 결과를 바로 얻을 수 있는 것이 특징이었고, 따라서 시행착오를 겪어가며 데이터 해석을 한정적으로 하기에 적합한 환경이라 할 수 있었다.

하지만 한 대의 서버에서 처리할 수 있는 용량을 넘어서는 데이터셋에 대해서는 이런 종류의 툴이 현실적이지 않다. 거대한 용량의 데이터를 다룰 떄는 스케일 아웃과 같은 방법을 선택하고 여러 대의 머신으로 구성해 병렬 분산처리를 수행할 필요가 있다.

1-3. 다양한 처리를 통합할 수 있는 유연한 환경

배치처리, 스트림처리, SQL처리, 머신러닝 그리고 그래프 처리와 같은 서로 다른 형태의 애플리케이션을 하나의 환경에서 통합적으로 다룰 수 있는 점도 스파크의 큰 특징중 하나이다.

이 블로그 검색

세상의 모든 Software 지식을 정리