병렬 처리 파일 시스템을 통해 고성능의 컴퓨팅 시스템에 적용 가능한 Spectrum Scale

안녕하세요. 이코어 입니다.

 

(주)이코어는 한국 IBM 비지니스 파트너로서 IBM 제품 공급 및 최적의 IBM 솔루션을 고객에 지원하고 있습니다.

(주)이코어에서는 블로그를 통해 제품 또는 솔루션의 정의 및 특성, 장단점, 또한 제품 군의 동향을 이 블로그에 넣으면서 고객에 많은 정보를 전달하고자 합니다.

이번 블로그에서는 계속해서 파일 시스템을 병렬 처리가 가능한 Spectrum Scale에 대해 조금 더 알아 보도록 하겠습니다.


이전 블로그에서 설명한 파일 시스템은 파일을 관리하는 행위를 기반으로 하여 IT에서 발전하였고, 이에 따라 IBM역시 파일의 효과적인 관리를 위하여 유닉스에서 사용하는 방식과 스펙트럼 스케일을 사용하는 방식으로 발전하였습니다. 그 중 스펙트럼 스케일은 1996년 타이거 샤크(tiger Shark) 파일 시스템을 시작으로, 1998년 GPFS 1.1을 출시하였고 20년이 넘는 기간 동안 다양한 분야에서 경험을 쌓은 결과, 현재의 모습으로 고객에게 최고의 서비스를 제공하고 있습니다.

 

Spectrum Scale의 가장 큰 특징은 바로 병렬 처리가 가능하다는 점입니다. 병렬 처리의 의미는 복수 개의 노드가 파일시스템을 공유할 수 있도록 지원하며, 공유된 SAN을 통해 모든 노드들이 데이터와 물리적으로 직접 연결하여 높은 성능과 안정성을 제공한다는 특징이 있습니다. 기존의 SAN 스토리지의 경우 단일 스토리지 시스템의 입출력의 한계와 운영체제에 종속된 파일 시스템의 용량과 공유제한으로, 고 가용성 확보에 어려움을 겪었습니다. 또한 NAS 스토리지 역시 한정된 입출력 대역폭의 한계를 극복하지 못하여 고 가용성 및 고성능 시스템의 구현이 어렵고 복잡하다는 한계가 있었습니다. 이런 현상을 극복하고 HPC라 불리는 고성능의 컴퓨팅 시스템에 사용하기 위한 파일 시스템이 병렬 처리가 가능한 Spectrum Scale인 것입니다.

 

 

동시에 다수의 노드가 접근할 수 있다는 점을 살펴보겠습니다. 원래 최초의 파일 시스템은 하나의 서버에 하나의 스토리지를 배치하는 방식이었기 때문에 다중 접속이 불필요 하였습니다. 하지만 컴퓨팅 성능이 점차 증가하고, 다양한 환경에서 사용이 필요해 짐에 따라 둘 이상의 서버가 사용되거나, 둘 이상의 스토리지가 배치되는 형태가 일반적이게 되었습니다.

 

그림1 : SAN 형태의 일반적인 시스템 구성             그림2 : 병렬 구조의 SAN

 

SAN형태의 일반적인 시스템 구성은 디스크와 서버의 확장에 어려움이 있습니다. 이에병렬로 연결하는 구조를 고안하였는데, 이 개념이 발전하여 스펙트럼 스케일이 됩니다. NAS가 파일단위에서 공유하고, 한번에 하나의 파일에 접근이 가능했다면, 스펙트럼 스케일은 한 파일을 블록단위로 접근할 수 있다는 점이 차이입니다.

 

그래서 네트워크에 병렬로 접근할 수 있기 때문에 윈도우의 공유 폴더나 병렬 구조의 SAN방식과 유사하지만, 여러 노드가 동시에 파일을. 읽고, 고치고, 수정하는 등의 작업을 수행할 수 있다는 점에서 차이가 발생합니다. 블록단위로 접근을 제공하기 위해서 잠금(Block Locking)의 기능을 제공하는 것이 근본적인 차이점이라고 볼 수 있는 것이지요.

 

이런 장점을 보유하고 있기 때문에 고성능 컴퓨팅에서는 거의 필수적으로 사용이 됩니다. 일반 데이터 영역을 SAS, NLSAS로 구성할 수도 있고, 일반 데이터 영역을 HDD나 Tape로 구성할 수도 있고, 여기에 필요한 파일 시스템을 각각 디스크 별로 구성할 필요가 없이 다중 접속이 가능한 상태로 지원합니다. 결국 디스크가 늘어날수록 성능이 증가하는 현상이 보이게 되는데, 병렬 처리로 인해 스토리지의 상태에 따라 적합한 파일을 배치하는 정책을 수행할 수 있으며, 필요한 자원의 배분을 위한 성능향상과 로드 밸런싱, 무중단 운영 등이 가능하게 됩니다.

 

이러한 스펙트럼 스케일과 같은 병렬 파일 시스템이 나온 이유는 시장의 원인에서 기인합니다. 컴퓨터가 계속 발전함에 따라 기가 바이트는 이제 평범한 수준이 되었고, 테라 바이트, 페타 바이트까지 저장공간이 증가하고 있습니다. 동시에 서버의 수도 늘어남에 따라 분산 다중 시스템 상에서 수행되는 다양한 응용 프로그램이 동일한 데이터를 사용하고, 계산결과를 공유할 필요성이 점차 나타나기 시작했습니다. 기존의 NFS의 한계를 극복하고, 성능과 동시 접근성을 확보할 분산환경에서의 운영 역시 점차 중요성이 증가하였습니다. 그 결과 초기의 대용량 멀티미디어 파일 시스템이 고성능 컴퓨팅 데이터 공유 기반으로 확장되었으며, 가용성과 고성능을 목적으로 하는 시스템이 출현하게 되었습니다.