여러 개의 서버와 GPU에 분산되어 진행되는 트레이닝 작업을 최적화된 소프트웨어와 프레임워크를 통해 수행 시간을 단축

앞 블로그에서는 IBM Spectrum Conductor Deep Learning Impact를 살펴보았듯이 IBM Spectrum ConductorTM의 애드온 솔루션입니다. 따라서 아파치 스파크(Apache Spark) 환경에서 기업 용도에 맞게 공유형 인프라로 구축이 가능하게 디자인된 멀티 테넌트 프레임워크입니다. 만약 기존 사용 솔루션이 IBM Spectrum ConductorTM라면 추가 후 즉시 사용이 가능하다는 것이지요. 그리고 멀티 테넌트 프레임워크의 장점을 그대로 이어받아 속도 측면에서의 장점이 있습니다.

이 솔루션은 여러 개의 서버와 GPU에 분산되어 진행되는 트레이닝 작업을 최적화된 소프트웨어와 프레임워크를 통해 수행 시간을 단축합니다. 당연히 공유리소스를 활용하기 때문에 투자대비 효율이 높습니다. 공유된 자원의 접근이 가능하고, 다양한 모델을 동시에 실행하고 처리할 수 있기 때문입니다.

출처 : ibm.com

설치가 편리한 엔드 투 엔드 엔터프라이즈 솔루션을 활용하여 딥 러닝(Deep Learning)을 신속하게 업무에 활용할 수 있는 IBM Spectrum Conductor Deep Learning Impact의 주요 기능을 알아 보겠습니다.

  • 멀티 테넌시
    서버의 자원을 동적으로 공유할 수 있도록 하여, 여러 명의 데이터 사이언티스트가 다양한 모델을 동시에 실행할 수 있게 하는 방안으로 자원의 활용율과 투입대비 성과의 질을 향상시킬 수 있습니다. .
  • 데이터시트 보기
    클러스터로 구성된 서버에서 작업을 병렬로 처리할 수 있음으로 분산된 데이터의 수집과 변환, 그리고 학습(training)이 더 빠르게 수행됩니다.
  • 분산된 트레이닝 패브릭
    모듈형 플랫폼인 패브릭을 분산된 형태의 학습에 사용하여, 별도의 코드 수정 없이 대부분의 어플리케이션을 병렬로 실행할 수 있습니다
  • 대규모 모델 지원
    하나의 대규모 학습모델에서 CPU와 GPU의 메모리를 활용할 수 있습니다.
  • 트레이닝 중에 중단 없도록 지원
    구성된 모델에 따라 학습이 진행되면 리소스가 할당되는데, 이 때에 발생하는 변수에 대응하기 위한 리소스의 증가와 감소를 조절할 수 있어, 학습이 중단되지 않습니다.
  • 트레이닝 시각화 및 튜닝
    학습이 진행중인 상황에 대한 직관적인 모니터링이 가능하여 진행상황 확인, 모델의 보정, 모델의 정확도 수정, 모델 수렴도 평가, 학습 중단 등의 작업을 실행할 수 있어 효율적인 학습과 모델의 정확성을 높일 수 있습니다.
  • 하이퍼 매개변수 검색 및 최적화
    학습이 진행중일 때에 추천되는 기반 로직을 사용하여 모델의 정확도를 높일 수 있습니다.

IBM Spectrum Conductor Deep Learning Impact 솔루션은 데이터를 가져와서 변환하고 준비하는 데에 걸리는 시간을 단축시켜줍니다. 아파치 스파크를 사용하기 때문이기도 한데, 해당 기능으로 데이터 소스와 가져오기를 관리할 수 있습니다. 그리고 하이퍼 매개변수의 검색 및 최적화와 트레닝 시각화 및 튜닝 지원을 통해 딥러닝 모델의 정확도가 향상됩니다. 이런 효과를 종합하면 딥러닝과 관리 단순화가 가능해져 더욱 빠르게 결과를 산출할 수 있으며, 전체 관리의 효율성을 증가시킬 수 있게 됩니다.