발췌: CIO Korea <이코어 기고 | 발상의 전환! 부압 수랭 솔루션의 가치

(2019.01.21)  원문보기: http://www.ciokorea.com/column/115347


곤경이 천재를 일깨워준다.” 로마의 시인 오비디우스의 말이다.

기존의 솔루션으로는 도저히 해법이 보이지 않는 상황이 도래할 때 혁신적인 대안이 등장하기 마련이다. AI, 머신러닝 트렌드가 새로운 차원의 연산 능력을 요구하는 오늘날, 슈퍼컴퓨터 및 데이터센터 분야에서 ‘냉각’을 둘러싸고 나타나고 있는 움직임 하나가 바로 이 형국이다. 여기 현대의 데이터센터 효율성,미국과 중국의 슈퍼 컴퓨터 경쟁, GPU 및 인공지능 트렌드 속에서 펼쳐지는, 흥미진진한 수랭(Liquid Cooling) 솔루션 이야기 하나를 전한다.

 

공랭 12KW, 하이브리드 방식 24KW라는 한계
냉각을 특화한 실험적 데이터센터에 대한 뉴스는 흔히 찾아볼 수 있다. 페이스북은 북극 인근에 데이터센터를 지어 극지방의 차가운 공기를 이용해 서버를 식힌다. 마이크로소프트는 해저에 데이터센터를 건설하고 운영 중이다. 이 밖에도 구글과 아마존, 페이스북과 같은 거대 IT 기업들은 기존의 공랭 방식에 한계를 발견하고 수랭 솔루션으로 이미 전환하고 있다. 이름을 밝힐 수 없는 국내 조직들 다수 역시 수랭 방식을 잇달아 채택하고 있다. 참고할 만한 레퍼런스를 확인하지 못해 고심만 하는 기업들은 애석하게도 더 흔하다.

->’동굴, 벙커, 사막···’ 쿨하고 쿨한 데이터센터 9곳

오늘날 기업들의 고민은 지난 2012년 발간된 미국냉동공조협회(ASHRAE)의 데이터콤 시리즈 2 핸드북에서 잘 예측되어 있다. 대기 환경 분야에서 권위높은 이 학술 단체의 자료에 따르면 데이터센터의 소비 전력은 2020년 랙당 최대 50KW에 달할 전망이다.

그러나 전통적인 공랭 방식이 소화할 수 있는 한계는 불과 12KW에 그친다. 공랭과 수랭을 결합한 하이브리드 방식(RDHx;Rear Door Heat eXchange)이나 컨테인먼트 방식을 사용해도 24KW가 이론상의 최대치다. 오직 수랭 방식(또는 실험적 대안)만이 랙당 50KW의 소비 전력에 대응할 수 있다.

ⓒ 미국냉동공조협회(ASHRAE)의 데이터콤 시리즈 2 핸드북에 전망한 연도별 서버 최대 소비 전력과 쿨링 기법별 냉각 한계.

그러나 전통적 수랭 시스템은 가격이 비싸고, 유지 보수가 복잡하며, 고장 요인이 늘어나는데다 냉각수가 유출될 경우 재앙으로 이어질 수 있다는 문제점을 지닌다.

기업들이 당면한 현실은 2012년에 발간된 ASHRAE의 전망값보다 더 심각하다. ASHRAE의 2012년 전망이 CPU의 발전에 기반해 작성됐던 반면 지난 몇 년 동안 돌발 변수가 등장했기 때문이다. 바로 GPU의 존재다. AI, 머신러닝, 딥러닝의 발전과 함께 GPU의 활용이 급격히 증가하면서 2018년 이미 랙 하나당 소비전력이 59KW에 이르는 시스템이 출현한 상태다.

더욱이 12KW라는 한계값은 이론상의 수치라는 점이 문제의 심각성을 더한다. 서버실 온도가 24도(이 이하로 설정하면 결로 현상이 발생해 고장의 원인이 된다)인 상황에서 공기의 흐름이 최적인 상황을 상정했을 때에만 달성 가능한수치이며, 실제로는 8KW도 버겁다. 실제로 국내 어떤 기업은 몇 년 전 12KW에 맞춰 수천 대의 서버와 GPU를 도입한 후 곧바로 장애를 겪어야 했다. 이 기업은 랙을 핫존과 콜드존을 분리해 냉각하는 컨테인먼트 방식을 뒤늦게 도입해서야 서버를 동작시킬 수 있었다.

 

다음 기고에서는 수랭 솔루션에 대해 더 기술하고자 한다.


* 블로그는 이코어(Ecore) 박병오 대표의 IDG인터뷰의 발표문을 기반으로 작성됐다.