커스텀 PC를 구입하는 사람들이거나, 혹은 고성능 게임 등을 구동시키기 위해 PC를 설정하는 분들에게는 익숙한 주제일 수 있는 단어가 있다. 바로 ‘수랭방식’이다.

컴퓨터를 구성하는 요소는 다양하지만, 그 중 쿨러를 중요하게 생각하는 사람은 많지 않았다.

당연하게도 CPU의 성능, 메모리의 크기, 저장공간의 효율적 사용, 이런 것들이 중요하게 여겨져 왔고, 또한 클라우드 시대가 되면서 네트워크와 통신시설, 각종 장비, 인프라 등에 관심이 집중되어 왔다.

하지만 여기에는 확실하면서도 큰 이슈가 존재한다. 바로 ‘기대한 만큼의 성능을, 기대한 만큼의 시간 동안 유지하는가’에 대한 문제이다. CPU를 넘어 GPU, 그리고 이번에 삼성이 개발을 공언한 NPU에 다다르면 칩의 성능이 향상되고 그만큼 많은 전력을 소모한다. 전력량은 곧 발열량으로 이어지는데, 전자 제품에 전기를 보내면, 저항으로 인해 열이 발생하기 때문이다. 일반적으로 PC에는 전원공급장치, CPU, 그래픽카드, 메인보드 등이 열을 많이 발산하며, 열로 인해 발열이 한계치 이상으로 상승하면 컴퓨터는 자동으로 속도를 낮추어 온도가 올라가서 타버리는 것을 방지하는 쓰로틀링(Throttling)이 진행된다. 이러한 기능을 쿨링이라 하며, 쿨링시스템의 문제점과 이코어가 추천하는 수랭솔루션을 정리를 해 보았다.

 

  • 고성능 시스템 유지 해결책, 수랭식 시스템

일반적으로 에너지를 사용하는 것은 필수적으로 열을 발생시킵니다. PC나 노트북, 스마트폰이 대표적인데, 전기에너지를 사용하는 장치에서는 저항이 발생하고, 그로 인해 열이 발생되는 구조이지요. 적절한 수준의 열은 에너지 이용 효율성을 높일 수 있지만, 상대적으로 높은 열이 발생하면 오히려 성능이 저하되는 현상을 겪습니다.

오래된 컴퓨터가 속도가 느리다고 생각하시는 이유가 다양하지만, 그 중 먼지가 끼거나, 열전도성그리스 (Thermal Grease)라는 열전도 물질이 떨어져 나갔을 확률이 높습니다, 그래서 먼지 제거를 위해 주기적으로 청소가 필요하고, 열전도 율을 높이기 위해서는 크게 두가지 방식이 있는데, 하나는 공냉식, 즉 공기를 이용하는 방식과 또 하나는 수랭식, 즉 물을 이용하는 방식이 있습니다. 물은 공기보다 4,000배 이상 뛰어난 열전도율을 보입니다. 게다가 저렴합니다. 물을 이용하여 열전도율을 쉽게 줄일 수 있어 쉽게 구할 수 있고, 가격과 기능적인 면에서 우의가 있습니다.

이론적으로 전통적인 공랭 방식이 소화할 수 있는 수준은 랙당 12KW 수준입니다. 공랭과 수랭을 결합한 하이브리드 형태의 컨테인먼트 방식을 사용해도 24KW 수준이고요. 그런데 데이터 센터의 소비전력은 렉(Rack)당 최대 50KW에 달하는 것으로 알려졌다는 게 문제입니다.

 

  • 자연 친화적 데이터 센터로의 진화

데이터 센터에서는 소비 전력을 낮추려고 자연 친화적인 데이터 센터를 구축하려고 많은 노력을 하고 있습니다, 미국의 페이스북은 최근 북극 인근에 데이터 센터를 짓기도 하고, 마이크로소프트는 해저에 데이터 센터를 건설하고 운영하고 있습니다. 또한 국내에서는 N사에서는 연 평균 기온이 다른 지역보다 1~2도 낮아 IDC 운영에 필수적인 냉각을 위한 외기 유입 기간을 최대한 늘릴 수 있는 춘천에 데이터 센터를 구축하여 운영하고 있다. 전기 사용이 적은 심야 전력을 활용해 한 낮에 냉방에 필요한 에너지를 만드는 ‘방축열’과 ‘수축열’ 시스템, 버려지는 열을 재활용해 동절기 도로 열선, 온실 등에 사용하는 ‘폐열 회수’ 시스템 등은 전력 효율을 절에 목적이 있다.  이는 현 데이터센터에서 공기를 이용한 냉각이 한계가 있고, 또 서버실 내부의 온도가 24도 이하로 내려가면 결로가 발생할 수 있기 때문에 섬세한 온도 조절이 필요한 것입니다. 이러한 문제를 해결하는 방식이 지금 말씀드리는 수랭식이라고 봅니다. 구글이나 아마존, 페이스북은 이미 수랭솔루션으로 전환하고 있고, 국내의 다수 조직들도 역시 수랭 방식을 채택하고 있습니다. 열을 빼앗고 다시 전달하는데 물보다 좋은 재료가 없거든요.

 

  • 공랭식 냉각이 상용화된 서버실 내부는?

요즘은 그런 경우가 흔치 않지만 예전에는 핸드폰 물에 빠지면 못쓰고 그랬던 적이 있습니다. 물이 전기와 상극이기 때문에 그렇습니다. 요즘의 생활방수 기능은 정말 혁신적인 수준이지요. 공기는 물과 다르게 전기가 통하지 않고, 또 촉매로서의 역할을 수행하지는 않습니다. 단순히 열이라는 에너지를 흩뿌린달까요? 그렇다보니 전자제품에서는 공랭식이 일반적인 사례로 굳어졌습니다. 집안에서 사용되는 가전제품을 보시면 대부분 그렇습니다. 냉장고와 에어컨은 좀 다르지만, 대부분의 전기제품은 물을 피하는 것이 일반적이지요. 하지만 전기제품이 아니라면 대부분의 상태에서 열을 다루는 최고의 방법은 물입니다. 자동차를 예를 들어 볼께요. 자동차는 라디에이터로 열을 관리합니다. 차량 정비소에 가보면 흔히 볼 수 있는 냉각수라는 것을 이용하는 것이지요. 또한 각종 발전소가 에너지를 만들다 보니 발열량이 크잖아요? 그래서 잘 보시면 댐을 이용한 수력발전소는 아예 물에 붙어있고, 나머지 발전소는 바닷가에 주로 붙어있곤 합니다. 한국의 고리원전이라든지, 일본의 후쿠시마라든지

 

  • 최근 이슈가 되는 수랭식 냉각이 효과적이다?

우선 데이터 센터의 관점에서 살펴볼 필요가 있습니다. 앞서 말씀드렸 듯이 대부분의 데이터 센터에서 열을 관리를 못하니까 장애가 발생하는 경우가 생겼습니다. 서버를 랙에 차곡차곡 끼워 넣고 돌려야 하는데, 이게 열 때문에 돌다가 성능을 스스로 저하시키는 거예요. 그래서 한 칸 넣고, 한칸 비우는 형태로 밖에 운영을 못하게 됩니다. 공간의 여유를 두어서 공기를 순환시키기 좋은 환경을 구축하는 것이지요. 그러면 공간활용율이 50%가 최대라는 결론이 나옵니다. 전체 공간 중 서버를 사용할 수 있는 공간의 절대적인 수준이 낮아지게 되는 것이지요.

이런 문제를 해결하려면 수랭식으로 쿨링을 하는 수밖에 없습니다. 우선 수랭식은 냉매인 물의 이동경로를 방열 판과 관(pipe) 등으로 구성합니다. 공기가 순환하는 구조보다 물이 이동경로를 밀도 있게 구성할 수 있고, 또 내구성을 유지할 수 있게 해줘요.

실제로 제가 진행했던 프로젝트에서 보면, GPU는 이제 산업용과 일반 용이 생산 시에는 큰 차이가 없는데, 완성품의 효율과 내구성에서 우수한 제품이 서버용으로 납품되거든요. 이 상태에서 소비자용 GPU를 사용하는 기관이 1년에 약 20% 정도를 신제품으로 교체를 하는데, 수랭식 시스템을 이용하면 이게 2%정도로 낮아져요. 획기적인 기술이라고 할 수 있지요. 거기에 부가적으로 전력사용 효율이 개선되요. 데이터 센터 전체 기준으로는 기존 대비 전력 소모가 40%이상 줄어듭니다. 이러면 총소유관점에서 장점이 생기는데, 대부분 투자금을 회수하는 데에 걸리는 기간은 1년 내외로 추산할 수 있게 됩니다.

 

  • 수랭식 냉각으로 PUE(Power Usage Effectiveness) 관리

데이터 센터의 크기와 전력 소요량에 따라 차이가 있지만 대략적으로 그 수준이 됩니다. 데이터 센터의 운영효율성을 비교하는 지표로 쓰이는 것이 PUE(Power Usage Effectiveness)라는 개념인데, 간단하게 말씀드리면 전체 전력사용량을 IT관련 장비 전력 사용량으로 나눈 값입니다. 일반적으로 낮을수록 좋은 값인데 수랭식 시스템을 사용하게 되면 1.2까지 손쉽게 달성할 수 있게 됩니다. 공냉식을 사용하는 경우에는 2.0 수준을 넘어서는데 말이지요. 게다가 수랭 방식이 온도를 관리할 수 있기 때문에 기존 CPU나 GPU의 성능향상을 기대할 수 있게 됩니다.

이 부분이 사실 굉장히 중요한 부분인데, 컴퓨터를 사용하는 경우 열이 일정 온도 이상 올라가면 부품이 타버릴 수가 있어서 온도를 자동을 낮춥니다. 쓰로틀링(Throttling)이라는 기능인데, 이 기능은 대부분의 컴퓨터에 내장되어 있습니다. 프로세서가 100% 효율을 내면 열이 발생하고, 그 열로 인해 성능이 점점 줄어 80%, 50%, 30% 순으로 하락하게 됩니다. 실제로 대부분의 데이터 센터에서는 성능의 100% 효율을 내지 못하는 경우가 많습니다.

 

저희 이코어가 국내에 다양한 시공을 하면서 수집한 데이터에 따르면 공냉식일 경우 기온이 24도일 때 CPU는 80도 수준입니다. 반면 수랭식을 사용할 때에 가장 안좋은 상태가 수온이 28도까지 오른 경우인데, 이 때 CPU의 온도는 40도 수준이었어요. 현실적으로 데이터 센터의 기온을 24도로 유지하려면 냉방에 들어가는 전력 소모량이 CPU의 전력소모량은 가볍게 뛰어넘습니다. 그렇기 때문에 PUE가 2.0 이상이 나오게 되는 것이지요. 개별 성능을 기준으로 보았을 때에 100% 효율을 낼 수 있게 해주고, 전체 전력소모량도 줄여줄 수 있다는 점이 수랭식의 가장 큰 경제적 효과라고 할 수 있습니다.

 

  • 네거티브 프레셔 형태의 리퀴드 쿨링 시스템 (Negative Pressure Liquid Cooling Solution)

이코어에서 쓰이는 수랭식 솔루션은 물이 기본적으로 닿기가 어려운 구조입니다. 칠다인 네거티브 프레셔 형태의 리퀴드 쿨링 시스템을 사용중인데, 쉽게 말씀드리면 기압보다 낮은 압력으로 유지하여 관에 구멍이 생겨도 물이 밖으로 나가지 않고 오히려 공기가 안으로 들어오는 구조입니다. 이건 저희가 가진 특수한 방식인데, 일반적으로 물을 흐르게 하려면 압력을 사용해야합니다. 대부분 높은 압력으로 물을 순환시키기 때문에 호스나 관에 흠이 생기면 물이 새기 마련인데, 저희는 부압을 사용하는 형태입니다. 거기에 일반적인 수랭식의 공통된 문제점은 녹과 이끼를 막기 위한 안티 코로전(anti-corrosion)이라는 부식방지용액을 첨가하는데, 이 부분이 40% 정도의 효율을 낮춥니다. 이 부분을 해결하기 위해 부압에 터뷸레이팅 기술을 도입했습니다. 물이 흐를 때는 가운데가 가장 유속이 빠르고, 양 옆으로 가면서 유속이 느려지게 되어 오히려 물이 거꾸로 흐르는 현상이 생기기도 합니다. 이렇게 정체되어 있는 물의 흐름 때문에 생기는 문제를 물의 순환에 회전을 입혀 해결한 것이지요. 네거티브 프레셔에 터뷸레이팅 기법으로 수랭식이 가진 고유의 문제를 해결한 것입니다.

 

 

  • 국내외 적용사례

대표적으로 미국의 사례를 들어 볼께요.

IBM이 주도하는 수퍼컴퓨터 시장이 있습니다. IBM이 레노보 제품군을 중국에 매각하면서 IBM은 서버 제품군에 집중하는데, 수퍼 컴퓨팅 분야에서 중국의 텐허나 선웨이 타이후라이트 같은 업체에 잠시 선두자리를 내줍니다. 미국이 1973년부터 지켜오던 선두를 빼앗긴 것인데, 중국은 자체 프로세서를 이용하여 이 자리를 유지하고 있었어요. 그래서 미국 정부와 IBM은 코랄 프로젝트를 가동해서 서밋(Summit)을 개발합니다. 이게 2017년의 일인데, 이 후로는 미국이 주도권을 빼앗기지 않고 있어요. 여기에 사용한 것이 수랭식 솔루션입니다. 코랄 프로젝트에서 중요한 점은 열관리였는데, 랙당 59KW에 이르는 소비전력을 감당하고, 발열량을 낮출 수 있는 대체 불가한 기술이었다는 점이지요.

국내의 경우는 한 기관에서 2년 전 소비자용 GPU를 사용한 시스템을 도입하면서 칠다인 네거티브 프레셔 방식의 수랭을 도입합니다. 실제 필요했던 컴퓨팅 리소스는 수퍼컴퓨터 수준이었는데, 소비자용 GPU를 사용해서 유사한 수준의 성능을 보여주었어요. 게다가 우리나라는 외국과 달리 사계절의 온도와 습도차이가 심해서 항온항습이 중요한데, 수랭식을 사용하면 외부 온도의 급격한 변화에 상관없이 GPU동작온도를 50도 정도로 고정시킬 수가 있었어요. 국내에 사례가 없었는데, 담당자가 과감하게 추진한 것이었던 점이 기억에 남네요. 그리고 한가지 더 말씀드리면 이런 사례가 데이터 센터에만 적용된다고 생각하실 수 있는데 그렇지는 않습니다. 정확히 밝힐 수는 없지만 잘 알려진 외국기업이 2대의 IBM 서버를 구축하면서 칠다인 수랭시스템을 적용하였더니, 항온 항습기의 전력소모량이 172.41W에서 10.33W로 감소하였고, 서버 자체의 전력 소모량도 7%정도 감소한 사례가 있어요. 규모와 상관 없이 적용이 가능하다는 것이지요.

 

  • 공냉식에 비해 효율적인 수랭식 냉각 시스템

제 주변을 둘러봐도 사실 수랭식을 쓰는 곳은 대규모 데이터 센터의 일부와 정말 고성능의 컴퓨팅 자원을 사용하는 일부 사용자 정도라고 볼 수 있습니다. 하지만 주목할 점이 있습니다. 일반적으로 많이 쓰이던 CPU에서 GPU로 시장의 주도권이 넘어가고 있다는 것이지요. 원래는 그래픽을 처리하기 위해 나타난 GPU는 최근 GPGPU(General Purpose Computing on Graphics Processing Units)로 발전하는 수준까지 이르고 있고, 또 중국의 알리바바가 이번에 개발한 한광800(hanguang800)이나, 삼성이 개발 중이라고 알려진 NPU는 GPU 10개 이상의 성능을 보여주고 있는 것으로 알고 있습니다. 이렇게 프로세서의 성능이 향상됨에 따라 당연히 발열량의 관리가 중요한 이슈가 되고 있어요. AI, 딥러닝, 머신러닝, 빅데이터 등이 나오면서 이런 현상은 더욱 가속화될 것이고요. 일반적으로 GPU로 구성된 서버 랙은 소비전력이 59KW에 달하고 있어요. 이론적으로 서버실 온도를 유지하는 데에 12KW가 최대라고 말씀드렸는데, 사실 8KW도 어려워요. 우리나라에서도 이런 문제로 장애를 겪은 적이 있고, 결국 핫 존과 콜드 존을 분리해서 사용하고 있는 실정이지요. 익숙하지 않기 때문에 기존의 방식을 고수한다는 것은 문제가 있다고 봅니다. 더 좋은 것이 있다면 거기에 적응하여야 한다고 봐요. 스마트폰이 처음 나왔을 때에는 사용 방식이 어렵고 오히려 불편하다며 일반 핸드폰을 사용하신 분들도 있지만, 결국은 스마트폰의 기능과 편의성으로 인해 거의 스마트폰으로 전환이 된 것과 유사하다고 봅니다.

페이스북와 마이크로소프트가 북극이나 해저에 데이터 센터를 짓는 것이 같은 이유라고 봐요. 이건 기업의 생존이 달린 문제이지, 기술을 과시하는 형태는 아니거든요. 우리나라를 비롯해서 5G가 나오면서 이런 현상은 더욱 가속화될 것으로 보입니다. 일반적으로 5G나 네트워크 환경이 좋아지면 모이는 정보의 양이 훨씬 증가합니다. 데이터를 보관하고 다루기 위해서는 데이터센터가 필수적으로 필요하게 되고, 결국 그 데이터센터의 효율성을 확보하는 방안이 마련되지 않으면, 기업의 운영이 어려워질 것이라고 보고 있어요. IBM이 매각한 x86서버가 시장을 주도하였고, 지금은 IBM의 엔터프라이즈 서버가 시장을 선도하고 있는데, 단순히 제작 당시의 기능을 가지고는 100%를 발휘할 수 없습니다. 저희가 주로 취급하는 파워 엔터프라이즈 서버의 경우도 유지보수와 관리의 효율성으로 총소유관점에서의 효과를 많이 볼 수 있는데, 더 큰 그림에서 총소유관점을 감안하신다면 수랭식은 분명 답이 될 수 있다고 생각합니다.

 


(주) 이코어 박병오 대표