지난 주말 마이크로소프트(MS)의 클라우드 서비스가 전 세계적으로 장애를 일으키면서 많은 기업과 기관들이 큰 혼란을 겪었습니다. 이번 사건을 통해 우리는 클라우드 서비스의 의존도가 얼마나 높은지, 그리고 그로 인한 위험 요소를 다시금 실감하게 되었습니다.
이번 사건으로 벌어진 세계 곳곳 사건들
마이크로소프트의 클라우드 서비스 장애는 다양한 국가에서 심각한 문제를 야기했습니다.
외신에 따르면 주요 공항과 항공사의 전산망에 장애가 생긴 것을 시작으로 IT 대란이 본격화했다고 말했습니다. 미국과 유럽, 아시아 주요 공항에서 항공기와 지상 관제센터간 통신에 장애가 생기고 항공편 예약과 체크인 차질로 항공편 지연, 취소 사태가 이어졌습니다.
미국에서는 JP모건체이스, 골드만삭스와 같은 대형 은행들이 클라우드 기반 거래 시스템에 접근하지 못해 금융 거래가 중단되면서 이로 인해 주식 거래와 같은 금융 서비스가 마비되어 경제적 손실을 끼쳤고 페덱스, UPS와 같은 대형 택배 업체도 배송 지연 등의 상당한 혼란을 겪으며 비상 체제에 돌입하기도 했습니다.
일본 역시 유니버셜스튜디오 재팬(USJ)은 놀이공원 내 결제 시스템에 문제가 2시간 가까이 계속되며 영업에 큰 차질을 빚었습니다.
이외 호주의 한 방송사는 방송 송출이 중단되는 등 독일, 필리핀 등 다수 국가에서 MS 윈도 운영체제가 오류를 일으켜 피해를 입었습니다.
MS발 IT대란이 일어난 이유
이번 IT 대란은 MS의 클라우드 서비스인 애저(Azure)를 기반으로 보안 플랫폼을 제공하는 CrowdStrike의 업데이트 과정에서 발견된 결함에서 발생한 문제였습니다. 크라우드스트라이크의 Falcon Sensor 제품에 대해 배포한 업데이트 패치가 MS 윈도 OS와 충돌하며 일명 비정상 종료라 불리는 ‘블루 스크린 오브 데스(BSOD)’ 오류를 유발한 것입니다. 펠컨 센서는 해킹 위협을 막기 위한 보안 프로그램으로, 평소엔 MS가 제공하는 클라우드(Azure)에 기반해 본사 시스템과 연결된 상태로 운영되지만 업데이트는 서버나 PC단위에서 이뤄지는 방식이므로 프로그램이 MS윈도우와 충돌했을 땐 본사 차원에서 일괄 대처가 어려웠다는 것입니다. 마이크로소프트는 전 세계를 강타한 이번 IT 대란의 영향이 "850만대의 윈도 기기에 영향을 미친 것으로 추정한다"고 밝혔습니다.
MS발 IT 대란이 일어난 이유는 클라우드 시스템의 고유한 특성 탓이 큽니다. 클라우드는 각종 데이터를 기업이나 기관이 보유한 서버가 아니라 외부 서버에 저장하는 기술입니다. MS 운영체제(OS) 윈도와 크라우드스트라이크 보안 프로그램이 충돌한 공간이 MS 클라우드 애저로 클라우드로 모든 게 연결되어 있다 보니, 소프트웨어 하나만 결함을 보여도 연동된 전 세계 기업들의 주요 서비스가 마비가 된 것입니다.
비교적 피해가 적었던 한국, 그 이유는
마이크로소프트 클라우드 서비스 장애 사태로 인한 국내 피해는 상대적으로 적었습니다. 과학기술정보통신부 확인 결과 국내 피해 기업은 모두 10개사로 현재는 복구가 완료됐고 정부나 금융‧통신 등 주요 기관의 피해도 없었습니다.
다른 나라 대비 피해가 적었던 이유는 우선 상대적으로 낮은 MS 클라우드 이용률입니다.
또한 이번 사태의 핵심인 보안 서비스 제공업체 미국 크라우드스트라이크의 보안 프로그램을 사용하는 곳이 적었다는 것도 하나의 요인입니다.
추가로 정부 부처와 금융 등 공공 영역에 강력한 망 분리 규제(내부 업무망과 일반 인터넷망 분리) 를 적용한 영향이 크다는 의견도 있습니다. 공공‧금융 분야 등은 클라우드보안인증(CSAP)으로 국가정보원의 암호 모듈 검증 정책을 따라야 하므로 사실상 공공 클라우드 시장 진출이 막혀 있는 상황이었습니다. 최근 망분리 규제와 CSAP 인증이 불합리하고 너무 까다롭다는 지적이 많았는데 오히려 이번 사태에서는 순효과를 발휘한 셈이 됐죠.
하지만 한국이 안전 지대에 있는 것은 아닙니다. 다른 클라우드나 보안 서비스에서 문제가 생기면 동시 다발적 셧다운이 충분히 발생할 가능성이 있기 때문입니다.
멀티 클라우드가 무조건 답이다?
이번 사건으로 인해 멀티클라우드의 중요성이 더욱 부각되었습니다. 주목받는 가장 큰 이유는, 멀티클라우드를 통해 특정 클라우드 서비스의 장애가 발생해도 다른 서비스를 통해 프로그램을 정상적으로 운영할 수 있기 때문입니다. 하지만 멀티클라우드를 이용하는 것만이 답은 아닙니다.
복잡한 관리의 어려움: 여러 클라우드 서비스를 동시에 관리해야 하므로 관리의 복잡성이 증가합니다.
비용 증가의 우려: 여러 클라우드 서비스를 이용하는 데 따른 비용이 증가할 수 있고 빅테크 종속률이 높아지면 요금 인상 압박 우려도 큽니다.
통합의 어려움: 서로 다른 클라우드 플랫폼 간의 데이터 및 서비스 통합이 어렵습니다.
위와 같이 멀티 클라우드로 운영할 때도 감안해야 할 어려움이 있습니다. 따라서 ‘멀티 클라우드만이 대안이다’고 단편적으로 생각하는 것이 아니라, 구체적으로 어떤 장/단점이 있는지 파악 후 현실적인 활용방법을 찾는 것이 좋습니다.
이같이 멀티 클라우드 도입의 걸림돌이 되는 관리의 복잡성과 비용 증가, 통합의 어려움 등을 해결하기 위한 방안으로 클라우드 관리플랫폼(Cloud Management Platform, 이하 CMP)의 도입이 늘고 있습니다.
저희 에이프리카의 ‘세렝게티 CMP’는 AWS, 네이버클라우드, KT클라우드 등 국내외 퍼블릭 클라우드는 물론 VMware, Openstack, Nutanix와 같은 프라이빗 클라우드까지 하나의 인터페이스에서 통합관리가 가능한 멀티 클라우드 통합관리 플랫폼입니다. 세렝게티 CMP의 핵심기술인 표준 클라우드 드라이버를 바탕으로 각 클라우드 관리 환경을 표준화함으로써, 고객은 특정 클라우드에 종속되지 않고 다양한 클라우드 자원들을 비용 최적화, 모니터링 등 기능과 함께 효율적으로 운영할 수 있는 것이죠.
에이프리카의 솔루션 개발을 총괄하고 있는 지태현 CTO는 “이번 MS발 IT 대란은 특정 클라우드 서비스에 대한 Lock-in이 불러올 수 있는 최악의 상황을 확인시켜준 사건이다. 클라우드는 어떻게 활용하느냐에 따라 그 기술적 가치를 극대화할 수 있는데, 이번 사태처럼 특정 CSP에 의존한 서비스 운영 방식은 기업의 운명을 운에 맡기는 것과 마찬가지로 무책임한 행태입니다.
서비스를 운영할 수 있는 다수의 클라우드 서비스들이 존재하고 그러한 서비스에서 호환 가능한 어플리케이션을 개발해 왔으면서도 특정 CSP의 장애에 기업의 가치가 내팽개쳐지는 것은 그 기업을 성장시켜온 기업 구성원들의 노고를 한순간에 깎아내리는 결과를 만들 수 밖에 없었습니다. 에이프리카의 세렝게티 CMP는 이러한 상황을 능동적으로 통제할 수 있도록 이종의 클라우드 서비스와 인프라를 자동화 체계로 운영하고 관리하여 기업의 가치와 서비스의 영속성을 지원합니다.
또한 서비스의 장애를 실시간으로 감지하여 클라우드의 서비스를 자동으로 확장하고 이종 클라우드 서비스에 필요한 VM 및 컨테이너를 자동으로 배포하여 서비스의 Mobility 한계를 극복하도록 지원합니다. 이를 통해 멀티클라우드 기반으로 기업 가치의 안전하고 효율적인 관리를 지원할 뿐만 아니라 멀티 클라우드로 서비스 확장하는데 있어 세렝게티 CMP는 최선의 선택일 것이다.” 라고 말했습니다.