보안 프로그램 업데이트 중 오류
글로벌 500대 기업 중 124곳 피해
시스템 중지로 7.5조원 날아가
/EPA연합
/EPA연합
# 인천국제공항에서 7월 21일 출발하는 제주항공 항공편 40여 편이 지연됐다. 마이크로소프트(MS)의 클라우드 서비스에서 발생한 오류 여파로 예정된 시각보다 2시간 넘게 항공편 출발이 지연된 것이다. MS 클라우드 먹통 사태는 7월 19일(이하 현지시각) 발생, 주말 사이 어느 정도 수습됐다. 하지만 오류가 발생하고 사흘이 지난 상황에도 항공과 금융, 통신 서비스에서 운영에 차질을 빚는 경우가 많았다.

“전 세계 경제가 특정 소프트웨어에 얼마나 취약하게 의존하고 있는지 보여주는 충격적 사례다.” 뉴욕타임스(NYT)는 MS 클라우드 먹통 사태 발생 당일 이렇게 전했다. MS의 클라우드가 먹통이 되면서 전 세계 항공· 금융·병원·통신 업무가 마비됐다. 미국 대형 사이버 보안 기업인 ‘크라우드스트라이크’가 MS의 클라우드 ‘애저’에서 보안 프로그램을 업데이트하는 과정에서 MS의 운영체제(OS)인 윈도와 충돌이 발생, 서비스가 중단된 것이다. 장애는 윈도를 사용하는 PC 화면이 파랗게 변하는 ‘블루스크린(BSOD·Blue Screen Of Death)’으로 이어졌다. 

클라우드로 모든 것이 연결된 ‘초연결 사회’의 위험을 보여준 사건이라는 분석이 나온다.

항공편 지연, 방송 중단, 병원 수술 연기도

이번 장애로 항공과 기차 편이 무더기로 지연됐고, 방송 송출도 중단됐다. 병원에서는 환자 기록을 확인하지 못해 수술이 취소되고 진료가 연기되기도 했다. 

인천국제공항 등 전 세계 주요 공항에서 PC와 연결된 체크인 카운터에 블루스크린이 떴다. 항공권 발권이 중단됐고 탑승 수속도 멈췄다. 동시에 의료 시스템이 마비되기도 했다. 월스트리트저널(WSJ)은 미국 일부 병원에서 수술 중인 의료 기기가 재부팅되지 않으면서 위급한 상황이 벌어지기도 했다고 전했다. 네덜란드와 독일 등에서는 예정된 수술이 취소됐다. 영국은 공공 의료 국민보건서비스(NHS) 시스템이 멈추면서 의사가 환자 진료 기록을 열람하지 못해 진료가 대거 연기되기도 했다. 

금융권의 피해도 있었다. JP모건, 페이스, 노무라홀딩스, 뱅크오브아메리카 직원의 로그인이 제한됐고, 런던 증권거래소도 서비스가 중단됐다. 호주 최대 은행인 코먼웰스와중국 하이퉁증권의 거래 시스템이 먹통이 되기도 했다. 결제 시스템이 멈추면서 일부 매장에서는 카드 대신 현금만 받기도 했다. 호주 국영 방송인 ABC도 네트워크 중단으로 방송에 차질을 빚었다. 영국 방송사인 스카이 뉴스는 생방송이 끊기는 초유의 사태를겪기도 했다. 

네트워크 시스템이 멈추면서 미국 연방항공청은 델타, 유나이티드, 프런티어 등 주요 항공사의 비행을 전면 중단시켰다. 네트워크가 연결되지 않을 경우 안전상 문제가 생길수 있다는 판단에서였다. 국내 제주항공과 이스타항공 운항이 지연된 것도 이런 이유 때문이다.

MS “전 세계 850만 대 블루스크린 일으켜”

MS는 7월 20일 공지를 통해 “블루스크린 현상을 일으킨 기기가 총 850만 대로 파악된다”라며 이는 모든 윈도 기기의 1% 미만”이라고 밝혔다. 실제 MS의 OS인 윈도가 설치돼 있는 기기는 총 14억 대다. 이번 장애로 문제가 발생한 비중은 1%가 안 된다. 하지만 1%에도 못 미치는 PC에서 문제가 발생했지만, 전 세계는 혼란에 빠졌다. MS도 “그 비율은 낮지만, 광범위한 경제적·사회적 충격은 주요 서비스를 운영하는 많은 기업에서 크라우드스트라이크를 사용하고 있음을 반영한다”라고 했다. 

다행히 이번 장애로 인명 피해는 없었다. 하지만 항공편이 취소돼 수천 명이 주요 공항에서 긴 줄을 섰고, 미국과 멕시코 국경에는 출입국을 못 한 여행객이 몰려 수 킬로미터에 달하는 대기 행렬이 생겼다. 또 자동화 생산을 자랑하는 테슬라의 미국 일부 공장은 생산 가동이 중단되기도 했다. 미국과 캐나다에서는 은행 ATM이 고장나 현금 입출금이 되지 않았다. 전 세계 곳곳에서 예상하지 못한 불편이 생긴 것이다.

MS가 밝힌 이번 장애 원인은 소프트웨어 업데이트 과정에서 발생한 오류다. MS는 클라우드 애저에 사이버 위협을 실시간으로 모니터링하는 소프트웨어 ‘팰컨’을 탑재해 사용하고 있다. 팰컨은 크라우드스트라이크의 소프트웨어로 인공지능(AI) 통해 애저를 사용하는 개별 기기에 대한 사이버 위협을 실시간으로 감지한다. 

그런데 팰컨 업데이트 과정에서 MS 윈도를 작동하는 코드와 충돌하면서 오류가 발생했다. 윈도 시스템 자체가 멈춘 건 MS 윈도를 작동하는 코드에서 오류가 생겼기 때문이다. 이런 오류는 MS 애저에 연결된 전 세계 PC 사용이 중단되는 사태로 이어졌다. 클라우드에서 일어난 오류가 개별 PC 자체를 다운시키면서 다른 소프트웨어까지 쓰지 못하게 만드는 업무 마비가 발생한 것이다. 

이런 업무 마비는 디지털 전환이 잘 구축된 산업일수록 더 심하게 나타났다. 대표적인 게 항공 산업이다. 저비용항공사(LCC)들은 ‘내비테어’라는 승객 서비스 시스템을 사용하고 있다. MS의 애저 클라우드를 기반으로 작동한다. 항공사 카운터에서 발권을 돕고 탑승장에서 탑승객 신분을 확인하는 시스템으로, 네트워크 연결이 필수다. MS 클라우드 먹통 사태에서 가장 큰 피해가 일어난 곳이 항공 업계인 이유다. 크라우드스트라이크는 7월 24일 사고 조사 결과 예비 보고서를 통해 글로벌 500대 기업 중 124곳(4곳 중 1곳 꼴)이 피해를 봤고, 이들의 피해액은 총54억달러(약 7조4968억원)에 달한 것으로 추정된다고 밝혔다.

네트워크로 연결된 초연결 사회 위험 부각

MS 클라우드 먹통 사태는 네트워크로 모든 시스템이 연결된 초연결 사회의 위험을 보여주는 사건으로 기록될 전망이다. 초연결 사회는 핵심 인프라인 클라우드 서비스를 통해 모든 시스템을 제어하고 있다. 항공사들이 항공편과 고객 정보를 실시간으로 검색하고, 병원에서 환자 정보를 쉽게 찾아볼 수 있는 것도 이런 클라우드 서비스가 있어 가능한 일이다. 하지만 핵심 인프라인 클라우드 서비스와 사이버 보안 업무를 일부 업체에 의지하면서 사소한 문제로 전 세계 주요 산업과 일상생활이 멈추게 되는 상황이 벌어지게 됐다. 이번에 문제를 일으킨 크라우드스트라이크는 포천 500대 기업의 60% 이상을 고객으로 둘 정도로 클라우드 사이버 보안 업계에서는 독점적 지위를 갖고 있다. 파이낸셜타임스(FT)는 “이번 사건은 클라우드 서비스의 안전을 지켜줄 것이라 믿은 IT 보안 업체가 문제의 원인이 된 사건”이라고 꼬집었다. 

MS와 크라우드스트라이크는 이번 장애의 문제를 찾아 수정했다. 하지만 완전한 정상화까지는 시간이 더 걸릴 것으로 보인다. 

이에 따라 오류를 막을 수 있는 근본적인 대책과 함께 문제가 발생했을 때 빠르게 정상화할 수 있는 IT 복구력(resilience)에 대한 관심도 커지고 있다. 예상하지 못한 시스템 오류와 사이버 공격 등을 완벽하게 막을 수 없는 만큼 문제가 생겨도 빠르게 복구하거나 대규모 셧다운 등을 막을 수 있는 방법을찾아야 한다는 것이다. 

대안으로 떠오르는 게 ‘백업 시스템’이다. 두 개 이상의 클라우드 서비스를 쓰는 멀티 클라우드가 대책으로 떠오르고 있다. 

keyword

클라우드란

노트북이나 휴대폰 등 특정 기기가 아닌 ‘구름’처럼 네트워크로 연결된 가상 서버라는 의미로 클라우드라고 불린다. 이용자는 데이터와 소프트웨어 등을 데이터센터에서 실시간으로 필요할 때마다 꺼내 쓸 수 있다. 초기에는 데이터와 프로그램 정도를 저장했다. 하지만 최근 일부 기업이 각종 시스템을 클라우드에 넣어두고 운영하는 만큼 클라우드 연결이 끊기면 PC를 아예 못 쓰는 상황까지 발생한다.

Plus Point

MS 애저 의존도 낮은 韓 피해 적어
네이버·KT 클라우드 오류 났다면 공공·금융기관 파장 컸을 듯

MS 클라우드 먹통 사태와 관련해 한국의 피해는 크지 않았다. 제주항공 등 일부 LCC의 항공편 지연과 게임 업체의 통신 장애 정도였다. 이는 국내에서는 MS 애저에 대한 의존도가 낮기 때문이다. 지난해 말 기준 MS 애저의 국내 점유율(중복 포함)은 24%로 1위인 아마존웹서비스(AWS·60%)의 절반에 미치지 못한다. 특히 국내 공공기관과 금융기관은 과학기술정보통신부의 보안 인증(CSAP)을 받아야 클라우드 사업을 할 수 있는데, 해외 클라우드 중 인증받은 곳은 아직 없다. 이런 이유로 국내 공공·금융기관은 네이버와 KT 클라우드 서비스를 주로 사용하고 있다.

그렇다고 한국이 안전한 건 아니다. MS에서 나타난 오류가 점유율 60%를 기록 중인 AWS에서 일어났다면 2023년 11월 행정 전산망이 셧다운된 걸 넘어서는 셧다운 충격이 벌어졌을 수 있다. 

윤진우 기자