지난 10월 대규모 서비스 장애를 일으킨 카카오가 향후 5년간 서비스 안정화 투자를 기존 대비 3배로 확대하고 안정적 서비스 환경 조성을 위한 별도 전담 조직을 신설하겠다고 약속했습니다.
카카오는 7일 연례 개발자 콘퍼런스 '이프 카카오 데브 2022'를 온라인으로 열어 '시스템 전체 이중화' 등 재발 방지 대책을 발표했습니다.
고우찬 비상대책위원회 재발 방지대책 공동소위원장은 "서비스 안정화를 위한 인재 확보와 기술 개발, 삼중화 이상의 재난복구(DR) 구현 등에 지난 5년간 투자한 금액의 3배 이상을 향후 5년간 투입하겠다"고 말했습니다.
카카오는 특히 재난복구(DR) 시스템을 데이터센터 3개가 연동되는 삼중화 이상으로 고도화할 계획입니다.
데이터 삼중화가 구현되면 데이터센터 한 곳이 무력화된 상황에서도 이중화가 담보되는 안정성을 갖춘다고 카카오는 설명했습니다.
핵심 서비스인 카카오톡 메시지 전송 기능을 전담하는 원격지 DR 데이터센터를 구축하는 방안도 검토합니다.
카카오는 국내 최고 정보기술(IT) 엔지니어링 전문가들을 영입, 대표이사(CE0) 직할의 IT 엔지니어링 전담 조직도 편성하기로 했습니다. 기존 개발조직에서 분리된 별도의 상위 조직으로 만들 방침입니다.
또 재해복구위원회를 신설해 즉각적인 대규모 장애 대응을 강화하고, 장애 대비 훈련도 강도 높게 시행하겠다고 밝혔습니다.
2024년 완공을 목표로 4천600억 원을 투입해 구축 중인 안산 데이터센터는 전력, 냉방, 통신 3개 영역에서 24시간 무중단 운영을 위한 이중화 인프라를 구축하고 있습니다.
무엇보다 이곳은 SK C&C 판교 데이터센터 화재에서 발화 지점으로 지목된 배터리실과 무정전전원장치(UPS)를 방화 격벽으로 분리, 배터리실에서 불이 나도 삼중의 진화 방식이 작동하도록 설계했습니다.
카카오는 인프라 하드웨어 설비에서 서비스 애플리케이션에 이르는 전체 시스템에서 다중화를 설계, 구축하겠다며 데이터의 범위도 사용자 데이터에 국한하지 않겠다고 밝혔습니다.
이와 함께 카카오는 서비스 간 중요도 등을 고려해 재난 시 복구 우선순위를 지정해 관리할 방침입니다.
이는 서비스 장애가 일어났을 당시 데이터센터 및 서비스 개발·관리를 위한 운영 관리 도구 이중화 미흡, 장애 복구를 위한 인력과 자원 부족, 장애 대응을 위한 소통 통로 혼선 및 컨트롤 타워 부재 등 여러 문제가 복합적으로 작용하면서 복구 작업이 지연됐다는 자체 분석에 따른 대책입니다.
특히 카카오 로그인이나 카카오톡의 사진 전송 기능과 관련된 시스템에 사용되는 캐시 서버(임시 서버)와 오브젝트 스토리지의 경우 화재가 발생한 판교 데이터센터에 몰려 있던 것으로 파악됐습니다.
또 서로 다른 데이터센터에 이중화된 경우에도 하나의 데이터센터에서 장애가 발생하면 다른 데이터센터로 자동 전환해주는 시스템이 작동해야 하는데, 이 시스템마저 판교 데이터센터에만 설치돼 있었습니다.
'먹통 사태'에 대한 책임을 지고 수장 자리에서 물러난 남궁훈 전 대표는 "카카오 ESG의 최우선 과제는 '우리의 서비스를 안정적으로 제공하는 것'을 깨달았다"고 말했습니다.
그는 "우리의 '부족한 이중화'는 이중화의 역할을 다하지 못했고 결국 장애를 막지 못했다"면서 "카카오 서비스 안정화가 우리의 최우선과제이며 사회적 책임이라는 것을 항상 명심하겠다"고 했습니다.
[디지털뉴스부]
기사에 대해 의견을 남겨주세요.