최근 3차례 발생한 카카오톡 서비스 장애 원인은 사전 테스트 미실시, 작업 통제 부재 등인 것으로 나타났습니다.
과학기술정보통신부는 지난 28~30일 통신재난관리심의위원회를 개최하고 카카오에 대한 시정조치 요구사항을 의결했고, 오늘(31일) 시정 요구를 했다고 밝혔습니다.
과기부는 카카오에 1개월 내 개선 조치계획을 수립해 제출하고, 3개월 내 시정 결과를 제출하도록 할 계획이라고 설명했습니다.
특히 주요 작업 전 사전테스트 체계 강화, 작업 관리 통제 강화, 통신 재난 관련 매뉴얼 및 지침 보완, 모니터링 시스템 고도화를 통한 장애 탐지 강화, 장애 원인 분석과 사후관리 체계화, 장애 사실 이용자 고지 개선 등을 강조했습니다.
앞서 지난 13일에는 오후 1시 44분부터 1시 50분까지 6분간 카카오톡 이용자의 약 80%가 카카오톡 메시지 발신 지연과 실패로 불편을 겪었습니다.
장애 원인은 카카오톡 서비스가 운영되는 데이터센터 서버의 파일을 업데이트하는 작업 중 기존 파일을 삭제하는 과정에서 오류가 발생했기 때문으로 파악됐습니다.
과기정통부 점검 결과 카카오는 실제 작업을 진행하기 전 사전 테스트를 실시하지 않아 발생할 수 있는 오류에 대비하지 못한 것으로 확인됐습니다.
지난 20일에도 오후 2시 52분부터 2시 58분까지 6분간 이용자의 80%가 메시지 수·발신 실패로 불편을 겪었습니다. 원인은 네트워크 부하 분산을 위한 내부 시스템 기능 개선 작업 중 발생한 오류였습니다.
점검 결과 카카오는 실제 작업을 진행하기 전 사전테스트는 실시했으나 개발 결과물의 테스트 환경이 실제 카카오톡 운영환경과 차이가 커 미리 장애 가능성을 식별하지 못한 것으로 확인됐습니다.
지난 21일에는 오전 8시 30분부터 9시 24분까지 54분간 이용자의 약 8%가 PC용 카카오톡 로그인 실패 및 모바일용 카카오톡 메시지 수·발신 지연 피해를 봤습니다. 특히 서비스 이용률이 높은 출근 시간대 54분간 장애가 발생해 불편이 컸습니다.
이번 장애는 두 번째 장애를 일으킨 서버의 오류를 미해결한 상태에서 동일 데이터센터에 있는 다른 서버에 자바(Java) 프로그램 업데이트를 진행한 것이 원인이었습니다.
카카오는 내부적으로 작업 통제를 하지 않아 전날 장애가 발생한 서버의 오류를 미해결한 상황에서 통제 없이 새로운 작업을 진행하여 오류가 발생한 것으로 확인됐습니다.
과기정통부 이종호 장관은 "국민 생활에 큰 영향을 주는 디지털 서비스 장애가 다시는 반복되지 않아야 한다"며 "디지털 서비스 장애는 국민 일상의 불편을 넘어 사회·경제 전반에 지대한 영향을 끼치는 만큼 재발 방지를 위해 사업자의 관리체계를 면밀히 점검하겠다"고 밝혔습니다.
이어 "카카오도 국민들의 관심으로 성장한 기업인 만큼 재난·장애 관리를 위한 조직문화 개선과 함께 이용자에게 편리하고 안정적인 서비스를 제공하도록 책임을 다할 필요가 있다"고 덧붙였습니다.
카카오는 정부의 조치와 관련해 카카오톡 오류 예방을 위해 내부 관리·감독을 강화하겠다는 입장을 밝혔습니다.
카카오 관계자는 "작업 관리 및 감독이 미흡했다는 점검 결과를 겸허히 수용한다"며 "카카오는 그간 서비스 이중화 등 적극적인 기술적 조치를 통해 장애에 적극 대응해왔으며 앞으로 주요 작업에 대한 내부 관리ㆍ감독 프로세스 역시 재정비하고 강화할 계획"이라고 말했습니다.
이어 "이용자들에게 안정적인 서비스를 제공하기 위해 지속적으로 최선의 노력을 기울일 것"이라고 덧붙였습니다.
[오지예 기자/calling@mbn.co.kr]
과학기술정보통신부는 지난 28~30일 통신재난관리심의위원회를 개최하고 카카오에 대한 시정조치 요구사항을 의결했고, 오늘(31일) 시정 요구를 했다고 밝혔습니다.
과기부는 카카오에 1개월 내 개선 조치계획을 수립해 제출하고, 3개월 내 시정 결과를 제출하도록 할 계획이라고 설명했습니다.
특히 주요 작업 전 사전테스트 체계 강화, 작업 관리 통제 강화, 통신 재난 관련 매뉴얼 및 지침 보완, 모니터링 시스템 고도화를 통한 장애 탐지 강화, 장애 원인 분석과 사후관리 체계화, 장애 사실 이용자 고지 개선 등을 강조했습니다.
앞서 지난 13일에는 오후 1시 44분부터 1시 50분까지 6분간 카카오톡 이용자의 약 80%가 카카오톡 메시지 발신 지연과 실패로 불편을 겪었습니다.
장애 원인은 카카오톡 서비스가 운영되는 데이터센터 서버의 파일을 업데이트하는 작업 중 기존 파일을 삭제하는 과정에서 오류가 발생했기 때문으로 파악됐습니다.
과기정통부 점검 결과 카카오는 실제 작업을 진행하기 전 사전 테스트를 실시하지 않아 발생할 수 있는 오류에 대비하지 못한 것으로 확인됐습니다.
지난 20일에도 오후 2시 52분부터 2시 58분까지 6분간 이용자의 80%가 메시지 수·발신 실패로 불편을 겪었습니다. 원인은 네트워크 부하 분산을 위한 내부 시스템 기능 개선 작업 중 발생한 오류였습니다.
점검 결과 카카오는 실제 작업을 진행하기 전 사전테스트는 실시했으나 개발 결과물의 테스트 환경이 실제 카카오톡 운영환경과 차이가 커 미리 장애 가능성을 식별하지 못한 것으로 확인됐습니다.
지난 21일에는 오전 8시 30분부터 9시 24분까지 54분간 이용자의 약 8%가 PC용 카카오톡 로그인 실패 및 모바일용 카카오톡 메시지 수·발신 지연 피해를 봤습니다. 특히 서비스 이용률이 높은 출근 시간대 54분간 장애가 발생해 불편이 컸습니다.
이번 장애는 두 번째 장애를 일으킨 서버의 오류를 미해결한 상태에서 동일 데이터센터에 있는 다른 서버에 자바(Java) 프로그램 업데이트를 진행한 것이 원인이었습니다.
카카오는 내부적으로 작업 통제를 하지 않아 전날 장애가 발생한 서버의 오류를 미해결한 상황에서 통제 없이 새로운 작업을 진행하여 오류가 발생한 것으로 확인됐습니다.
과기정통부 이종호 장관은 "국민 생활에 큰 영향을 주는 디지털 서비스 장애가 다시는 반복되지 않아야 한다"며 "디지털 서비스 장애는 국민 일상의 불편을 넘어 사회·경제 전반에 지대한 영향을 끼치는 만큼 재발 방지를 위해 사업자의 관리체계를 면밀히 점검하겠다"고 밝혔습니다.
이어 "카카오도 국민들의 관심으로 성장한 기업인 만큼 재난·장애 관리를 위한 조직문화 개선과 함께 이용자에게 편리하고 안정적인 서비스를 제공하도록 책임을 다할 필요가 있다"고 덧붙였습니다.
카카오는 정부의 조치와 관련해 카카오톡 오류 예방을 위해 내부 관리·감독을 강화하겠다는 입장을 밝혔습니다.
카카오 관계자는 "작업 관리 및 감독이 미흡했다는 점검 결과를 겸허히 수용한다"며 "카카오는 그간 서비스 이중화 등 적극적인 기술적 조치를 통해 장애에 적극 대응해왔으며 앞으로 주요 작업에 대한 내부 관리ㆍ감독 프로세스 역시 재정비하고 강화할 계획"이라고 말했습니다.
이어 "이용자들에게 안정적인 서비스를 제공하기 위해 지속적으로 최선의 노력을 기울일 것"이라고 덧붙였습니다.
[오지예 기자/calling@mbn.co.kr]
기사에 대해 의견을 남겨주세요.