여행거리에 따라 신용카드 사용액을 예측할 수 있을까? 새로 개발된 약의 치료효과를 확신할 수 있을까? 또는 개인이 가지고 있는 인구사회학적 특징과 거래정보를 이용해 대출여부를 판단할 수 있을까? 이제는 이러한 예측과 분류 문제에 관한 의사결정은 자료 분석을 통해 보편적으로 수행되고 있다. 하지만 통계학 또는 인공지능을 공부하지 않은 일반인에게는 어떤 방법이 이용되고 있는지 이해하기는 쉽지만은 않다.
확률을 이용한 예측과 분류를 위한 방법들은 얼핏 보기에는 일차함수의 형태로 단순해 보이기도 한다. 하지만 분석을 위한 자료의 유형에 따라 매우 다양한 형태의 함수가 존재하며, 이들 함수는 모형이라고 한다. 그리고 이들 모형들은 모두 하나의 통합된 모형을 통해 설명할 수도 있다.
이 책은 예측과 분류를 위해 이용되고 있는 모형들을 통합해서 설명할 수 있는 일반화 선형모형이라는 이론을 소개하고 있다. 내용의 특성상 읽기 위해서는 다소 수학적인 지식을 요구하지만 최근에 큰 관심을 불러일으키고 있는 딥러닝에 주로 사용되는 분석방법을 이해하기 위한 출발점이 될 만한 기초적인 내용을 많이 포함하고 있다.
특히 딥러닝의 구현에 핵심이 되는 반복계산 방법을 매우 상세히 소개하고 실제 계산을 위해 사용할 수 있도록 빅 데이터에서 널리 활용하고 있는 R 언어 코드를 포함하고 있다.
예측과 분류 문제에 관심 있는 연구자들과 학생들을 위한 개론서로 저술된 책임은 분명하다. 하지만 저자의 오랜 강의 경험을 바탕으로 복잡한 이론을 다양한 그림을 통해 쉽게 설명하고 있으므로 예측과 분류를 위한 기본 지식을 얻고자 하는 독자들에게도 도움이 될 것이다.
[디지털뉴스국]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
기사에 대해 의견을 남겨주세요.