경제
[데이터루26호] "2만 권 팔릴 예정입니다"…도서 수요 예측 AI 등장
입력 2022-01-04 16:24 
"2만 권 팔릴 예정입니다"…도서 수요 예측 AI 등장
BigData Now...
데이터루는 KDX한국데이터거래소의 뉴스레터 서비스입니다.
MBN 데이터 전문기자가 필요한 소식만 콕 집어 여러분에게 소개해드립니다. 모든 콘텐츠는 무료입니다.

"2만 권 팔릴 예정입니다"…도서 수요 예측 AI 등장
- 교보문고 'Future Books', 재고 관리 효율 40% 끌어올려

요즘 들어 교보문고나 영풍문고처럼 대형서점에서 책 한 권 읽고 오신 분 있으신가요? 그렇다면 다리가 튼튼하시겠네요... 의자와 책상이 싹 빠졌거든요. (저도 작년 여름, 1시간 동안 서서 책을 봤답니다)


코로나19 여파로 교보문고는 2020년 4월부터 앉아서 읽을 수 있는 곳들을 막아두거나 의자를 치웠습니다. 그래서 선 채로 독서를 해야 하죠. 방문하는 사람이 줄어 매출에 타격이 있지 않을까 싶었는데, 이게 웬걸? 온라인 매출이 폭등했다고 해요. 서점에 직접 가지 않고 온라인으로 주문하는 사람들이 늘어난 겁니다.

그런데 이렇게 갑자기 도서 수요가 늘어나다 보니, 기존보다 똑똑한 시스템이 필요해졌어요. 좀 더 효율적인 재고관리 시스템이 절실해진 거죠. 고심을 하던 교보문고는 카이스트와 AI·빅데이터 전문업체 아이겐코리아(대표 황경서)의 문을 두드리게 됩니다...

세 곳의 티키타카는 반년 만에 결실을 일구어 냈습니다. 교보문고가 제공한 데이터로 카이스트가 도서 수요 예측 모델을 개발하고, 아이겐 코리아가 대시보드로 구현했습니다. 그렇게 탄생한 플랫폼이 바로 Future Books! 기존 시스템보다 재고관리 효율을 40% 개선한다고 합니다. 내년 상반기부터 적용할 예정인데, 정말 효자 노릇을 할 것 같네요.

그렇다면 그 방법이 궁금해집니다. 어떤 데이터들을 어떻게 분석했기에 효율을 40%나 끌어올렸을까? 그래서 이 플랫폼을 만드신 분을 찾아뵀습니다.

- 안녕하세요 교수님!
= 네 안녕하세요
<카이스트 경영대학 박성혁 교수>

- 먼저 플랫폼에 대해 간략하게 소개 부탁드립니다.
= 네. 수많은 도서 관련 데이터들을 AI에 학습시켜서, 이 책이 언제 얼마나 팔릴지를 예측하는 시스템입니다. 크게 두 가지로 구분할 수 있는데, 기존에 팔리던 책에 대한 수요 예측이 한 축, 아예 신간 도서에 대한 예측이 한 축입니다.

- 후자가 더 흥미롭긴 한데, 먼저 기존 책에 대한 예측부터 여쭤볼게요. 어떤 알고리즘을 사용하신 건가요?
= LSTM 이라는 알고리즘이에요. 주식가격 예측이나 일기예보와 같은 시계열 데이터 분석에 많이 쓰이는 알고리즘입니다. 교보문고가 보유한 도서 중 많이 팔리는 것들이 약 12만 권인데요. 이 12만 권에 대해 각각 학습시켜서, 앞으로 얼마나 팔릴지를 예측하게 만들었습니다. 아래 그래프를 보시면 성능이 확실하죠.
<도입 이전>
<도입 이후>

- 파란색이 예측 판매량, 빨간색이 실제 판매량인가요?
= 네 맞습니다. 시스템 도입 이전엔 개략적인 예측에 의존해서 재고관리를 했었는데, 앞으로는 더욱 정확한 예측이 가능해진 거죠. 한 도서를 두고 일주일 동안 얼마나 많이 팔릴지를 시험해본 건데요. 파란 선이 빨간 선을 거의 비슷하게 따라가는 걸 알 수 있습니다.

- 어떤 데이터들을 학습시킨 거예요?
= 과거 판매량이 가장 중요합니다. 저자는 누구인지, 어느 분야의 책인지도 학습시키고요. 여기에 더불어서 그 책의 판매 패턴도 학습시킵니다. 초기에 많이 팔리다가 서서히 감소하는 책인지, 계절이 돌아올 때마다 많이 팔리는지, 아니면 꾸준히 일정량 팔리는 책인지 이렇게 세 가지로 구분해 봤습니다.

이런 여러 요소들 중에서 무엇을 더 중점적으로 봐야 하는지, 그 가중치는 기계가 스스로 처리할 수 있도록 설계해 놓았고요.

- 정리해 보면 과거 데이터들을 기반으로 미래를 예측하는 거네요. 그렇다면 더 궁금해져요. 신간은 어떻게 이게 가능한 거죠?
= 그게 더 재미있는 부분이에요. 과거 데이터가 없다 보니 어떻게 할까 하다가... AI한테 책을 읽게 시켰어요. 책 전체를 보기보다는 첫 챕터 정도만을 읽혔는데요. 사람들도 사실 앞 부분 조금 읽어보고 재미없으면 안 사잖아요? 그걸 그대로 반영했습니다. 이렇게 텍스트 데이터를 입력시키고, 저자 정보와 도서 분야 정보도 학습시킵니다. 여기에는 BERT라는 자연어 처리 알고리즘을 사용했습니다.

- 텍스트 데이터 말고 다른 데이터도 활용하셨나요?
= 네 표지도 정말 중요하더라고요. 표지를 보고 딱 끌리는 도서들이 있잖아요? 그런 맥락도 반영했습니다. 여기엔 이미지 정보를 학습할 수 있는 inception v3라는 알고리즘을 활용했습니다.

- 혹시 효과는 어땠나요?
= 사실 큰 기대감 없이 시작했었어요. 하지만 신간에서도 구간과 마찬가지로 40%의 효율을 보였습니다. 눈에 띄는 점은 대박 책들보다 중박, 소박 책들을 더 잘 맞췄다는 거예요. 사실 대박이라는 건 예상하지 못한 패턴에 의해 만들어지는 것인 만큼, 당연한 결과겠죠. 소박일수록 더 잘 맞춘다는 인사이트도 얻을 수 있었습니다.


- 듣고 보니 정말 다양한 분야에 이 시스템을 활용할 수 있을 것 같아요. 도서뿐만 아니라요!
= 네 맞습니다. 기존 데이터의 패턴을 분석해서 앞으로의 패턴도 예측하는 거니까요. 헬스케어 시장에서 심전도 신호 처리나, 데이팅 앱에서 좋아하는 이상형을 예측하는 분야에도 적용할 수 있을 걸로 보고 있습니다. 앞으로도 더 많은 영역에 도전해봐야겠습니다.


BigData Now...

과기정통부가...
한국지능정보사회진흥원과 연계해, 통합 데이터지도와 공공데이터포털 서비스 이용을 강화하겠다고 밝혔습니다. 이에 따라 공공데이터 약 6만 5천 건을 통합 데이터지도에서도 검색할 수 있게 됐습니다. 과기부는 이종 데이터 간 융합·활용을 활성화하겠다는 취지로, 데이터를 시각적으로 보여주는 융합 그래프 서비스도 새로 제공할 예정입니다.

부산시가...
경제, 도서, 생활, 문화, 관광 등 분야별 빅데이터 분석사업 결과를 올해 시정에 반영하겠다고 밝혔습니다. 지난해 6월 시작한 해당 사업은 지역 경제 활성화와 청년 고용 분석, 도서관 이용현황 분석, 코로나19로 인한 시민 생활 변화 분석을 취지로 진행돼 왔습니다. 특히 고성장기업 생태계 연구소 설립과 청년 창업 서비스 개발 등 경제 문제를 해결할 수 있는 다양한 전략들이 제시돼 기대를 모으고 있습니다.

경기도가...
빅데이터 분석을 통해 도내 62개 지역에 대한 교통약자 보호구역 신설 여부를 검토하고 있다고 밝혔습니다. 경기도는 경기도남부자치경찰위원회와 함께 지리정보데이터, 유동인구 데이터 7천7백만 건, 교통 보행사고 데이터 1만 3천여 건을 분석해 이 같은 결과를 내놨습니다. 두 기관은 올 초 합동 보호구역 안전진단을 실시하겠단 방침입니다.

LG유플러스가...
금융 마이데이터 사업 진출을 위해 금융위원회에 본인신용정보관리업 예비허가를 신청했습니다. LG유플러스는 자사가 보유한 빅데이터와 금융데이터를 접목해 고객이 체감할 수 있는 새로운 형태의 생활가치 서비스를 제공하겠다는 방침입니다. LG유플러스는 신한은행, CJ올리브네트웍스와의 업무협약을 기반으로 지난달 데이터 커뮤니케이션 서비스 '디키타카'를 선보인 바 있습니다.

KIA 타이거즈가...
성신여대 데이터사이언스센터와 인공지능 관련 연구를 위한 업무협약을 체결했습니다. 두 기관은 야구 분야 데이터를 수집하고 활용하기 위한 상호협력 체계를 구축하겠단 방침입니다. 또 과학적 의사결정을 통한 선수단 교육, 데이터 분석을 기반으로 한 야구 시스템 개발에도 협력할 예정입니다.

글 : 강대엽 MBN 데이터 전문기자 / rentbi@mbn.co.kr
MBN APP 다운로드