Article at a Glance 알리바바의 마윈 회장은 지난 20년간 지속돼온 IT의 시대가 끝나고 이제 DT, 즉 데이터 과학의 시대가 향후 30년간 펼쳐질 것이라고 말했다. 이제 데이터는 넘치도록 쌓여 있고, 분석과 처리를 기다리고 있다. ‘빅데이터 분석 방법론’ 자체에 대한 고민이 필요한 이유다. 학자나 기업에 따라 다르지만 표준적으로 데이터 분석 방법론은 ‘분석 기획, 데이터 준비, 데이터 분석, 시스템 구현, 평가 및 전개’의 단계로 나눠진다. 이 중에서 가장 중요한 단계를 꼽으라면 ‘분석 기획’이다. 애초에 비즈니스에서 직면한 문제가 무엇인지, 어떤 문제를 해결하고 대충이나마 어떤 데이터를 수집하고 처리해야 하는지 정의되지 않으면 그 이후는 진행조차 되지 않기 때문이다.
“구글이 실내온도 조절 센서를 만드는 네스트를 32억 달러에 인수하자 일부 언론은 이를 구글이 ‘IoT(사물인터넷) 플랫폼으로 활용할 것’이라고 보도했죠. 2017년 11월 중국 광군제를 통해 알리바바가 하루 만에 28조 원의 매출을 올렸다는 보도가 나왔고 다들 그 매출액에 감탄했습니다. 그런데 여기 계신 빅데이터MBA 학생들은 당연히 전혀 다른 생각을 갖고 계실 겁니다.”
윤석용 교수(베가스 부사장)는 현직 데이터과학자답게 도발적인 말로 강의의 시작을 알렸다. 포스코에서부터 데이터 분석 업무를 시작해 현재 대한민국 톱 빅데이터 분석 업체를 이끌고 있는 그의 첫마디에 30여 명의 수강생이 일제히 고개를 끄덕였다. 총 24시간에 걸쳐 진행된 윤 교수의 aSSIST 빅데이터MBA의 ‘빅데이터 분석 방법론’ 강의를 DBR이 정리했다.
Data, Big Data or Bigdata“지난 20년간 지속돼온 IT의 시대가 저물고 앞으로 30년간 DT 혁명에 기반한 새로운 시장이 열릴 것이다.”- 마윈 알리바바 회장구글이 네스트를 인수한 이유는 IoT 플랫폼을 만들기 위해서가 아니다. 어차피 IoT 플랫폼은 냉장고로 결정된 지 오래다. 진짜 이유는 이제 우리 모두가 알고 있다. 구글은 네스트에서 수집하는 정보를 통해 사람들의 일상생활 데이터, 생활 패턴을 파악하고 싶었던 거다. ‘광군제에서 28조 원의 매출을 올린 알리바바’라는 문구를 들으면서 더 이상 우리는 매출액 자체에 놀라지 않는다. 눈앞에 엄청난 매출이 보이는 게 아니라 그렇게 생성된 28조 원어치의 판매/유통 데이터가 그려질 것이다. ‘데이터의 가치’란 바로 그런 것이다.
데이터, 빅데이터를 그 무엇으로 부르든지 완전히 새로운 시대는 우리에게 이미 와 있다. 알다시피 가트너가 매년 발표하는 10대 기술 트렌드에서 빅데이터란 말 자체는 2014년부터 사라졌다. 하이퍼 사이클에서 아예 빠져 있다. 중요하지 않아서는 아니다. 이미 너무 당연하게 다뤄야 하는 것, 마치 공기와 같은 것으로 여기기 때문이다. 지금의 모든 기술 트렌드와 경영 그 자체가 데이터 혹은 빅데이터에 기반하고 있는 까닭이다.
몇 년 전 한국에 방문한 마윈 회장이 한 얘기를 떠올려보자. 그는 미국의 첨단 IT 기업들을 언급하면서 그런 기업들이 이끌던 IT 시대는 끝났다고 선언했다. 이제는 바이두, 알리바바, 텐센트의 약자인 BAT가 이끄는 DT, 즉 Data Technology의 시대라는 것. 그는 ‘내가 말하는 데이터는 내가 아니라 당신들이 가진 것’이라고 덧붙였다.
그렇다면 데이터란 무엇인가. 예전에는 데이터를 놓고 스몰데이터, 빅데이터로 나누는 경우가 많았다. 10페타바이트는 돼야 빅데이터로 분류할 수 있다고 말하는 데이터과학자들도 있었다. 그보다 작으면 스몰데이터라는 얘기였다. 그런데 이제는 그런 구분 자체도 의미가 없다. 2017년 한 해 동안 생산된 데이터가 150억 테라바이트다. 10페타바이트는 겨우 1만 테라바이트일 뿐이다. (그림 1) 인식 자체를 바꿔야 한다. 빅데이터를 ‘Big Data’, 즉 ‘Big’을 형용사로 놓고 생각하고 접근하면 안 된다. 이제는 그냥 데이터가 빅데이터다. 영어로 ‘Bigdata’라고 하나의 일반명사로 쓰는 게 맞다. 빅데이터 분석 방법, 빅데이터 처리 기술은 그냥 큰 데이터를 처리하고 분석하는 방법과 기술이 아니라 빠르고 스마트하게 처리하고 분석하는 것을 의미한다. 차라리 ‘fast data’ ‘smart data’라는 말이 더 어울릴지도 모른다.
이쯤에서 한번 정리하고 가자. 빅데이터 분석이란 무엇인가. 바로 ‘다양한, 다량의 데이터 분석을 통해 일반적으로 볼 수 없었던 새로운 사실, 패턴, 법칙을 발견해 새로운 비즈니스 가치를 창출하는 기법’이다.
2016년 하반기부터 우리는 아주 지겹도록 ‘4차 산업혁명’에 대한 얘기를 들어왔다. 어떤 사람들은 독일의 ‘인더스트리(Industry) 4.0’과 4차 산업혁명을 같은 것으로 착각해 혼용하는 경우도 있다. 독일의 제조업 경쟁력 강화 국가 전략과 거대한 산업혁명 자체를 같은 선상에 놓긴 어렵지만 일면 통하는 게 없진 않다. 데이터 분석을 기반으로 한 스마트팩토리는 인더스트리 4.0의 핵심이면서 4차 산업혁명 스마트팩토리의 또 한 면이기도 하다. 하지만 우리는 철저하게 데이터 관점에서만 볼 필요가 있다. 3차 산업혁명 시대에는 하드웨어, 즉 기계에 소프트웨어를 설치해 그 실행결과로서 데이터를 얻었다. 4차 산업혁명 시대에는 다르다. 이미 그렇게(3차 산업혁명 시대) 생성된 데이터가 엄청나게 쌓여 있고, 최근 구축된 IoT 시스템으로 계속 데이터가 생산되고 있다. 따라서 이제는 먼저 데이터를 보고 그 데이터에 기반해 소프트웨어에 하드웨어를 플러그인 하는 방식으로 전환되는 것이다. 즉, 데이터가 먼저고 그걸 다룰 소프트웨어로 분석과 처리를 해서 기계를 활용한다는 얘기다.
GE가 석유시추선의 설비에서 발생한 센서 데이터를 실시간 분석하고 고장 전에 예지 정비를 하는 것은 3차 산업혁명 시대를 거쳐 만들어진 데이터와 그 시기에 발전한 각종 센서기술과 소프트웨어가 없었다면 불가능했다는 뜻이다. 이제는 그 데이터를 중심으로 다시 새로운 비즈니스를 창출하고 전략을 짜는 게 가능하다. 이런 게 4차 산업혁명으로 가는 길이다.데이터과학과 데이터과학자데이터가 경영을 어떻게 바꾸고 있는지 여기 계신 분들은 다 알고 있을 것이다. 그 충격에 이 대학원에 진학했을 것 아닌가. 비즈니스에서의 변화를 정리해보자. 데이터과학이 도대체 어떤 변화를 만들어내고 있는지를 되돌아보자는 것이다. 일단 마케팅 차원에서 그동안에 해온 방식은 데이터과학으로 인해 완전히 바뀌었다. 예전에는 설문조사를 먼저 진행한 후에 일정한 수를 채우면 그것으로 구조방정식 모델을 만들어서 데이터 분석을 했다. SAS, SPSS 같은 상업용 분석도구가 활용됐고 주로 과거 분석과 원인 규명 중심이었다. 그러다가 R과 같은 오픈 소스 분석툴이 유행하고 파이선과 스칼라 등의 새로운 언어가 나오면서 엄청난 양의 데이터를 쉽게 처리할 수 있게 됐고, 웹사이트와 SNS 크롤링, 웹페이지 로그 기록 분석을 통해 소비자들의 행동패턴 분석과 예측이 가능해졌다. 중요한 건 ‘예측’이라는 단어다. 예전에는 모두가 예측을 하고 싶어 했지만 성공하는 경우가 거의 없었다. 하지만 지금은 상당 부분을 예측할 수 있다. 이를 토대로 요새는 너무 당연한 듯 하는 타깃 마케팅이 가능해졌다.
문제는 이런 ‘진짜 예측’을 하기 위해 데이터과학자에게 요구되는 역량은 엄청나게 많아졌다는 것이다. 현시점에서 완벽한 데이터과학자가 되기 위해 필요한 모든 기술과 학문을 지하철 노선도처럼 순서대로 나눈 걸 보면 거의 서울 지하철 수준이다. (그림 2) 그렇다면 정말 저 모든 것을 한 사람이 다 알아야 하는가. 물론 아니다. 각각의 노선도가 그려져 있듯이 비즈니스별로 하나의 노선을 택하고 각 기업 내에서 교육할 수 있는 것만 하고 자유롭게 필요한 인력을 갖다 쓰면 된다. 이 중에 기업에서 빅데이터 활용 전략을 고민하는 분들이 있다면, 내 회사에 필요한 데이터 분석이 어떤 것인지, 저 노선도 중에 어떤 노선인지를 파악하고 ‘도메인’ 지식, 즉 그 산업과 비즈니스와 연결돼 꼭 필요한 지식이 있다면 교육과 육성을 하고 다른 역량은 외부에서 그때그때 영입해서 쓰거나 아웃소싱을 하는 방식으로 해결해나가면 된다. 저 노선도에 그려진 모든 지식을 한 사람이 다 배우는 건 평생 걸려도 불가능하다. 최근에는 자신의 비즈니스 영역 지식을 근간으로 데이터 전문가와 충분히 소통하고 업무 지시와 관리를 할 수 있는, 또 협업할 수 있는 수준의 ‘시티즌 데이터과학자’라는 용어도 나왔다. 또 엄청난 코딩능력이 없어도 웬만큼 데이터를 분석하고 다룰 수 있는 프로그램이 나왔다. 중요한 건 영역의 지식과 데이터 분석 관점의 제대로 된 결합이지 지금까지 나와 있는 모든 데이터과학 지식의 섭렵이 아니라는 의미다.
빅데이터 분석 방법론
1
빅데이터 분석 방법론은 학자에 따라, 기업에 따라 조금씩 다르다. 가장 표준적인 방법론을 제시하자면 ‘분석기획(Planning) → 데이터 준비(preparing) → 데이터 분석(Analyzing) → 시스템 구현(Developing) → 평가 및 전개(Deploying)’라 할 수 있다.
‘분석기획’은 비즈니스 범위를 이해하고 설정하는 것, 프로젝트를 정의하고 계획을 수립하는 것 등이 해당된다. ‘데이터 준비’는 필요한 데이터를 정의하고, 데이터를 수집하고, 그 정합성을 점검하는 단계다. ‘데이터 분석’은 분석용 데이터를 준비하고 텍스트를 분석하며, 탐색적 분석과 모델링을 한 뒤에 모델을 평가하고 검증하는 단계를 말한다. ‘시스템 구현’은 설계와 구현의 단계로 실제 시스템을 테스트하고 운영하는 것이며 ‘평가 및 전개’는 모델 발전 계획을 수립하고 프로젝트를 평가하는 피드백 과정이다.
이 중에서 가장 중요한 건 사실 ‘분석 기획’이다. 다른 부분은 회사의 자체 역량이 부족할 경우에 외부 데이터 분석 전문 회사에 맡길 수 있지만 자신의 기업이 가진 명확한 문제점, 비즈니스 전략을 이해하고 원하는 결과를 제대로 정의 내리지 못하면 아예 그다음 단계로 진행조차 되지 않기 때문이다. 스스로 명확하게 계획을 짤 수 있어야만 데이터 분석이 의미를 갖게 된다. [표 1]은 데이터 분석에 기반한 문제 해결을 원하는 기업들이 맨 처음 작성해야 하는 과제 정의서다. 이것을 제대로 만들지 못한다면 아무리 비싼 돈을 들여 최고의 데이터 분석 컨설팅 업체와 계약해도 그 기업 비즈니스의 문제를 해결할 수가 없다. 지금 이 자리에서 한 번 각자 회사에 맞게 채워보도록 하자.
생각보다 쉽게 작성되지 않을 것이다. 지금 이 자리에서 해보라고 했지만 실제 기업에서는 이를 두고 회의하고, 토론하고, 정말로 자신의 회사에서 해결해야 할 일이 뭔지, 풀고 싶은 문제가 뭔지를 정확하게 파악해 기입해야 한다. 이게 제대로 안 되면 데이터 분석을 천 번, 만 번, 수억 원, 수십억 원을 주고 해봐야 아무런 도움이 안 되기 때문이다. 이 단계가 끝났다면 준비단계로 들어가 비구조화된 데이터, 반구조화된 데이터, 구조화된 데이터를 구분하고 구조화된 데이터와 정형 데이터로 바꿀 수 있는 데이터는 가능한 한 바꾸는 게 좋다. 이 과정이 실제 분석단계보다 훨씬 오랜 시간이 걸린다. 이후부터의 데이터 분석은 내부 인력이든, 외부 인력이든 그냥 하면 되는 것이다. 다만 경영진에서 분석 중간에 문제가 생겼을 때 재빨리 이를 중단시키고 데이터 준비단계나 기획단계에서 야기된 문제가 있다면 과감하게 그 단계로 다시 돌아갈 수 있어야 한다. 기술적인 분석 방법론은 셀 수 없이 많다. 회귀분석부터 의사결정 나무, 군집분석 등 기초적인 분석은 물론 지금 이 순간에도 새로운 분석방법, 기계학습과 지도학습의 방법은 탄생하고 있다. 무엇을 활용해야 할지 선택하는 것은 데이터분석가의 몫이지만 그가 제대로 된 방법을 선택하게 돕는 것은 최초 기획단계에서부터 제대로 문제와 방향을 설정하는 경영진이다. 어쩌면 그게 거창한 이름의 이 수업 ‘빅데이터 분석 방법론’의 처음과 끝일지도 모른다.
편집자주DBR은 4차 산업혁명 시대를 맞이해 급변하는 빅데이터 분석의 트렌드를 제시하고자 aSSIST(서울과학종합대학원) 빅데이터MBA학과와 협력해 강의 중 핵심 내용을 2018년 상반기에 걸쳐 지상 중계합니다. 과정 문의:
[email protected]정리=고승연 기자 [email protected]