[DBR] 포함되지 않은 변수를 보는 것이, 계량분석의 오차를 줄이는 길

계량분석 A to Z

포함되지 않은 변수를 보는 것이, 계량분석의 오차를 줄이는 길

신선호 | 235호 (2017년 10월 Issue 2)

- 아티클
  
  스페셜 리포트 케이스 스터디
  경영전략/경영일반 인사/조직 마케팅/세일즈 리더십/자기계발 인문 AI/DT
  전체 기사 보기 호수별 Case Study HubENG audio DBR PDF 전체보기
- 구독
  
  월정액 서비스 연간 서비스 낱권 PDF 대량/법인
- 이벤트
  
  이벤트
- 고객센터
  
  공지사항 FAQ 1:1문의 이용권/상품권 인증
공유
스크랩

+ 새로운 폴더 생성
폴더명

메모입력

스크랩

데이터를 바라보는 시각 자체는 다양할 수 있으나 이를 분석하는 과정은 옳고 그름이 매우 분명하게 존재한다. 또 다른 의미에서 0과 1의 영역이기 때문이다. 계량 데이터에 대한 당신의 분석은 오롯이 옳거나 혹은 완전히 틀린 것이다. 필자는 이 글을 통해 많은 사람들이 계량 데이터를 마주할 때 가장 흔히 범하는 간단하지만 치명적인 오류에 대해 논하고자 한다.

사례
국내 굴지의 대기업 A사(社)는 영업사원들의 세일즈 역량 향상을 위해 막대한 비용을 들여 새로운 세일즈 트레이닝 프로그램을 개발했다. 참여 여부는 현업 일정을 감안해 영업사원들이 자발적으로 선택할 수 있도록 했다. 큰 비용을 들여서 개발한 프로그램이었기에 인사 담당 임원은 트레이닝 프로그램이 실질적인 효과를 거뒀는지 확인하고 싶었다. 따라서 트레이닝에 참여한 집단과 참여하지 않은 집단의 최근 한 달간 영업실적을 비교했다. 그 결과 트레이닝에 참여한 영업사원들의 영업실적이 무려 30% 이상 높은 것을 확인할 수 있었다. 이에 인사 담당 임원은 해당 트레이닝 프로그램에 대한 투자를 두 배 이상 늘리기로 결정했다.

과연 A사의 세일즈 트레이닝 프로그램은 효과를 거둔 것일까? 또한 트레이닝 프로그램에 대한 투자를 두 배 이상 늘리기로 한 인사 담당 임원의 결정은 합리적인 것일까.

만약 위의 질문에 대해서 “A사의 트레이닝 프로그램은 효과적이었다”라고 답했다면 당신은 계량분석에 있어 치명적인 오류를 범한 것이다. 결론부터 말하자면 그 이유는 A사가 영업사원들로 하여금 트레이닝 프로그램 참여 여부를 ‘자발적으로’ 선택하도록 했기 때문이다. 트레이닝 프로그램에 자발적으로 참여한 영업사원들은 참여하지 않은 영업사원들보다 향후 커리어에 대한 열망이 높고, 더 부지런하며 본인의 업무에 대한 애착이 강할 확률이 높다. 또한 그런 이유에서 세일즈를 원래부터 잘하던 영업사원들이 ‘더욱 잘하기 위해’ 트레이닝 프로그램에 참여했을 공산도 크다. 그렇기 때문에 위에서 관측된 30%라는 수치에는 트레이닝 프로그램의 효과뿐 아니라 커리어에 대한 높은 열망, 성실성, 강한 업무 애착도, 기존의 높은 세일즈 역량 등에 의한 효과들이 모두 섞여 있다. 따라서 이 수치는 필자가 평소에 즐겨 쓰는 표현에 따르면 ‘오염된 분석수치(Contaminated analysis)’인 것이다. 무엇이 분석에 오염을 유발했는지 구체적으로 살펴보자.

대부분의 계량분석은 회귀분석(Regression)에 기반을 두고 있다. 회귀분석이란 Y로 표현되는 종속변수(영향을 받는 변수)와 X로 표현되는 독립변수들(영향을 주는 변수) 사이의 관계를 통계적 기법으로 추정하는 것으로, 이는 우리가 잘 알고 있는 상관(Correlation)이라는 개념에서 비롯된 것이다.1 A사 역시 트레이닝 프로그램의 효과분석을 위해 영업사원들의 실적을 종속변수로 삼아 아래와 같은 회귀분석을 실시했다.

영업실적ⅰ=β₁+β₂지역ⅰ+β₃근속연수ⅰ+β₄트레이닝 참여여부ⅰ+εⅰ

위의 회귀분석 공식에서 아래 첨자로 표기된 ⅰ는 분석의 대상이 되는 개별 영업사원을,β₂∼β₄는 각각의 독립변수들이 종속변수로서의 영업실적에 미치는 효과의 크기(Estimated effect size)를 의미한다. εi는 회귀분석에 이미 포함된 독립변수인 지역, 근속연수, 트레이닝 참여 여부를 제외하고 영업실적에 영향을 미치지만 모델에 포함되지 않은 모든 변수들을 포괄하는 것으로 오차항(Error term)이라 불린다. 그리고 계량분석에 있어서 대부분의 치명적인 결함은 바로 이 오차항에서 비롯된다. 이런 이유에서 오차항에 대한 민감도(Sensitivity)는 데이터 애널리스트가 갖춰야 할 가장 중요한 역량 중 하나라고 해도 과언이 아니다. 위의 사례에서 A사가 범한 ‘오염된 분석’ 역시 오차항에 대한 둔감함에서 비롯된 것이다. 영업실적에 영향을 미치지만 회귀분석에 독립변수로서 포함되지 않은 영업사원의 성실성, 커리어에 대한 높은 열망, 강한 업무 애착도 등의 요소들은 모두 오차항(εi)에 들어가게 되고, 특정 조건에서 이러한 오차항의 요소들은 분석에 편의(Bias)를 가져오는데 가장 대표적인 편의가 바로 위의 사례에서 A사가 범한 것과 같은 누락편의(OVB·Omitted Variable Bias)2 ‘누락편의’라고 부르는 이유는 분석모델에 포함돼 있어야 할 변수들이 ‘누락(Omission)’됨으로써 오차항에 들어가게 되고, 이에 의해서 편의(偏倚)가 발생했기 때문이다. 그렇다면 누락편의는 정확하게 어떤 경우에 발생하는가? 누락편의는 아래의 두 가지 조건이 동시(AND)에 충족될 때 발생한다.

첫째, 누락된 요소(ex. 영업사원의 성실성)가 종속변수(영업실적)에 유의미한 영향을 미치면서 (AND)

둘째, 누락된 요소(ex. 영업사원의 성실성)와 분석의 목적이 되는 독립변수(ex. 트레이닝 참여 여부) 사이에 상관관계가 있을 때3

거듭 강조하지만 위의 두 가지 조건이 ‘동시에’ 충족될 때 누락편의가 발생한다.4 바꿔 말하자면, 누락된 요소들이 종속변수에 유의미한 영향을 끼치지 않거나 혹은 누락된 요소와 분석의 목적이 되는 독립변수 사이에 상관이 없다면 누락편의는 발생하지 않는다. 하지만 필자가 위에서 언급한 영업사원의 성실성, 커리어에 대한 높은 열망, 강한 업무 애착도 등은 영업실적이라는 종속변수에 유의미한 영향을 미치는(누락편의의 첫 번째 조건) 동시에 분석의 목적이 되는 트레이닝 참여 여부와 상관이 있을 가능성(누락편의의 두 번째 조건)이 매우 높으므로 이들을 고려하지 않은 상태에서 이뤄진 회귀분석의 결과값(β₄)은 트레이닝의 효과에 더해 누락된 요소들의 효과가 몽땅 섞여 있는 ‘오염된 분석값’일 확률이 매우 높다. 따라서 단순히 이를 토대로 트레이닝 프로그램에 대한 투자를 두 배 이상 늘리기로 한 인사 담당 임원의 결정은 부적절하다.

그렇다면 누락편의를 피하기 위해서는 어떻게 해야 하는가. 당연히 중요한 변수들을 누락시키지 않고 모델에 포함해야 한다. 하지만 이때 두 가지 사항에 반드시 주의해야 할 필요가 있다. 첫째, 기업 실무에 종사하고 있는 많은 데이터 애널리스트들이 누락편의를 피하기 위해 중요하지 않은 변수들까지도 ‘몽땅’ 모델에 포함시키는 경우가 매우 빈번한데, 이 경우 추정치의 표준오차(Standard error)가 증가해 분석의 정확도를 심각하게 저하시킬 수 있다.5 따라서 중요하지 않은 변수들을 적절하게 모델에서 제외할 수 있는 안목 역시 매우 중요하다. 이런 이유로 필자는 계량 분석이 사용되는 컨설팅 프로젝트에서도 정성적(Qualitative)인 안목을 지닌 실무진과 정량적(Quantitative)인 테크닉을 지닌 컨설턴트의 협업이 무엇보다 중요함을 매 순간 느껴왔다. 계량 분석 모델은 절대 모델을 만든 사람 혼자서 컴퓨터 앞에 앉아 뚝딱 만들어 낼 수 있는 성질의 것이 아니다.

15,000개의 아티클을 제대로 즐기는 방법
가입하면, 한 달 무료!

걱정마세요. 언제든 해지 가능합니다.

신선호[email protected]

- 독일 전략 컨설팅 '롤랜드버거' 재직 중
- 독일 함부르크 에어버스(Airbus), 모니터그룹

이 필자의 다른 기사 보기

이전 목록 다음

DBR의 교육솔루션

포함되지 않은 변수를 보는 것이, 계량분석의 오차를 줄이는 길

15,000개의 아티클을 제대로 즐기는 방법 가입하면, 한 달 무료!

15,000개의 아티클을 제대로 즐기는 방법
가입하면, 한 달 무료!