People Analytics이 어렵고 잘 안되는 이유어떤 일을 할 이유가 섰다면 우선 그 일을 잘 하기 위한 조건을 찾게 된다. 일이 잘 되는 이유와 잘 안되는 이유는 대개 서로 맞닿아 있다. 하지만, 구체적인 맥락 속에서 남들이 어떤 일을 잘 해낸 이유를 다른 맥락에 처해 있는 내게 그대로 적용하기 조심스러운 측면이 있다. 반면, 잘 안 되는 이유를 일반화하는 일은 상대적으로 쉬운데, 이건 어떤 일이 잘 안 되는 이유는 그 일이 속한 구체적 맥락과 무관한 보편적 교훈을 담고 있기 때문이다.People Analytics가 잘 안되는 이유를 함께 살펴보자.A. 쓸만한 데이터가 없다 **.“쓸만한 데이터가 없다”라는 말은 내 비지니스(업무)가 데이터에 대한 의존도가 크지 않다는 고백이다. 물론, 내 일 속에 담긴 질서(Regularity, Pattern)를 나의 경험과 인식 능력만으로 이해하고 축적할 수 있는 경우도 있다. 내 행동에 대한 직접적인 피드백을 바로 측정할 수 있는 예측 가능한 환경에서 하는 일이 그러한데, 가장 대표적 직업이 소방관, 바둑 기사 등이다.반면, 인사 업무는 이와 정반대의 지점에 있다. 내 행동(intervention)에 대한 피드백을 측정하기도 어렵거니와 시간도 오래 걸린다. 사람의 성과와 관련된 일은 개인의 관찰과 경험만으로 그 질서를 발견하기에는 고도로 다면적이고 복잡하다.그래서, HR에서 쓸만한 데이터가 없다고 말하는 것은 사실과 객관에 근거한 전략 대신 두리뭉실한 “이야기"를 팔면서 살아올 수 있었다는 이야기다. 내가 또는 내 사업이 전략적이지 못했다는 고백이다.HR이 하는 일 속에 담긴 질서를 파악하려면, 그래서 내가 하는 일의 대한 인식의 깊이와 정확도를 높이려면, 우선 운영(Operation)의 과정에서 쌓인 데이터를 통해 내가 이미 가지고 있는 데이터로 내가 궁금한 것을 얼마나 잘 설명할 수 있는지 확인하는 것이 필요하다. 이 과정을 통해 기존 데이터 중 쓸만한 데이터는 무엇인지, 추가로 확보해야 하는 데이터는 무엇인지에 대해 파악할 수 있게 된다.그러니, 이제 “쓸만한 데이터가 없다”는 이야기는 “우리한테 필요한 데이터가 A, B, C인데 이게 아직은 없다”고 말 할 수 있을 때까지 하지 말기로 해요B. 분석 결과가 의미 없다 **.**여기서 의미가 없다라는 건 “덧없다”, “부질없다”와 같은 존재론적인 함의를 갖는 표현이기 보다는 쓸모, 유용성, 참신함, 완결성 등의 부족함을 탓하는 실용성에 대한 의견이거나 최초에 본인이 취했던 “그게 (우리 나라에서) 되겠어?”라는 회의적 입장을 고수하기 위해 자의적 판단 대신 확률적 판단을 요구하는 데이터 분석이라는 학문의 본질에 대한 뿌리깊은 불신의 표현이다.세상의 불가해함과 부조리함을 이유로 데이터에 거부감을 느끼는 사람들의 불가지론적 스탠스(stance)에 대해서는 다른 방식의 대처(예를 들면, 강산이 변하길 기다림)가 필요할 것이고 여기서는 분석 결과의 쓸모없음(실용성의 부족)에 대해 따져보기로 하자.분석 결과는 결국 질문(분석 주제)에 대한 답이다. 좋은 질문을 하면 답을 찾지 못하더라도 답을 찾는 과정에서 주어진 문제 영역에 대한 인식의 수준이 부쩍 성장할 수 있지만 좋지 못한 질문(정답을 염두에 둔 뻔한 질문)은 그 정답을 찾더라도 결국 제자리에서 한 걸음도 나아가지 못하게 된다.뻔하지만 좋은 질문도 얼마든지 있다. 다만 뻔한 질문(common sense; 좋은 매니저는 좋은 팀 성과를 가져온다)이 정량적으로 검증되었다면 뻔한 질문(common sense)이 내 업무의 실질적 판단 및 실천 기준(common practice)이 되도록 질문을 정교화(우리 조직에서 좋은 매니저는 어떤 자질을 보유하고 있나)하고 그 효과를 입증하는 일이 중요하다.이 세상의 모든 기업들에게는 자신들의 서비스나 재화를 구매하는 고객이 있을 터이고, 고객이 경쟁사 대신 해당 기업을 선택한 이유가 존재할 것이다. 그 이유를 발견하고 그 이유를 키워나가는 일에 부서와 역할의 구분이 있을 수 없다.좋은 질문이란 결국 그 질문의 끝이 고객을 향하고 있어야 하고, 좋은 질문에 대한 답을 데이터에서 찾는 일은 그 과정을 통해서 고객과 자신이 하는 일에 대해 더 깊고 정확히 알게 되고 내가 숨어있던 무지의 장막이 드러난다는 점에서 그 자체로 의미 있는 일이다.C. 바쁘고 어렵다 **.**바쁘고 어렵다는 이유로 특정 업무를 잘 못하고 있다면 그 일은 중요한 일이 아니기 쉽다. 데이터 분석을 잘 하는 것이 본연의 업무인 데이터 분석 전담조직 말고 현업 부서들의 경우 데이터 분석하는 일이 업무의 (최)우선 순위이기 힘들다. 데이터 분석을 “배우고 때때로 익히면" 어찌 기쁘지 않겠냐만은 더 중한 다른 일로 바빠서 새로운 일을 제대로 해낼 시간이 없는 것이 현실이다.해결책은 일부 직원들에게 데이터 분석하는 일을 공식 업무/과업으로 할당하거나, 한 번 일을 제대로 크게 벌리고 싶다면, 분석 전담팀을 꾸리는 것이다.기존 직원에게 분석 업무를 추가로 할당하면 절대 안 된다 . 기존에 하던 일들 중 일부를 실질적으로 덜어내 주고 그 공백을 분석 관련 일로 메우도록 해야 한다.아래 그림은 HR 부서 내에서 인사데이터 분석을 수행하는 People Analytics Team을 새로 꾸린다고 가정했을 때, 해당 팀의 역할과 다른 팀과의 관계를 정리한 것이다. 처음에는 본인 리소스의 3050% 정도를 사용하는 한 두명으로 구성해서 운영하다가 잘 되면 팀을 양적, 질적으로 성장시키면 좋겠다. .HR 데이터 분석 전담 조직. 위 도식에 표현된 People Analytics Core Team의 주요 역할과 구조를 살펴보면: **Data Access:**부서 내 다른 구성원들이 필요로 하는 최신의 신뢰할 수 있는 데이터를 제공하는 역할이다. Data Access 역할은 다음 세가지 세부 역할로 나눌 수 있다. a) Data Dictionary(Catalogue): 부서 내에서 수집, 관리하고 있는 데이터(변수)의 종류, 데이터의 원천(Source: 근태시스템, 채용시스템, HRIS 등), Ownership 등을 관리하는 일, b) Data Quality: 데이터의 품질을 개선, 유지하는 일, c) Data Governance: 데이터(변수)의 민감도 및 중요도에 따라 접근 권한 및 활용에 대한 원칙을 수립하고 지켜내는 일 위에서 이야기하는 Data Governance는 기술적인 통제/보안이나 Regulatory Compliance 관련 정책을 수립하는 일이기 보다는 오히려 데이터 사용과 관련된 투명한 원칙을 수립하는 일에 가깝다. 아래 링크를 참고하면 좋겠다. https://datapractices.org/manifesto/ **Data Literacy:**의사결정을 위한 분석 활동은 사회적 상호작용이다. 좋은 책을 읽고자 하는 사람이 있어야 좋은 책을 쓰는 사람이 존재할 수 있듯이 분석하는 사람(Producer)과 분석 결과를 활용하는 사람(Consumer)이 유기적으로 함께 존재해야 한다. Core Team은 동료나 매니저들이 분석 결과를 실용적으로 활용할 수 있도록 데이터 활용에 대한 기본 교육에도 일정 부분 책임이 있다. Core Team이 직접 강의를 할 수도 있고 외부 콘텐츠를 Curation하여 커리큘럼을 짤 수도 있겠다. (참고: 에어비앤비 사례) **Insight Sharing:**분석 결과를 일선의 담당자 및 의사결정권자들과 공유하여 실용적으로 활용되도록 하는 일이다. 개념적으로 쉽게 동의할 수 있는 말들이 대부분 그렇듯이 실천하기 어려운 일이다. 아래 .분석 결과가 쓸모있으려면.에서 좀 더 구체적인 생각을 나누도록 하겠다. **Reporting Structure:**분석의 독립성을 위하여 CHRO나 필요하다면 CEO에게 직접 보고하는 것이 바람직하다. 보고 라인이 길어지는 경우 최초의 데이터/사실 중심의 거칠지만 담백했던 보고 내용에 자의적 해석이 덧칠되어, 결국 “그분이" 보고 싶고 듣고 싶은 것을 익숙하고 세련된 방식으로 보고하게 되는, 그래서 현실에서 한 걸음도 나아가지 못하는, 경우가 많기 때문이다. D. 분석 결과가 쓸모있으려면데이터 분석이 무엇이냐고 묻는다면 “데이터의 쓸모를 찾는 일”이라고 답하겠다. 데이터를 통해 세상, 사물, 사람에 대한 인식이 더 정확하고 깊어질 수 있겠지만 기업 내 데이터 분석의 목표가 나의 인식을 풍부하고 정교하게 하는 일이 될 수 없다. 쓸모가 있다는 것은 비지니스 문제를 해결한다는 것이다. 쓸모 있는 분석을 한다면 조직에서 더 잘하라고 물심 양면으로 아낌없는 조직적 지원을 해줄 것이다.데이터 기반 의사결정 맥락에서 분석 결과의 쓸모는 크게 두가지로 나눌 수 있다. **Targeting:**특정 행동이나 특성을 보이는 사람(레코드)이 밀집한 집단(Segment)을 찾는 일이다. 아래 표처럼 일본에서 근무하고 있는 인사부서 사람들의 퇴사율이 타 집단 대비 월등히 높다면 해당 세그먼트를 타겟으로 적절한 조치를 취할 수 있겠다. Targeting이 분석의 목표인 경우 Why(왜 퇴사했는지)는 중요하지 않다. 특정 행동이나 특성을 보인 사람(레코드)이 밀집한 집단을 찾는 것이 목표이다. **Optimization(Intervention):**최적화(개입)는 목표변수(Y)의 원인(X)을 찾아 X에 개입하여 Y를 개선하는 일이다. 이 경우 X와 Y 사이의 인과성(Causality)이 존재한다고 믿을만한 근거가 반드시 필요하다. 아래 표의 경우 X(회의 시간)와 Y(퇴사율) 간에 패턴(강한 양의 상관관계)이 발견되었다면 X에 개입하여 Y를 개선할 수 있겠다. 인과성에 대한 이야기는 다음 꼭지에서 계속 이어가겠다. E. Why vs. Who & What최근까지도 통계나 데이터 분석을 하는 사람들 사이에서 금기시되는 단어가 있는데 바로 인과성(Causality)이다. 이건 지금 학교에서 가르치는 통계학의 기반을 다지신 분들의 “인과성을 따지는 것은 과학적이지 못한 태도이며 상관관계(Correlation)만으로 이야기를 해야 한다”는 가르침이 지금까지 이어져온 탓이 크다. 다른 한편으로는 통계나 데이터 분석에서 인과관계를 표현할 보편적 언어(수학적 표기법)를 아직 개발하지 못한 탓도 있다.바로 위에서 회의시간과 퇴사율 간의 인과성에 대해 단정적으로 결론을 내렸는데, 인과관계를 데이터 분석만을 통해 알 방법은 없다. 날것의 데이터에는 데이터가 생성, 축적된 맥락과 개별 변수와 변수 간의 관계가 담겨있지 않기 때문이다. 인과관계는 상관관계에 기반하여 우리가 가지고 있는 세상의 관계에 대한 지식과 믿음에 기대어 판단해도 괜찮다.회의시간과 퇴사율 간의 인과성을 과학적으로 엄정하게 증명하기 위해 인위적으로 직원들을 두 그룹으로 나누어 회의시간을 인위적으로 통제하고 그 효과를 관찰하는 일은 현실적이지도 윤리적이지도 않다. 통제된 환경에서의 생성된 실험 데이터가 아니라 운영의 결과로 축적된 과거 데이터를 통해서도 얼마든지 회의시간이 퇴사율의 원인이라고 주장할 수 있다.물론 나쁜 매니저가 잦은 회의를 열고, 잦은 회의때문이 아니라 나쁜 매니저때문에 퇴사율이 높을 수도 있다. 통계학에서는 나쁜 매니저와 같이 원인(회의시간)과 결과(퇴사)에 동시에 작용하는 변수를 교란변수(Confounder)라고 부르는데, 이런 경우는 침착하게 나쁜 매니저와 관련된 데이터만 따로 분리한(매니저의 리더십을 통제) 다음, 회의시간과 퇴사율의 상관관계를 살펴보면 된다. 동질적 집단(매니저 리더십이 낮은 집단) 내에서도 동일한 효과가 관찰되었다면 “매니저의 리더십을 통제한 경우에도 높은 회의시간가 높은 퇴사율 간 높은 상관관계가 관찰되었다. 회의시간이 확실히 퇴사율에 영향을 준다.”고 주장할 수 있겠다.참고로, Judea Perl과 같은 분들이 데이터에서 인과성을 과학적으로 찾고 그 내용을 기술하는 방법을 수립하기 위해 많은 노력을 기울이고 있다. 인과성에 대한 검증을 위한 전통적(통계적) 방법인 RCT에 대해 좀 더 알고 싶은 분은 아래 기사를 참고해도 좋겠다.Randomized Controlled Trial: https://hbr.org/2016/03/a-refresher-on-randomized-controlled-experimentsX와 Y 간에 인과성이 존재한다고 (사회 통념상 또는 별도의 실험을 통해 증명) 가정했을 때 X에 개입하여 Y를 개선하기 위해서는 추가적으로 두 개의 조건이 더 필요하다. X 에 개입 (Intervention) 가능 **:**예를 들어 인지점수(X1)가 높고 미사용 휴가일수(X2)가 적은 사람들이 영업성과(Y)가 좋다고 했을 때, X1에 대해서는 인위적으로 개입하기 힘들지만 X2는 의지만 있다면 개입할 수 있다. Y 의 개선 측정 (Monitoring) 가능 **:**영업직군을 대상으로 눈치보지 않고 자유롭게 휴가를 사용하도록 해서(X2에 개입), 영업성과(Y: 매출, 신규고객 유치 등)과 정말 좋아졌는지 여부를 모니터링할 수 있어야 한다. 만약, Y가 상대평가한 성과 등급/점수였다면 개입에 의한 Y의 개선 정도를 측정하기 어렵겠다. F. Data-Driven Decision-Making vs. Data-Driven Problem-Solving더 좋은 의사결정을 내리기 위해 데이터 분석을 하는 경우 분석의 궁극적 목표는 비지니스 문제 해결이라고 했다. 데이터 기반 의사결정은 데이터 기반 문제해결의 수단이자 방법이지 그 자체가 목표는 아니다. 해결되는 문제는 하나도 없이 꿋꿋하게 데이터에 기반하여 의사결정을 내릴 수 있겠지만 본인이 제일 힘들어질 것이다.개선하고 최적화해야 하는 Metric/KPI가 없는 조직은 없을 테니 분석할 데이터에서 Y를 찾기 힘든 경우는 드물다. 그리고, Why가 아닌 Who를 찾는 Targeting 분석의 경우, X(입력변수)를 조합하여 Targeting할 대상을 찾는 일도 아주 어렵지 않다.하지만, 내가 이미 가지고 있는 데이터에서 Y에 대한 원인이면서 동시에 개입할 수도 있는 X를 찾는 것은 많이 어렵다. 특정 분석 프로젝트의 목표가 내가 개입할 수 있는 원인변수를 찾는 거라면 분석 하기 전에 확보한 데이터 안에 그런 변수가 있는지 먼저 살펴볼 일이다. 만약, 없다면 설문이나 실험을 통해 채워 넣으면 될 일이다.네 마음의 소리 , 서베이관찰(을 통한 행동) 데이터가 넘쳐나는 빅데이터 시대에 왜 관찰하지(Observing Behaviours) 않고 구태의연하게 서베이를 통해 물어 보냐(Asking Questions)고 묻는다면 (그냥 홍시맛이 나서 홍시라 생각했다는 장금이의 답변처럼) 물어 볼 수 있어서 물었다고 답해도 괜찮다. 주변에 서베이 데이터를 대신할 수 있는 (직원들의) 행동 데이터가 흔하다 믿고 있는 분들이 서베이 데이터를 가치없다 폄하하고 있다면 사회과학(Social Science) 진영의 오랜 연구전통과 방법론을 최근 데이터과학(Data Science)과 결합하여 돌파구를 찾아보는 것도 좋겠다.A. social science + data science최소한의 노력과 비용으로 르완다 국가 전지역의 소득수준 분포를 촘촘히 확인하려면 어떻게 해야할까? 2009년 Joshua Blumenstock(빈곤 국가나 분쟁 지역에 사는 사람들의 사회 경제적 처지를 데이터를 통해 설명하는 보람찬 프로젝트를 수행하고 있는 UC Berkeley 대학의 조교수)은 이 문제를 달랑 856명에게 전화를 돌려 해결하였다.그 내용을 간단히 요약하면, 르완다 1위 무선통신사업자가 보유한 일백오십만여명 가입자들의 CDR(Call Detail Records; 어디 사는 누가 어디 사는 누구와 얼마 동안 통화했는지를 기록한 로그) 데이터와 전화 설문을 통해 확인한 소득/경제 수준에 대한 데이터를 결합하여 CDR 정보로 소득 수준을 예측하는 모형을 만들었다. 서베이를 통해 확인한 850여명의 소득/경제수준(Y)과 이들의 모바일 전화통화 내역(X; CDR)을 기계학습 알고리즘을 사용하여 학습한 후 예측모형을 만들어서 CDR 정보(X)만으로 소득/경제 수준(Y)을 예측하도록 한 것이다.사회과학(Social Science) 진영의 대표적인 연구조사 방법인 서베이와 데이터과학(Data Science)을 결합하여 싸고 빠르게 유용한 정보를 알아낸 훌륭한 사례이다. .Call Record로 작성한 르완다 빈부 지도. 참고*)* 해당 프로젝트에 대한 보다 자세한 내용*:*http://science.sciencemag.org/content/sci/350/6264/1073.full.pdfB. 관찰하기 vs. 묻기초파리를 연구하는 사람들은 초파리를 더 잘 이해하기 위해서 초파리의 행동을 관찰하는 수밖에 없다. 하지만, 사람을 연구하는 사람들은 사람의 행동을 관찰하는 것에 추가하여 사람에게 직접 궁금한 걸 물어볼 수 있다.설문 조사 결과에는 일반적으로 두가지 오류가 있다고 알려져 있다. Representation Error: 대표성 오류; 설문에 참가한 사람들의 답변을 가지고 모집단(population)에 대한 추론(일반화)을 하는 과정에서 발생하는 오류; 전직원을 대상으로 실시하는 서베이처럼 sample=population인 경우는 non-response(설문에 응하지 않은 사람들)가 어느 정도 random하게(고르게) 분포된 경우 대표성 오류는 무시해도 된다고 생각함. Measurement Error: 측정 오류; 말한 것으로부터 생각이나 행동을 추론하는 과정에서 발생하는 오류; 동일한 질문이라도 질문의 구조(묻는 방식)에 따라 답변이 달라짐. .기업 내 서베이의 경우 익명성이나 서베이 효용에 대한 불신으로 직원들이 건성으로 두루두루 좋게 답변하는 경향이 존재. 이러한 설문 데이터의 한계에도 불구하고 행동 데이터를 통해서는 절대 알 수 없는 것들이 있다. 예를 들면, 사람의 행위를 예측하는 요인(driver; cause)들은 대개 감정, 인식, 지식, 의견 등 내면의 상태(internal state)와 관련된 것들인데 우리 두개골에 꼭꼭 쌓여져 있는 내면의 상태를 알 수 있는 최선의, 그리고 현재로서 유일한, 방법은 여전히 물어보는 것이다.또한, 기업 환경 내에서 측정 가능한 직원들의 행동 데이터(예, 평균 이메일 발신 건수)는 많은 경우 우리가 이해/예측하고자 하는 행위(고성과)의 원인(cause)이기보다는 증상(symptoms)이기 쉽다. 예를 들면, 성과점수와 이메일 발신건수 사이에서 높은 상관관계가 발견되었을 때 이메일을 많이 보내서(cause) 고성과자(effect)라고 해석하기보다는 고성과자라서 일을 많이 해서 결과적으로 메일을 많이 보냈다고 해석하는 것이 더 타당하다. 그리고, 르완다 사례에서 확인했듯이 설문 데이터를 행동 (빅)데이터와 결합하는 경우 행동 데이터만으로는 불가능했던 깊고 파급력있는 분석이 가능해 지기도 한다.맺음말) 통제할 수 있는 것과 없는 것을 잘 구분하고, 통제의 효과가 큰 요인에 집중직원 만족도(몰입)를 높이기 위해 우리가 매니저들에게 강조할 수 있는 요인들은 헤아릴 수 없이 많다. 정부의 시장에 대한 규제의 효용은 정부가 시장이 작동하는 원리를 정확히 파악하여 시장 참여자들을 항상 옳은 결정으로 안내하는 데 그 가치가 있기보다는 시장 참여자들이 불확실성에 압도당하여 멍청한 의사결정을 내리지 않도록 의사결정 행위의 복잡성을 제한하는 데 있다는 이론이 있다.이제는 세상에 널리 알려진 구글의 산소 프로젝트의 가치도 그 내용의 참신함이 아니라(실제 내용은 하품이 나올 정도로 진부하다), 데이터를 통해 확인한 훌륭한 리더들의 구체적인 행동기준들을 .8~10가지로 제한하여 리더들이 직원과 관련한 의사결정을 내리는 일의 불확실성을 줄여준 것에 있다고 생각한다.. 2018 *년에 두개 항목이 더 추가되어 10개임: https://rework.withgoogle.com/blog/the-evolution-of-project-oxygen/*패러다임이 바뀌려면 새로운 패러다임으로 과거의 패러다임에서는 쉽게 풀리지 않았던 문제가 해결되어야 한다. People Analytics가 새로운 패러다임으로 자리 잡으려면 성과나 생산성 등 사업 성과와 직접적 관련이 있는 문제에 실용적인 해결책을 제시하고 그 효과를 증명할 수 있어야 한다. 그러기 위해서는 HR이 통제/개입할 수 있는 것과 없는 것을 우선 구분하고, 내가 개입할 수 있는 것들 중 그 개입의 효과가 가장 큰 요인들을 발견하고 실천해야 한다. HR이 지금까지 상식(common sense; 좋은 매니저 -> 높은 몰입/생산성)으로 알고는 있지만 실천(common practice)하지 못 한 가장 큰 이유는 내가 개입할 수 있는 것들 중 그 개입의 효과가 큰 요인들을 정량적으로 증명하고 실제 개입하여 지표가 개선되는 것을 경험하지 못했기 때문이다. 어렵지만 충분히 해낼 수 있는 일이라고 믿는다.함께 데이터 분석(EDA) 해보기샘플 HR 데이터셋을 가지고 함께 데이터 분석을 체험해보자. 별도로 준비할 것은 없고 브라우저(구글 크롬 추천)를 통해 다음 주소를 접속한 후 .샘플 데이터를 사용해서 서비스 체험하기. 버튼을 누르면 된다.접속 주소: https://www.heartcount.io/play?lang=kr