SK그룹 AI/DT 교육 중 하나인 CDS(Citizen Data Scientist) 과정은 '수학 또는 통계에 대한 깊은 지식 없이 자신의 전문 지식에 데이터 과학의 원리를 적용할 수 있는 비즈니스 사용자' 양성을 목표로 하여 총 2주간 Full Time 스케쥴로 이루어져 있습니다. '21년 저자가 직접 체험한 내용을 공유 드리고자 합니다. 첫 주는 파이썬 문법에 대해 배우고 둘째 주는 머신러닝에 대해 배우게 되는데 '컴퓨터 공학 비전공자'에겐 난이도가 상당히 높은 편 입니다. 오전 9시부터 오후 6시까지 비대면 원격 수업('21년은 Covid-19이 한창인 시기로 100% 비대면 수업으로 진행되었습니다.)은 군사기초 훈련과 같은 고통을 안겨주었습니다. 새로운 언어와 세계관을 단기간 내에 습득하기 위해서 불가피한 교육 환경 설정이라고 생각합니다. 직장인에게 파이썬과 머신러닝은 비 효율적 업무의 자동화를 위한 Tool입니다. HRD 담당자는 교육행정처리(Test/Survey결과분석, 교육생 데이터 수집 및 분석, 비용정산 등)에 대한 부분은 파이썬 등의 Tool로 대체를 하고 교육 기획/실행/현업적용도 평가 등에 집중을 할 수 있습니다. 머신러닝의 단계는 '1) 데이터 불러오기 2) 데이터 전처리 3) 학습과 Test용 데이터 분리 4) 학습모델생성 5) 모델학습 및 성능평가 6) 학습된 모델에 예측하고자 하는 데이터를 넣어 예측' 으로 구분할 수 있습니다. 3)에서 학습과 Test용 데이터를 분리하는 것은 제대로 학습이 되었는지 엄격히 검사하기 위함입니다. 수험생이 본인의 실력을 객관적으로 검증하기 위해서는 풀어보지 않은 문제(데이터)로 모의고사(Test)를 치루어 보아야 하는 것과 같은 이치입니다. 학습 모델 생성을 위해 Data가 연속형인지 범주형인지 구분할 필요가 있습니다. 연속형은 숫자 자체로 의미를 갖고 통계적 지표(평균, 중위수, 최빈값, 표준편차, 분산 등)로 사용되고, 범주형은 초등학생, 중학생, 고등학생과 같이 특정 소속에 따라 문항을 구분 짓습니다. 연속형 데이터는 학습모델(머신러닝)로 Linear Regression(선형회귀분석), Ensemble Model 등을 사용하고 범주형 데이터는 K-Nearest Neighbor, Logistic Regression 등을 사용합니다..caption id="attachment.25909" align="alignnone" width="489". 선형회귀분석 : A라는 변수가 B라는 변수에 어떤 영향을 주는 지 살펴보는 것 (연속형 Data를 가지고 있는 변수끼리 사용)./caption. .caption id="attachment.25910" align="alignnone" width="493". 로지스틱회귀분석 : 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 것 (위 그래프를 보면 학습시간은 연속형 Data이지만 시험의 통과여부는 0과 1로 이루어져 있다. 따라서 그래프의 모양은 무한대로 우상향 할 수 없게 된다.)./caption. 부동산 가격을 예측하고 싶으면 지역별 가구 수, 신규 공급 물량, 기존 주택의 노후도 등을 변수로 하여 Linear Regression(선형회귀분석) 기법을 활용하고 특정 학생들의 학습량, 학습태도, IQ 등을 변수로 하여 시험에 대한 당락 여부를 예측하고 싶으면 K-Nearest Neighbor 기법을 사용해 볼 수 있습니다. 기억에 남는 실습 사례로 <자전거 대여량 예측>이 있는 데, '자전거 대여량'이란 목표값(연속형 Data)과 '날씨', '온도', '시간대', '근무일여부', '계절' 등의 변수와의 상관 관계를 머신러닝 학습 방식 중 하나인 'Randsome Forest'를 활용하여 학습시킨 후, 학습한 모델 데이터가 얼마나 효과적인 지 평가까지 하는 Process입니다. 1차 Process 이후에도 '자전거 대여량' 목표값과 상관계수가 높은 변수는 추가하고, 상관계수가 낮은 변수 및 평균치에서 과도하게 떨어져 있는 Raw Data는 제거하는 작업을 지속적으로 해 주어야 정밀한 예측이 가능합니다. .caption id="attachment.25911" align="alignnone" width="500". <이미지출처 : Summerday 블로그> 저자도 문과 출신이라 더 쉽게 설명이 불가능합니다. 100번 글로 이해하는 것 보다는 1번 직접 파이썬을 활용해 보는 것이 낫습니다../caption. 현업 적용을 위해서는 사용자가 어떤 독립변수와 종속변수를 설정할 것인가에 대한 Business Domain Insight가 전제가 되어야 하고 파이썬(머신러닝을 위한 기초부품으로 생각할 수 있습니다.)과 머신러닝(PC가 스스로 학습하여 새로운 규칙을 생성하는 것)은 해당 변수들을 다양한 방법으로 요리할 수 있도록 도와줍니다. CDS 과정을 이수하였다고 바로 회사의 미래 비즈니스 모델에 적합한 인력구조나 필요역량을 Big Data 기반으로 설계할 수는 없습니다. 1) 비즈니스 필드의 Data 수집 및 관리 체계 구축, 2) HR Data 수집 및 관리 체계 구축, 3) Data Driven Decision Making에 대한 경영층의 공감대 형성이 선행된 후, Domain 전문가(HR)와 IT 전문가의 협업을 통해서만 가능할 것으로 보입니다. CDS 과정은 앞에서 언급한 험난한 여정에 대한 도전 의식을 심어주는 '이니셔티브' 라고 할 수 있습니다.