지도학습과 비지도학습으로 분류할 수 있는 통계학습(Statistical Learning)은 함수 f를 추정하는 일련의 기법을 의미한다.
함수 f는 $Y=f(X)$에서의 함수 f를 의미한다.
통계학습에 대해서는 아래 글에서 조금 더 상세하게 언급했다.
입력변수(input), 출력변수(output)
$Y=f(X)$에서
$X$는 입력변수(Input), $Y$는 출력변수(Output)에 해당한다.
아래 그림을 참고하자. 저기 물음표가 적힌 박스는 함수f 박스다.
X는 함수박스에 들어간다(in). 그러므로 input.
Y는 함수박스에서 나온다(out). 그러므로 output.
이렇게 이해하자.
지도학습 vs 비지도학습
비지도학습(Unsupervised Learning)은 입력변수(Input)만 존재한다.
지도학습(Supervised Learning)는 입력변수(Input), 출력변수(output) 모두 존재한다.
간단하게 생각해보자.
선생님이 $f$를 알아오는 숙제를 내주었다.
지도학습인 경우라면 선생님은 X값과 Y값을 알려줄 것이다.(이 경우엔 f를 유추해낼 수 있다.)
하지만 비지도학습인 경우라면 선생님은 X값만 알려줄 것이다.(이 경우엔 당연히 f를 유추해낼 수 없다.)
지도학습
output이 있는 지도학습은 그 목적이 뚜렷하다.
f를 유추하여 추론(Inference)하거나 예측(prediction)하고자 하는 목적이 있는 것이다.
추론과 예측에 대한 이해는 아래 글을 참고하자.
아마 많이 들어봤을 법한 회귀(Regression), 분류(Classification) 문제가 지도학습에 속한다.
회귀문제와 분류문제 모두 출력변수를 예측하거나 입력변수와 출력변수간의 상관관계를 설명(추론)하고자 하는 목적을 갖고 있다.
회귀문제는 양적(quantative),연속적(countinuous) 출력변수(output)를 예측, 추론하고자 한다.
반면, 분류문제는 질적(qualitative), 범주형(categorical) 출력변수(output)를 예측, 추론하고자 한다.
비지도학습
output이 없는 비지도학습은 어떠할까.
어떻겠는가.
당연히 멘붕이다.
눈 앞에 바둑알이 쭉 펼쳐져 있다고 상상해보자.
흰 바둑알과 검은 바둑알이 뒤섞여 바둑판에 쭈욱 펼쳐져 있다.
여기서 우리는 무언가를 알아내야한다.
주어진건 바둑알 뿐이다.
이것이 비지도학습을 하는 우리의 모습이다.
이러한 상황에서도 우리는 나름의 할 거리를 찾는다.
흰 바둑알과 검은 바둑알이 쭉 펼쳐져 있다면 무엇을 할 수 있을까?
아마도 멍하니 흰바둑알은 흰바둑알끼리, 검은 바둑알은 검은 바둑알끼리 모으려하지 않을까?
이것이 비지도학습에 해당하는 군집, 클러스터링(clustering)문제에 해당한다.
비지도학습 market segmentation 예시
market segmentation이 클러스터링 문제에 대표적인 예시에 해당한다.
판매자는 개인정보보호 때문에, 고객 개개인의 성별/관심사/나이(X)와 지출 금액(Y)을 매칭 시킬 수 없다.
즉, 어떤 사람이 우리 제품을 많이 구매하는지 전혀 알 수 없다는 의미다.
그러나 어떤 사람들이 우리의 스마트스토어를 오고가는지에 대해선 어느정도 유추하고 그룹화할 수 있다.
스마트스토어에 오고가는 사람들을 '여자'라는 그룹, BTS를 좋아하는 그룹, 20대 그룹, '쉑쉑버거'를 자주가는 그룹, 아이폰을 사용하는 그룹 등등 어마어마하게 많은 특징들로 그룹화 할 수 있다.
만약에 판매자가 우리 제품을 많이 사는 사람의 특징을 완벽하게 꿰어서 해당 그룹을 스마트스토어에 데리고 온다면(굉장히 효율적),
엄청난 수익(굉장히 효과적)을 얻을 수 있을 것이다.
이러한 목적 때문에 사람들의 특징을 보다 정밀하고 다양하게 그룹화하는 클러스터링 문제, 비지도학습도 중요하게 여겨진다.
다음글▷▶▷
참고
가볍게 시작하는 통계학습: R로 실습하는 An Introduction to Statistical Learning with Applications in R, Gareth James/Daniela Witten/Trevor Hastie/Robert Tibshirani, 마이클 역, 루비페이퍼, 2016
이 포스팅은 제휴마케팅이 포함된 광고로 일정 커미션을 지급 받을 수 있습니다.
이 포스팅은 링크프라이스 이벤트 참여를 위해 작성되었습니다.