통계를 배우면서 가장 어려운 부분 중 하나가 용어정리이다.
특히 같은 뜻임에도 다른 표현으로 나타나 있어서 매우 헷갈린 기억이 많다.
변수(variable)는 말 그대로 '변하는 수'이다.
통계학습은 두 변수의 관계를 유추해 나가는 것이다.
$Y=f(X)$에서 $f$를 추정하는 기법이 통계학습이라고 지난 포스팅에서 다룬 바 있다.
$Y=f(X)$에는 변수 Y와 X가 존재한다.
여기서 이 Y와 X를 부르는 방법이 굉장히 많다.
변수 동의어 정리표
X | 입력변수 (input) |
독립변수 (independent variable) |
변수 (variable) |
Y | 출력변수 (output) |
종속변수 (dependent variable) |
- |
X | 설명변수 (explanatory variable) |
예측변수 (predictor variable) |
피쳐 (feature) |
Y | 반응변수 (response variable) |
응답변수 (response variable) |
목표 (target) |
X를 그냥 변수(variable)라고 부르는 부분이 가장 나를 헷갈리게 하는 부분이었다. 'X는 변수 중 하나인 입력변수(input)인데 그냥 변수(variable)라고 해도 X를 지칭하는 거라고?' 이런 식으로 생각을 꽤 했었는데, 굳이 그렇게 어렵게 생각할 필요 없다. 그냥 관습적으로 X는 변수(variable)라고 많이 쓰는 것일 뿐이다. context에 따라 확실하게 구분되는 부분이니 너무 걱정하지 말길 바란다.
데이터 사이언스쪽에서는 X를 피쳐(feature), Y를 목표(target)라고 일상적으로 사용하기도 하는 것 같다.
이렇게 헷갈리는 용어는 오릴리, [데이터 과학을 위한 통계] 책에 상당히 잘 정리되어 있다.
참고
1. 데이터 과학을 위한 통계, 피터 브루스, 앤드루 브루스, 피터 게데크, 이준용 번역, 한빛미디어, 2021
2. 가볍게 시작하는 통계학습: R로 실습하는 An Introduction to Statistical Learning with Applications in R, Gareth James/Daniela Witten/Trevor Hastie/Robert Tibshirani, 마이클 번역, 루비페이퍼, 2016
이 포스팅은 제휴마케팅이 포함된 광고로 일정 커미션을 지급받을 수 있습니다.
이 포스팅은 링크프라이스 이벤트 참여를 위해 작성되었습니다.