R언어 시각화 통계 입문
동그랑땡의 github 자세히보기

동그랑땡의 데이터 데이터 데이터/통계 이해땡

[통계 이해땡]예측 vs 추론(통계학습(Statistical Learning)의 목적)

동그랑땡12 2023. 9. 6. 00:07

상관관계(Correlation)

야식과 몸무게에 상관관계가 있다고 생각하는가?
(난 매우 그렇다고 생각한다.)
 
그렇다면 어떤 상관관계가 있는지 알고 싶을 수 있다.
예를 들어, 'X번 야식을 먹으면, 몸무게가 Y(kg) 늘어난다.‘ 는 명확한 상관관계를 찾아낸다면, 우리는 야식을 줄일 수 있을지도 모른다.
상관관계를 알려면 어떻게 해야할까.

몸무게를 출력변수 Y, 야식 횟수를 입력변수 X로 놓는다.
그런 다음, Y와 X의 관계를 함수로 표현하면 된다!

 

통계학습(Statistical Learning)

$Y = f(X)$
이 때 함수 f를 추정하는 일련의 기법을 통계학습(Statistical Learning)이라고 한다.
(Statistical Learning(통계학습)은 그 이름이 Machine Learning(기계학습)과 유사하다.
통계학습이 기계학습의 영향으로 등장했기 때문이다.)

다만, 아무리 함수 f를 정확하게 추정하더라도 추정한 f (추정한 f는 보통 $\hat{f}$기호를 쓴다. 모자(hat)가 올라가 있으면 추정한 것이다.)와 실제 f는 얼마간의 오차를 갖는다.(이에 대해서는 나중에 설명하겠다.) 이렇게 어쩔 수 없이 생기는 오차(error)는 $\epsilon$으로 표현한다.($\epsilon$은 오차항이라고도 한다.)

그러므로 통계학습은 $Y = f(X) + \epsilon$에서 f를 추정하는 일련의 기법이라고 하는 것이 더 정확한 표현이다.

통계학습의 목적, 예측 vs 추론

앞서 나는 야식이 몸무게에 미치는 영향에 대해 알기 위해 상관관계를 알고 싶어했다. 즉, 야식과 몸무게 간에 상관관계를 설명하고 싶어한 것이다. 이는 추론(Inference)목적 때문에 통계학습을 시행한 것이다.

다른 경우를 생각해보자.
나는 이번주에 야식을 5번 먹으면 몸무게가 몇 kg이 될지 알고 싶다. 이는 예측(Prediction)목적 때문에 통계학습을 시행한 것이다.

예측(Prediction)

예측을 목적으로 하는 또 다른 예시를 살펴보자.

A는 최근 야식 횟수가 점점 늘어나면서 체중이 늘어나는 것을 몸소 체험하고 있다.
A는 1주일에 야식을 1번 먹기도 하고, 2번 먹기도 하고, 심지어 4번 연속 먹은 적도 있다!
A는 일주일(7일) 내내 야식을 먹었을 때 몸무게를 알고 싶지만, 건강을 생각하여 실제로 일주일 내내 먹을 생각은 없다.
그래서 A는 통계학습을 이용하여 야식과 체중의 상관관계를 추정하여 일주일 내내 먹었을 때 체중을 예측할 예정이다.

A는 통계학습을 통해 예측하고자 한다. 예측! 이것이 통계학습을 하는 이유 즉, 함수 f를 추정하는 이유가 된다.
하지만 여기서 끝이 아니다.

추론(Inference)

B는 최근 몸무게가 늘고 있어서 걱정이다. 하지만 그 이유를 정확히 알 수 없다. 그의 친구 A는 야식 때문이라 조언했고 다른 친구 C는 삼겹살 때문이라 조언했다. B는 이전에 야식 혹은 삼겹살을 먹은 날과 당일 몸무게를 모두 측정해 두었다. B는 몸무게와 야식, 삼겹살의 관계를 파악하여 야식과 삼겹살 중 무엇이 몸무게에 더 큰 영향을 미치는지 A와 C에게 설명할 예정이다.

 B는 통계학습을 통해 추론하고자 한다. 추론은 Y와 X의 관계를 설명하려는 목적을 갖고 있다. 이 또한 함수 f를 추정하는 이유가 된다.

이 두 가지 목적이 존재한다는 것을 알아야하는 이유가 있다. 목적에 따라 우리는 함수 f의 형태를 결정하기 때문이다.

목적에 따른 함수의 변화

만약 예측이 목적이라면, f는 다음과 같은 형태여도 상관없다.
$Y=\beta_{1}X^{128902398}+\beta_{2}X^{8998}+\beta_{3}X^{139}+\cdots$
f 즉, Y와 X의 관계는 위 식을 보고 설명할 수 없다.
사실 정확히 이야기하자면 설명할 필요가 없다. 우리의 목적이 오직 예측이라면 답이 잘 맞기만 하면 장땡 아니겠는가.
 

 
하지만 추론이 목적이라면, 위와 같은 식이어선 안될 것이다. 저런 식은 누구도 사람의 언어로 해석할 수 없다. 때문에 추론이 목적일 때 f의 형태는 설명가능하도록 강제된다.
 
추론 목적에선 f가 간단해야 설명 가능하다.
$Y = X + 80(kg)$ 
X = 1주당 먹는 야식 횟수
Y = 몸무게
이라면, 야식과 몸무게의 관계는 너무나 설명하기 쉽다.

몸무게는 야식을 먹으면 야식 횟수와 동일한 kg수가 늘어난다.

예측과 추론의 상충관계

그러나 설명력이 좋은 $Y = X + 80(kg)$ 의 예측력은 심하게 떨어질 것으로 보인다.

반대로, 경험적으로 추정하건데
$Y=\beta_{1}X^{128902398}+\beta_{2}X^{8998}+\beta_{3}X^{139}+\cdots$
이 식의 예측력이 훨씬 좋을 것이다.(Y와 X의 관계에 대한 설명은 불가능하지만)
 
이렇듯, 예측과 추론은 서로 trade off, 상충관계가 있다.
예측력이 높으면 추론/설명력은 떨어지는 것이다.
 
현실에서는 이 두 목적 전부를 요구하는 경우가 많을 것이다. 때문에 우리는 예측과 추론이 가장 뛰어난 함수 f를 찾아내기 위해 통계학습을 공부하게 된다.
 
재밌는 것은 지금의 AI는 예측력에 몰빵을 한 상태로 그 원리를 설명할 수 없다는 점이다.
 

 
아래 글에서 내용을 확인할 수 있다.
 

 

AI는 이 방향으로 최적화 될 것이다. (foundation 모델, 파라미터, 사전 학습 용어 파헤치기)

Foundation 모델의 탄생 다양한 문제를 푸는데 기반이 되는 AI모델, Foundation 모델(흔히 생성형 AI, Generative AI)이 등장한다. 모델? 파라미터? 모델(model) = 함수(function) = 프로그램(program) : 입력을 하면

oooo12.tistory.com


다음글▷▶▷

 

[통계 이해땡] 지도학습 vs 비지도학습(Supervised Learning, Unsupervised Learning)

지도학습과 비지도학습으로 분류할 수 있는 통계학습(Statistical Learning)은 함수 f를 추정하는 일련의 기법을 의미한다. 함수 f는 $Y=f(X)$에서의 함수 f를 의미한다. 통계학습에 대해서는 아래 글에

oooo12.tistory.com


참고

가볍게 시작하는 통계학습: R로 실습하는 An Introduction to Statistical Learning with Applications in R, Gareth James/Daniela Witten/Trevor Hastie/Robert Tibshirani, 마이클 역, 루비페이퍼, 2016

 

가볍게 시작하는 통계학습 | James, Gareth - 교보문고

가볍게 시작하는 통계학습 |

product.kyobobook.co.kr

이 포스팅은 제휴마케팅이 포함된 광고로 일정 커미션을 지급 받을 수 있습니다.

이 포스팅은 링크프라이스 이벤트 참여를 위해 작성되었습니다.

});