Regression(01) - 회귀의 종류 및 회귀계수

회귀분석이란?

회귀분석 - 01

  • 지도 학습은 두 가지 유형으로 나뉘는데, 바로 분류(classification)와 회귀(regression)이다. 이 두 가지 기법의 가장 큰 차이는 분류는 예측값이 카테고리와 같은 이산형 클래스 값이고, 회귀는 연속형 숫자 값이라는 것이다.

회귀분석 - 02

  • 회귀(regression)은 현대 통계학을 떠받치고 있는 주요 기중 중 하나이다. 여러분이 회귀분석시에 많이 들어봤을 예시는 부모의 키와 자식의 키에대한 예시가 있을 것이다. 부모의 키가 아주 크더라도 자식의 키가 부모보다 더 커서 세대를 이어가면서 무한정 커지는 것은 아니며, 부모의 키가 아주 작더라도 자식의 키가 부모보다 더 작아서 세대를 이어가며 무한정 작아지는 것이 아니라는 것이다. 즉, 사람의 키는 평균 키로 회귀하려는 경향을 가진다는 자연의 법칙이라는 의미이며, 회귀분석은 이처럼 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법이다.

  • 머신러닝 관점에서 보면 독립변수는 피처에 해당되며, 종속변수는 결정 값이다. 머신러닝 회귀 예측의 핵심은 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것이다.

  • 회귀에서 가장 중요한 것은 바로 회귀 계수이다. 이 회귀 계수가 선형이나 아니냐에 따라 선형회귀비선형 회귀로 나눌수 있으며, 독립변수의 개수가 한개 인지 여러개인지에 따라 단일 회귀, 다중 회귀로 나뉜다.

  • 선형(비선형)이라는 용어는 Y와 $X_{1},X_{2},…,X_{p}의 관계를 묘사하는 것이 아니라는 것에 주목하여라! 회귀계수가 방정식에 선형적(비선형적)으로 삽입되어 있다는 것과 관련이 있다.

  • 선형 함수의 예

- `Y와 X 사이의 관계는 비선형이지만, 모수들이 선형적으로 삽입되어 있기 때문에 선형 함수`
  • 비선형 함수의 예
  • 각 독립변수들은 양적(quantitative) 혹은 질적(qualitative)으로 분류 될 수 있다.

    • 양적 변수의 예) : 주택 가격, 침실의 개수, 연수, 세금 등
    • 질적 변수의 예) : 이웃의 형태(좋은 혹은 나쁜 이웃), 집의 형태(정원이있는, 고풍스러운 등)
    • 독립변수들은 양적 질적 변수 모두 취할 수 있는데, 질적 변수들이 있다면, 계산상의 이유로 더미 변수(dummy variable)로 코딩을 해주어야 한다. 단, 질적인 변수들도 예를 들어 전문가들에 의해 이미 규정되어 신뢰성 있는 공식이나 규칙을 통해 연속적인 수치로 변환될 수 있다면 더미 변수로 만들어 주지 않고 사용해도 된다.
  • 모든 독립변수들이 질적인 경우 분산 분석(ANOVA : analysis of variance)기법이라고 한다. 분산 분석은 그 자신의 고유한 방법으로써 소개되고 통계학부생들이 통계적 자료분석이라는 주제로 수업을 수강할때 나오는 개념으로써 설명되고 있는데 회귀분석의 특별한 경우임을 알고있어라!!!! 또한, 어떤 예측변수들이 양적이고 반면에 다른 변수들이 질적이라면, 이러한 경우의 회귀분석을 공분산분석(ANCOVA : analysis of covariance)이라고 한다.

회귀의 유형 조건
- 일변량(Univariate) - 오직 하나의 양적 독립변수(설명변수)
- 다변량(Multivariate) - 두 개 이상의 양적 독립변수(설명변수)
- 단순(Simple) - 오직 하나의 종속변수(반응변수)
- 다중(Multiple) - 두 개 이상의 종속변수(반응변수)
- 선형(Linear) - 데이터에 대하여 가능한 변환을 취한 후, 모든 계수들이 방정식에 선형적으로 삽입되어 있음.
- 비선형(Nonlinear) - 종속변수(반응변수)와 일부 독립변수들의 관계가 비선형이거나 일부 계수들이 비선형적으로 나타남. 계수들을 선형적으로 나타나게 하는 어떤 변환도 가능하지 않음.
- 분산분석(ANOVA) - 모든 독립변수들이 질적 변수임.
- 공분산분석(ANCOVA) - 어떤 독립변수들은 양적변수이고 다른 독립변수들은 질적변수임.
- 로지스틱(Logistic) - 종속변수(반응변수)가 질적변수임.

대표적인 선형 회귀 모형은 다음과 같다.

일반 선형 회귀

  • 예측값과 실제값의 잔차 제곱합을 최소화할 수 있도록 회귀 계수를 최적화하며, 규제(Regularization)를 적용하지 않은 모델이다.

릿지(Ridge)

  • Ridge 회귀는 선형 회귀에 L2 Regularization을 추가한 모형이다. Ridge 회귀는 L2 Regularization을 적용하는데, L2 Regularization은 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소 시키기 위해서 회귀 계수값을 더 작게 만드는 Regularization 모형이다.

라쏘(Lasso)

  • Lasso 회귀는 선형 회귀에 L1 Regularization을 적용한 방식이다. L2 Regularization이 회귀 계수 값의 크기를 줄이는 데 반해, L1 Regularization은 예측 영향력이 작은 피처의 회귀계수를 0으로 만들어 회귀 예측 시 피처가 선택되지 않게 하는 것이다. 이러한 특성 때문에 L1 Regularization은 피처 선택 기능으로도 불린다.

엘라스틱넷(ElasticNet)

  • L2, L1 Regularization을 함께 결합한 모형이다. 주로 피처가 많은 데이터 세트에서 적용되며, L1 Regularization으로 피처의 개수를 줄임과 동시에 L2 Regularization으로 계수의 값의 크기를 조정한다.

로지스틱(Logistic)

  • 로지스틱 회귀는 회귀라는 이름이 붙어 있지만, 사실은 분류에 사용되는 선형 모형이다. 로지스틱 회귀는 매우 강력한 분류 알고리즘이다. 일반적으로 이진 분류 뿐만아니라 희소 영역의 분류, 예를 들어 텍스트 분류와 같은 영역에서 뛰어난 예측 성능을 보인다.

단순 선형 회귀분석

가정에서 잔차( $\epsilon_{i}$ )와 target 값인 Y가 정규분포를 따른다는 것이 중요하다.

단순 선형 회귀분석 - 01

회귀 계수 추정

단순 선형 회귀 계수 추정

단순 선형 회귀 계수 추정시 제곱합 형태로 추정하는 이유

단순 선형 회귀 계수 추정

단순 선형 회귀 계수 추정

단순 선형 회귀 계수 추정

회귀 계수의 의미

단순 선형 회귀계수의 해석

단순 선형 회귀의 평가 metric

잔차의 의미

잔차의 의미

잔차의 의미

회귀 계수의 검정

단순 선형 회귀 계수의 검정

단순 선형 회귀 계수의 검정

단순 선형 회귀 계수의 검정