밤이라구요

블로그관리

글쓰기

Yesterday

Today

Total

블로그 이미지

밤이라구요

이것저것

블로그 이미지
밤이라구요
2022. 5. 22. 16:58
728x90

Overfitting

Training data의 feature에 과하게 특화되어 model이 전혀 다른 input에 올바르게 동작하지 못하는 상태를 말한다. 반대되는 개념으로 underfitting이 있다.

Underfitting(왼), Normal(가운데), Overfitting(오)

Overfitting을 피하는 방법은 다음과 같다. (일반적으로 underfitting은 잘 일어나지 않는다. Underfitting이 발생하였다면, feature 수를 늘려주면 된다.)

  • Training data 늘리기
  • Feature 수 줄이기
  • Regularization
  • 적절한 Model 선택하기
  • Cross Validation

 

Feature Selection/Extraction

Feature 중 구분에 도움이 되는 feature를 선택하거나, 여러 feature의 조합으로 새로운 feature 하나를 사용하는 방법이다.

 

Regularization

중요한 feature를 임의로 고르지 않고 내부 계산으로 선택하는 방법이다. Cost function에 parameter, $\theta$를 추가해서 계산하는 방법이다.

Cost function with Regularization

기존의 cost function이 최솟값을 가지더라도, 그때의 parameter가 크다면 parameter의 크기를 줄여가며 다시 최솟값을 찾게 된다. 이런 식으로 feature의 parameter를 조정해 feature selection과 같은 효과를 낼 수 있다. Regularization의 방식은 3가지가 있다.

Regularization

Parameter의 update는 다음과 같은 방식으로 진행된다.

Parameter update with Regularization

L2 norm을 사용하면, $\theta$가 "$\theta_{new} = 0.7\theta_{old}-\alpha...$"식으로 update된다.

 

Cross Validation

보통 검증하는 용도로 사용하는 것으로, training data가 적을 때, data를 여러 방식으로 test, train, validation으로 나누어서 모델을 생성해보고 결과를 도출해내는 방식이다.

Cross validation

 

정리