Overfitting
Training data의 feature에 과하게 특화되어 model이 전혀 다른 input에 올바르게 동작하지 못하는 상태를 말한다. 반대되는 개념으로 underfitting이 있다.
Overfitting을 피하는 방법은 다음과 같다. (일반적으로 underfitting은 잘 일어나지 않는다. Underfitting이 발생하였다면, feature 수를 늘려주면 된다.)
- Training data 늘리기
- Feature 수 줄이기
- Regularization
- 적절한 Model 선택하기
- Cross Validation
Feature Selection/Extraction
Feature 중 구분에 도움이 되는 feature를 선택하거나, 여러 feature의 조합으로 새로운 feature 하나를 사용하는 방법이다.
Regularization
중요한 feature를 임의로 고르지 않고 내부 계산으로 선택하는 방법이다. Cost function에 parameter, $\theta$를 추가해서 계산하는 방법이다.
기존의 cost function이 최솟값을 가지더라도, 그때의 parameter가 크다면 parameter의 크기를 줄여가며 다시 최솟값을 찾게 된다. 이런 식으로 feature의 parameter를 조정해 feature selection과 같은 효과를 낼 수 있다. Regularization의 방식은 3가지가 있다.
Parameter의 update는 다음과 같은 방식으로 진행된다.
L2 norm을 사용하면, $\theta$가 "$\theta_{new} = 0.7\theta_{old}-\alpha...$"식으로 update된다.
Cross Validation
보통 검증하는 용도로 사용하는 것으로, training data가 적을 때, data를 여러 방식으로 test, train, validation으로 나누어서 모델을 생성해보고 결과를 도출해내는 방식이다.
정리
'대학교 > 기계학습' 카테고리의 다른 글
[CS/기계학습] 6. KNN classifier (0) | 2022.05.22 |
---|---|
[CS/기계학습] 5. Neural Network (0) | 2022.05.22 |
[CS/기계학습] 3. Classification (0) | 2022.03.17 |
[CS/기계학습] 2. Linear Regression (0) | 2022.03.17 |
[CS/기계학습] 1.Introduction (0) | 2022.03.17 |