패스트캠퍼스 환급챌린지 39일차 : 딥러닝·인공지능 Signature 초격차 패지 강의 후기

tstory7 2025. 4. 12. 23:21

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

강의 수강 시작

학습인증샷

학습 수강 목록

강의 수강 완료

오늘은 training, test, validation 비교 강의와 k-fold cross validation 강의를 들었다. 최근에 들었던 강의 중 제일 이해하기가 쉬웠다. 머신러닝 모델을 개발할 때 데이터는 주로 세 가지로 나뉜다. 첫 번째는 모델이 학습할 때 실제로 사용하는 데이터이다. 이 데이터를 통해 모델의 내부 파라미터가 조정된다. 두 번째는 학습이 모두 끝난 뒤, 모델이 얼마나 잘 작동하는지를 객관적으로 평가하기 위한 데이터이다. 이 데이터는 학습에 사용되어서는 안 되며, 모델의 진짜 성능을 측정하는 데 사용된다. 테스트 데이터를 학습에 사용하면 이미 사용한 데이터이기 때문에 테스트가 잘 되는 상황이 발생할 것이다. 이러면 실제 작동할 때와는 다른 값이 나올 수 밖에 없다. 그렇기에 테스트 데이터는 학습에 사용해서는 안 된다. 마지막은 하이퍼파라미터를 선택하기 위한 데이터이다. 예를 들어 학습률이나 모델의 복잡도 같은 설정값들을 조정할 때 사용된다.

모델을 학습하는 도중에 성능을 평가하고 싶을 때는 테스트 데이터를 사용하면 안 되기 때문에, 별도로 검증용 데이터를 사용한다. 이를 통해 마치 실제 테스트를 하는 것처럼 모의 평가를 진행할 수 있다. 하지만 전체 데이터의 양이 적은 경우에는 데이터를 훈련용과 검증용으로 나누는 것 자체가 성능 저하를 유발할 수 있다.

이럴 때는 교차 검증이라는 방법을 사용할 수 있다. 데이터를 여러 조각으로 나눈 다음, 그중 하나를 검증용으로 쓰고 나머지를 훈련용으로 사용한다. 이 과정을 조각 수만큼 반복하여 각각의 조합에 대해 모델을 학습하고 평가한다. 이 방법은 특정한 검증용 데이터를 썼을 때 발생할 수 있는 편향을 줄여주는 데 도움이 된다. 예를 들어 데이터를 다섯 조각으로 나눈다면, 다섯 번의 반복 학습을 진행하게 되며, 매번 다른 조각이 검증용으로 사용된다. 이렇게 하면 모든 데이터가 한 번씩은 검증에 사용되기 때문에, 보다 공정하고 안정적인 하이퍼파라미터 선택이 가능해진다.

데이터를 학습할 때 단순히 많이 해서는 오히려 나중에 더 에러가 발생할 수 있다는 것을 다시 한 번 들으면서 어떻게 해야 좋은 모델을 생성할 수 있을까라는 생각을 하게 되었다. 아무래도 이런 이론들을 계속해서 잘 학습하고 직접 만들어보면서 내 것으로 만드는 과정이 정말 중요하다는 것은 역시 반드시 필요할 것 같다.

https://bit.ly/4hTSJNB