IT

패스트캠퍼스 환급챌린지 33일차 : 딥러닝·인공지능 Signature 초격차 패지 강의 후기

tstory7 2025. 4. 6. 22:04

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

강의 수강 시작

 

 

학습 인증샷

 

강의 목록

 

 

학습 완료

 

 

 

오늘은 강화학습과 인공신경망에 대한 강의를 들었다. 강화학습은 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하고, 선택 가능한 여러 행동들 중에서 보상을 최대화할 수 있는 행동 혹은 행동의 순서를 선택하는 방법이다. 이 개념은 마치 강아지에게 앉아 손과 같은 행동을 가르치는 과정과 유사하다는 설명이 인상 깊었다. 이 예시처럼 강아지는 에이전트의 역할을 하며, 바람직한 행동을 했을 때 보상으로 간식을 받는다.

 

흥미로웠던 점은 이러한 방식이 게임이나 실제 문제 해결에도 적용된다는 것이다. 오목 게임을 예로 들면, 한 줄에 네 개의 돌이 놓여 있을 때 다섯 개를 완성하면 보상을 주는 식으로, 에이전트가 점점 더 전략적으로 학습할 수 있도록 유도할 수 있다. 이처럼 보상을 통해 어떤 행동이 좋은지를 스스로 학습하는 과정이 무척 흥미롭게 느껴졌다.

특히 discount factor라는 개념은 강화학습의 핵심 요소 중 하나라고 생각되었다. 이 값을 0.9로 설정하면, 가까운 미래의 보상에는 높은 가치를 부여하고 먼 미래의 보상은 상대적으로 덜 중요하게 여긴다는 의미다. 이 덕분에 에이전트는 가능한 한 빠르게 보상을 얻을 수 있는 경로, 즉 최소 거리를 선택해 더 효율적으로 행동하게 된다. 이런 원리를 바탕으로 단순히 보상을 많이 받는 것이 아니라, 언제 받는 것이 더 효과적인지를 판단할 수 있게 되는 점이 특히 신기하게 느껴졌고, 강화학습의 지능적인 면모가 드러나는 부분이라고 생각했다.

 

또한 인공신경망에 대한 개념도 강화학습과 맞물려서 더욱 흥미로웠다. 신경망은 노드와 엣지로 이루어져 있으며, 각 엣지에 가중치를 곱하고 여기에 바이어스를 더한 후, 액티베이션 함수를 통해 최종 출력을 계산하게 된다. 다양한 활성화 함수가 존재하지만, 이번에는 출력이 임계값을 넘으면 1, 넘지 않으면 0을 출력하는 unit step 함수를 사용했다. 이 구조를 통해 에이전트는 주어진 상태에서 최적의 행동을 선택하고, 반복적인 시행착오와 보상을 통해 점점 더 효율적인 전략을 학습해나가게 된다.

앞으로 더 깊이 있게 공부해보면, 일상 속 문제 해결에도 강화학습을 적용할 수 있는 방법들이 떠오를 것 같아 기대가 된다. 이론도 흥미롭지만, 이를 실제로 구현하고 실험해보는 과정을 꼭 경험해보고 싶다는 생각이 들었다.