강화학습

강화학습 (Reinforcement Learning)

"시행착오와 보상을 통해 배우는 방식"입니다.

어떻게 배우나요?

  • 시도 → 결과 확인 → 보상 → 더 나은 시도의 과정을 반복합니다.

  • 더 많은 보상을 얻는 행동을 점점 더 많이 하게 됩니다.

일상생활 예시

  • 아이가 자전거 타는 법을 배울 때처럼, 넘어졌다 일어나길 반복하며 학습합니다.

  • 요리를 맛보고 조리법을 개선하는 과정과 유사합니다.

AI 실제 사례

  • ChatGPT: 사람들이 좋은 답변을 골라주는 피드백을 바탕으로, 더 나은 대화를 하도록 학습 (휴먼 피드백 기반 강화학습)

  • 알파고: 바둑 게임을 수백만 번 두며 승리 확률을 높이는 방법 학습

  • 자율주행차: 안전하고 효율적인 주행 방법을 시뮬레이션에서 반복 학습

  • 로봇 제어: 물건을 집어 올리는 가장 효과적인 방법을 시행착오로 학습

장점: 사람의 피드백을 통해 더 개선됩니다. 잘안되는 특정 상황을 효과적으로 개선할 수 있습니다. 단점: 학습에 많은 시간이 걸리고, 시행착오 과정에서 위험할 수 있습니다.

강화학습이 적합한 경우

  • 계속 변화하는 환경에 적응해야 할 때 (게임, 로봇 제어)

  • 장기적인 전략이 필요할 때

  • 다양한 시도와 실패가 허용되는 환경일 때

Last updated