# 강화학습 ### 강화학습 (Reinforcement Learning)

#### "시행착오와 보상을 통해 배우는 방식"입니다. **어떻게 배우나요?** * 시도 → 결과 확인 → 보상 → 더 나은 시도의 과정을 반복합니다. * 더 많은 보상을 얻는 행동을 점점 더 많이 하게 됩니다. **일상생활 예시** * 아이가 자전거 타는 법을 배울 때처럼, 넘어졌다 일어나길 반복하며 학습합니다. * 요리를 맛보고 조리법을 개선하는 과정과 유사합니다. **AI 실제 사례** * **ChatGPT**: 사람들이 좋은 답변을 골라주는 피드백을 바탕으로, 더 나은 대화를 하도록 학습 (휴먼 피드백 기반 강화학습) * **알파고**: 바둑 게임을 수백만 번 두며 승리 확률을 높이는 방법 학습 * **자율주행차**: 안전하고 효율적인 주행 방법을 시뮬레이션에서 반복 학습 * **로봇 제어**: 물건을 집어 올리는 가장 효과적인 방법을 시행착오로 학습 **장점**: 사람의 피드백을 통해 더 개선됩니다. 잘안되는 특정 상황을 효과적으로 개선할 수 있습니다.\ **단점**: 학습에 많은 시간이 걸리고, 시행착오 과정에서 위험할 수 있습니다. **강화학습이 적합한 경우** * 계속 변화하는 환경에 적응해야 할 때 (게임, 로봇 제어) * 장기적인 전략이 필요할 때 * 다양한 시도와 실패가 허용되는 환경일 때