강화학습
강화학습 (Reinforcement Learning)

"시행착오와 보상을 통해 배우는 방식"입니다.
어떻게 배우나요?
시도 → 결과 확인 → 보상 → 더 나은 시도의 과정을 반복합니다.
더 많은 보상을 얻는 행동을 점점 더 많이 하게 됩니다.
일상생활 예시
아이가 자전거 타는 법을 배울 때처럼, 넘어졌다 일어나길 반복하며 학습합니다.
요리를 맛보고 조리법을 개선하는 과정과 유사합니다.
AI 실제 사례
ChatGPT: 사람들이 좋은 답변을 골라주는 피드백을 바탕으로, 더 나은 대화를 하도록 학습 (휴먼 피드백 기반 강화학습)
알파고: 바둑 게임을 수백만 번 두며 승리 확률을 높이는 방법 학습
자율주행차: 안전하고 효율적인 주행 방법을 시뮬레이션에서 반복 학습
로봇 제어: 물건을 집어 올리는 가장 효과적인 방법을 시행착오로 학습
장점: 사람의 피드백을 통해 더 개선됩니다. 잘안되는 특정 상황을 효과적으로 개선할 수 있습니다. 단점: 학습에 많은 시간이 걸리고, 시행착오 과정에서 위험할 수 있습니다.
강화학습이 적합한 경우
계속 변화하는 환경에 적응해야 할 때 (게임, 로봇 제어)
장기적인 전략이 필요할 때
다양한 시도와 실패가 허용되는 환경일 때
Last updated