# 강화학습

### 강화학습 (Reinforcement Learning)

<figure><img src="https://2205039449-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FP46kmAPgkh44WxrxOFrp%2Fuploads%2FC7IalSoJDpeOxbJ27pao%2FChatGPT%20Image%202025%E1%84%82%E1%85%A7%E1%86%AB%204%E1%84%8B%E1%85%AF%E1%86%AF%2016%E1%84%8B%E1%85%B5%E1%86%AF%20%E1%84%8B%E1%85%A9%E1%84%8C%E1%85%A5%E1%86%AB%2001_35_07.png?alt=media&#x26;token=ceaaf3c6-285a-46ca-b6a0-2773a226705c" alt="" width="563"><figcaption></figcaption></figure>

#### "시행착오와 보상을 통해 배우는 방식"입니다.

**어떻게 배우나요?**

* 시도 → 결과 확인 → 보상 → 더 나은 시도의 과정을 반복합니다.
* 더 많은 보상을 얻는 행동을 점점 더 많이 하게 됩니다.

**일상생활 예시**

* 아이가 자전거 타는 법을 배울 때처럼, 넘어졌다 일어나길 반복하며 학습합니다.
* 요리를 맛보고 조리법을 개선하는 과정과 유사합니다.

**AI 실제 사례**

* **ChatGPT**: 사람들이 좋은 답변을 골라주는 피드백을 바탕으로, 더 나은 대화를 하도록 학습 (휴먼 피드백 기반 강화학습)
* **알파고**: 바둑 게임을 수백만 번 두며 승리 확률을 높이는 방법 학습
* **자율주행차**: 안전하고 효율적인 주행 방법을 시뮬레이션에서 반복 학습
* **로봇 제어**: 물건을 집어 올리는 가장 효과적인 방법을 시행착오로 학습

**장점**: 사람의 피드백을 통해 더 개선됩니다. 잘안되는 특정 상황을 효과적으로 개선할 수 있습니다.\
**단점**: 학습에 많은 시간이 걸리고, 시행착오 과정에서 위험할 수 있습니다.

**강화학습이 적합한 경우**

* 계속 변화하는 환경에 적응해야 할 때 (게임, 로봇 제어)
* 장기적인 전략이 필요할 때
* 다양한 시도와 실패가 허용되는 환경일 때
