Page 938 - 3-3

P. 938

- 강화 학습
강화 학습이라 하면 보통 다음과 같이 기술된다 어떤 환경을 탐색하는 에이전트가 현재의 상태.
를 인식하여 어떤 행동을 취한다 그러면 그 에이전트는 환경으로부터 포상을 얻게 된다 이 때 포. .
상은 양수 음수 둘 다 가능하다 강화학습의 알고리즘은 그 에이전트가 앞으로 누적 될 포상을 최, .
대화하는 일련의 행동으로 정의되는 정책을 찾는 방법이다 즉 데이터를 입력받아 최적의 결과를.
내는 법을 찾는 것이 강화 학습이 예를 들어 벽돌 깨기 게임이 있다고 가정하고 강화 학습을 통,
해 이 게임을 컴퓨터에게 가르친다면 공을 떨어뜨리면 Life 를 잃는다와 벽돌을 깨면 점수를 얻는
다는 규칙을 알려주고 강화 학습을 시킨다면 컴퓨터는 Life 를 최대한 적게 소모하고 최대한 점수
를 많이 얻는 방법으로 학습하게 될 것이다.

MDP 에서 사용한 학습 모델 및 네트워크

우리는 자동차의 번호판을 인식하기 위해 지도 학습을 사용하여 data 와 label 을 주어 학습을 시킨
뒤 다른 임의의 data 를 주었을 때의 label 값을 얻는 것이 최종 목표였다 즉 자동차의 번호를 주.
면 학습된 모델을 통해 이것은 어떠한 값이다 라는 것이 출력되는 것이 목표다 그러기 위해서 지.
도 학습 중 CNN 이라는 네트워크를 사용하였다. CNN 이란 Convolution Neural Network 라는 네
트워크의 약자로 사람의 뇌 구조라고 생각하면 이해하기 쉽다 사람은 어떠한 이미지를 보았을 때.
이미지의 전체를 보지 않고 부분 부분을 나누어 본다고 한다 그것과 마찬가지로 이 네트워크는.
이미지를 일정한 사이즈의 window 로 스캔하고 Convolution 하여 이미지의 특징을 뽑아내어 최종
적으로 어떠한 이미지가 주어지면 그 이미지에 대한 label 을 출력 할 수 있게 된다.

- 938 -

933 934 935 936 937 938 939 940 941 942 943