Page 938 - 3-3
P. 938

-  강화 학습
                    강화 학습이라 하면 보통 다음과 같이 기술된다 어떤 환경을 탐색하는 에이전트가 현재의 상태.
                  를 인식하여 어떤 행동을 취한다 그러면 그 에이전트는 환경으로부터 포상을 얻게 된다 이 때 포.                             .
                  상은 양수 음수 둘 다 가능하다 강화학습의 알고리즘은 그 에이전트가 앞으로 누적 될 포상을 최,  .
                  대화하는 일련의 행동으로 정의되는 정책을 찾는 방법이다 즉 데이터를 입력받아 최적의 결과를.
                  내는 법을 찾는 것이 강화 학습이 예를 들어 벽돌 깨기 게임이 있다고 가정하고 강화 학습을 통,
                  해 이 게임을 컴퓨터에게 가르친다면 공을 떨어뜨리면 Life                       를 잃는다와 벽돌을 깨면 점수를 얻는
                  다는 규칙을 알려주고 강화 학습을 시킨다면 컴퓨터는 Life                       를 최대한 적게 소모하고 최대한 점수
                  를 많이 얻는 방법으로 학습하게 될 것이다.
















                                          MDP 에서 사용한 학습 모델 및 네트워크


                  우리는 자동차의 번호판을 인식하기 위해 지도 학습을 사용하여 data                          와 label 을 주어 학습을 시킨
                  뒤 다른 임의의 data      를 주었을 때의 label       값을 얻는 것이 최종 목표였다 즉 자동차의 번호를 주.
                  면 학습된 모델을 통해 이것은 어떠한 값이다 라는 것이 출력되는 것이 목표다 그러기 위해서 지.
                  도 학습 중 CNN     이라는 네트워크를 사용하였다. CNN               이란 Convolution Neural Network     라는 네
                  트워크의 약자로 사람의 뇌 구조라고 생각하면 이해하기 쉽다 사람은 어떠한 이미지를 보았을 때.
                  이미지의 전체를 보지 않고 부분 부분을 나누어 본다고 한다 그것과 마찬가지로 이 네트워크는.
                  이미지를 일정한 사이즈의 window            로 스캔하고 Convolution       하여 이미지의 특징을 뽑아내어 최종
                  적으로 어떠한 이미지가 주어지면 그 이미지에 대한 label                    을 출력 할 수 있게 된다.






































                                                         - 938 -
   933   934   935   936   937   938   939   940   941   942   943