본문 바로가기

강화학습2

강화학습(Reinforcement Learning) 정리노트-DQN 본 자료는 김성훈 교수님의 모두를 위한 강화학습을 기반으로 작성되었습니다. 별도의 목차가 없습니다. 한 호흡에 읽어야 해서 부담스러울수도 있습니다. Agent는 자신이 할 수 있는 여러 Action들 중 하나의 Action을 선택하고, 그 선택을 Environment에게 넘긴다. Agent로부터 Action을 넘겨받은 Environment는 그 Action에 대하여 두 가지 결과물을 내는데, 일단, Action의 결과인, 어떤 상황으로 변했는지에 해당하는 state 정보를 넘긴다. 그리고, 넘겨받은 Action을 평가한 점수인 reward를 넘긴다. Environment는 openAI gym에서 제공하는 Environment을 사용하게 되는데, environment는 우리가 직접 만들 수도 있다. ope.. 2019. 8. 28.
Full Echo Q-Routing.. 개념 정리 모바일 환경, 차량으로 이동하는 등의 그런 동적으로 네트워크가 바뀌는 상황(즉 네트워크 토폴로지가 계속해서 바뀌는 동적인 상황)에서도 통신은 효율적으로 이루어져야 한다. 이 논문에서는 이 목적을 달성하기 위하여 기존의 Full echo Q-Routing 알고리즘을 개선해서 Adaptive Full echo Q-Routing 알고리즘을 제안한다. 기존의 Full echo Q-Routing 알고리즘도 어느 정도 이 목적을 이루기 위해서 제안된 알고리즘이지만, high load상황에서는 계속해서 oscillation이 발생하는 한계가 있다. 이 oscillation은 Q-value에 의해 계속 ‘이 라우터가 적합하다’라는 판단이 왔다갔다 하는 것이다. 즉 벤치마크로 제안된 그리드 네트워크(Fig 2.)에서 H.. 2018. 12. 18.