Q-Network의 발산
강화학습을 NN으로 풀고자 하는 Q-Network는 수렴하지 않아서 잘 사용되지 않았다.
구글의 딥마인드가 DQN이라는 알고리즘을 제시해서 사용되기 시작했다.
Correlation Between Samples
Sample간에 Correlation을 갖고 있으면 prediction이 잘 안됨
Non-Stationary Target
학습의 결과에 따라서 Label이 같이 바뀌기 때문에 학습이 잘 안됨. 가 parameter니까...
DQN's Three Solution
1. Go Deep
Deep Neural Network를 사용한다.
2. Experience Relay
Action을 취한 것을 학습시키지 말고 를 에 저장하고, 학습 시킬때는 이 저장된 값들에서 Minibatch를 꺼내서 학습한다.
3. Separate Target Network
를 네트워크 하나에 두고 이를 고정시킨다.
학습을 할때 에 대해 를 학습 시키고,
일정 epoch이 지난 뒤 로 복사한다.
개똑똑하다...