why sample from multinomial distribution during evaluation in Atari? #61

sallyqiansun · 2023-06-09T02:12:08Z

Hi, I'm curious why you implemented a sampling procedure (line 30 of decision-transformer-master/atari/mingpt/utils.py) instead of directly taking the argmax of the predicted probabilities? If I'm understanding it correctly, in the continuous case in gym, the predicted value is directly used during evaluation without sampling, is that correct?

Looking forward to your reply! Thank you!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

why sample from multinomial distribution during evaluation in Atari? #61

why sample from multinomial distribution during evaluation in Atari? #61

sallyqiansun commented Jun 9, 2023 •

edited

Loading

why sample from multinomial distribution during evaluation in Atari? #61

why sample from multinomial distribution during evaluation in Atari? #61

Comments

sallyqiansun commented Jun 9, 2023 • edited Loading

sallyqiansun commented Jun 9, 2023 •

edited

Loading