这个式子π * =arg max Vπ(s)s属于S--中的arg max下有π 有人说是变元的意思,应该是对的,只是我还不能理解,是什么回事,
来源:学生作业帮助网 编辑:作业帮 时间:2024/06/24 17:24:31
![这个式子π * =arg max Vπ(s)s属于S--中的arg max下有π 有人说是变元的意思,应该是对的,只是我还不能理解,是什么回事,](/uploads/image/z/1207618-34-8.jpg?t=%E8%BF%99%E4%B8%AA%E5%BC%8F%E5%AD%90%CF%80+%2A+%3Darg+max+V%CF%80%EF%BC%88s%EF%BC%89s%E5%B1%9E%E4%BA%8ES--%E4%B8%AD%E7%9A%84arg+max%E4%B8%8B%E6%9C%89%CF%80+%E6%9C%89%E4%BA%BA%E8%AF%B4%E6%98%AF%E5%8F%98%E5%85%83%E7%9A%84%E6%84%8F%E6%80%9D%2C%E5%BA%94%E8%AF%A5%E6%98%AF%E5%AF%B9%E7%9A%84%2C%E5%8F%AA%E6%98%AF%E6%88%91%E8%BF%98%E4%B8%8D%E8%83%BD%E7%90%86%E8%A7%A3%2C%E6%98%AF%E4%BB%80%E4%B9%88%E5%9B%9E%E4%BA%8B%2C)
这个式子π * =arg max Vπ(s)s属于S--中的arg max下有π 有人说是变元的意思,应该是对的,只是我还不能理解,是什么回事,
这个式子π * =arg max Vπ(s)s属于S--中的arg
max下有π 有人说是变元的意思,应该是对的,只是我还不能理解,是什么回事,
这个式子π * =arg max Vπ(s)s属于S--中的arg max下有π 有人说是变元的意思,应该是对的,只是我还不能理解,是什么回事,
是argument 参数的意思吧
你好我在强化学习里看到这个式子,这个“arg”的意义是,等号右边最终要找的是某一个“π”,也就是你所说的“max下有π”。试想,如果没有arg以及max下的π,等号右边求出的是某一个Vπ(s),这样就不符合定义π *的愿意了。