深度强化学习基础【1】-动态规划问题初探(leetcode算法的63题-不同路径II)
引言: 这篇博客的算法问题来源于leetcode算法的63题,一个网格世界的机器人运动规划问题。通过这篇博客可以使得读者更加了解强化学习关于动态规划方面的基础知识。
这深度强化学习基础【1】-动态规划问题初探(leetcode算法的63题-不同路径II)
- 1. 问题描述
- 2. 问题分析
- 3. Python编程实现
-
- 3.1 For循环遍历
- 3.2 滚动数组实现
- 3.3 试验测试结果
1. 问题描述
1个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish”)。现在考虑网格中有障碍物。那么从左上角到右下角将会有多少条不同的路径?网格中的障碍物和空位置分别用 1 和 0 来表示。
对于1个3x3空间,可表述为:
输入: obstacleGrid = [[0,0,0],[0,1,0],[0,0,0]]
输出: 2
说明&