"Every action is a bet. Reinforcement learning is about learning how to bet better over time."
强化学习(Reinforcement Learning, RL)是一种通过与环境交互、依靠奖励信号进行学习的机器学习范式。与监督学习不同,强化学习没有“标准答案”,智能体只能在不断试错中逐步逼近最优策略。
本文将系统性地介绍强化学习的核心思想、数学建模方法以及经典算法,为后续深入学习打下基础。
第一章 强化学习的基本思想
强化学习关注的问题可以概括为一句话:
学习在不同状态下采取什么动作,才能最大化长期累积回报。
在强化学习中,学习过程具有以下显著特点:
- 没有显式的监督信号
- 奖励通常是延迟的
- 行为的好坏只能通过长期回报来评估
这种学习方式与人类和动物的学习方式高度相似,因此在机器人控制、博弈智能、多智能体系统中具有重要意义。
第二章 马尔可夫决策过程(MDP)
强化学习问题通常被建模为一个马尔可夫决策过程(Markov Decision Process, MDP),由五元组$\mathcal{M} = (\mathcal{S}, \mathcal{A}, P, R, \gamma)$表示:
其中:
- $ \mathcal{S} $:状态空间
- $ \mathcal{A} $:动作空间
- $ P(s’|s,a) $:状态转移概率
- $ R(s,a) $:奖励函数
- $ \gamma \in (0,1) $:折扣因子
马尔可夫性假设认为:
未来只与当前状态和动作有关,与过去无关。
第三章 价值函数与贝尔曼方程
为了衡量策略的好坏,引入价值函数(Value Function)的概念。
3.1 状态价值函数
在策略$ \pi $下,状态价值函数定义为:
它表示:
从状态$ s $出发,按照策略$ \pi $行动所能获得的期望累计回报。
3.2 动作价值函数
动作价值函数(Q 函数)定义为:
3.3 贝尔曼期望方程
价值函数满足递归形式的贝尔曼方程:
这一方程是强化学习算法设计的理论核心。
第四章 最优策略与经典算法
强化学习的目标是找到最优策略:
对应的最优价值函数满足贝尔曼最优方程:
基于这一理论,产生了多种经典算法:
- Value Iteration
- Policy Iteration
- Q-learning
- SARSA
其中,Q-learning 的核心更新公式为:
第五章 探索与利用的权衡
强化学习中一个无法回避的问题是探索(Exploration)与利用(Exploitation)的权衡:
- 利用:选择当前看起来最优的动作
- 探索:尝试未知但可能更优的动作
常见策略包括:
- $ \varepsilon $-greedy
- Softmax
- Upper Confidence Bound(UCB)
如何在有限样本下平衡二者,是强化学习研究的重要方向。