"Every action is a bet. Reinforcement learning is about learning how to bet better over time."

强化学习（Reinforcement Learning, RL）是一种通过与环境交互、依靠奖励信号进行学习的机器学习范式。与监督学习不同，强化学习没有“标准答案”，智能体只能在不断试错中逐步逼近最优策略。

本文将系统性地介绍强化学习的核心思想、数学建模方法以及经典算法，为后续深入学习打下基础。

第一章强化学习的基本思想

强化学习关注的问题可以概括为一句话：

学习在不同状态下采取什么动作，才能最大化长期累积回报。

在强化学习中，学习过程具有以下显著特点：

没有显式的监督信号
奖励通常是延迟的
行为的好坏只能通过长期回报来评估

这种学习方式与人类和动物的学习方式高度相似，因此在机器人控制、博弈智能、多智能体系统中具有重要意义。

第二章马尔可夫决策过程（MDP）

强化学习问题通常被建模为一个马尔可夫决策过程（Markov Decision Process, MDP），由五元组$\mathcal{M} = (\mathcal{S}, \mathcal{A}, P, R, \gamma)$表示：
其中：

$ \mathcal{S} $：状态空间
$ \mathcal{A} $：动作空间
$ P(s’|s,a) $：状态转移概率
$ R(s,a) $：奖励函数
$ \gamma \in (0,1) $：折扣因子

马尔可夫性假设认为：

未来只与当前状态和动作有关，与过去无关。

第三章价值函数与贝尔曼方程

为了衡量策略的好坏，引入价值函数（Value Function）的概念。

3.1 状态价值函数

在策略$ \pi $下，状态价值函数定义为：

$V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s \right]$

它表示：

从状态$ s $出发，按照策略$ \pi $行动所能获得的期望累计回报。

3.2 动作价值函数

动作价值函数（Q 函数）定义为：

$Q^\pi(s,a) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s, a_0 = a \right]$

3.3 贝尔曼期望方程

价值函数满足递归形式的贝尔曼方程：

$V^\pi(s) = \sum_{a} \pi(a|s) \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a)V^\pi(s') \right]$

这一方程是强化学习算法设计的理论核心。

第四章最优策略与经典算法

强化学习的目标是找到最优策略：

$\pi^* = \arg\max_\pi V^\pi(s), \quad \forall s \in \mathcal{S}$

对应的最优价值函数满足贝尔曼最优方程：

$V^*(s) = \max_a \left[ R(s,a) + \gamma \sum_{s'} P(s'|s,a)V^*(s') \right]$

基于这一理论，产生了多种经典算法：

Value Iteration
Policy Iteration
Q-learning
SARSA

其中，Q-learning 的核心更新公式为：

$Q(s,a) \leftarrow Q(s,a) + \alpha \left[ r + \gamma \max_{a'} Q(s',a') - Q(s,a) \right]$

第五章探索与利用的权衡

强化学习中一个无法回避的问题是探索（Exploration）与利用（Exploitation）的权衡：

利用：选择当前看起来最优的动作
探索：尝试未知但可能更优的动作

常见策略包括：

$ \varepsilon $-greedy
Softmax
Upper Confidence Bound（UCB）

如何在有限样本下平衡二者，是强化学习研究的重要方向。

第一章 强化学习的基本思想

第二章 马尔可夫决策过程（MDP）

第三章 价值函数与贝尔曼方程