强化学习

"Every action is a bet. Reinforcement learning is about learning how to bet better over time."

强化学习(Reinforcement Learning, RL)是一种通过与环境交互、依靠奖励信号进行学习的机器学习范式。与监督学习不同,强化学习没有“标准答案”,智能体只能在不断试错中逐步逼近最优策略。

本文将系统性地介绍强化学习的核心思想、数学建模方法以及经典算法,为后续深入学习打下基础。


第一章 强化学习的基本思想

强化学习关注的问题可以概括为一句话:

学习在不同状态下采取什么动作,才能最大化长期累积回报。

在强化学习中,学习过程具有以下显著特点:

  • 没有显式的监督信号
  • 奖励通常是延迟的
  • 行为的好坏只能通过长期回报来评估

这种学习方式与人类和动物的学习方式高度相似,因此在机器人控制、博弈智能、多智能体系统中具有重要意义。

第二章 马尔可夫决策过程(MDP)

强化学习问题通常被建模为一个马尔可夫决策过程(Markov Decision Process, MDP),由五元组$\mathcal{M} = (\mathcal{S}, \mathcal{A}, P, R, \gamma)$表示:
其中:

  • $ \mathcal{S} $:状态空间
  • $ \mathcal{A} $:动作空间
  • $ P(s’|s,a) $:状态转移概率
  • $ R(s,a) $:奖励函数
  • $ \gamma \in (0,1) $:折扣因子

马尔可夫性假设认为:

未来只与当前状态和动作有关,与过去无关。

第三章 价值函数与贝尔曼方程

为了衡量策略的好坏,引入价值函数(Value Function)的概念。

3.1 状态价值函数

在策略$ \pi $下,状态价值函数定义为:

它表示:

从状态$ s $出发,按照策略$ \pi $行动所能获得的期望累计回报。

3.2 动作价值函数

动作价值函数(Q 函数)定义为:

3.3 贝尔曼期望方程

价值函数满足递归形式的贝尔曼方程:

这一方程是强化学习算法设计的理论核心。

第四章 最优策略与经典算法

强化学习的目标是找到最优策略

对应的最优价值函数满足贝尔曼最优方程

基于这一理论,产生了多种经典算法:

  • Value Iteration
  • Policy Iteration
  • Q-learning
  • SARSA

其中,Q-learning 的核心更新公式为:

第五章 探索与利用的权衡

强化学习中一个无法回避的问题是探索(Exploration)与利用(Exploitation)的权衡

  • 利用:选择当前看起来最优的动作
  • 探索:尝试未知但可能更优的动作

常见策略包括:

  • $ \varepsilon $-greedy
  • Softmax
  • Upper Confidence Bound(UCB)

如何在有限样本下平衡二者,是强化学习研究的重要方向。