强化学习

强化学习详解第五部分：神经网络驱动的深度强化学习基础

在之前的文章中，我们探讨了强化学习如何让智能体通过与环境的交互学习来做出决策。我们介绍了价值函数、策略学习以及函数逼近技术，这些技术有助于将强化学习应用于更复杂的问题。现在，我们准备探讨该领域中可能最为重大的进展：深度强化学习。

深度强化学习将神经网络与强化学习算法相结合，用于解决以往难以攻克的问题。这不仅仅是一次技术升级，更是一项突破性进展，它改变了人工智能系统在复杂环境中的能力边界。

更多专栏文章点击查看：
LLM 架构专栏
 大模型架构专栏文章阅读指南
 Agent 系列
 强化学习系列
欢迎加入大模型交流群：加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站：https://www.chenbaiqi.com

为何摒弃传统方法？

传统强化学习在应用于现实世界问题时面临一些关键限制，主要体现在可扩展性和泛化性方面。表格法和简单的函数逼近器在处理高维输入时困难重重。虽然函数逼近器在一定程度上解决了这个问题，但要更进一步，我们需要更强大的工具来武装函数逼近器，这正是本文要探讨的内容。

其次，早期的方法往往难以在相似状态之间传递知识。我们需要更具关联性的模型来处理相似状态。以自动驾驶汽车利用摄像头图像导航为例，每张图像包含数百万像素。如果为每个可能的像素值组合创建一个表格，所需的内存将超过宇宙中现有的内存总量。即便使用传统的函数逼近方法，也需要人工手动设计特征，从这些图像中提取相关信息，在现代大规模应用场景下，这几乎是不可能完成的任务。

深度神经网络通过直接从原始数据中自动学习有用的表示，解决了这些问题。它们能够发现模式并提取即使对人类专家来说也不明显的特征。

话不多说！直接深入神经网络！

神经网络堪称通用函数逼近器，只要具备足够的能力，它们几乎可以表示任何从输入到输出的映射关系。这使得它们在强化学习中非常理想，因为我们在强化学习中需要逼近复杂的价值函数或策略。

如下图所示，一个典型的用于强化学习的神经网络包含：

输入层：接收原始状态信息（如游戏像素、传感器读数等）。
多个隐藏层：将这些信息转换为越来越抽象的特征。
输出层：根据基于价值的方法输出价值估计，或根据基于策略的方法输出动作概率。

关键优势在于，这些网络在训练过程中会自动学习合适的表示，无需手动进行特征工程。

将神经网络与强化学习相结合，看似是个自然而然的想法。那么，为什么之前没有成功实现呢？事实上，研究人员多年来一直在尝试，但二者的结合被证明不稳定，常常无法收敛。

2015年，DeepMind的研究人员在《自然》杂志上发表了一篇具有里程碑意义的论文《Human-level control through deep reinforcement learning》。他们提出了深度Q网络（DQN），该网络成功地直接从屏幕像素中学习如何玩49种不同的雅达利（Atari）游戏，且表现常常超越人类玩家。

关键问题在于：是什么让DQN在之前的尝试失败的地方取得了成功？想象一下，你在学习一项复杂技能时，每次经历后马上就忘记。这基本上就是标准Q学习的工作方式：处理一次经历，更新你的知识，丢弃这次经历，然后继续。随着时间的推移，神经网络会根据最优策略更新自身。

DQN引入了经验回放机制，其工作原理如下：

智能体将经历（状态、动作、奖励、下一状态）存储在回放缓冲区中。
在训练期间，它从这个缓冲区中随机采样一批数据，并在这些数据上训练神经网络。

这样做打破了连续经历之间的强相关性，还能让智能体通过多次回顾重要经历，更高效地学习。经验回放模仿了人类学习的一个基本方面：我们反思过去经历并持续从中学习的能力。通过从过去的经历中随机采样，DQN还将在线学习问题转化为更接近神经网络擅长的监督学习场景。根据原始的DQN论文：“经验回放提高了数据效率，消除了观测序列中的相关性，并使数据分布的变化更加平滑。”

但是，我们如何引导神经网络走向最优策略呢？

DQN的另一项关键创新解决了困扰Q学习（采用函数逼近）的“移动目标”问题。在标准Q学习中，我们基于其他估计值来更新自己的估计，这就产生了自举效应。当使用神经网络时，这会形成一个有害的反馈循环：

网络生成一个目标值。
我们更新网络（同一个网络），使其更接近这个目标值。
但这次更新也会改变目标值本身，这个移动的目标使得学习不稳定。

DQN通过目标网络解决了这个问题：

解决方案是维护两个网络。
在线网络用于做出决策，并定期更新。
目标网络是在线网络的副本，仅定期更新（例如，每10,000步更新一次）。

在计算训练的目标值时，DQN使用目标网络，这就创建了一个稳定的学习目标，不会随着每次更新而改变。这个简单却强大的想法极大地提高了稳定性。

总结归纳

DQN将Q学习与这些创新相结合，创建了一种稳定、有效的学习算法：

初始化回放记忆缓冲区D。
用随机权重初始化主Q网络。
用相同的权重初始化目标Q网络。
对于每一个episode（情节）：（此处原网页未详细展开，可能需要结合相关代码或算法进一步明确后续步骤）

这种方法使DQN能够掌握各种视觉外观和游戏机制差异巨大的雅达利游戏，所有游戏都使用相同的算法和网络架构。智能体仅接收原始像素输入、得分和可用动作集，这与人类玩家获取的信息类似。

就这些了吗？不，DQN还有更多创新！

DQN的突破并非终点，而是一个持续至今的非凡创新时期的开端。

双DQN（Double DQN）

在追求最大化奖励的过程中，标准DQN由于Q学习更新中的max操作，往往会系统性地高估动作价值。这种乐观偏差可能导致决策不佳，在充满不确定性的嘈杂环境中尤其如此。2016年，van Hasselt及其同事提出的双DQN，通过一个简单却深刻的修改解决了这个问题：

使用在线网络选择最佳动作（做出“做什么”的决策）。
使用目标网络评估该动作的价值（做出“有多好”的评估）。

这种选择和评估的分离显著降低了高估偏差。研究人员在原始论文中指出：“双DQN大幅减少了高估情况，并在多个游戏中表现得更好。” 这项创新的精妙之处在于其简单性，它只需极少的额外计算，却能产生更可靠的价值估计。这是一个很好的例子，说明微小的算法调整就能带来巨大的性能提升。

优先经验回放（Prioritized Experience Replay）

并非所有的经历都具有同等价值。看篮球比赛时，在关键时刻的一记意想不到的三分球，比第一节的常规传球更能让你有所收获。同样，强化学习智能体应该关注包含最多信息的经历。Prioritized Experience Replay （Schaul等人，2016年）体现了这一理念，它更频繁地采样预期学习进度更高的转换：

将每次转换的TD误差（预测误差）存储在回放缓冲区中。
按照与TD误差成正比的概率采样转换。
使用重要性采样权重纠正这种非均匀采样引入的偏差。

这种方法将学习重点放在令人惊讶或困难的转换上，即当前估计与目标差距最大的地方。作者报告称：“优先经验回放在一系列雅达利游戏中带来了显著改进，大致相当于双Q学习相对于原生DQN的改进。” 这种方法的独到之处在于它模仿了人类的注意力，我们在学习时自然会关注意想不到或令人困惑的经历。通过将这种直觉数学形式化，优先经验回放创造了一个更高效的学习过程。

Dueling Networks

在许多情况下，理解处于某种状态的整体价值，比知道每个动作的精确价值更为重要。以驾驶为例，在空旷的高速公路上，你具体的动作选择，不如你处于安全、无障碍物环境这一事实重要。The Dueling Network architecture （Wang等人，2016年）将这一关键见解融入网络结构本身

它在卷积层之后将网络分成两个独立的流。
一个流估计状态价值函数V(s)，即处于这种状态有多好？
另一个流估计优势函数A(s,a)，即每个动作与其他动作相比好多少？
然后，按照上图所示将它们组合以生成Q值。

这种架构上的分离表现更好，因为它明确地对不同情况下最重要的因素进行了建模。当动作选择对结果影响不大时，价值流起主导作用。当特定动作至关重要时，优势流提供区分度。作者认为，对决架构 “使网络在训练期间能够通过衡量每个动作的相对优势，更好地识别下一个最佳动作”。

还有其他内容吗？希望已经讲完了！

并没有，接下来介绍基于价值的方法！虽然DQN及其变体在基于价值的强化学习中取得了显著成就，但它们只是解决问题的一种方法。基于价值的方法通过估计状态或动作的价值，并从这些价值中推导出策略。但是，如果我们直接学习策略会怎样呢？这正是策略梯度方法的做法，它们直接优化策略，而不一定学习价值函数。这种方法具有几个显著的优势，特别是在处理连续动作空间或需要随机策略的问题时。

REINFORCE算法

基本的REINFORCE算法（Williams，1992年）采用了一种非常直接的策略优化方法。它不是学习动作价值，而是简单地调整策略参数，以增加导致良好结果的动作的概率：

使用当前策略收集完整的一个episode。
对于每一步，计算从该点开始的回报（总奖励）。
更新策略参数，增加导致高回报的动作的概率，降低导致低回报的动作的概率。

可以把它想象成一个放大成功行为、削弱失败行为的系统，很像人类从自身经历中自然学习的方式。这种直接的方法有明显的优点：

它能自然地处理连续动作空间。
它可以学习随机策略（这对石头剪刀布等游戏很重要）。
它避免了维护准确价值估计的复杂性。

然而，策略梯度方法也面临挑战，尤其是梯度估计的方差较高，这可能导致学习缓慢且不稳定。

Actor-Critic Method

如果基于价值的方法和基于策略的方法各有优势，为什么不把它们结合起来呢？这正是演员 - 评论家方法所做的，它创造了一种强大的结合方式，解决了每种方法的局限性。演员 - 评论家方法使用：

一个演员网络来确定策略（采取哪些动作）。
一个评论家网络来评估这些动作（它们有多好）。

评论家向演员提供反馈，帮助演员比纯粹的策略梯度方法更高效地学习。这种结合在保持基于策略方法优势的同时，减少了更新中的方差。这就好比有一个表演者（演员）在一位知识渊博的教练（评论家）的指导下，二者共同取得了各自单独无法实现的成果。

Asynchronous Advantage Actor-Critic，A3C

2016年，Mnih等人提出的A3C算法是深度强化学习领域一项重要的架构创新。A3C不是训练单个智能体，而是部署多个智能体在不同环境中并行工作（图片来源：ResearchGate）。在A3C中：

多个智能体同时与各自的环境副本进行交互。
每个智能体定期与全局网络共享其学习到的参数。
每个智能体也定期获取最新的全局参数。

这种并行方法消除了对经验回放的需求，因为多个智能体的不同经历自然打破了连续更新之间的相关性。它还通过利用多个CPU核心，大幅加快了训练速度。A3C标志着深度强化学习研究的一个关键转折点，展示了架构创新如何克服学习过程中的基本挑战。它的成功启发了众多变体，并使演员 - 评论家方法成为现代强化学习的主导范式。