第二支羽毛

深度探索：DeepSeek-R1 如何从零开始训练，以及这项开源研究将如何以前所未有的速度推动 AI 进步

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容 LLM架构专栏

开源

我们在强化学习之旅中来到了关键节点到目前为止，我们探索的环境中，智能体可以明确表示每一个可能的状态 - 动作对。但一旦踏入现实世界的复杂环境，这种 “奢侈” 便不复存在。 |文末点击阅读原文查看网页版| 更多专栏文章点击查看：

强化学习

在探索强化学习的征程中，我们已经钻研了基础概念，还审视了那些假定对环境有全面认知的基于价值的方法。然而在现实世界里，智能体几乎无法获取关于其所处环境的完美模型。 |文末点击阅读原文查看网页版| 更多专栏文章点击查看：

Agent 强化学习

基础模型

论文与代码论文：https://arxiv.org/abs/2503.19470 代码：https://github.com/Agent-RL/ReSearch 摘要将推理与外部搜索过程集成颇具挑战，尤其是针对复杂多跳问题。本文提出ReSearch框架，通过强化学习训练大语言模型（LLMs）进行

强化学习

今天我们不再局限于概念基础，而是深入到驱动现代人工智能系统的算法核心 —— 从理解强化学习的定义，迈向掌握它的实际运作原理。更多专栏文章点击查看： LLM 架构专栏

强化学习

这第一篇文章介绍了强化学习的基本概念。在下一篇文章中，我们将探索基于价值的方法，如Q学习和SARSA，这些方法为智能体在更复杂的环境中学习最优策略提供了强大的技术。更多 LLM 架构文章点击查看： LLM 架构专栏

强化学习

强化学习系列第二篇 |文末点击阅读原文查看网页版| 更多专栏文章点击查看： LLM 架构专栏

强化学习

强化学习系列第二篇更多专栏文章点击查看： LLM 架构专栏