归档 - 第二支羽毛|吹灭读书灯，一身都是月

2025

强化自训练（ReST）：让大语言模型更懂你的“心”

2025-04-12 强化自训练（ReST）：让大语言模型更懂你的“心”

Qwen2.5-Max：对标DeepSeek V3

2025-04-12 Qwen2.5-Max：对标DeepSeek V3

DeepSeek-R1的顿悟时刻是如何出现的？背后的数学原理：强化学习如何教大型语言模型进行推理

2025-04-12 DeepSeek-R1的顿悟时刻是如何出现的？背后的数学原理：强化学习如何教大型语言模型进行推理

2025-04-12 强化学习中的关键模型与算法：从Actor-Critic到GRPO

DeepSeek-R1：通过强化学习激励大语言模型的推理能力

2025-04-12 DeepSeek-R1：通过强化学习激励大语言模型的推理能力

OpenAI o3-mini 与 DeepSeek-R1 在各类基准测试中的大比拼

2025-04-12 OpenAI o3-mini 与 DeepSeek-R1 在各类基准测试中的大比拼

用DeepSeek R1和Ollama构建本地RAG系统，向PDF提问不再是梦！

2025-04-12 用DeepSeek R1和Ollama构建本地RAG系统，向PDF提问不再是梦！

DeepSeek R1重磅开源！一文读懂训练方法与RAG应用搭建

2025-04-12 DeepSeek R1重磅开源！一文读懂训练方法与RAG应用搭建

DeepSeek-R1：通过强化学习激发大语言模型的推理潜能

2025-04-12 DeepSeek-R1：通过强化学习激发大语言模型的推理潜能

微调DeepSeek LLM：使用监督微调（SFT）与Hugging Face数据集的详细指南

2025-04-12 微调DeepSeek LLM：使用监督微调（SFT）与Hugging Face数据集的详细指南

弹