第二支羽毛

ScholarCopilot：借助精准引用训练大语言模型助力学术写作

ScholarCopilot：借助精准引用训练大语言模型助力学术写作在学术写作中，精准引用与优质文本生成至关重要，现有检索 - 增强生成系统却难以满足需求。今天为大家带来一篇研究成果介绍，文中提出的ScholarCopilot框架，能训练大语言模型助力学术写作。它表现如何？又有哪些创新？快来一探究

开源

探索ModernBERT：传统BERT模型的重大升级

探索ModernBERT：传统BERT模型的重大升级这次我们聚焦于ModernBERT，看看它是如何强化上下文嵌入的应用。我们还会讲讲如何生成用于微调的数据集，并展示怎样对ModernBERT进行微调，从而在自然语言处理（NLP）任务中取得更强大的效果。嵌入在机器学习和NLP中的重要性嵌入是机

基础模型

ReaderLM v2：前沿小型语言模型，实现HTML到Markdown和JSON的转换

ReaderLM v2：前沿小型语言模型，实现HTML到Markdown和JSON的转换 ReaderLM的第二代是一款拥有15亿参数的语言模型，它能将原始HTML转换为格式精美的Markdown或JSON，准确率极高，并且在处理更长文本上下文方面表现更佳。ReaderLM-v2的输入和输出总长度支

基础模型

强化自训练（ReST）：让大语言模型更懂你的“心”

强化自训练（ReST）：让大语言模型更懂你的“心” 强化自我训练（Reinforced Self-Training，ReST）是一种简单的算法，它能让大语言模型（LLM）的输出更符合人类的偏好。这种算法的灵感来源于不断发展的批量强化学习（RL）。简单来说，先给大语言模型设定一个初始策略，ReST就可

基础模型

DeepSeek-R1：通过强化学习激励大语言模型的推理能力

DeepSeek-R1：通过强化学习激励大语言模型的推理能力在开始之前，需要了解以下术语。什么是强化学习？强化学习（RL）是一种机器学习方式，人工智能通过采取行动，并根据这些行动获得奖励或惩罚来进行学习，其目标是在一段时间内最大化奖励。举个例子：想象教一个机器人玩游戏，机器人尝试不同的动作，

基础模型

一文读懂 GenPRM：用生成推理扩展过程奖励模型测试时间计算

一文读懂 GenPRM：用生成推理扩展过程奖励模型测试时间计算论文链接代码链接模型链接参考文献：GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning by Zhao et al.

基础模型

大模型论文精选||多智能体微调：通过多样推理链实现自我提升

多智能体微调是一种实现自我提升的补充方法，它将微调应用于语言模型的多智能体群体。一组均基于相同基础模型的语言模型，通过模型间的多智能体交互生成的数据，分别对各个模型进行更新，实现独立的专业化。通过在不同的数据集上训练每个模型，这种方法能够让各个模型实现专业化，并使整个模型集合更加多样化。方法多智

Agent 基础模型

大模型论文精选|| 多 LLM 文本摘要：创新方法与卓越成果

多LLM文本摘要：创新方法与卓越成果论文 https://arxiv.org/abs/2412.15487 Multi-LLM Text Summarization 2412.15487 多LLM摘要框架在每一轮对话中有两个至关重要的步骤：生成和评估。根据使用的是多LLM去中心化摘要还是中心化摘要

LLM架构基础模型

清华 ReST-MCTS*：基于过程奖励引导树搜索的 LLM 自训练深度剖析

基础模型

大模型论文解读：自然语言系统生成文本质量评估新框架： G-Eval

|文末点击阅读原文查看网页版| 更多专栏文章点击查看： LLM 架构专栏

论文大模型