第二支羽毛

大模型论文精选||多智能体微调：通过多样推理链实现自我提升

多智能体微调是一种实现自我提升的补充方法，它将微调应用于语言模型的多智能体群体。一组均基于相同基础模型的语言模型，通过模型间的多智能体交互生成的数据，分别对各个模型进行更新，实现独立的专业化。通过在不同的数据集上训练每个模型，这种方法能够让各个模型实现专业化，并使整个模型集合更加多样化。方法多智

Agent 基础模型

多LLM文本摘要：创新方法与卓越成果论文 https://arxiv.org/abs/2412.15487 Multi-LLM Text Summarization 2412.15487 多LLM摘要框架在每一轮对话中有两个至关重要的步骤：生成和评估。根据使用的是多LLM去中心化摘要还是中心化摘要

基础模型 LLM架构

基础模型

基础模型

论文与代码论文：https://arxiv.org/abs/2503.19470 代码：https://github.com/Agent-RL/ReSearch 摘要将推理与外部搜索过程集成颇具挑战，尤其是针对复杂多跳问题。本文提出ReSearch框架，通过强化学习训练大语言模型（LLMs）进行