宇宙
生活
随笔
大模型
RAG
强化学习
Agent
LLM架构
论文
论文速递
机器学习
多模态
基础模型
理论基础
开源
大模型
强化学习
Agent
LLM架构
论文
机器学习
多模态
基础模型
知识库
分类
标签
归档
上网导航
1
2W8000字读懂GPT全家桶:从GPT-1到O1的技术演进与突破
2
强化学习详解第三部分:蒙特卡洛与时间差分学习,从经验中学习
3
2W8000字深度剖析25种RAG变体
4
万字解析非结构化文档中的隐藏价值:多模态检索增强生成(RAG)的前景
5
2w字解析量化技术,全网最全的大模型量化技术解析
登录
柏企
吹灭读书灯,一身都是月
累计撰写
95
篇文章
累计创建
16
个分类
累计收获
161
个点赞
导航
宇宙
生活
随笔
大模型
RAG
强化学习
Agent
LLM架构
论文
论文速递
机器学习
多模态
基础模型
理论基础
开源
大模型
强化学习
Agent
LLM架构
论文
机器学习
多模态
基础模型
知识库
分类
标签
归档
上网导航
目录
标签
论文
ScholarCopilot:借助精准引用训练大语言模型助力学术写作
ScholarCopilot:借助精准引用训练大语言模型助力学术写作 在学术写作中,精准引用与优质文本生成至关重要,现有检索 - 增强生成系统却难以满足需求。今天为大家带来一篇研究成果介绍,文中提出的ScholarCopilot框架,能训练大语言模型助力学术写作。它表现如何?又有哪些创新?快来一探究
2025-04-13 19:29
9
0
3
30.9℃
开源
探索ModernBERT:传统BERT模型的重大升级
探索ModernBERT:传统BERT模型的重大升级 这次我们聚焦于ModernBERT,看看它是如何强化上下文嵌入的应用。我们还会讲讲如何生成用于微调的数据集,并展示怎样对ModernBERT进行微调,从而在自然语言处理(NLP)任务中取得更强大的效果。 嵌入在机器学习和NLP中的重要性 嵌入是机
2025-04-12 22:17
2
0
1
26.2℃
基础模型
ReaderLM v2:前沿小型语言模型,实现HTML到Markdown和JSON的转换
ReaderLM v2:前沿小型语言模型,实现HTML到Markdown和JSON的转换 ReaderLM的第二代是一款拥有15亿参数的语言模型,它能将原始HTML转换为格式精美的Markdown或JSON,准确率极高,并且在处理更长文本上下文方面表现更佳。ReaderLM-v2的输入和输出总长度支
2025-04-12 22:04
5
0
2
28.5℃
基础模型
强化自训练(ReST):让大语言模型更懂你的“心”
强化自训练(ReST):让大语言模型更懂你的“心” 强化自我训练(Reinforced Self-Training,ReST)是一种简单的算法,它能让大语言模型(LLM)的输出更符合人类的偏好。这种算法的灵感来源于不断发展的批量强化学习(RL)。简单来说,先给大语言模型设定一个初始策略,ReST就可
2025-04-12 21:37
2
0
2
28.2℃
基础模型
DeepSeek-R1:通过强化学习激励大语言模型的推理能力
DeepSeek-R1:通过强化学习激励大语言模型的推理能力 在开始之前,需要了解以下术语。 什么是强化学习? 强化学习(RL)是一种机器学习方式,人工智能通过采取行动,并根据这些行动获得奖励或惩罚来进行学习,其目标是在一段时间内最大化奖励。 举个例子:想象教一个机器人玩游戏,机器人尝试不同的动作,
2025-04-12 21:12
2
0
0
24.2℃
基础模型
一文读懂 GenPRM:用生成推理扩展过程奖励模型测试时间计算
一文读懂 GenPRM:用生成推理扩展过程奖励模型测试时间计算 论文链接 代码链接 模型链接 参考文献:GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning by Zhao et al.
2025-04-12 13:57
4
0
0
24.4℃
基础模型
大模型论文精选||多智能体微调:通过多样推理链实现自我提升
多智能体微调是一种实现自我提升的补充方法,它将微调应用于语言模型的多智能体群体。一组均基于相同基础模型的语言模型,通过模型间的多智能体交互生成的数据,分别对各个模型进行更新,实现独立的专业化。通过在不同的数据集上训练每个模型,这种方法能够让各个模型实现专业化,并使整个模型集合更加多样化。 方法 多智
2025-04-10 20:45
9
0
4
32.9℃
Agent
基础模型
大模型论文精选|| 多 LLM 文本摘要:创新方法与卓越成果
多LLM文本摘要:创新方法与卓越成果 论文 https://arxiv.org/abs/2412.15487 Multi-LLM Text Summarization 2412.15487 多LLM摘要框架在每一轮对话中有两个至关重要的步骤:生成和评估。根据使用的是多LLM去中心化摘要还是中心化摘要
2025-04-10 20:39
9
0
1
26.9℃
LLM架构
基础模型
清华 ReST-MCTS*:基于过程奖励引导树搜索的 LLM 自训练深度剖析
2025-04-09 16:45
11
0
1
27.1℃
基础模型
大模型论文解读:自然语言系统生成文本质量评估新框架: G-Eval
|文末点击阅读原文查看网页版| 更多专栏文章点击查看: LLM 架构专栏
2025-03-31 18:58
32
0
3
33.2℃
论文
大模型
上一页
下一页
1
2
弹