万字深度解析 FlashAttention:让 Transformer 效率飙升的神奇算法

本文1W字,FlashAttention 巧妙地重新组织计算方式,通过使注意力计算具备I/O感知能力,最大限度减少慢速内存操作,它能更高效地获得与标准注意力机制相同的结果。我们深入探讨了它如何利用平铺技术将数据保存在片上内存,通过分块进行softmax和矩阵乘法运算,避免将庞大的 $n×n$ 矩阵写

一文读懂自动编码器:类型、原理与应用

一文读懂自动编码器:类型、原理与应用 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏 知乎LLM专栏

ViT功能可视化:探索视觉Transformer学到了什么?

ViT功能可视化:探索视觉Transformer学到了什么

深入探索LLM架构,使用pytorch实现Transformer

深入探究架构并利用从RNN到Transformer的NLP模型构建实际应用 本系列文章 1. LLM大模型架构专栏|| 从NLP基础谈起 2.LLM大模型架构专栏|| 自然语言处理(NLP)之建模 3. LLM大模型架构之词嵌入(Part1

2w8000字深度解析从 RNN 到 Transformer:构建 NLP 应用的架构演进之路

2w8000字深度解析从RNN到Transformer:构建NLP应用的架构演进之路 📖阅读时长:50分钟 🕙发布时间:2025-01-20 本文28000字,阅读时长~~ 看速度 2025年01月22日 晴 零下3度 <

LLM架构从基础到精通之注意力机制

LLM架构从基础到精通之注意力机制 本文2w字,阅读时长~~ 看速度 2025年01月14日 晴 零下3度 1. LLM大模型架构专栏|| 从NLP基础谈起 2.LLM大模型架构专栏|| 自然语言处理(NLP)之建模 3. LLM大模型架构之词

LLM架构从基础到精 深入探究编码器 - 解码器架构:从 RNN 到 Transformer 的自然语言处理模型及实际应用


深入探究编码器 - 解码器架构:从RNN到Transformer的自然语言处理模型 本文1w字,阅读时长~~ 看速度 2025年01月10日 晴 零下3度 1. LLM大模型架构专栏|| 从NLP基础谈起 2.LLM大模型架构专栏|| 自然语言处理(