标签：Transformer - 第二支羽毛|吹灭读书灯，一身都是月

万字深度解析 FlashAttention：让 Transformer 效率飙升的神奇算法

本文1W字，FlashAttention 巧妙地重新组织计算方式，通过使注意力计算具备I/O感知能力，最大限度减少慢速内存操作，它能更高效地获得与标准注意力机制相同的结果。我们深入探讨了它如何利用平铺技术将数据保存在片上内存，通过分块进行softmax和矩阵乘法运算，避免将庞大的 $n×n$ 矩阵写

理论基础

一文读懂自动编码器：类型、原理与应用

一文读懂自动编码器：类型、原理与应用近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容 LLM架构专栏知乎LLM专栏

理论基础

深入探索LLM架构，使用pytorch实现Transformer

深入探究架构并利用从RNN到Transformer的NLP模型构建实际应用本系列文章 1. LLM大模型架构专栏|| 从NLP基础谈起 2.LLM大模型架构专栏|| 自然语言处理（NLP）之建模 3. LLM大模型架构之词嵌入（Part1

LLM架构

2w8000字深度解析从 RNN 到 Transformer：构建 NLP 应用的架构演进之路

2w8000字深度解析从RNN到Transformer：构建NLP应用的架构演进之路 📖阅读时长：50分钟 🕙发布时间：2025-01-20 本文28000字，阅读时长~~ 看速度 2025年01月22日晴零下3度 <

LLM架构

LLM架构从基础到精通之注意力机制

LLM架构从基础到精通之注意力机制本文2w字，阅读时长~~ 看速度 2025年01月14日晴零下3度 1. LLM大模型架构专栏|| 从NLP基础谈起 2.LLM大模型架构专栏|| 自然语言处理（NLP）之建模 3. LLM大模型架构之词

LLM架构

LLM架构从基础到精深入探究编码器 - 解码器架构：从 RNN 到 Transformer 的自然语言处理模型及实际应用

LLM架构

深入探究编码器 - 解码器架构：从RNN到Transformer的自然语言处理模型本文1w字，阅读时长~~ 看速度 2025年01月10日晴零下3度 1. LLM大模型架构专栏|| 从NLP基础谈起 2.LLM大模型架构专栏|| 自然语言处理（

弹