169 字
1 分钟
Kimi 发布 Linear 架构技术报告,性能超越全注意力机制

Kimi 发布 Linear 架构技术报告,性能超越全注意力机制#

月之暗面公司发布 Kimi Linear 技术报告,推出新型架构在保持更快速度和更好性能的同时超越全注意力机制。该架构可作为全注意力机制的直接替代品,并开源了 KDA 内核。 Kimi Linear 在 100 万上下文长度下可减少高达 75% 的 KV 缓存使用量,解码吞吐量提升最多 6 倍。核心亮点包括硬件高效的线性注意力机制 Kimi Delta Attention,以及首个在各方面超越纯全注意力质量的混合线性架构。 |

Github

Kimi 发布 Linear 架构技术报告,性能超越全注意力机制
https://blog.kismetpro.ggff.net/posts/kjpd36896/
作者
KismetPro
发布于
2025-10-31
许可协议
CC BY-NC-SA 4.0