169 字
1 分钟
Kimi 发布 Linear 架构技术报告,性能超越全注意力机制
Kimi 发布 Linear 架构技术报告,性能超越全注意力机制
月之暗面公司发布 Kimi Linear 技术报告,推出新型架构在保持更快速度和更好性能的同时超越全注意力机制。该架构可作为全注意力机制的直接替代品,并开源了 KDA 内核。 Kimi Linear 在 100 万上下文长度下可减少高达 75% 的 KV 缓存使用量,解码吞吐量提升最多 6 倍。核心亮点包括硬件高效的线性注意力机制 Kimi Delta Attention,以及首个在各方面超越纯全注意力质量的混合线性架构。 |
Github
Kimi 发布 Linear 架构技术报告,性能超越全注意力机制
https://blog.kismetpro.ggff.net/posts/kjpd36896/