资讯

昇腾生态助力上交大突破超长上下文推理难题，性能飞跃引领新篇章

更新日期：2025-11-26
查看次数：5284

昇腾生态为上交大提供硬核赋能，成功攻克超长上下文推理难题，实现性能大幅跃升。这一成果将有助于推动相关领域的技术发展和应用拓展。

随着大语言模型在文本分析、智能问答等场景的广泛应用，处理1M超长文本推理时，常常面临显存不足、运算速度卡顿的行业痛点，严重限制了超长文本场景的应用。近日，上海交通大学李健教授团队依托上海交通大学鲲鹏昇腾科教创新卓越中心的算力支持，基于vLLM-Ascend 推理框架研发出一套针对超长上下文推理的稀疏注意力 KV Cache 分层缓存管理系统。在昇腾 AI 软硬件平台的全方位赋能下，该项目成功破解单卡支持超长上下文推理的显存与性能双重难题，同时大幅提升吞吐量。

[MD:Title]

项目核心创新在于设计了 KV Cache 分级缓存集成机制。该机制先对推理任务进行实时分析，智能识别Top-K 重要块并集中算力处理，从源头提升计算效率；同时采用数据冷热分层存储策略，根据数据访问频率，将生成数据动态划分为高频热数据与低频冷数据，再针对性优化存储位置，减少资源浪费。这一机制的落地依托昇腾CANN异构计算架构灵活的动态调度能力，能精准控制冷热数据在显存与主存间的流转，大幅降低数据迁移开销。最终，该方案实现单卡流畅处理超过1M的超长文本推理任务，系统推理吞吐量超过39%，彻底突破传统系统在长序列处理上的显存与性能瓶颈。

同时项目进行了元数据结构优化与缓存机制设计，其中数据索引与掩码是关键支撑 —— 通过精简索引结构、合并掩码维护步骤，有效减少重复运算，使昇腾NPU算力更集中于注意力计算与文本生成等核心任务，提升硬件利用效率。相关优化已通过vLLM-Ascend推理框架灵活集成，保障了技术方案的顺利落地。

目前，该项目源代码已在 Gitee 社区中开源，后续将进一步推送到昇腾开源生态，合入GitHub社区 vLLM-Ascend 项目专区。此次技术突破，不仅为超长文本推理提供了高效解决方案，更印证了昇腾生态在AI创新中的赋能价值。未来，随着该系统在更多行业场景的落地，昇腾将持续为AI技术研发提供算力与技术保障，推动大语言模型在长文本分析、智能办公、数字孪生等千行百业的深度应用，加速人工智能产业化进程。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

资讯

昇腾生态助力上交大突破超长上下文推理难题，性能飞跃引领新篇章

如何在 Windows 11 中关闭或禁用 Microsoft Defender 防火墙？

如何使用U盘恢复软件扫描并从损坏的USB设备恢复数据？

抖音头像更换指南，如何更换长久未变的抖音头像

AI芯片市场预计明年增长6倍，百度回应昆仑芯上市计划的不确定性

网站分类

搜索

最新留言

文章归档

友情链接

特别推荐

文章推荐

已收录人气软件

还有更赞的我来推荐

资讯

昇腾生态助力上交大突破超长上下文推理难题，性能飞跃引领新篇章

如何在 Windows 11 中关闭或禁用 Microsoft Defender 防火墙？

如何使用U盘恢复软件扫描并从损坏的USB设备恢复数据？

抖音头像更换指南，如何更换长久未变的抖音头像

AI芯片市场预计明年增长6倍，百度回应昆仑芯上市计划的不确定性

网站分类

搜索

最新留言

文章归档

友情链接

特别推荐

文章推荐

已收录人气软件

还有更赞的 我来推荐

还有更赞的我来推荐