几乎逼近了国产算力imToken钱包下载上MoE集群推理的性能上限

作者： im钱包官网来源：网络整理次浏览日期：2025-06-04 13:16

在“飞星一号”平台上实现了MoE模型集群推理性能的显著提升，联合团队在“飞星一号”平台上对星火MoE模型、DeepSeekV3/R1进行了实测，实现了多DP负载均衡。

科大讯飞与华为昇腾携手。

科大讯飞华为联手，“飞星一号”MoE模型集群推理性能翻倍打破

提升幅度到达10%，。

标记着国产算力在AI领域的应用迈出了重要一步，测试成果显示，imToken，卡间负载均衡差别小于8%，，推理性能相较于上一个版本有了显著提升。

联合团队还创新性地实现了异步双发射技术，联合团队针对MoE模型的特性，他们还对专家负载均衡算法进行了升级，im官网，同时，乐成将MoE模型在“飞星一号”平台上的集群推理性能翻倍，联合团队还在国产算力上实现了MTP多token预测技术，基于上述一系列创新解决方案的迭代与升级。

有效消除了集合通信流量辩论。

通过降低处事请求调度耗时，这一打破性进展无疑为国产算力在AI领域的应用注入了新的活力，这一技术有效解决了高并发下的高CPU负载问题，整体性能提升凌驾30%，解决了推理过程中Prefill阶段和Decode阶段的彼此干扰问题，系统性能得到了进一步提升，实现了CPU和NPU的高效协同。

这一成绩不只彰显了国产算力在处理惩罚复杂AI任务方面的潜力，这一技术的引入显著降低了MTP层的计算耗时，他们通过定制集合通信协议，性能提升凌驾20%，更为AI技术的广泛应用提供了有力支持，双方联合团队通过一系列创新优化手段，几乎迫近了国产算力上MoE集群推理的性能上限，集群推理吞吐性能因此提升了30%以上。

这一打破性进展，这一创新举措使得P实例和D实例均到达了系统最优状态。

据悉，在此次优化过程中，升级了PD分离+大规模专家并行系统解决方案。