---
id: 20260509-T0-06
title: "多模态MoE推理瓶颈破解：MACS按模态分配算力，消除专家并行拖后腿"
title_en: "MACS Scales MoE Capacity by Modality to Fix Multimodal Inference Stragglers"
url: https://ai.daily.yangsir.net/daily/20260509-T0-06
issue_date: 2026-05-09
publish_date: 2026-05-08T04:00:00.000Z
source_name: "arXiv cs.LG (ML)"
source_url: https://arxiv.org/abs/2605.05225
---

# 多模态MoE推理瓶颈破解：MACS按模态分配算力，消除专家并行拖后腿

多模态MoE大模型在专家并行推理时面临严重效率瓶颈：不同模态的token激活的专家数量差异巨大，导致部分GPU负载不均（拖后腿效应）。现有token级路由策略无法解决这个模态间的不平衡。MACS方案按模态感知来动态分配专家容量，让各GPU负载均衡。实测在多模态推理场景下推理速度显著提升，适用于部署多模态MoE模型的推理服务。

## English Version

**MACS Scales MoE Capacity by Modality to Fix Multimodal Inference Stragglers**

Multimodal MoE LLMs face severe efficiency bottlenecks during expert parallelism: different modalities activate wildly different numbers of experts, causing GPU load imbalance. MACS dynamically allocates expert capacity based on modality awareness, balancing load across GPUs. Tests show significant inference speedup for multimodal MoE serving.

---

**来源**：[arXiv cs.LG (ML)](https://arxiv.org/abs/2605.05225)

**详情页**：https://ai.daily.yangsir.net/daily/20260509-T0-06

---

*智语观潮 · Daily — https://ai.daily.yangsir.net/llms.txt*