논문 연구 노트

Hydra: 전문가 인기도를 활용해 칩렛 시스템에서 MoE 추론을 가속하기

Hydra: Harnessing Expert Popularity for Efficient Mixture-of-Expert Inference on Chiplet System

Siqi He, Haozhe Zhu 외 (Fudan University, SKLICS) · DAC 2025 (62nd ACM/IEEE Design Automation Conference)

칩렛(MCM) 기반 MoE 추론의 두 병목 — all-to-all 통신과 (un)permutation·gating 비효율 — 을 SW·HW 코디자인으로 동시 공략. 인접 layer 전문가 상관성으로 인기도를 예측해 매핑을 최적화(통신↓), CAM 병렬검색으로 O(S²M) permutation 제거, softmax skipping으로 중복 연산 제거. 22nm 4×4 칩렛으로 GPU 대비 지연 14.2×↓·전력 169.1×↓, SOTA 가속기 대비 3.5×·18.9×↓(무손실).

MoE칩렛HW-SW co-design가속기통신 최적화

자세히 보기 →

Speculative MoE: 토큰·전문가를 미리 예측·배치해 MoE 추론 통신을 줄이기

Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling

Yan Li, Pengfei Zheng 외 (Huawei Technology) · ICML 2025 (arXiv:2503.04398)

MoE 추론의 진짜 병목인 EP all-to-all 통신을, 각 토큰의 라우팅 경로를 미리 예측해 토큰(s-TS)과 전문가(s-EG)를 같은 장치에 사전 배치함으로써 lossless하게 절감. 로컬 활성화율을 +43~61% 올려 DeepSpeed-MoE 대비 처리량 최대 6.5×↑.

MoE분산 추론통신 최적화speculativeExpert Parallelism

자세히 보기 →

FineMoE: 토큰 스케줄링과 선형계획법으로 MoE를 미세 부하균형하기

FineMoE: Fine-grained Load Balancing for Mixture-of-Experts with Token Scheduling

Chenqi Zhao, Wenfei Wu, Yuchen Xu, Yitao Yuan (Peking Univ.), Linhai Song (ICT, CAS) · arXiv 2511.16947 (2026)

전문가가 아니라 토큰을 옮긴다 — 같은 전문가의 복제본(EDP group) 사이로 매 micro-batch마다 LP로 토큰을 재분배하고 전문가 배치를 셔플(그래프 이론)해 GPU 부하를 완전 균형. 정확도 손실 없이 Megatron-LM 대비 학습 처리량 최대 47.6%↑.

MoE분산 학습부하 균형선형계획법Expert Parallelism

자세히 보기 →

EARTH: 엔트로피 인식 speculative prefetch와 패턴 재사용 MoE 가속기

EARTH: An Efficient MoE Accelerator with Entropy-Aware Speculative Prefetch and Pattern Reuse

Fangxin Liu, Ning Yang 외 (SJTU) · ASPLOS 2026

MoE 추론의 진짜 병목인 expert fetch(~88%)를, 가중치 base/delta 분해·speculative prefetch·LUT 패턴 재사용·전용 가속기로 해결. 정확도 유지하며 최대 2.10× 가속.

MoE가속기HW-SW co-designspeculative prefetchoffloading

자세히 보기 →

Linear Layouts: F₂ 선형대수로 텐서 연산 코드를 견고하게 생성하기

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2

Keren Zhou, Mario Lezcano-Casado 외 (OpenAI) · ASPLOS 2026

텐서 layout을 F₂ 위의 이진행렬로 모델링해 변환을 행렬곱·역행렬로 일반화. 케이스별 손코딩·N² 폭증·버그를 제거하고 Triton에 통합, 실벤치 평균 1.07×·최대 1.40× 가속.

GPU컴파일러Triton텐서 layoutF₂ 선형대수

자세히 보기 →

GRACE-MoE: 그룹핑·복제와 지역성 인식 라우팅으로 분산 MoE 추론 가속

GRACE-MoE: Grouping and Replication with Locality-Aware Routing for Efficient Distributed MoE Inference

Anonymous (ICLR'26 under review) · ICLR 2026 (under review)

분산 SMoE 추론의 통신 오버헤드와 계산 부하 불균형을 비균일 그룹핑·동적 복제·지역성 라우팅으로 동시에 풀어 최대 3.79× 가속.

MoE분산 추론통신 최적화부하 균형멀티노드

자세히 보기 →

SonicMoE: IO·타일 인식 최적화로 MoE 가속하기

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao · arXiv 2512.14080 (ICLR'26)

Fine-grained·sparse MoE의 메모리·IO 병목을 알고리즘·커널·라우팅 3단으로 풀어, 활성화 메모리 45%↓, H100 forward TFLOPS 43%↑.

MoEGPU 커널학습 효율Hopper/Blackwell

자세히 보기 →