Hydra: 전문가 인기도를 활용해 칩렛 시스템에서 MoE 추론을 가속하기
Hydra: Harnessing Expert Popularity for Efficient Mixture-of-Expert Inference on Chiplet System
칩렛(MCM) 기반 MoE 추론의 두 병목 — all-to-all 통신과 (un)permutation·gating 비효율 — 을 SW·HW 코디자인으로 동시 공략. 인접 layer 전문가 상관성으로 인기도를 예측해 매핑을 최적화(통신↓), CAM 병렬검색으로 O(S²M) permutation 제거, softmax skipping으로 중복 연산 제거. 22nm 4×4 칩렛으로 GPU 대비 지연 14.2×↓·전력 169.1×↓, SOTA 가속기 대비 3.5×·18.9×↓(무손실).
자세히 보기 →
Speculative MoE: 토큰·전문가를 미리 예측·배치해 MoE 추론 통신을 줄이기
Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling
MoE 추론의 진짜 병목인 EP all-to-all 통신을, 각 토큰의 라우팅 경로를 미리 예측해 토큰(s-TS)과 전문가(s-EG)를 같은 장치에 사전 배치함으로써 lossless하게 절감. 로컬 활성화율을 +43~61% 올려 DeepSpeed-MoE 대비 처리량 최대 6.5×↑.
자세히 보기 →
FineMoE: 토큰 스케줄링과 선형계획법으로 MoE를 미세 부하균형하기
FineMoE: Fine-grained Load Balancing for Mixture-of-Experts with Token Scheduling
전문가가 아니라 토큰을 옮긴다 — 같은 전문가의 복제본(EDP group) 사이로 매 micro-batch마다 LP로 토큰을 재분배하고 전문가 배치를 셔플(그래프 이론)해 GPU 부하를 완전 균형. 정확도 손실 없이 Megatron-LM 대비 학습 처리량 최대 47.6%↑.
자세히 보기 →
EARTH: 엔트로피 인식 speculative prefetch와 패턴 재사용 MoE 가속기
EARTH: An Efficient MoE Accelerator with Entropy-Aware Speculative Prefetch and Pattern Reuse
MoE 추론의 진짜 병목인 expert fetch(~88%)를, 가중치 base/delta 분해·speculative prefetch·LUT 패턴 재사용·전용 가속기로 해결. 정확도 유지하며 최대 2.10× 가속.
자세히 보기 →
Linear Layouts: F₂ 선형대수로 텐서 연산 코드를 견고하게 생성하기
Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2
텐서 layout을 F₂ 위의 이진행렬로 모델링해 변환을 행렬곱·역행렬로 일반화. 케이스별 손코딩·N² 폭증·버그를 제거하고 Triton에 통합, 실벤치 평균 1.07×·최대 1.40× 가속.
자세히 보기 →
GRACE-MoE: 그룹핑·복제와 지역성 인식 라우팅으로 분산 MoE 추론 가속
GRACE-MoE: Grouping and Replication with Locality-Aware Routing for Efficient Distributed MoE Inference
분산 SMoE 추론의 통신 오버헤드와 계산 부하 불균형을 비균일 그룹핑·동적 복제·지역성 라우팅으로 동시에 풀어 최대 3.79× 가속.
자세히 보기 →
SonicMoE: IO·타일 인식 최적화로 MoE 가속하기
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Fine-grained·sparse MoE의 메모리·IO 병목을 알고리즘·커널·라우팅 3단으로 풀어, 활성화 메모리 45%↓, H100 forward TFLOPS 43%↑.
자세히 보기 →