📚 논문 연구 노트

읽은 논문을 한국어로 요약·분석한 모바일 노트
EARTH: 엔트로피 인식 speculative prefetch와 패턴 재사용 MoE 가속기
EARTH: An Efficient MoE Accelerator with Entropy-Aware Speculative Prefetch and Pattern Reuse
Fangxin Liu, Ning Yang 외 (SJTU) · ASPLOS 2026
MoE 추론의 진짜 병목인 expert fetch(~88%)를, 가중치 base/delta 분해·speculative prefetch·LUT 패턴 재사용·전용 가속기로 해결. 정확도 유지하며 최대 2.10× 가속.
MoE가속기HW-SW co-designspeculative prefetchoffloading
자세히 보기 →
Linear Layouts: F₂ 선형대수로 텐서 연산 코드를 견고하게 생성하기
Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2
Keren Zhou, Mario Lezcano-Casado 외 (OpenAI) · ASPLOS 2026
텐서 layout을 F₂ 위의 이진행렬로 모델링해 변환을 행렬곱·역행렬로 일반화. 케이스별 손코딩·N² 폭증·버그를 제거하고 Triton에 통합, 실벤치 평균 1.07×·최대 1.40× 가속.
GPU컴파일러Triton텐서 layoutF₂ 선형대수
자세히 보기 →
GRACE-MoE: 그룹핑·복제와 지역성 인식 라우팅으로 분산 MoE 추론 가속
GRACE-MoE: Grouping and Replication with Locality-Aware Routing for Efficient Distributed MoE Inference
Anonymous (ICLR'26 under review) · ICLR 2026 (under review)
분산 SMoE 추론의 통신 오버헤드와 계산 부하 불균형을 비균일 그룹핑·동적 복제·지역성 라우팅으로 동시에 풀어 최대 3.79× 가속.
MoE분산 추론통신 최적화부하 균형멀티노드
자세히 보기 →
SonicMoE: IO·타일 인식 최적화로 MoE 가속하기
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao · arXiv 2512.14080 (ICLR'26)
Fine-grained·sparse MoE의 메모리·IO 병목을 알고리즘·커널·라우팅 3단으로 풀어, 활성화 메모리 45%↓, H100 forward TFLOPS 43%↑.
MoEGPU 커널학습 효율Hopper/Blackwell
자세히 보기 →