논문 연구 노트

Linear Layouts: F₂ 선형대수로 텐서 연산 코드를 견고하게 생성하기

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2

Keren Zhou, Mario Lezcano-Casado 외 (OpenAI) · ASPLOS 2026

텐서 layout을 F₂ 위의 이진행렬로 모델링해 변환을 행렬곱·역행렬로 일반화. 케이스별 손코딩·N² 폭증·버그를 제거하고 Triton에 통합, 실벤치 평균 1.07×·최대 1.40× 가속.

GPU컴파일러Triton텐서 layoutF₂ 선형대수

자세히 보기 →

GRACE-MoE: 그룹핑·복제와 지역성 인식 라우팅으로 분산 MoE 추론 가속

GRACE-MoE: Grouping and Replication with Locality-Aware Routing for Efficient Distributed MoE Inference

Anonymous (ICLR'26 under review) · ICLR 2026 (under review)

분산 SMoE 추론의 통신 오버헤드와 계산 부하 불균형을 비균일 그룹핑·동적 복제·지역성 라우팅으로 동시에 풀어 최대 3.79× 가속.

MoE분산 추론통신 최적화부하 균형멀티노드

자세히 보기 →

SonicMoE: IO·타일 인식 최적화로 MoE 가속하기

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao · arXiv 2512.14080 (ICLR'26)

Fine-grained·sparse MoE의 메모리·IO 병목을 알고리즘·커널·라우팅 3단으로 풀어, 활성화 메모리 45%↓, H100 forward TFLOPS 43%↑.

MoEGPU 커널학습 효율Hopper/Blackwell

자세히 보기 →