Linear Layouts: F₂ 선형대수로 텐서 연산 코드를 견고하게 생성하기
Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2
텐서 layout을 F₂ 위의 이진행렬로 모델링해 변환을 행렬곱·역행렬로 일반화. 케이스별 손코딩·N² 폭증·버그를 제거하고 Triton에 통합, 실벤치 평균 1.07×·최대 1.40× 가속.
자세히 보기 →
GRACE-MoE: 그룹핑·복제와 지역성 인식 라우팅으로 분산 MoE 추론 가속
GRACE-MoE: Grouping and Replication with Locality-Aware Routing for Efficient Distributed MoE Inference
분산 SMoE 추론의 통신 오버헤드와 계산 부하 불균형을 비균일 그룹핑·동적 복제·지역성 라우팅으로 동시에 풀어 최대 3.79× 가속.
자세히 보기 →
SonicMoE: IO·타일 인식 최적화로 MoE 가속하기
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
Fine-grained·sparse MoE의 메모리·IO 병목을 알고리즘·커널·라우팅 3단으로 풀어, 활성화 메모리 45%↓, H100 forward TFLOPS 43%↑.
자세히 보기 →