[Bugfix] [ROCm]: Remove assertion logic when using AITER fused moe in unquantizedMethod to reenable LLama4 BF16 (vllm-project#18205)

tjtanaa · gshtras · commit 4b7b2fcf3eda · 2025-05-15T20:55:33.000Z
Signed-off-by: tjtanaa &lt;tunjian.tan@embeddedllm.com&gt;
Signed-off-by: Gregory Shtrasberg &lt;Gregory.Shtrasberg@amd.com&gt;
diff --git a/vllm/model_executor/layers/fused_moe/layer.py b/vllm/model_executor/layers/fused_moe/layer.py
@@ -503,7 +503,6 @@ def forward_cuda(
             indices_type=torch.uint32 if self.moe.use_pplx_kernels else None)
 
         if self.rocm_aiter_moe_enabled:
-            assert not apply_router_weight_on_input
             assert expert_map is None
             return self.rocm_aiter_fused_experts(
                 hidden_states=x,