vllm-project · ApsarasX · May 26, 2025 · May 27, 2025
diff --git a/vllm_ascend/models/deepseek_v2.py b/vllm_ascend/models/deepseek_v2.py
@@ -222,21 +222,18 @@ def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
         else:
             is_prefill = attn_metadata.num_prefills > 0
             enable_force_load_balance = False
-        num_tokens, hidden_dim = hidden_states.shape
+        num_tokens, hidden_size = hidden_states.shape
 
         if self.n_shared_experts is not None:
             shared_output = self.shared_experts(hidden_states)
 
         if self.tp_size > 1:
-            # pass
-            num_tokens, hidden_size = hidden_states.shape
-            if num_tokens < self.tp_size:
-                target_size = self.tp_size
-                new_hidden_states = torch.empty([target_size, hidden_size],
-                                                dtype=hidden_states.dtype,
-                                                device=hidden_states.device)
-                new_hidden_states[:num_tokens] = hidden_states
-                hidden_states = new_hidden_states
+            num_padding_tokens = (self.tp_size -
+                                  num_tokens % self.tp_size) % self.tp_size
+            # Pad hidden_states to make it divisible by tp_size to avoid cross-ring AllGatherV on 910B2C
+            if num_padding_tokens > 0:
+                hidden_states = nn.functional.pad(
+                    hidden_states, (0, 0, 0, num_padding_tokens))
             chunk_hidden_states = torch.tensor_split(hidden_states,
                                                      self.tp_size,
                                                      dim=0)
@@ -259,15 +256,15 @@ def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
             dist.all_gather(list(chunk_hidden_states), router_hidden_states,
                             self.tp_group)
             final_hidden_states = torch.cat(chunk_hidden_states, dim=0)
-            if num_tokens < self.tp_size:
-                final_hidden_states = final_hidden_states[:num_tokens]
+            if num_padding_tokens > 0:
+                final_hidden_states = final_hidden_states[:-num_padding_tokens]
         else:
             final_hidden_states = router_hidden_states
 
         if shared_output is not None:
             final_hidden_states = final_hidden_states + shared_output
 
-        return final_hidden_states.view(num_tokens, hidden_dim)
+        return final_hidden_states.view(num_tokens, hidden_size)
 
 
 class CustomDeepseekV2MLAAttention(DeepseekV2MLAAttention):