All CI/CD support matrix of targets (#402)

geomin12 · web-flow · commit 0dfb440f7891 · 2025-04-22T14:38:13.000-07:00
Rest of the workflows (`portable_linux_package_matrix.yml` and `publish_pytorch_dev_docker.yml`) support the matrix! Did some organization as well Closes #221 Builds passing here for [pytorch docker](https://github.com/ROCm/TheRock/actions/runs/14406918426) and [portable linux packages](https://github.com/ROCm/TheRock/actions/runs/14406921335)
diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
@@ -57,7 +57,7 @@ jobs:
         families: ${{ fromJSON(needs.setup.outputs.build_linux_amdgpu_families) }}
     uses: ./.github/workflows/build_linux_packages.yml
     with:
-      amdgpu_families: ${{ matrix.families.target }}
+      amdgpu_families: ${{ matrix.families.family }}
     permissions:
       id-token: write
 
@@ -71,7 +71,7 @@ jobs:
         families: ${{ fromJSON(needs.setup.outputs.build_windows_amdgpu_families) }}
     uses: ./.github/workflows/build_windows_packages.yml
     with:
-      amdgpu_families: ${{ matrix.families.target }}
+      amdgpu_families: ${{ matrix.families.family }}
 
   test_linux_packages:
     needs: [setup, build_linux_packages]
@@ -89,7 +89,7 @@ jobs:
         families: ${{ fromJSON(needs.setup.outputs.test_linux_amdgpu_families) }}
     uses: ./.github/workflows/test_linux_packages.yml
     with:
-      amdgpu_families: ${{ matrix.families.target }}
+      amdgpu_families: ${{ matrix.families.family }}
       test_runs_on: ${{ matrix.families.test-runs-on }}
       artifact_run_id: ${{ inputs.artifact_run_id }}
 
diff --git a/.github/workflows/portable_linux_package_matrix.yml b/.github/workflows/portable_linux_package_matrix.yml
@@ -33,6 +33,7 @@ jobs:
     runs-on: ubuntu-24.04
     outputs:
       version: ${{ steps.version.outputs.version }}
+      package_targets: ${{ steps.configure.outputs.package_targets }}
     steps:
       - name: Checkout repository
         uses: actions/checkout@11bd71901bbe5b1630ceea73d27597364c9af683 # v4.2.2
@@ -60,6 +61,12 @@ jobs:
           base_version=$(jq -r '.["rocm-version"]' version.json)
           echo "version=${base_version}${version_suffix}" >> $GITHUB_OUTPUT
 
+      - name: Generating package target matrix
+        id: configure
+        env:
+          PYTORCH_DEV_DOCKER: "false"
+        run: python ./build_tools/github_action/fetch_package_targets.py
+
   portable_linux_packages:
     name: ${{ matrix.target_bundle.amdgpu_family }}::Build Portable Linux
     runs-on: ${{ github.repository_owner == 'ROCm' && 'azure-linux-scale-rocm' || 'ubuntu-24.04' }}
@@ -76,11 +83,7 @@ jobs:
     strategy:
       fail-fast: false
       matrix:
-        target_bundle:
-          - amdgpu_family: "gfx94X-dcgpu"
-          - amdgpu_family: "gfx110X-dgpu"
-          - amdgpu_family: "gfx1151"
-          - amdgpu_family: "gfx1201"
+        target_bundle: ${{ fromJSON(needs.setup_metadata.outputs.package_targets) }}
 
     steps:
       - name: "Checking out repository"
diff --git a/.github/workflows/publish_pytorch_dev_docker.yml b/.github/workflows/publish_pytorch_dev_docker.yml
@@ -3,21 +3,34 @@ on:
   workflow_dispatch:
   schedule:
     - cron: "0 2 * * *" # Runs nightly at 2 AM UTC
+
 jobs:
+  setup_metadata:
+    runs-on: ubuntu-24.04
+    outputs:
+      package_targets: ${{ steps.configure.outputs.package_targets }}
+    steps:
+      - name: Checkout repository
+        uses: actions/checkout@11bd71901bbe5b1630ceea73d27597364c9af683 # v4.2.2
+
+      - name: Generating package target matrix
+        id: configure
+        env:
+          PYTORCH_DEV_DOCKER: "true"
+        run: python ./build_tools/github_action/fetch_package_targets.py
+
   build-and-push-image:
     strategy:
       fail-fast: false
       matrix:
-        targets:
-          - amdgpu_target: "gfx942"
-          - amdgpu_target: "gfx1100"
-          - amdgpu_target: "gfx1201"
+        targets: ${{ fromJSON(needs.setup_metadata.outputs.package_targets) }}
 
-    name: ${{ matrix.targets.amdgpu_target }}::Build
+    name: ${{ matrix.targets.amdgpu_family }}::Build
     runs-on: azure-linux-scale-rocm
+    needs: [setup_metadata]
     env:
       REGISTRY: ghcr.io
-      IMAGE_NAME: ROCm/therock_pytorch_dev_ubuntu_24_04_${{ matrix.targets.amdgpu_target }}
+      IMAGE_NAME: ROCm/therock_pytorch_dev_ubuntu_24_04_${{ matrix.targets.amdgpu_family }}
     # Sets the permissions granted to the `GITHUB_TOKEN` for the actions in this job.
     permissions:
       contents: read
@@ -56,7 +69,7 @@ jobs:
       # It uses the `tags` and `labels` parameters to tag and label the image with the output from the "meta" step.
           labels: |
             org.opencontainers.image.title=PyTorch ROCm Dev Image
-            org.opencontainers.image.description=Nightly ROCm PyTorch Dev Docker for target ${{ matrix.targets.amdgpu_target }}
+            org.opencontainers.image.description=Nightly ROCm PyTorch Dev Docker for target ${{ matrix.targets.amdgpu_family }}
             org.opencontainers.image.version=${{ env.VERSION }}
             org.opencontainers.image.created=${{ steps.meta.outputs.created }}
             org.opencontainers.image.revision=${{ github.sha }}
@@ -66,7 +79,7 @@ jobs:
           context: .
           file: dockerfiles/pytorch-dev/pytorch_dev_ubuntu_24.04.Dockerfile
           build-args: |
-            AMDGPU_TARGETS=${{ matrix.targets.amdgpu_target }}
+            AMDGPU_TARGETS=${{ matrix.targets.amdgpu_family }}
           push: true
           tags: ${{ steps.meta.outputs.tags }}
           labels: ${{ steps.meta.outputs.labels }}
diff --git a/.github/workflows/setup.yml b/.github/workflows/setup.yml
@@ -57,4 +57,4 @@ jobs:
           INPUT_BUILD_WINDOWS_AMDGPU_FAMILIES: ${{ github.event.inputs.build_windows_amdgpu_families }}
           INPUT_TEST_LINUX_AMDGPU_FAMILIES: ${{ github.event.inputs.test_linux_amdgpu_families }}
           INPUT_TEST_WINDOWS_AMDGPU_FAMILIES: ${{ github.event.inputs.test_windows_amdgpu_families }}
-        run: ./build_tools/configure_ci.py
+        run: ./build_tools/github_action/configure_ci.py
diff --git a/.github/workflows/test_release_packages.yml b/.github/workflows/test_release_packages.yml
@@ -25,7 +25,7 @@ jobs:
         id: configure
         env:
           TARGET: ${{ inputs.target }}
-        run: python ./build_tools/configure_target_run.py
+        run: python ./build_tools/github_action/configure_target_run.py
 
 
   test_release_packages:
diff --git a/build_tools/github_action/amdgpu_family_matrix.py b/build_tools/github_action/amdgpu_family_matrix.py
@@ -0,0 +1,37 @@
+"""
+This AMD GPU Family Matrix is the "source of truth" for GitHub workflows, indicating which families and test runners are available to use
+"""
+
+amdgpu_family_info_matrix = {
+    "gfx94x": {
+        "linux": {
+            "test-runs-on": "linux-mi300-1gpu-ossci-rocm",
+            "family": "gfx94X-dcgpu",
+            "pytorch-target": "gfx942",
+        }
+    },
+    "gfx110x": {
+        "linux": {
+            "test-runs-on": "",
+            "family": "gfx110X-dgpu",
+            "pytorch-target": "gfx1100",
+        },
+        "windows": {
+            "test-runs-on": "",
+            "family": "gfx110X-dgpu",
+        },
+    },
+    "gfx115x": {
+        "linux": {
+            "test-runs-on": "",
+            "family": "gfx1151",
+        }
+    },
+    "gfx120x": {
+        "linux": {
+            "test-runs-on": "",
+            "family": "gfx120X-all",
+            "pytorch-target": "gfx1201",
+        }
+    },
+}
diff --git a/build_tools/github_action/configure_ci.py b/build_tools/github_action/configure_ci.py
@@ -46,6 +46,7 @@
 import sys
 from typing import Iterable, List, Mapping, Optional
 import string
+from amdgpu_family_matrix import amdgpu_family_info_matrix
 
 # --------------------------------------------------------------------------- #
 # General utilities
@@ -186,25 +187,6 @@ def should_ci_run_given_modified_paths(paths: Optional[Iterable[str]]) -> bool:
 # Matrix creation logic based on PR, push or workflow_dispatch
 # --------------------------------------------------------------------------- #
 
-amdgpu_family_info_matrix = {
-    "gfx94x": {
-        "linux": {
-            "test-runs-on": "linux-mi300-1gpu-ossci-rocm",
-            "target": "gfx94X-dcgpu",
-        }
-    },
-    "gfx110x": {
-        "linux": {
-            "test-runs-on": "",
-            "target": "gfx110X-dgpu",
-        },
-        "windows": {
-            "test-runs-on": "",
-            "target": "gfx110X-dgpu",
-        },
-    },
-}
-
 DEFAULT_LINUX_CONFIGURATIONS = ["gfx94X", "gfx110X"]
 DEFAULT_WINDOWS_CONFIGURATIONS = ["gfx110X"]
 
@@ -363,10 +345,10 @@ def main(base_args, build_families, test_families):
     write_job_summary(
         f"""## Workflow configure results
 
-* `build_linux_amdgpu_families`: {str([item.get("target") for item in build_linux_target_output])}
-* `build_windows_amdgpu_families`: {str([item.get("target") for item in build_windows_target_output])}
-* `test_linux_amdgpu_families`: {str([item.get("target") for item in test_linux_target_output])}
-* `test_windows_amdgpu_families`: {str([item.get("target") for item in test_windows_target_output])}
+* `build_linux_amdgpu_families`: {str([item.get("family") for item in build_linux_target_output])}
+* `build_windows_amdgpu_families`: {str([item.get("family") for item in build_windows_target_output])}
+* `test_linux_amdgpu_families`: {str([item.get("family") for item in test_linux_target_output])}
+* `test_windows_amdgpu_families`: {str([item.get("family") for item in test_windows_target_output])}
     """
     )
 
diff --git a/build_tools/github_action/configure_ci_test.py b/build_tools/github_action/configure_ci_test.py
@@ -1,6 +1,4 @@
 from unittest import TestCase, main
-import os
-
 import configure_ci
 
 
@@ -39,7 +37,11 @@ def test_valid_workflow_dispatch_matrix_generator(self):
             False, True, False, {}, build_families, False
         )
         linux_target_to_compare = [
-            {"target": "gfx94X-dcgpu", "test-runs-on": "linux-mi300-1gpu-ossci-rocm"}
+            {
+                "test-runs-on": "linux-mi300-1gpu-ossci-rocm",
+                "family": "gfx94X-dcgpu",
+                "pytorch-target": "gfx942",
+            }
         ]
         self.assertEqual(linux_target_output, linux_target_to_compare)
         self.assertEqual(windows_target_output, [])
@@ -64,10 +66,14 @@ def test_valid_pull_request_matrix_generator(self):
         )
 
         linux_target_to_compare = [
-            {"test-runs-on": "", "target": "gfx110X-dgpu"},
-            {"test-runs-on": "linux-mi300-1gpu-ossci-rocm", "target": "gfx94X-dcgpu"},
+            {"test-runs-on": "", "family": "gfx110X-dgpu", "pytorch-target": "gfx1100"},
+            {
+                "test-runs-on": "linux-mi300-1gpu-ossci-rocm",
+                "family": "gfx94X-dcgpu",
+                "pytorch-target": "gfx942",
+            },
         ]
-        windows_target_to_compare = [{"test-runs-on": "", "target": "gfx110X-dgpu"}]
+        windows_target_to_compare = [{"test-runs-on": "", "family": "gfx110X-dgpu"}]
         self.assertEqual(linux_target_output, linux_target_to_compare)
         self.assertEqual(windows_target_output, windows_target_to_compare)
 
@@ -79,10 +85,14 @@ def test_duplicate_pull_request_matrix_generator(self):
             True, False, False, base_args, {}, False
         )
         linux_target_to_compare = [
-            {"test-runs-on": "", "target": "gfx110X-dgpu"},
-            {"test-runs-on": "linux-mi300-1gpu-ossci-rocm", "target": "gfx94X-dcgpu"},
+            {"test-runs-on": "", "family": "gfx110X-dgpu", "pytorch-target": "gfx1100"},
+            {
+                "test-runs-on": "linux-mi300-1gpu-ossci-rocm",
+                "family": "gfx94X-dcgpu",
+                "pytorch-target": "gfx942",
+            },
         ]
-        windows_target_to_compare = [{"test-runs-on": "", "target": "gfx110X-dgpu"}]
+        windows_target_to_compare = [{"test-runs-on": "", "family": "gfx110X-dgpu"}]
         self.assertEqual(linux_target_output, linux_target_to_compare)
         self.assertEqual(windows_target_output, windows_target_to_compare)
 
@@ -94,10 +104,14 @@ def test_invalid_pull_request_matrix_generator(self):
             True, False, False, base_args, {}, False
         )
         linux_target_to_compare = [
-            {"test-runs-on": "", "target": "gfx110X-dgpu"},
-            {"test-runs-on": "linux-mi300-1gpu-ossci-rocm", "target": "gfx94X-dcgpu"},
+            {"test-runs-on": "", "family": "gfx110X-dgpu", "pytorch-target": "gfx1100"},
+            {
+                "test-runs-on": "linux-mi300-1gpu-ossci-rocm",
+                "family": "gfx94X-dcgpu",
+                "pytorch-target": "gfx942",
+            },
         ]
-        windows_target_to_compare = [{"test-runs-on": "", "target": "gfx110X-dgpu"}]
+        windows_target_to_compare = [{"test-runs-on": "", "family": "gfx110X-dgpu"}]
         self.assertEqual(linux_target_output, linux_target_to_compare)
         self.assertEqual(windows_target_output, windows_target_to_compare)
 
@@ -107,10 +121,14 @@ def test_empty_pull_request_matrix_generator(self):
             True, False, False, base_args, {}, False
         )
         linux_target_to_compare = [
-            {"test-runs-on": "", "target": "gfx110X-dgpu"},
-            {"test-runs-on": "linux-mi300-1gpu-ossci-rocm", "target": "gfx94X-dcgpu"},
+            {"test-runs-on": "", "family": "gfx110X-dgpu", "pytorch-target": "gfx1100"},
+            {
+                "test-runs-on": "linux-mi300-1gpu-ossci-rocm",
+                "family": "gfx94X-dcgpu",
+                "pytorch-target": "gfx942",
+            },
         ]
-        windows_target_to_compare = [{"test-runs-on": "", "target": "gfx110X-dgpu"}]
+        windows_target_to_compare = [{"test-runs-on": "", "family": "gfx110X-dgpu"}]
         self.assertEqual(linux_target_output, linux_target_to_compare)
         self.assertEqual(windows_target_output, windows_target_to_compare)
 
@@ -120,10 +138,10 @@ def test_main_branch_push_matrix_generator(self):
             False, False, True, base_args, {}, False
         )
         linux_target_to_compare = [
-            {"test-runs-on": "linux-mi300-1gpu-ossci-rocm", "target": "gfx94X-dcgpu"},
-            {"test-runs-on": "", "target": "gfx110X-dgpu"},
+            {"test-runs-on": "linux-mi300-1gpu-ossci-rocm", "family": "gfx94X-dcgpu"},
+            {"test-runs-on": "", "family": "gfx110X-dgpu"},
         ]
-        windows_target_to_compare = [{"test-runs-on": "", "target": "gfx110X-dgpu"}]
+        windows_target_to_compare = [{"test-runs-on": "", "family": "gfx110X-dgpu"}]
         self.assertEqual(linux_target_output, linux_target_to_compare)
         self.assertEqual(windows_target_output, windows_target_to_compare)
 
diff --git a/build_tools/github_action/configure_target_run.py b/build_tools/github_action/configure_target_run.py
@@ -1,6 +1,6 @@
 import os
-import json
-from configure_ci import set_github_output, amdgpu_family_info_matrix
+from configure_ci import set_github_output
+from amdgpu_family_matrix import amdgpu_family_info_matrix
 
 # This file helps configure which target to run
 
@@ -9,7 +9,7 @@
 
 
 def main(args):
-    target = args.get("target")
+    target = args.get("target").lower()
     for key in amdgpu_family_info_matrix.keys():
         # If the amdgpu_family matrix key is inside the target (ex: gfx94X in gfx94X-dcgpu)
         if key in target:
diff --git a/build_tools/github_action/fetch_package_targets.py b/build_tools/github_action/fetch_package_targets.py
@@ -0,0 +1,31 @@
+import os
+import json
+from configure_ci import set_github_output
+from amdgpu_family_matrix import amdgpu_family_info_matrix
+
+# This file helps generate a package target matrix for portable_linux_package_matrix.yml and publish_pytorch_dev_docker.yml
+
+
+def main(args):
+    pytorch_dev_docker = args.get("PYTORCH_DEV_DOCKER") == "true"
+    package_targets = []
+    for key in amdgpu_family_info_matrix:
+        if pytorch_dev_docker:
+            # If there is not a target specified for the family
+            if not "pytorch-target" in amdgpu_family_info_matrix.get(key).get("linux"):
+                continue
+            family = (
+                amdgpu_family_info_matrix.get(key).get("linux").get("pytorch-target")
+            )
+        else:
+            family = amdgpu_family_info_matrix.get(key).get("linux").get("family")
+
+        package_targets.append({"amdgpu_family": family})
+
+    set_github_output({"package_targets": json.dumps(package_targets)})
+
+
+if __name__ == "__main__":
+    args = {}
+    args["PYTORCH_DEV_DOCKER"] = os.getenv("PYTORCH_DEV_DOCKER")
+    main(args)