Uploaded image for project: 'OpenShift Bugs'
  1. OpenShift Bugs
  2. OCPBUGS-48493

[release-4.17] TP cluster micro-upgrade fails, waiting on cluster-api

    • Important
    • No
    • CLOUD Sprint 265
    • 1
    • Rejected
    • False
    • Hide

      None

      Show
      None
    • N/A
    • Release Note Not Required
    • Done

      Description of problem:

      On azure(or vsphere) TP cluster upgrade failed from 4.15.0-rc.5-> 4.15.0-rc.7 or 4.15.0-rc.4-> 4.15.0-rc.5, stuck in cluster-api.
      Seems this only happened on platforms don't support capi, this couldn't be reproduced on aws and gcp, .

      Version-Release number of selected component (if applicable):

          4.15.0-rc.5-> 4.15.0-rc.7 or 4.15.0-rc.4-> 4.15.0-rc.5

      How reproducible:

          always

      Steps to Reproduce:

          1.Build a TP cluster 4.15.0-rc.5 on azure(or vsphere)
          2.Upgrade to 4.15.0-rc.7     
          3.
          

      Actual results:

      Upgrade stuck in cluster-api. 
      must-gather: https://drive.google.com/file/d/12ykhEVZvqY_0eNdLwJOWFSxTSdQQrm_y/view?usp=sharing
      
      $ oc get clusterversion       NAME      VERSION       AVAILABLE   PROGRESSING   SINCE   STATUS version   4.15.0-rc.5   True        True          82m     Working towards 4.15.0-rc.7: 257 of 929 done (27% complete), waiting on cluster-api
      
      I0222 04:53:18.733907       1 sync_worker.go:1134] Update error 198 of 929: ClusterOperatorUpdating Cluster operator cluster-api is updating versions (*errors.errorString: cluster operator cluster-api is available and not degraded but has not finished updating to target version) E0222 04:53:18.733944       1 sync_worker.go:638] unable to synchronize image (waiting 2m44.892272217s): Cluster operator cluster-api is updating versions
      
      $ oc get co     
      NAME                                       VERSION       AVAILABLE   PROGRESSING   DEGRADED   SINCE   MESSAGE
      authentication                             4.15.0-rc.5   True        False         False      99m
      baremetal                                  4.15.0-rc.5   True        False         False      123m
      cloud-controller-manager                   4.15.0-rc.7   True        False         False      128m
      cloud-credential                           4.15.0-rc.5   True        False         False      135m
      cluster-api                                4.15.0-rc.5   True        False         False      124m
      cluster-autoscaler                         4.15.0-rc.5   True        False         False      123m
      config-operator                            4.15.0-rc.7   True        False         False      124m
      console                                    4.15.0-rc.5   True        False         False      101m
      control-plane-machine-set                  4.15.0-rc.7   True        False         False      113m
      csi-snapshot-controller                    4.15.0-rc.5   True        False         False      112m
      dns                                        4.15.0-rc.5   True        False         False      115m
      etcd                                       4.15.0-rc.7   True        False         False      122m
      image-registry                             4.15.0-rc.5   True        False         False      107m
      ingress                                    4.15.0-rc.5   True        False         False      106m
      insights                                   4.15.0-rc.5   True        False         False      118m
      kube-apiserver                             4.15.0-rc.7   True        False         False      108m
      kube-controller-manager                    4.15.0-rc.7   True        False         False      121m
      kube-scheduler                             4.15.0-rc.7   True        False         False      120m
      kube-storage-version-migrator              4.15.0-rc.5   True        False         False      115m
      machine-api                                4.15.0-rc.7   True        False         False      111m
      machine-approver                           4.15.0-rc.5   True        False         False      124m
      machine-config                             4.15.0-rc.5   True        False         False      121m
      marketplace                                4.15.0-rc.5   True        False         False      123m
      monitoring                                 4.15.0-rc.5   True        False         False      106m
      network                                    4.15.0-rc.5   True        False         False      126m
      node-tuning                                4.15.0-rc.5   True        False         False      112m
      olm                                        4.15.0-rc.5   True        False         False      106m
      openshift-apiserver                        4.15.0-rc.5   True        False         False      115m
      openshift-controller-manager               4.15.0-rc.5   True        False         False      115m
      openshift-samples                          4.15.0-rc.5   True        False         False      111m
      operator-lifecycle-manager                 4.15.0-rc.5   True        False         False      123m
      operator-lifecycle-manager-catalog         4.15.0-rc.5   True        False         False      123m
      operator-lifecycle-manager-packageserver   4.15.0-rc.5   True        False         False      112m
      platform-operators-aggregated              4.15.0-rc.5   True        False         False      73m
      service-ca                                 4.15.0-rc.5   True        False         False      124m
      storage                                    4.15.0-rc.5   True        False         False      107m  

      Expected results:

      Upgrade is successful

      Additional info:

       upgrade succeed from 4.15.0-rc.3-> 4.15.0-rc.4

            [OCPBUGS-48493] [release-4.17] TP cluster micro-upgrade fails, waiting on cluster-api

            Errata Tool added a comment -

            Since the problem described in this issue should be resolved in a recent advisory, it has been closed.

            For information on the advisory (Important: OpenShift Container Platform 4.17.14 bug fix and security update), and where to find the updated files, follow the link below.

            If the solution does not work for you, open a new bug report.
            https://access.redhat.com/errata/RHSA-2025:0654

            Errata Tool added a comment - Since the problem described in this issue should be resolved in a recent advisory, it has been closed. For information on the advisory (Important: OpenShift Container Platform 4.17.14 bug fix and security update), and where to find the updated files, follow the link below. If the solution does not work for you, open a new bug report. https://access.redhat.com/errata/RHSA-2025:0654

            Zhaohua Sun added a comment -

            set up cluster 4.17.0-0.nightly-2025-01-16-122318 on azure and enable TP, upgrade cluster to 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest, 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest was built with pr 250, upgrade succeed.

            $ oc get clusterversion                 
            NAME      VERSION                                                AVAILABLE   PROGRESSING   SINCE   STATUS
            version   4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         78m     Cluster version is 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest
            $ oc get co                               
            NAME                                       VERSION                                                AVAILABLE   PROGRESSING   DEGRADED   SINCE   MESSAGE
            authentication                             4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      162m
            baremetal                                  4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m
            cloud-controller-manager                   4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h15m
            cloud-credential                           4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h23m
            cluster-api                                4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m
            cluster-autoscaler                         4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m
            config-operator                            4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h13m
            console                                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      167m
            control-plane-machine-set                  4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h11m
            csi-snapshot-controller                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m
            dns                                        4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h11m
            etcd                                       4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h11m
            image-registry                             4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      170m
            ingress                                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      173m
            insights                                   4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h6m
            kube-apiserver                             4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      177m
            kube-controller-manager                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h10m
            kube-scheduler                             4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h9m
            kube-storage-version-migrator              4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m
            machine-api                                4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h1m
            machine-approver                           4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m
            machine-config                             4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h11m
            marketplace                                4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m
            monitoring                                 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      166m
            network                                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h14m
            node-tuning                                4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      116m
            olm                                        4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      90m
            openshift-apiserver                        4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      176m
            openshift-controller-manager               4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h2m
            openshift-samples                          4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      116m
            operator-lifecycle-manager                 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m
            operator-lifecycle-manager-catalog         4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m
            operator-lifecycle-manager-packageserver   4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h6m
            service-ca                                 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h13m
            storage                                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h1m
            $ oc get po -n openshift-cluster-api                  
            NAME                                     READY   STATUS    RESTARTS   AGE
            cluster-capi-operator-76dcb7d9d5-jn8c2   1/1     Running   0          93m 

            Zhaohua Sun added a comment - set up cluster 4.17.0-0.nightly-2025-01-16-122318 on azure and enable TP, upgrade cluster to 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest, 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest was built with pr 250, upgrade succeed. $ oc get clusterversion                 NAME      VERSION                                                AVAILABLE   PROGRESSING   SINCE   STATUS version   4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         78m     Cluster version is 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest $ oc get co                               NAME                                       VERSION                                                AVAILABLE   PROGRESSING   DEGRADED   SINCE   MESSAGE authentication                             4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      162m baremetal                                  4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m cloud-controller-manager                   4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h15m cloud-credential                           4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h23m cluster-api                                4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m cluster-autoscaler                         4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m config- operator                            4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h13m console                                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      167m control-plane-machine-set                  4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h11m csi-snapshot-controller                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m dns                                        4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h11m etcd                                       4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h11m image-registry                             4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      170m ingress                                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      173m insights                                   4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h6m kube-apiserver                             4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      177m kube-controller-manager                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h10m kube-scheduler                             4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h9m kube-storage-version-migrator              4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m machine-api                                4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h1m machine-approver                           4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m machine-config                             4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h11m marketplace                                4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m monitoring                                 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      166m network                                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h14m node-tuning                                4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      116m olm                                        4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      90m openshift-apiserver                        4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      176m openshift-controller-manager               4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h2m openshift-samples                          4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      116m operator -lifecycle-manager                 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m operator -lifecycle-manager-catalog         4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h12m operator -lifecycle-manager-packageserver   4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h6m service-ca                                 4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h13m storage                                    4.17.0-0.test-2025-01-17-020541-ci-ln-1z5939t-latest   True        False         False      3h1m $ oc get po -n openshift-cluster-api                   NAME                                     READY   STATUS    RESTARTS   AGE cluster-capi- operator -76dcb7d9d5-jn8c2   1/1     Running   0          93m

              ddonati@redhat.com Damiano Donati
              rhn-support-zhsun Zhaohua Sun
              Zhaohua Sun Zhaohua Sun
              Votes:
              0 Vote for this issue
              Watchers:
              5 Start watching this issue

                Created:
                Updated:
                Resolved: