Uploaded image for project: 'OpenShift Bugs'
  1. OpenShift Bugs
  2. OCPBUGS-19505

SNO failed install on machine-api not ready (4.14.0-rc.1)

XMLWordPrintable

    • No
    • False
    • Hide

      None

      Show
      None

      Description of problem:

      While installing many SNOs via ZTP using ACM, a SNO failed to complete install because the machine-api was not ready.
      
      # oc get clusterversion           
      NAME      VERSION   AVAILABLE   PROGRESSING   SINCE   STATUS
      version             False       True          16h     Unable to apply 4.14.0-rc.1: the cluster operator machine-api is not available
      
      

      Version-Release number of selected component (if applicable):

      Hub OCP 4.13.12
      Deployed SNO 4.14.0-rc.1
      ACM - 2.9.0-DOWNSTREAM-2023-09-18-15-19-43

      How reproducible:

      1 failure out of 29 failed installs

      Steps to Reproduce:

      1.
      2.
      3.
      

      Actual results:

       

      Expected results:

       

      Additional info:

      # oc get co                                                                                                       
      NAME                                       VERSION       AVAILABLE   PROGRESSING   DEGRADED   SINCE   MESSAGE                                                                                
      authentication                             4.14.0-rc.1   True        False         False      16h                                                                                             
      baremetal                                  4.14.0-rc.1   True        False         False      16h                                                                                        
      cloud-controller-manager                   4.14.0-rc.1   True        False         False      16h                                                                                             
      cloud-credential                           4.14.0-rc.1   True        False         False      16h                                                                                             
      cluster-autoscaler                                       True        False         True       16h     machine-api not ready                                                                   
      config-operator                            4.14.0-rc.1   True        False         False      16h                                                                                             
      console                                    4.14.0-rc.1   True        False         False      16h                                                                                             
      control-plane-machine-set                  4.14.0-rc.1   True        False         False      16h                                                                                             
      csi-snapshot-controller                    4.14.0-rc.1   True        False         False      16h                                                                                             
      dns                                        4.14.0-rc.1   True        False         False      16h                                                                                             
      etcd                                       4.14.0-rc.1   True        False         False      16h                                                                                            
      image-registry                             4.14.0-rc.1   True        False         False      16h                                                                                             
      ingress                                    4.14.0-rc.1   True        False         False      16h                                                                                             
      insights                                   4.14.0-rc.1   True        False         False      16h
      kube-apiserver                             4.14.0-rc.1   True        False         False      16h
      kube-controller-manager                    4.14.0-rc.1   True        False         False      16h
      kube-scheduler                             4.14.0-rc.1   True        False         False      16h
      kube-storage-version-migrator              4.14.0-rc.1   True        False         False      16h
      machine-api
      machine-approver                           4.14.0-rc.1   True        False         False      16h
      machine-config                             4.14.0-rc.1   True        False         False      16h
      marketplace                                4.14.0-rc.1   True        False         False      16h
      monitoring                                 4.14.0-rc.1   True        False         False      16h
      network                                    4.14.0-rc.1   True        False         False      16h
      node-tuning                                4.14.0-rc.1   True        False         False      16h
      openshift-apiserver                        4.14.0-rc.1   True        False         False      16h
      openshift-controller-manager               4.14.0-rc.1   True        False         False      16h
      openshift-samples                          4.14.0-rc.1   True        False         False      16h
      operator-lifecycle-manager                 4.14.0-rc.1   True        False         False      16h
      operator-lifecycle-manager-catalog         4.14.0-rc.1   True        False         False      16h
      operator-lifecycle-manager-packageserver   4.14.0-rc.1   True        False         False      16h
      service-ca                                 4.14.0-rc.1   True        False         False      16h
      storage                                    4.14.0-rc.1   True        False         False      16h
      

      Deleting the machine-api-operator pod resolved the failed install to success:

       

      # oc delete po -n openshift-machine-api machine-api-operator-6d4b5c54cc-wpt9b                                    
      pod "machine-api-operator-6d4b5c54cc-wpt9b" deleted
      # oc get po -n openshift-machine-api                                                                             
      NAME                                                  READY   STATUS    RESTARTS      AGE
      cluster-autoscaler-operator-686745bcff-vq44x          2/2     Running   0             16h
      cluster-baremetal-operator-c6c745bb9-m27x9            2/2     Running   0             16h
      control-plane-machine-set-operator-7678fd775f-j9lp8   1/1     Running   1 (16h ago)   16h
      machine-api-operator-6d4b5c54cc-97j4s                 2/2     Running   0             7s
      # oc get clusterversion -w
      NAME      VERSION   AVAILABLE   PROGRESSING   SINCE   STATUS
      version             False       True          16h     Unable to apply 4.14.0-rc.1: the cluster operator machine-api is not available
      version             False       True          17h     Working towards 4.14.0-rc.1: 857 of 859 done (99% complete)
      version             False       True          17h     Working towards 4.14.0-rc.1: 858 of 859 done (99% complete)
      version   4.14.0-rc.1   True        False         0s      Cluster version is 4.14.0-rc.1

       

       

            ddonati@redhat.com Damiano Donati
            akrzos@redhat.com Alex Krzos
            Zhaohua Sun Zhaohua Sun
            Votes:
            0 Vote for this issue
            Watchers:
            4 Start watching this issue

              Created:
              Updated: