Loading...

XML

Word

Printable

Type: Bug
Resolution: Done
Priority: Major
Fix Version/s: 4.20
Affects Version/s: 4.14.z
Component/s: Monitoring
Labels:

Activity Type:
Quality / Stability / Reliability
Blocked:
False
Blocked Reason:

Hide

None

Show
None
Story Points:
8
Severity:
Moderate
Regression:
No

Target Backport Versions:

4.19.z
Target Version:

4.20.0
Release Blocker:
None
Sprint:
MON Sprint 256, MON Sprint 260, MON Sprint 262, MON Sprint 264, MON Sprint 266, MON Sprint 274, MON Sprint 275, MON Sprint 276
sprint_count:
8

RH Private Keywords:

SFDC Cases Counter:
SFDC Cases Open:
SFDC Cases Links:

PX Review Complete:
PX Impact Score:

Release Note Status:
Done
Release Note Type:
Bug Fix
Release Note Text:

Hide
Fix KubeCPUOvercommit alerts not firing after exceeding CPU limits::
Before this update, the `KubeCPUOvercommit` alert would not trigger on multi-node clusters even after CPU-consuming spikes over the permitted limits. With this release, the alert expression is adjusted to correctly account for multi-node clusters. As a result, the `KubeCPUOvercommit` alert triggers correctly after such instances.
+
link:https://issues.redhat.com/browse/OCPBUGS-35095[~~OCPBUGS-35095~~]

Show
Fix KubeCPUOvercommit alerts not firing after exceeding CPU limits:: Before this update, the `KubeCPUOvercommit` alert would not trigger on multi-node clusters even after CPU-consuming spikes over the permitted limits. With this release, the alert expression is adjusted to correctly account for multi-node clusters. As a result, the `KubeCPUOvercommit` alert triggers correctly after such instances. + link: https://issues.redhat.com/browse/OCPBUGS-35095 [ OCPBUGS-35095 ]

Escape Reason:
None
Escape Impact:
None
Corrective Measures:
None
SDLC stage when should've been found:
None

One of our customers observed this issue. In order to reproduce, In my test cluster, I intentionally increased the overall CPU limits to over 200% and monitored the cluster for more than 2 days. However, I did not see the KubeCPUOvercommit alert, which ideally should trigger after 10 minutes of overcommitment.

Allocated resources:
(Total limits may be over 100 percent, i.e., overcommitted.)
Resource Requests Limits
-------- -------- ------
cpu 2654m (75%) 8450m (241%)
memory 5995Mi (87%) 12264Mi (179%)
ephemeral-storage 0 (0%) 0 (0%)
hugepages-1Gi 0 (0%) 0 (0%)
hugepages-2Mi 0 (0%) 0 (0%)

OCP console --> Observe --> alerting --> alert rule and select for the `KubeCPUOvercommit` alert.

Expression:

sum by (cluster) (namespace_cpu:kube_pod_container_resource_requests:sum{job="kube-state-metrics"}) - (sum by (cluster) (kube_node_status_allocatable{job="kube-state-metrics",resource="cpu"}) - max by (cluster) (kube_node_status_allocatable{job="kube-state-metrics",resource="cpu"})) > 0 and (sum by (cluster) (kube_node_status_allocatable{job="kube-state-metrics",resource="cpu"}) - max by (cluster) (kube_node_status_allocatable{job="kube-state-metrics",resource="cpu"})) > 0

blocks

OCPBUGS-46453 `KubeCPUOvercommit` Alert Not Triggered Despite Node CPU is Overcommitment

Closed

is cloned by

OCPBUGS-46453 `KubeCPUOvercommit` Alert Not Triggered Despite Node CPU is Overcommitment

Closed

OCPBUGS-62965 [4.19 Backport]`KubeCPUOvercommit` Alert Not Triggered Despite Node CPU is Overcommitment

Closed

is depended on by

OCPBUGS-62965 [4.19 Backport]`KubeCPUOvercommit` Alert Not Triggered Despite Node CPU is Overcommitment

Closed

OCPBUGS-62966 [4.19 Backport] KubeMemoryOvercommit triggered after cri-o restart on SNO+1

Closed

OCPBUGS-62967 [4.19 Backport] Use kube_statefulset_replicas for KubeStatefulSetReplicasMismatch

Closed

OCPBUGS-62968 [4.19 Backport] Improve KubeAggregatedAPIErrors alert in high availability scenarios

Closed

OCPBUGS-62969 [4.19 Backport] Filter NodeReadiness to take cordoned nodes into account

Closed

relates to

OCPBUGS-34568 KubeMemoryOvercommit triggered after cri-o restart on SNO+1

Closed

OCPBUGS-62966 [4.19 Backport] KubeMemoryOvercommit triggered after cri-o restart on SNO+1

Closed

links to

bugfix: refactor alerts to accomodate for single-node clusters

openshift/cluster-monitoring-operator#2422: OCPBUGS-35095: unpin `kubernetes-mixin`

openshift/cluster-monitoring-operator#2630: OCPBUGS-34568,OCPBUGS-35095,OCPBUGS-60689,OCPBUGS-60691,OCPBUGS-60692: non-HA alert cases

rules: expose job label for namespace_memory:kube_pod_container_resource_limits:sum

Sync changes mid-stream to PO

(3 is depended on by, 2 relates to, 5 links to)

Assignee:: Pranshu Srivastava

Reporter:: Ayush Laxkar

Contributors:: Simon Pasquier

QA Contact:: Junqi Zhao

Doc Contact:: Eliska Romanova

Need Info From:: Pranshu Srivastava

Votes:: 0 Vote for this issue

Watchers:: 12 Start watching this issue

Created:: 2024/06/07 3:19 PM

Updated:: 2025/10/21 4:14 AM

Resolved:: 2025/10/21 4:14 AM

Details

Description

Attachments

Issue Links

Easy Agile Planning Poker

Activity

People

Dates