Loading...

XML

Word

Printable

Activity Type:
None
Blocked:
False
Blocked Reason:

Hide

None

Show
None
Ready:
False
Epic Link:
[GA] Ease of alerting and network health display for Network Observability
Story Points:
5

Target Version:
None
Release Blocker:
None
Sprint:
NetObserv - Sprint 276, NetObserv - Sprint 277, NetObserv - Sprint 278, NetObserv - Sprint 279, NetObserv - Sprint 280

Review other (non-netobserv) metrics available out there, and see if we can leverage our alerting+health mechanism on them too

E.g:

ingress errors (haproxy_server_http_responses_total)
ingress performance degrading (? haproxy_server_http_average_response_latency_milliseconds)
ingress connections coming close to capacity
apiserver errors (code:apiserver_request_total:rate5m{apiserver="kube-apiserver"})
apiserver tls handshake errors (cluster:apiserver_tls_handshake_errors_total:rate5m{apiserver="kube-apiserver"})
apiserver performance degrading (??)
ovn error (ovnkube_node_cni_request_duration_seconds_count{err!="false"})