From 9d2964c94fd9a37c666882a2b2f05690cdc39b9f Mon Sep 17 00:00:00 2001 From: "taekyu.kang" Date: Wed, 24 Apr 2024 09:58:39 +0900 Subject: [PATCH] feature. remove thanos ruler from all stack_templates --- aws-msa-reference/lma/site-values.yaml | 75 +------------------------- aws-reference/lma/site-values.yaml | 74 ------------------------- byoh-reference/lma/site-values.yaml | 74 ------------------------- eks-msa-reference/lma/site-values.yaml | 74 ------------------------- eks-reference/lma/site-values.yaml | 74 ------------------------- 5 files changed, 1 insertion(+), 370 deletions(-) diff --git a/aws-msa-reference/lma/site-values.yaml b/aws-msa-reference/lma/site-values.yaml index a39b182..55597ca 100644 --- a/aws-msa-reference/lma/site-values.yaml +++ b/aws-msa-reference/lma/site-values.yaml @@ -283,80 +283,7 @@ charts: rules: - alert: "PrometheusDown" expr: absent(up{prometheus="lma/lma-prometheus"}) - - alert: node-cpu-high-load - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 idle process의 cpu 점유율이 3분 동안 0% 입니다. (현재 사용률 {{$value}}) - description: 워커 노드 CPU가 과부하 상태입니다. 일시적인 서비스 Traffic 증가, Workload의 SW 오류, Server HW Fan Fail등 다양한 원인으로 인해 발생할 수 있습니다. - Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행 되는 pod중 CPU 자원을 많이 점유하는 pod의 설정을 점검해 보시길 제안드립니다. 예를 들어 pod spec의 limit 설정으로 과도한 CPU자원 점유을 막을 수 있습니다. - summary: Cpu resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: (avg by (taco_cluster, instance) (rate(node_cpu_seconds_total{mode="idle"}[60s]))) < 0 #0.1 # 진짜 0? - for: 3m - labels: - severity: warning - - alert: node-memory-high-utilization - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 Memory 사용량이 3분동안 80% 를 넘어서고 있습니다. (현재 사용률 {{$value}}) - descriptioon: 워커 노드의 Memory 사용량이 80%를 넘었습니다. 일시적인 서비스 증가 및 SW 오류등 다양한 원인으로 발생할 수 있습니다. - Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행되는 pod중 Memory 사용량이 높은 pod들에 대한 점검을 제안드립니다. - summary: Memory resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: (node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes) < 0.2 - for: 3m - labels: - severity: warning - - alert: node-disk-full - annotations: - message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 root 볼륨은 24시간 안에 Disk full이 예상됨 - description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰 것으로 예상됩니다. - Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요. - summary: Memory resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: predict_linear(node_filesystem_free_bytes{mountpoint="/"}[6h], 24*3600) < 0 - for: 30m - labels: - severity: critical - - alert: pvc-full - annotations: - message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.persistentvolumeclaim }})가 24시간 안에 Disk full이 예상됨 - description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰것으로 예상됩니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.persistentvolumeclaim }} PVC) - Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요. - summary: Disk resources of the volume(pvc) {{ $labels.persistentvolumeclaim }} are running low. - discriminative: $labels.taco_cluster, $labels.persistentvolumeclaim - expr: predict_linear(kubelet_volume_stats_available_bytes[6h], 24*3600) < 0 # kubelet_volume_stats_capacity_bytes - for: 30m - labels: - severity: critical - - alert: pod-restart-frequently - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.pod }})가 30분 동안 5회 이상 재기동 ({{ $value }}회) - description: 특정 Pod가 빈번하게 재기동 되고 있습니다. 점검이 필요합니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.pod }} 파드) - Checkpoint: pod spec. 에 대한 점검이 필요합니다. pod의 log 및 status를 확인해 주세요. - discriminative: $labels.taco_cluster, $labels.pod, $labels.namespace - expr: increase(kube_pod_container_status_restarts_total{namespace!="kube-system"}[60m:]) > 2 # 몇회로 할 것인지? - for: 30m - labels: - severity: critical - - alert: policy-audited - annotations: - Checkpoint: 정책위반이 발생하였습니다.({{ $labels.kind }} / {{ $labels.name }}) - description: 클러스터 ( {{ $labels.taco_cluster }})의 자원({{ $labels.violating_kind }} - {{ $labels.violating_namespace }} / {{ $labels.violating_nam }})에서 정책({{ $labels.kind }} / {{ $labels.name }})위반이 발생했습니다. 메시지 - {{ $labels.violation_msg }} - discriminative: $labels.kind,$labels.name,$labels.taco_cluster,$labels.violating_kind,$labels.violating_name,$labels.violating_namespace,$labels.violation_msg - message: 정책 위반({{ $labels.kind }} / {{ $labels.name }}) - expr: opa_scorecard_constraint_violations{namespace!='kube-system|taco-system|gatekeeper-system', violation_enforcement='warn'} == 1 - for: 1m - labels: - severity: critical - - alert: policy-blocked - annotations: - Checkpoint: "정책위반이 시도가 발생하였습니다.({{ $labels.kind }} / {{ $labels.name }})" - description: "클러스터 ( {{ $labels.taco_cluster }})의 자원({{ $labels.violating_kind }} - {{ $labels.violating_namespace }} / {{ $labels.violating_nam }})에서 정책({{ $labels.kind }} / {{ $labels.name }})위반 시도가 발생했습니다. 메시지 - {{ $labels.violation_msg }}" - discriminative: $labels.kind,$labels.name,$labels.taco_cluster,$labels.violating_kind,$labels.violating_name,$labels.violating_namespace,$labels.violation_msg - message: 정책 위반({{ $labels.kind }} / {{ $labels.name }}) 시도 - expr: opa_scorecard_constraint_violations{namespace!='kube-system|taco-system|gatekeeper-system',violation_enforcement=''} == 1 - for: 1m - labels: - severity: critical + - name: thanos-config override: objectStorage: diff --git a/aws-reference/lma/site-values.yaml b/aws-reference/lma/site-values.yaml index 4ba03b3..976b438 100644 --- a/aws-reference/lma/site-values.yaml +++ b/aws-reference/lma/site-values.yaml @@ -283,80 +283,6 @@ charts: rules: - alert: "PrometheusDown" expr: absent(up{prometheus="lma/lma-prometheus"}) - - alert: node-cpu-high-load - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 idle process의 cpu 점유율이 3분 동안 0% 입니다. (현재 사용률 {{$value}}) - description: 워커 노드 CPU가 과부하 상태입니다. 일시적인 서비스 Traffic 증가, Workload의 SW 오류, Server HW Fan Fail등 다양한 원인으로 인해 발생할 수 있습니다. - Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행 되는 pod중 CPU 자원을 많이 점유하는 pod의 설정을 점검해 보시길 제안드립니다. 예를 들어 pod spec의 limit 설정으로 과도한 CPU자원 점유을 막을 수 있습니다. - summary: Cpu resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: (avg by (taco_cluster, instance) (rate(node_cpu_seconds_total{mode="idle"}[60s]))) < 0 #0.1 # 진짜 0? - for: 3m - labels: - severity: warning - - alert: node-memory-high-utilization - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 Memory 사용량이 3분동안 80% 를 넘어서고 있습니다. (현재 사용률 {{$value}}) - descriptioon: 워커 노드의 Memory 사용량이 80%를 넘었습니다. 일시적인 서비스 증가 및 SW 오류등 다양한 원인으로 발생할 수 있습니다. - Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행되는 pod중 Memory 사용량이 높은 pod들에 대한 점검을 제안드립니다. - summary: Memory resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: (node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes) < 0.2 - for: 3m - labels: - severity: warning - - alert: node-disk-full - annotations: - message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 root 볼륨은 24시간 안에 Disk full이 예상됨 - description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰 것으로 예상됩니다. - Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요. - summary: Memory resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: predict_linear(node_filesystem_free_bytes{mountpoint="/"}[6h], 24*3600) < 0 - for: 30m - labels: - severity: critical - - alert: pvc-full - annotations: - message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.persistentvolumeclaim }})가 24시간 안에 Disk full이 예상됨 - description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰것으로 예상됩니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.persistentvolumeclaim }} PVC) - Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요. - summary: Disk resources of the volume(pvc) {{ $labels.persistentvolumeclaim }} are running low. - discriminative: $labels.taco_cluster, $labels.persistentvolumeclaim - expr: predict_linear(kubelet_volume_stats_available_bytes[6h], 24*3600) < 0 # kubelet_volume_stats_capacity_bytes - for: 30m - labels: - severity: critical - - alert: pod-restart-frequently - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.pod }})가 30분 동안 5회 이상 재기동 ({{ $value }}회) - description: 특정 Pod가 빈번하게 재기동 되고 있습니다. 점검이 필요합니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.pod }} 파드) - Checkpoint: pod spec. 에 대한 점검이 필요합니다. pod의 log 및 status를 확인해 주세요. - discriminative: $labels.taco_cluster, $labels.pod, $labels.namespace - expr: increase(kube_pod_container_status_restarts_total{namespace!="kube-system"}[60m:]) > 2 # 몇회로 할 것인지? - for: 30m - labels: - severity: critical - - alert: policy-audited - annotations: - Checkpoint: 정책위반이 발생하였습니다.({{ $labels.kind }} / {{ $labels.name }}) - description: 클러스터 ( {{ $labels.taco_cluster }})의 자원({{ $labels.violating_kind }} - {{ $labels.violating_namespace }} / {{ $labels.violating_nam }})에서 정책({{ $labels.kind }} / {{ $labels.name }})위반이 발생했습니다. 메시지 - {{ $labels.violation_msg }} - discriminative: $labels.kind,$labels.name,$labels.taco_cluster,$labels.violating_kind,$labels.violating_name,$labels.violating_namespace,$labels.violation_msg - message: 정책 위반({{ $labels.kind }} / {{ $labels.name }}) - expr: opa_scorecard_constraint_violations{namespace!='kube-system|taco-system|gatekeeper-system', violation_enforcement='warn'} == 1 - for: 1m - labels: - severity: critical - - alert: policy-blocked - annotations: - Checkpoint: "정책위반이 시도가 발생하였습니다.({{ $labels.kind }} / {{ $labels.name }})" - description: "클러스터 ( {{ $labels.taco_cluster }})의 자원({{ $labels.violating_kind }} - {{ $labels.violating_namespace }} / {{ $labels.violating_nam }})에서 정책({{ $labels.kind }} / {{ $labels.name }})위반 시도가 발생했습니다. 메시지 - {{ $labels.violation_msg }}" - discriminative: $labels.kind,$labels.name,$labels.taco_cluster,$labels.violating_kind,$labels.violating_name,$labels.violating_namespace,$labels.violation_msg - message: 정책 위반({{ $labels.kind }} / {{ $labels.name }}) 시도 - expr: opa_scorecard_constraint_violations{namespace!='kube-system|taco-system|gatekeeper-system',violation_enforcement=''} == 1 - for: 1m - labels: - severity: critical - name: thanos-config override: diff --git a/byoh-reference/lma/site-values.yaml b/byoh-reference/lma/site-values.yaml index 3974685..580462a 100644 --- a/byoh-reference/lma/site-values.yaml +++ b/byoh-reference/lma/site-values.yaml @@ -291,80 +291,6 @@ charts: rules: - alert: "PrometheusDown" expr: absent(up{prometheus="lma/lma-prometheus"}) - - alert: node-cpu-high-load - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 idle process의 cpu 점유율이 3분 동안 0% 입니다. (현재 사용률 {{$value}}) - description: 워커 노드 CPU가 과부하 상태입니다. 일시적인 서비스 Traffic 증가, Workload의 SW 오류, Server HW Fan Fail등 다양한 원인으로 인해 발생할 수 있습니다. - Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행 되는 pod중 CPU 자원을 많이 점유하는 pod의 설정을 점검해 보시길 제안드립니다. 예를 들어 pod spec의 limit 설정으로 과도한 CPU자원 점유을 막을 수 있습니다. - summary: Cpu resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: (avg by (taco_cluster, instance) (rate(node_cpu_seconds_total{mode="idle"}[60s]))) < 0 #0.1 # 진짜 0? - for: 3m - labels: - severity: warning - - alert: node-memory-high-utilization - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 Memory 사용량이 3분동안 80% 를 넘어서고 있습니다. (현재 사용률 {{$value}}) - descriptioon: 워커 노드의 Memory 사용량이 80%를 넘었습니다. 일시적인 서비스 증가 및 SW 오류등 다양한 원인으로 발생할 수 있습니다. - Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행되는 pod중 Memory 사용량이 높은 pod들에 대한 점검을 제안드립니다. - summary: Memory resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: (node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes) < 0.2 - for: 3m - labels: - severity: warning - - alert: node-disk-full - annotations: - message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 root 볼륨은 24시간 안에 Disk full이 예상됨 - description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰 것으로 예상됩니다. - Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요. - summary: Memory resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: predict_linear(node_filesystem_free_bytes{mountpoint="/"}[6h], 24*3600) < 0 - for: 30m - labels: - severity: critical - - alert: pvc-full - annotations: - message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.persistentvolumeclaim }})가 24시간 안에 Disk full이 예상됨 - description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰것으로 예상됩니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.persistentvolumeclaim }} PVC) - Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요. - summary: Disk resources of the volume(pvc) {{ $labels.persistentvolumeclaim }} are running low. - discriminative: $labels.taco_cluster, $labels.persistentvolumeclaim - expr: predict_linear(kubelet_volume_stats_available_bytes[6h], 24*3600) < 0 # kubelet_volume_stats_capacity_bytes - for: 30m - labels: - severity: critical - - alert: pod-restart-frequently - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.pod }})가 30분 동안 5회 이상 재기동 ({{ $value }}회) - description: 특정 Pod가 빈번하게 재기동 되고 있습니다. 점검이 필요합니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.pod }} 파드) - Checkpoint: pod spec. 에 대한 점검이 필요합니다. pod의 log 및 status를 확인해 주세요. - discriminative: $labels.taco_cluster, $labels.pod, $labels.namespace - expr: increase(kube_pod_container_status_restarts_total{namespace!="kube-system"}[60m:]) > 2 # 몇회로 할 것인지? - for: 30m - labels: - severity: critical - - alert: policy-audited - annotations: - Checkpoint: 정책위반이 발생하였습니다.({{ $labels.kind }} / {{ $labels.name }}) - description: 클러스터 ( {{ $labels.taco_cluster }})의 자원({{ $labels.violating_kind }} - {{ $labels.violating_namespace }} / {{ $labels.violating_nam }})에서 정책({{ $labels.kind }} / {{ $labels.name }})위반이 발생했습니다. 메시지 - {{ $labels.violation_msg }} - discriminative: $labels.kind,$labels.name,$labels.taco_cluster,$labels.violating_kind,$labels.violating_name,$labels.violating_namespace,$labels.violation_msg - message: 정책 위반({{ $labels.kind }} / {{ $labels.name }}) - expr: opa_scorecard_constraint_violations{namespace!='kube-system|taco-system|gatekeeper-system', violation_enforcement='warn'} == 1 - for: 1m - labels: - severity: critical - - alert: policy-blocked - annotations: - Checkpoint: "정책위반이 시도가 발생하였습니다.({{ $labels.kind }} / {{ $labels.name }})" - description: "클러스터 ( {{ $labels.taco_cluster }})의 자원({{ $labels.violating_kind }} - {{ $labels.violating_namespace }} / {{ $labels.violating_nam }})에서 정책({{ $labels.kind }} / {{ $labels.name }})위반 시도가 발생했습니다. 메시지 - {{ $labels.violation_msg }}" - discriminative: $labels.kind,$labels.name,$labels.taco_cluster,$labels.violating_kind,$labels.violating_name,$labels.violating_namespace,$labels.violation_msg - message: 정책 위반({{ $labels.kind }} / {{ $labels.name }}) 시도 - expr: opa_scorecard_constraint_violations{namespace!='kube-system|taco-system|gatekeeper-system',violation_enforcement=''} == 1 - for: 1m - labels: - severity: critical - name: thanos-config override: diff --git a/eks-msa-reference/lma/site-values.yaml b/eks-msa-reference/lma/site-values.yaml index baff9e8..b5c2b8b 100644 --- a/eks-msa-reference/lma/site-values.yaml +++ b/eks-msa-reference/lma/site-values.yaml @@ -284,80 +284,6 @@ charts: rules: - alert: "PrometheusDown" expr: absent(up{prometheus="lma/lma-prometheus"}) - - alert: node-cpu-high-load - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 idle process의 cpu 점유율이 3분 동안 0% 입니다. (현재 사용률 {{$value}}) - description: 워커 노드 CPU가 과부하 상태입니다. 일시적인 서비스 Traffic 증가, Workload의 SW 오류, Server HW Fan Fail등 다양한 원인으로 인해 발생할 수 있습니다. - Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행 되는 pod중 CPU 자원을 많이 점유하는 pod의 설정을 점검해 보시길 제안드립니다. 예를 들어 pod spec의 limit 설정으로 과도한 CPU자원 점유을 막을 수 있습니다. - summary: Cpu resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: (avg by (taco_cluster, instance) (rate(node_cpu_seconds_total{mode="idle"}[60s]))) < 0 #0.1 # 진짜 0? - for: 3m - labels: - severity: warning - - alert: node-memory-high-utilization - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 Memory 사용량이 3분동안 80% 를 넘어서고 있습니다. (현재 사용률 {{$value}}) - descriptioon: 워커 노드의 Memory 사용량이 80%를 넘었습니다. 일시적인 서비스 증가 및 SW 오류등 다양한 원인으로 발생할 수 있습니다. - Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행되는 pod중 Memory 사용량이 높은 pod들에 대한 점검을 제안드립니다. - summary: Memory resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: (node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes) < 0.2 - for: 3m - labels: - severity: warning - - alert: node-disk-full - annotations: - message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 root 볼륨은 24시간 안에 Disk full이 예상됨 - description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰 것으로 예상됩니다. - Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요. - summary: Memory resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: predict_linear(node_filesystem_free_bytes{mountpoint="/"}[6h], 24*3600) < 0 - for: 30m - labels: - severity: critical - - alert: pvc-full - annotations: - message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.persistentvolumeclaim }})가 24시간 안에 Disk full이 예상됨 - description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰것으로 예상됩니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.persistentvolumeclaim }} PVC) - Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요. - summary: Disk resources of the volume(pvc) {{ $labels.persistentvolumeclaim }} are running low. - discriminative: $labels.taco_cluster, $labels.persistentvolumeclaim - expr: predict_linear(kubelet_volume_stats_available_bytes[6h], 24*3600) < 0 # kubelet_volume_stats_capacity_bytes - for: 30m - labels: - severity: critical - - alert: pod-restart-frequently - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.pod }})가 30분 동안 5회 이상 재기동 ({{ $value }}회) - description: 특정 Pod가 빈번하게 재기동 되고 있습니다. 점검이 필요합니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.pod }} 파드) - Checkpoint: pod spec. 에 대한 점검이 필요합니다. pod의 log 및 status를 확인해 주세요. - discriminative: $labels.taco_cluster, $labels.pod, $labels.namespace - expr: increase(kube_pod_container_status_restarts_total{namespace!="kube-system"}[60m:]) > 2 # 몇회로 할 것인지? - for: 30m - labels: - severity: critical - - alert: policy-audited - annotations: - Checkpoint: 정책위반이 발생하였습니다.({{ $labels.kind }} / {{ $labels.name }}) - description: 클러스터 ( {{ $labels.taco_cluster }})의 자원({{ $labels.violating_kind }} - {{ $labels.violating_namespace }} / {{ $labels.violating_nam }})에서 정책({{ $labels.kind }} / {{ $labels.name }})위반이 발생했습니다. 메시지 - {{ $labels.violation_msg }} - discriminative: $labels.kind,$labels.name,$labels.taco_cluster,$labels.violating_kind,$labels.violating_name,$labels.violating_namespace,$labels.violation_msg - message: 정책 위반({{ $labels.kind }} / {{ $labels.name }}) - expr: opa_scorecard_constraint_violations{namespace!='kube-system|taco-system|gatekeeper-system', violation_enforcement='warn'} == 1 - for: 1m - labels: - severity: critical - - alert: policy-blocked - annotations: - Checkpoint: "정책위반이 시도가 발생하였습니다.({{ $labels.kind }} / {{ $labels.name }})" - description: "클러스터 ( {{ $labels.taco_cluster }})의 자원({{ $labels.violating_kind }} - {{ $labels.violating_namespace }} / {{ $labels.violating_nam }})에서 정책({{ $labels.kind }} / {{ $labels.name }})위반 시도가 발생했습니다. 메시지 - {{ $labels.violation_msg }}" - discriminative: $labels.kind,$labels.name,$labels.taco_cluster,$labels.violating_kind,$labels.violating_name,$labels.violating_namespace,$labels.violation_msg - message: 정책 위반({{ $labels.kind }} / {{ $labels.name }}) 시도 - expr: opa_scorecard_constraint_violations{namespace!='kube-system|taco-system|gatekeeper-system',violation_enforcement=''} == 1 - for: 1m - labels: - severity: critical - name: thanos-config override: diff --git a/eks-reference/lma/site-values.yaml b/eks-reference/lma/site-values.yaml index baff9e8..b5c2b8b 100644 --- a/eks-reference/lma/site-values.yaml +++ b/eks-reference/lma/site-values.yaml @@ -284,80 +284,6 @@ charts: rules: - alert: "PrometheusDown" expr: absent(up{prometheus="lma/lma-prometheus"}) - - alert: node-cpu-high-load - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 idle process의 cpu 점유율이 3분 동안 0% 입니다. (현재 사용률 {{$value}}) - description: 워커 노드 CPU가 과부하 상태입니다. 일시적인 서비스 Traffic 증가, Workload의 SW 오류, Server HW Fan Fail등 다양한 원인으로 인해 발생할 수 있습니다. - Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행 되는 pod중 CPU 자원을 많이 점유하는 pod의 설정을 점검해 보시길 제안드립니다. 예를 들어 pod spec의 limit 설정으로 과도한 CPU자원 점유을 막을 수 있습니다. - summary: Cpu resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: (avg by (taco_cluster, instance) (rate(node_cpu_seconds_total{mode="idle"}[60s]))) < 0 #0.1 # 진짜 0? - for: 3m - labels: - severity: warning - - alert: node-memory-high-utilization - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 Memory 사용량이 3분동안 80% 를 넘어서고 있습니다. (현재 사용률 {{$value}}) - descriptioon: 워커 노드의 Memory 사용량이 80%를 넘었습니다. 일시적인 서비스 증가 및 SW 오류등 다양한 원인으로 발생할 수 있습니다. - Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행되는 pod중 Memory 사용량이 높은 pod들에 대한 점검을 제안드립니다. - summary: Memory resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: (node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes) < 0.2 - for: 3m - labels: - severity: warning - - alert: node-disk-full - annotations: - message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 root 볼륨은 24시간 안에 Disk full이 예상됨 - description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰 것으로 예상됩니다. - Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요. - summary: Memory resources of the node {{ $labels.instance }} are running low. - discriminative: $labels.taco_cluster, $labels.instance - expr: predict_linear(node_filesystem_free_bytes{mountpoint="/"}[6h], 24*3600) < 0 - for: 30m - labels: - severity: critical - - alert: pvc-full - annotations: - message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.persistentvolumeclaim }})가 24시간 안에 Disk full이 예상됨 - description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰것으로 예상됩니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.persistentvolumeclaim }} PVC) - Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요. - summary: Disk resources of the volume(pvc) {{ $labels.persistentvolumeclaim }} are running low. - discriminative: $labels.taco_cluster, $labels.persistentvolumeclaim - expr: predict_linear(kubelet_volume_stats_available_bytes[6h], 24*3600) < 0 # kubelet_volume_stats_capacity_bytes - for: 30m - labels: - severity: critical - - alert: pod-restart-frequently - annotations: - message: 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.pod }})가 30분 동안 5회 이상 재기동 ({{ $value }}회) - description: 특정 Pod가 빈번하게 재기동 되고 있습니다. 점검이 필요합니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.pod }} 파드) - Checkpoint: pod spec. 에 대한 점검이 필요합니다. pod의 log 및 status를 확인해 주세요. - discriminative: $labels.taco_cluster, $labels.pod, $labels.namespace - expr: increase(kube_pod_container_status_restarts_total{namespace!="kube-system"}[60m:]) > 2 # 몇회로 할 것인지? - for: 30m - labels: - severity: critical - - alert: policy-audited - annotations: - Checkpoint: 정책위반이 발생하였습니다.({{ $labels.kind }} / {{ $labels.name }}) - description: 클러스터 ( {{ $labels.taco_cluster }})의 자원({{ $labels.violating_kind }} - {{ $labels.violating_namespace }} / {{ $labels.violating_nam }})에서 정책({{ $labels.kind }} / {{ $labels.name }})위반이 발생했습니다. 메시지 - {{ $labels.violation_msg }} - discriminative: $labels.kind,$labels.name,$labels.taco_cluster,$labels.violating_kind,$labels.violating_name,$labels.violating_namespace,$labels.violation_msg - message: 정책 위반({{ $labels.kind }} / {{ $labels.name }}) - expr: opa_scorecard_constraint_violations{namespace!='kube-system|taco-system|gatekeeper-system', violation_enforcement='warn'} == 1 - for: 1m - labels: - severity: critical - - alert: policy-blocked - annotations: - Checkpoint: "정책위반이 시도가 발생하였습니다.({{ $labels.kind }} / {{ $labels.name }})" - description: "클러스터 ( {{ $labels.taco_cluster }})의 자원({{ $labels.violating_kind }} - {{ $labels.violating_namespace }} / {{ $labels.violating_nam }})에서 정책({{ $labels.kind }} / {{ $labels.name }})위반 시도가 발생했습니다. 메시지 - {{ $labels.violation_msg }}" - discriminative: $labels.kind,$labels.name,$labels.taco_cluster,$labels.violating_kind,$labels.violating_name,$labels.violating_namespace,$labels.violation_msg - message: 정책 위반({{ $labels.kind }} / {{ $labels.name }}) 시도 - expr: opa_scorecard_constraint_violations{namespace!='kube-system|taco-system|gatekeeper-system',violation_enforcement=''} == 1 - for: 1m - labels: - severity: critical - name: thanos-config override: