Skip to content
This repository has been archived by the owner on Mar 2, 2024. It is now read-only.

Finne ut av OOM issue for barnehagepris #1019

Closed
3 of 4 tasks
Kielo87 opened this issue Sep 6, 2022 · 1 comment
Closed
3 of 4 tasks

Finne ut av OOM issue for barnehagepris #1019

Kielo87 opened this issue Sep 6, 2022 · 1 comment
Assignees

Comments

@Kielo87
Copy link
Contributor

Kielo87 commented Sep 6, 2022

Barnehagepris opplevde at en av applikasjonene sine svarte 503. Etter litt undersøkelse fant vi ut at den ene noden ble drept grunnet negative helsesjekker, og helsesjekkene var negative fordi noden hadde gått tom for minne. Etter alt for lang tid løste problemet seg selv. Antall noder hadde blitt skalert opp og syk node hadde blitt byttet ut.

Slack tråd
Tidslinje
OOM reproduksjonseksperimenter


Vi ble enige om følgende ref:

  1. Vente på k8s upgrade for å få riktig konfigurasjon av autoscale groups
  2. Ta i bruk overprovisionering for at Loki kjappere skal komme på igjen
  3. Når Loki kjapt kommer på igjen, eksperimentere med konfig

chunk_retain_period
http read/write timeout // parallelism
Overprovisioning
Cluster overprovisioning in Kubernetes)
Kubernetes Cluster Over-Provisioning: Proactive App Scaling


Checklist

  • Komme med anbefaling etter reproduksjon
  • Researche og vurdere justering av thresholds for oppskalering
  • Undersøke OOM problem med Loki
  • Informer teamet om avgjørelse i møtet
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants