Call ResetFailedUnit when cleaning up failed services #20810

agrare · 2020-11-12T17:58:50Z

If a systemd service has failed it stays around until you call systemd reset-failed unit-name otherwise it stays around as:

# systemctl status
● vmware_infra_manager_event_catcher@8f2f33a3-d1b1-4603-a8aa-44a7156347d9.service   loaded failed failed    vmware_infra_manager_event_catcher@8f2f33a3-d1b1-4603-a8aa-44a7156347d9.service

# systemctl status vmware_infra_manager_event_catcher@8f2f33a3-d1b1-4603-a8aa-44a7156347d9.service
Warning: The unit file, source configuration file or drop-ins of vmware_infra_manager_event_catcher@8f2f33a3-d1b1-4603-a8aa-44a7156347d9.service changed on disk. Run 'systemctl daemon-reload' to reload units.
● vmware_infra_manager_event_catcher@8f2f33a3-d1b1-4603-a8aa-44a7156347d9.service
   Loaded: loaded (/etc/systemd/system/[email protected]; disabled; vendor preset: disabled)
  Drop-In: /etc/systemd/system/vmware_infra_manager_event_catcher@8f2f33a3-d1b1-4603-a8aa-44a7156347d9.service.d
           └─override.conf
   Active: inactive (dead) since Thu 2020-11-12 11:26:12 EST; 1h 25min ago
  Process: 178314 ExecStart=/bin/bash -lc exec ruby lib/workers/bin/run_single_worker.rb ManageIQ::Providers::Vmware::InfraManager::EventCatcher --heartbeat --guid=8f2f33a3-d1b1-4603-a8aa-44a7156347d9 (code=exi>
 Main PID: 178314 (code=exited, status=1/FAILURE)

agrare · 2020-11-12T18:00:14Z

app/models/miq_server/worker_management/monitor/systemd.rb

@@ -29,6 +29,7 @@ def systemd_manager
  def systemd_stop_services(service_names)
    service_names.each do |service_name|
      systemd_manager.StopUnit(service_name, "replace")
+      systemd_manager.ResetFailedUnit(service_name)


WIP because I want to confirm that this order is correct, (stop, reset, disable)

Okay taking out of WIP, tested this live on an appliance by kill -9'ing a worker and the failed systemd service is properly cleaned up

jrafanie · 2020-11-12T21:25:41Z

Does it stay around in the miq_workers table as a running worker while it's failed in systemd?

agrare · 2020-11-12T21:26:41Z

No it is not in the workers table (checked that on the appliance that I pulled that systemd status from)

jrafanie · 2020-11-17T14:23:29Z

I know this is still wip, but the travis failure looks relevant for this change:

  1) MiqServer::WorkerManagement::Monitor::Systemd#cleanup_failed_systemd_services with failed services calls DisableUnitFiles with the service name
     Failure/Error: systemd_manager.ResetFailedUnit(service_name)
       #<Double "DBus::Systemd::Manager"> received unexpected message :ResetFailedUnit with ("[email protected]")
     # ./app/models/miq_server/worker_management/monitor/systemd.rb:32:in `block in systemd_stop_services'
     # ./app/models/miq_server/worker_management/monitor/systemd.rb:30:in `each'
     # ./app/models/miq_server/worker_management/monitor/systemd.rb:30:in `systemd_stop_services'
     # ./app/models/miq_server/worker_management/monitor/systemd.rb:9:in `cleanup_failed_systemd_services'
     # ./spec/models/miq_server/worker_management/monitor/systemd_spec.rb:28:in `block (4 levels) in <top (required)>'

If a systemd service has failed it stays around until you call `systemd reset-failed unit-name`

miq-bot · 2020-11-18T14:25:24Z

Checked commit agrare@1678e35 with ruby 2.6.3, rubocop 0.82.0, haml-lint 0.35.0, and yamllint
2 files checked, 0 offenses detected
Everything looks fine. 🍪

agrare · 2020-11-18T15:17:05Z

@jrafanie this is ready to go, please take a look

Call ResetFailedUnit when cleaning up failed services (cherry picked from commit 0a56551)

simaishi · 2020-11-19T19:28:28Z

Kasparov backport details:

$ git log -1
commit 2be0d2302b7873fbb0e6f67a6d5a708a3d73f073
Author: Joe Rafaniello <[email protected]>
Date:   Thu Nov 19 10:23:12 2020 -0500

    Merge pull request #20810 from agrare/reset_failed_systemd_unit_files

    Call ResetFailedUnit when cleaning up failed services

    (cherry picked from commit 0a5655118d8b2817400406b44d697292c47b0893)

agrare requested a review from jrafanie as a code owner November 12, 2020 17:58

agrare added bug core/workers labels Nov 12, 2020

agrare commented Nov 12, 2020

View reviewed changes

miq-bot added the wip label Nov 12, 2020

Fryguy approved these changes Nov 17, 2020

View reviewed changes

Call ResetFailedUnit when cleaning up failed services

1678e35

If a systemd service has failed it stays around until you call `systemd reset-failed unit-name`

agrare force-pushed the reset_failed_systemd_unit_files branch from 97f0f8b to 1678e35 Compare November 18, 2020 14:24

agrare requested a review from gtanzillo as a code owner November 18, 2020 14:24

agrare changed the title ~~[WIP] Call ResetFailedUnit when cleaning up failed services~~ Call ResetFailedUnit when cleaning up failed services Nov 18, 2020

miq-bot removed the wip label Nov 18, 2020

agrare added the kasparov/yes? label Nov 18, 2020

agrare assigned jrafanie Nov 18, 2020

jrafanie approved these changes Nov 19, 2020

View reviewed changes

jrafanie merged commit 0a56551 into ManageIQ:master Nov 19, 2020

agrare deleted the reset_failed_systemd_unit_files branch November 19, 2020 15:50

agrare added kasparov/yes and removed kasparov/yes? labels Nov 19, 2020

simaishi pushed a commit that referenced this pull request Nov 19, 2020

Merge pull request #20810 from agrare/reset_failed_systemd_unit_files

2be0d23

Call ResetFailedUnit when cleaning up failed services (cherry picked from commit 0a56551)

simaishi added kasparov/backported and removed kasparov/yes labels Nov 19, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Call ResetFailedUnit when cleaning up failed services #20810

Call ResetFailedUnit when cleaning up failed services #20810

agrare commented Nov 12, 2020 •

edited

Loading

agrare Nov 12, 2020

agrare Nov 18, 2020 •

edited by chessbyte

Loading

jrafanie commented Nov 12, 2020

agrare commented Nov 12, 2020

jrafanie commented Nov 17, 2020

miq-bot commented Nov 18, 2020

agrare commented Nov 18, 2020

simaishi commented Nov 19, 2020

Call ResetFailedUnit when cleaning up failed services #20810

Call ResetFailedUnit when cleaning up failed services #20810

Conversation

agrare commented Nov 12, 2020 • edited Loading

agrare Nov 12, 2020

Choose a reason for hiding this comment

agrare Nov 18, 2020 • edited by chessbyte Loading

Choose a reason for hiding this comment

jrafanie commented Nov 12, 2020

agrare commented Nov 12, 2020

jrafanie commented Nov 17, 2020

miq-bot commented Nov 18, 2020

agrare commented Nov 18, 2020

simaishi commented Nov 19, 2020

agrare commented Nov 12, 2020 •

edited

Loading

agrare Nov 18, 2020 •

edited by chessbyte

Loading