Update gradient descent for per-parameter learning rates #567

BradyPlanden · 2024-11-25T18:02:16Z

Feature description

Add a per-parameter learning rate implementation of gradient descent.

Motivation

The current gradient descent implementation uses the minimum sigma0 applied to all parameters. This is problematic if the gradient magnitudes are dissimilar, or for learning rate calibration to fine tune convergence.

Possible implementation

No response

Additional context

No response

The text was updated successfully, but these errors were encountered:

BradyPlanden added the enhancement New feature or request label Nov 25, 2024

BradyPlanden self-assigned this Nov 25, 2024

BradyPlanden mentioned this issue Nov 25, 2024

Parameter specific learning rates for Gradient Descent #569

Merged

15 tasks

BradyPlanden closed this as completed in #569 Nov 26, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Update gradient descent for per-parameter learning rates #567

Update gradient descent for per-parameter learning rates #567

BradyPlanden commented Nov 25, 2024

Update gradient descent for per-parameter learning rates #567

Update gradient descent for per-parameter learning rates #567

Comments

BradyPlanden commented Nov 25, 2024

Feature description

Motivation

Possible implementation

Additional context