Regularisation and Optimisation

L1 and L2 regularisation, gradient descent variants, and learning rate schedules.

Regularisation prevents a model from memorising training data; optimisation is how the model learns. This chapter covers L2 ridge and L1 lasso regularisation, dropout for neural networks, stochastic gradient descent, momentum, Adam, and learning rate scheduling strategies.