Questa progetto consiste nel raccogliere ed analizzare i dati relativi al campionato di serie A, predicendo in seguito, attraverso un algoritmo di machine learning, la probabile vincitrice di ogni partita. I dati raccolti vanno dalla stagione 2022-2023 alla stagione 2023-2024, giornata 30, ovvero la giornata in cui è stata fatta l'analisi. Obiettivo dell'analisi è stato allenare un modello di machine learning per uno specifico target: La squadra X riuscirà a vincere i prossimi match ?
I dati sono stati raccolti da www.fbref.com, racchiudendo la tabella della serie A negli anni 2022-2023 e 2023-2024, utilizzando sia la classifica generale della Serie A che la tabella relativa alle informazioni stagionali di ogni squadra. Dopo alcuni processi di pulizia abbiamo estratto il dataset in un file csv e in seguito preparato per essere inserito all'interno di un modello di machine learning chiamato Random Forest.
Abbiamo suddiviso i dati in dati di train e di test e infine utilizzato delle metriche di accuratezza e precisione per provare a migliorare la percentuale di successo del risultato.