Groupe :
- Thomas Portet
- Aymeric Picard Marchetto
Le rapport se trouve dans le fichier Rapport.md
.
python main.py data/data.txt [nb]
Génère [nb]
titres aléatoires en utilisant notre jeu de données. Fonctionne sur linux avec python 3.
cleanSource.py
a servi pour nettoyer le data set original (examiner-date-text.csv
) en format plus lisible (cleanedSource.txt
)genProba.py
transforme un fichier de titres bruts (cleanedSource.txt
) avec les données des bigrammes pour le programme (data.txt
)
dataraw
contient les données non traitéesexaminer-date-text.csv
est le data set original tel quel (zippé pour prendre moins de place)cleanedSource.txt
le data set nettoyé parcleanSource.py
(zippé pour prendre moins de place)smallDataTest.txt
un data set artificiel pour tester l'algorithme
data
contient les données prêtes à l'emploidata.txt
les données générées pargenProba.py
à partir decleanedSource.txt
dataSmall.txt
les données générées pargenProba.py
à partir desmallDataTest.txt
Source du data set : https://www.kaggle.com/therohk/examine-the-examiner