New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

Améliorer le filtrage de Common Voice v3 #99

Closed

lissyx opened this issue Feb 5, 2020 · 1 comment

Assignees

Labels

bug dsfr

Collaborator

lissyx commented Feb 5, 2020

Les premiers résultats sur Common Voice v3:

beaucoup de déchets dans l'alphabet
loss à peu près similaire
taux d'erreurs très élevés (WER et CER)

Je pense que le jeu de données devrait être nettoyé pour au moins avoir un alphabet """normal""".

lissyx added bug dsfr labels

lissyx self-assigned this

lissyx mentioned this issue

Modèle v0.4 #88

Closed

10 tasks

Collaborator Author

lissyx commented Feb 7, 2020

Les premiers résultats sur Common Voice v3:
* beaucoup de déchets dans l'alphabet

* loss à peu près similaire

* taux d'erreurs très élevés (WER et CER)
Je pense que le jeu de données devrait être nettoyé pour au moins avoir un alphabet """normal""".

Confirmé, après nettoyage correct de l'alphabet, on retrouve des résultats proches, et un peu meilleur grâce à la quantité de données (180h vs 120h).

lissyx closed this as completed

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment