-
Notifications
You must be signed in to change notification settings - Fork 24
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Comparaison Common Voice v3 FR -- Duplicatas #102
Comments
Avec 8 doublons, on importe ~291h de Common Voice FR. |
Sans doublons et avec doublons, le WER sur tous les jeux de données reste plus ou moins stable. Par contre, en comparaison avec le modèle 0.3.4, sans doublon, des utilisateurs rapportent une grosse amélioration de la qualité. Pas encore de retour avec les doublons. |
Avec 8 doublons, le WER se déteriore assez (9% -> 18% sur M-AILABS). En attente de retours sur l'impact "en vrai". |
Avec 4 doublons, on importe ~282h |
Et on a ~19.2% WER sur M-AILABS. |
Retours des testeurs : "c'est moins bien" |
Avec 2 doublons, on importe ~232h |
C'est faux, j'ai fait une erreur. On est dans des taux très proches quelque soient les taux de duplications, mais toujours un peu d'avance pour les cas où on a le plus de données. C'est confirmé par des essais sur des clips audio autres. Par contre il reste des bugs à l'export qui font que c'est
|
Bonjour lissyx, Je ne suis en ce moment Common Voice et Deep Speech que de loin mais en lisant cette issue je me suis fais une remarque : Lorsque l’on teste avec 8 doublons on obtient une erreur significativement plus élevée. Je pense que l’origine du problème vient du fait que le modèle tend à overfit les phrases en doublons pour limiter l’erreur d’entrainement, au détriment de l’efficacité du modèle sur des phrases qu’il n’a jamais vu. De ce que j’ai compris, jusqu’à aujourd’hui l’approche choisie pour DeepSpeech est de se dire que pour éviter cet overfitting, on va simplement éliminer les doublons. Cependant je trouve cela dommage d’ignorer des données qui comportent de l’information précieuse. C’est surement cette même raison qui t’incite à faire ces tests. Ce que je me demande c’est : est-ce qu’il ne serait pas possible de pondérer l’erreur de chaque phrase par son nombre d’occurences ? Ainsi, il n’y aurait pas plus d’overfitting que sans doublon, tout en profitant de l’information de chaque sample dans notre apprentissage. Pour illustrer ce que je veux dire, admettons qu’il y ait trois phrases A, B et C telles que A1, A2, A3 soient des enregistrements de la phrase A et B1 et C1 de même pour respectivement B et C. a, b, c sont les erreurs associées aux enregistrements. L’erreur calculée pour une stratégie sans doublons serait du type : Chaque phrase n’est présente qu’une fois et chaque sample a un poids de 1 donc pas d’overfitting mais perte d’information. Pour une stratégie avec tous les doublons et un poids de 1 : On a plus d’information mais on voit ici que A pèse plus lourd que B et C réunis. Ma proposition : Ainsi, la phrase A pèse toujours pour un tier du total, mais le modèle a une incentive à être performant sur A1, A2 et A3 et non seulement A1. J’ai du mal à savoir à quel point cette idée peut être difficile à intégrer à DeepSpeech mais je la trouvais intéressante. J’ai fais comme j’ai pu pour expliquer mon idée mais si c’est pas clair n'hésite pas. À bientôt ! |
Jusqu'à présent, par défaut, on interdit les doublons parce qu'on pense que ça va overfit. Je suis en train de tester ce que ça donne, en vrai, dans le cas du français (pas forcément généralisable). Et pour le moment, les résultats que j'ai, justement, tendent à indiquer que ça overfit pas :) |
Je sais pas trop, je me demande si c'est pas plus compliqué que nécessaire, sauf si on a vraiment accès à un volume de données qui se justifie. Peut-être lancer l'idée sur Discourse? |
Comparer les WER sur l'entraînement entre :
On veut vérifier :
The text was updated successfully, but these errors were encountered: