Modèle Français 0.9
Pre-releaseJeux de données :
- Lingua Libre (~40h)
- Common Voice FR (v9.0) (~850h, en autorisant jusqu'à 32 duplicatas)
- Training Speech (~180h)
- African Accented French (~15h)
- M-AILABS French (~315h)
- Att-HACK (~75h)
- Multilingual LibriSpeech (~1'100h)
Total : ~2'573h (~1925h par défaut )
Paramètres :
EPOCHS=40
LEARNING_RATE=0.0001
DROPOUT=0.3
BATCH_SIZE=64
LM_ALPHA=0.5853937631308501
LM_BETA=1.8116059936952276
Les paramètres qui ne sont pas mentionnés, sont ceux par default pour STT (c.f. paramètres par défaut de Coqui-STT)
Augmentations
Les données ont été augmentées avec les paramètres suivants:
Parsed augmentations: [
Reverb(p=0.1, delay=ValueRange(start=50.0, end=50.0, r=30.0), decay=ValueRange(start=10.0, end=2.0, r=1.0)),
Resample(p=0.1, rate=ValueRange(start=12000, end=8000, r=4000)),
Codec(p=0.1, bitrate=ValueRange(start=48000, end=16000, r=0)),
Volume(p=0.1, dbfs=ValueRange(start=-10.0, end=-40.0, r=0.0)),
Pitch(p=0.1, pitch=ValueRange(start=1.0, end=1.0, r=0.2)),
Tempo(p=0.1, factor=ValueRange(start=1.0, end=1.0, r=0.5), max_time=-1.0),
FrequencyMask(p=0.1, n=ValueRange(start=1, end=3, r=0), size=ValueRange(start=1, end=5, r=0)),
TimeMask(p=0.1, domain='signal', n=ValueRange(start=3, end=10, r=2), size=ValueRange(start=50.0, end=100.0, r=40.0)),
Dropout(p=0.1, domain='spectrogram', rate=ValueRange(start=0.05, end=0.05, r=0.0)),
Add(p=0.1, domain='signal', stddev=ValueRange(start=0.0, end=0.0, r=0.5)),
Multiply(p=0.1, domain='features', stddev=ValueRange(start=0.0, end=0.0, r=0.5))
]
Invalidation régulière du feature_cache
(toutes les 10 epoch).
Modèle de language :
- dump wikipedia
- dump débats assemblée nationale
- dump exclues African Accented French*
- dump exclues M-AILABS*
- dump exclues MLS*
- dump exclues Att-HACK*
* Phrases exclues des set de données d'entraînement, de validation et d'évaluation du modèle acoustique car trop longes.
Best params: lm_alpha=0.5853937631308501 and lm_beta=1.8116059936952276 with WER=0.1921812008479461
Licence :
Mozilla Public License (MPL) 2.0
Résultats sur les sets de test:
Test on /mnt/extracted/data/trainingspeech/ts_2019-04-11_fr_FR_test.csv - WER: 0.109517, CER: 0.041046, loss: 16.648710
Test on /mnt/extracted/data/African_Accented_French/African_Accented_French/African_Accented_French_test.csv - WER: 0.476964, CER: 0.266480, loss: 42.864929
Test on /mnt/extracted/data/Att-HACK/Att-HACK_test.csv - WER: 0.128990, CER: 0.071407, loss: 7.359530
Test on /mnt/extracted/data/M-AILABS/fr_FR/fr_FR_test.csv - WER: 0.099164, CER: 0.033407, loss: 17.330360
Test on /mnt/extracted/data/lingualibre/lingua_libre_Q21-fra-French_test.csv - WER: 0.676133, CER: 0.216262, loss: 8.465725
Test on /mnt/extracted/data/cv-fr/clips/test.csv - WER: 0.315567, CER: 0.152625, loss: inf
Test on /mnt/extracted/data/MLS/MLS_test.csv - WER: 0.226772, CER: 0.097849, loss: 78.408150
Notes de l'entraîneur
La version 0.8 du modèle acoustique apportait suffisament de données de qualité, par rapport à la distribution précédente, qu'elles suffisaient à produire un taux d'erreur par mot (WER) plus faible.
(c.f. Release 0.6 et Release 0.8)
Cette distribution 0.9 voit une augmentation des données validés pour le modèle acoustique de 22 heures (données supplémentaire de la version 9.0 du 27/04/22 de CommonVoice en français).
Afin d'obtenir de meilleurs résultats que la distribution 0.8, les données ont été augmentées avec les paramètres mentionnés. Cela permet d'améliorer la capacité du modèle acoustique à généraliser dans un environnement bruyant (c.f. Bruit de fond).
La prochaine étape consiterait à augmenter davantage les données du modèle acoustique avec une ou plusieurs couches de bruit de fond provenant de divers environnements source de bruit (un ventilateur, une voiture, une foule de gens, etc).
Pour améliorer les performence du modèle acoustique sur vos données il est toujours préconisé de créer votre propre modèle le language.
Fonctionne avec DeepSpeech (v0.7, v0.8, v0.9) et 🐸-STT (Coqui-STT) (v1.0.0, v1.1.0, v1.2.0, v1.3.0, v1.4.0).