Au sein du chapitre précédent, nous avons appliqué une approche de bout en bout pour la reconnaissance des entités nommées dans la parole.
Lors du chapitre précédent, nous avons appliqué une approche de bout en bout pour la reconnaissance des entités nommées dans la parole.
Nous avons vu que, bien que prometteuse, notre approche n'a pas été en mesure de rivaliser
avec une approche par chaîne de composants.
Dans ce chapitre, notre premier objectif consiste à étendre nos travaux à la tâche d'extraction des concepts sémantiques dans la parole.
Il s'agit d'une tâche similaire à la reconnaissance des entités nommées.
Pour l'extraction des concepts sémantiques, nous envisageons une application directe du système que nous avons proposé dans le précédent chapitre.
Pour l'extraction des concepts sémantiques, nous envisageons une application directe du système que nous avons proposé dans le chapitre précédent.
Alors que les entités nommées correspondent à des éléments sémantiques généraux, comme une \textit{personne}, un \textit{lieu}, les concepts sémantiques correspondent à des éléments liés à un cadre applicatif spécifique ; il s'agit d'éléments sémantiques plus précis.
% TODO : reprendre gros point ici
Dans le cadre de notre étude, les tâches applicatives visées correspondent à une tâche de réservation d'hôtel (MEDIA), ainsi qu'à une tâche de réservation de tickets de théâtre (PORTMEDIA).
Les concepts sémantiques appuyant ces applications sont par exemple, la nom d'un hôtel (\textit{hotel-nom}) ou le nom de l'auteur d'une pièce (\textit{piece-nom-auteur}).
Davantage de détails sur ces corpus de données sont présents dans le chapitre~\ref{chap:data}.
Au sein de ce nouveau chapitre, nous proposons de développer davantage notre approche par transfert d'apprentissage.
Dans ce nouveau chapitre, nous proposons de développer davantage notre approche par transfert d'apprentissage.
Nous avons noté le caractère plus générique des entités nommées par rapport aux concepts sémantiques.
De plus, la quantité de données disponibles pour estimer un modèle de reconnaissance des entités nommées à notre disposition est beaucoup plus importante que la quantité disponible pour la mise en place d'un modèle destiné à l'extraction de concepts sémantiques.
Il nous semble intéressant d'étudier l'apport d'un transfert d'apprentissage d'un modèle appris pour les entités nommées vers un modèle pour l'extraction des concepts sémantiques.
Enfin, un dernier objectif consiste à effectuer des expérimentations afin d'optimiser notre architecture neuronale pour obtenir de meilleures performances.
%Il s'agit initialement d'une approche dédiée à la tâche de reconnaissance de la parole.
%Puisque nous complexifions cette tâche par l'ajout d'informations sémantiques à extraire, nous émettons l'hypothèse que la profondeur du système ne soit plus totalement adaptée à la production de représentations intermédiaires optimales.
%De plus, nous envisageons l'ajout d'une couche neuronale comme un ensemble de paramètres n'ayant pas bénéficié d'optimisations liées aux transferts d'apprentissage, rendant ainsi ces paramètres plus modulables et spécifiables sur la tâche finale visée.
Nous organisons ce chapitre en trois sections.
Chacune d'entre elles vise à détailler un des objectifs évoqués et elles sont organisées suivant l'ordre mentionné.
...
...
@@ -37,7 +34,7 @@ Comme mentionné dans la section~\ref{sec:data_media_portmedia}, il s'agit d'un
L'annotation en concept sémantique porte uniquement sur la partie utilisateur et ne représente ainsi que 23,5 heures de paroles annotées.
Une difficulté sera donc de compenser le manque de données annotées pour la tâche finale de compréhension de la parole.
Le schéma d'annotation en concepts sémantiques est plus riche que celui des entités nommées, avec 76 concepts contre 57 entités nommées et composants (QU\AE{}RO), mais la représentation de ces concepts est une représentation à plat et non une représentation structurée.
Le schéma d'annotation en concepts sémantiques est plus riche que celui des entités nommées, avec 76 concepts contre 57 entités nommées et composants (QU\AE{}RO), avec une représentation à plat de ces concepts là où nous avions une représentation structurée dans les entités nommées.
En appliquant notre approche de bout en bout sur cette tâche, notre objectif est de vérifier sa pertinence dans un cadre plus contraint par la quantité des concepts et la taille réduite du corpus d'apprentissage.
...
...
@@ -61,13 +58,13 @@ Nous proposons également d'exploiter les données de l'ensemble PORTMEDIA pour
Nous mettons ainsi en place une approche par transfert d'apprentissage en trois étapes successives, dans un but d'optimisation fine (\textit{fine tuning}).
Tout d'abord nous estimons un système de RAP (noté $RAP$) en utilisant toutes nos données audio décrites en section~\ref{sec:repartition_data}.
Cela signifie que nous avons sous-échantillonné nos données audios d'enregistrement studio en 8Khz, que nous avons ajoutés aux enregistrements téléphoniques déjà disponibles.
Cela signifie que nous avons sous-échantillonné nos données audios d'enregistrement studio en 8~Khz, que nous avons ajoutés aux enregistrements téléphoniques déjà disponibles.
Ces enregistrements téléphoniques proviennent des ensembles de données MEDIA, PORTMEDIA et DECODA.
À la suite de l'entraînement du système de RAP exploitant toutes nos données, nous effectuons un \textit{fine tuning} sur les données des tâches MEDIA et PORTMEDIA (le système obtenu est noté $PM+M$).
Enfin, nous effectuons un dernier \textit{fine tuning} sur les données MEDIA (dont le système est noté $M$).
Le système final correspond aux apprentissages successifs $RAP \rightarrow PM+M \rightarrow M$ et est dénommé $RAP_{cc}$ (cc pour chaîne de composants).
Le système final correspond aux apprentissages successifs $RAP \rightarrow PM+M \rightarrow M$ et est dénommé $RAP_{cc}$ (\textit{cc} pour chaîne de composants).
Ce système permet l'obtention d'un taux d'erreur sur les mots (WER) de $9,3$~\% pour l'ensemble de test de MEDIA.
...
...
@@ -79,7 +76,7 @@ Le premier système exploite uniquement la forme de surface des mots et nous le
Ce système est appris à l'aide des transcriptions et annotations sémantiques manuelles de MEDIA.
Le second système ($ECS_{texte+carac}$) est aussi appris à l'aide des transcriptions et annotations manuelles.
Toutefois, il est enrichi par l'extraction automatique de caractéristiques extraite à l'aide de l'outil MACAON~[\cite{nasr2011macaon}].
Toutefois, il est enrichi par l'extraction automatique de caractéristiques extraites à l'aide de l'outil MACAON~[\cite{nasr2011macaon}].
Nous utilisons notamment les lemmes, les étiquettes morphosyntaxiques, les \textit{"governor words"} ainsi que leurs relations avec le mot courant.
En complément, nous extrayons des caractéristiques morphologiques correspondant aux n-grammes de la première à la troisième lettre du mot, ainsi qu'aux mêmes n-grammes des dernières lettres du mot.
% TODO : edwin : citation pour les caractéristiques : ask NC
...
...
@@ -157,8 +154,8 @@ Nous reportons les résultats obtenus en termes de CER et de CVER dans la table~
\end{table}
Comme dans nos expériences concernant la tâche de reconnaissance des entités nommées, ces résultats montrent les bénéfices de l'apprentissage par transferts successifs.
Nous pouvons noter une amélioration importante des performances grâce à l'utilisation d'un système de RAP préentrainé.
De plus, l'augmentation de données par PORTMEDIA à un impact positif, que ce soit en termes de CER et de CVER.
Nous pouvons noter une amélioration importante des performances grâce à l'utilisation d'un système de RAP préentrainé.
De plus, l'augmentation de données par PORTMEDIA a un impact positif, que ce soit en termes de CER et de CVER.
Bien que les performances soient en deçà d'une approche classique par composants, l'approche de bout en bout semble toutefois fonctionnelle pour une tâche comme MEDIA.
...
...
@@ -256,7 +253,7 @@ Pour la suite de nos travaux, nous proposons d'injecter de nouvelles information
Certains travaux concernant l'ajout d'informations additionnelles n'ont pas été directement réalisés dans le cadre de cette thèse.
Il s'agit cependant de travaux auxquels nous avons pris part et qui s'appuient sur le système de bout en bout proposés dans ce manuscrit.
Nous pouvons citer des travaux visant l'étude de l'adaptation au locuteur et l'utilisation de données issue d'une langue étrangère pour pallier le manque de données d'apprentissage~[\cite{tomashenko:hal-02307811,tomashenko:hal-02353011}].
Nous pouvons citer des travaux visant l'étude de l'adaptation au locuteur et l'utilisation de données issues d'une langue étrangère pour pallier le manque de données d'apprentissage~[\cite{tomashenko:hal-02307811,tomashenko:hal-02353011}].
L'information concernant le locuteur est injectée dans le système par l'intermédiaire d'une représentation vectorielle (\textit{i-Vector}) qui sera concaténée aux représentations calculées par les couches convolutionnelles sur les spectrogrammes de l'audio.
Les résultats de ces travaux ont montré l'utilité d'un système de reconnaissance de la parole anglais appris avec une quantité importante de données avant l'exploitation de la tâche française de compréhension de la parole.
De plus, ils ont montré l'intérêt de l'adaptation au locuteur pour l'extraction de concepts sémantiques.
...
...
@@ -264,7 +261,7 @@ De plus, ils ont montré l'intérêt de l'adaptation au locuteur pour l'extracti
Nous pouvons également citer les travaux effectuant l'étude de l'impact de l'historique de dialogue pour la reconnaissance des concepts~[\cite{tomashenko:hal-02551760}].
Comme pour l'adaptation au locuteur, ces travaux exploitent une représentation vectorielle qui sera concaténée à la représentation issue des couches de convolution.
Il s'agit toutefois d'une représentation de l'historique de dialogue (\textit{h-vectors}).
Ces travaux explorent plusieurs types d’\textit{h-vectors} et montrent l'intérêt de l'exploitation de cet historique.
Ces travaux explorent plusieurs types d’\textit{h-vectors} et montrent l'intérêt de l'exploitation de cet historique.
Nous avons été impliqués dans l'ensemble de ces travaux.
Dans le cadre de cette thèse, nous avons également proposé de bénéficier des entités nommées comme information additionnelle.
...
...
@@ -337,13 +334,13 @@ Nous donnons une représentation schématique de la chaîne d'apprentissage fina
\subsection{Expérimentations et résultats}
À partir de la chaîne d'apprentissage décrite précédemment, nous réalisons des expérimentations visant à confirmer la viabilité de notre stratégie de transfert par curriculum.
Nous effectuons donc l'ajout d'une étape de reconnaissance des entités nommées au sein des chaînes d'apprentissages réalisés précédemment en section~\ref{subsec:CS_E2E}.
Nous effectuons donc l'ajout d'une étape de reconnaissance des entités nommées au sein des chaînes d'apprentissages réalisées précédemment en section~\ref{subsec:CS_E2E}.
Pour l'apprentissage du modèle visant la tâche de reconnaissance des entités nommées, nous exploitons la totalité de nos données studio annotées selon notre annotation simplifiée du formalisme QU\AE{}RO~(voir section \ref{subsec:def-EN-EZ}).
Cela signifie que nous exploitons l'annotation manuelle des ensembles ETAPE et QU\AE{}RO afin d'effectuer l'augmentation automatique des données studio.
Nous apprenons un modèle NeuroNLP2 à l'aide des annotations d'EN manuelles, puis nous portons la prédiction sur toutes nos données de parole dépourvues d'annotation en EN.
Nous n'ajoutons pas de données supplémentaires et nous ne portons pas l'annotation en EN sur les données téléphoniques en raison de leurs annotations initiales en concept sémantique.
Par l'intermédiaire de l'annotation automatique, nous cumulons un ensemble d'apprentissages de près de 290 heures annotées manuellement et automatiquement en EN.
Par l'intermédiaire de l'annotation automatique, nous cumulons un ensemble d'apprentissage de près de 290 heures annotées manuellement et automatiquement en EN.
Pour la réalisation de nos expérimentations, nous continuons d'exploiter notre implémentation de Deep Speech 2 de façon identique.
C'est-à-dire, une architecture composée de 2 couches CNN, 5 couches bLSTM avec normalisation des batchs, 1 couche linéaire et une couche de sorties softmax.
...
...
@@ -380,7 +377,7 @@ Nous effectuons donc un report de ces résultats dans la première partie de la
\end{table}
Les résultats de ces expérimentations montrent l'apport des entités nommées dans la chaîne d'apprentissage.
Par leur utilisation, nous observons une amélioration systématique des performances, que ce soit en terme de CER et de CVER.
Par leur utilisation, nous observons une amélioration systématique des performances, que ce soit en termes de CER et de CVER.
Nous considérons que le gain provenant de cette étape vient effectivement de la tâche de reconnaissance des entités nommées elle-même, dans la mesure où les données audio associées sont déjà exploitées lors de l'étape de RAP.
Nous souhaitons confirmer que l'apport des EN provient effectivement de la stratégie de curriculum employée.
...
...
@@ -459,8 +456,7 @@ Afin de mieux comprendre l'apport des entités nommées dans le cadre de notre a
Pour ce faire, nous mesurons l'évolution du nombre d'erreurs par catégories de concepts avec et sans l'utilisation des entités nommées dans notre chaîne d'apprentissage.
Cette analyse est effectuée sur l'ensemble de développement de MEDIA et nous comparons les chaînes d'apprentissages $RAP \rightarrow PM + M \rightarrow M$ et $RAP \rightarrow REN \rightarrow PM + M \rightarrow M$.
Sur le corpus de développement, le score en terme de CER est de $19,7$ pour la chaîne n'exploitant Notons que le nombre total de concepts sémantiques de référence de l'ensemble de développement est de 3333.
Sur le corpus de développement, le score en termes de CER est de $19,7$ pour la chaîne n'exploitant Notons que le nombre total de concepts sémantiques de référence de l'ensemble de développement est de $3~333$.
Nous fournissons dans la figure~\ref{fig:delta_ner_dev} le delta du nombre des erreurs sur les concepts sémantiques entre les deux chaînes que nous comparons.
\begin{figure}[htbp]
...
...
@@ -526,16 +522,16 @@ Par la suite, nous essayons d'améliorer les performances de notre modèle en ag
\section{Impact de la profondeur du modèle}
\label{sec:CS_optim}
Toutes nos expériences ont été effectuées avec les mêmes paramètres du système Deep Speech 2.
Toutes nos expériences ont été réalisées avec les mêmes paramètres du système Deep Speech 2.
Il s'agissait de paramètres donnant de bonnes performances, que nous n'avons pas optimisées en raison du temps de calcul, hormis pour la largeur du modèle.
Nous avons complexifié la tâche cible du système en incorporant des concepts sémantiques ou des entités nommées.
Nous supposons que la profondeur du système, c'est-à-dire le nombre de couches bLSTM cachées, ne soit plus optimale pour la tâche ciblée.
Nous supposons que la profondeur du système, c'est-à-dire le nombre de couches bLSTM cachées, ne peut être plus optimale pour la tâche ciblée.
Nous émettons aussi l'hypothèse que l'ajout d'une couche neuronale au-dessus de celles ayant bénéficié d'un préentrainement rend possible une meilleure spécialisation de cette couche pour la tâche finale.
Nous émettons aussi l'hypothèse que l'ajout d'une couche neuronale au-dessus de celles ayant bénéficié d'un préentrainement rend possible une meilleure spécialisation de cette couche pour la tâche finale.
Il est à noter le coût important en terme de temps de calcul de l'entraînement d'une chaîne d'apprentissage complète.
Dans le cadre de la tâche MEDIA, nous effectuons l'entraînement de quatre systèmes successifs.
Il est à noter le coût important en termes de temps de calcul de l'entraînement d'une chaîne d'apprentissage complète.
Dans le cadre de la tâche MEDIA, nous réalisons l'entraînement de quatre systèmes successifs.
Aussi, la quantité de données exploitées par système joue un rôle important pour le temps de calcul nécessaire à sa convergence, de même que le nombre de paramètres à apprendre.
La première étape ($RAP$) exploite un total de 410 heures d'apprentissage.
@@ -373,7 +373,6 @@ Il est aussi à noter que ces travaux exploitent aussi une architecture neuronal
Dans les prochaines sous-sections, nous détaillons notre implémentation des classifieurs externes, ainsi que leurs performances de classifications pour les représentations internes des concepts extraites de différentes couches récurrentes.
% TODO : reprendre ICI
\subsection{Entraînement de classifieurs externes}
L'exploitation que nous proposons d'un classifieur externe consiste en l'entraînement d'un système neuronal composé d'une couche permettant la représentation d'informations puis une couche de sortie softmax.