Commit e0f63a83 authored by Antoine Caubrière's avatar Antoine Caubrière
Browse files

C2 - V2 : ask confirmation

parent e3c3c9cd
......@@ -17,27 +17,30 @@ Nous décrivons ensuite les approches neuronales récentes remplaçant les GMM,
Comme nous avons commencé à l'évoquer dans le chapitre précédent, la parole peut être considérée comme une suite finie d'événements non aléatoires.
Effectuer la reconnaissance de la parole consiste à produire une séquence de mots à partir d'observations sur un signal acoustique de parole.
% TODO : remarques marron : bayes + P(X)
L'approche statistique est très majoritairement utilisée dans le domaine depuis des décennies [\cite{jelinek1976continuous}].
Le principe consiste à rechercher la séquence de mots $W' = w_1, w_2, ... w_n$ à partir d'observations acoustiques $X = x_1, x_2, ... x_t$ qui maximise :
\begin{equation} W' = \arg\max P(W|X) \end{equation}
Puis, par application du théorème de Bayes, il est possible de simplifier le problème en modifiant l'équation à résoudre~[\cite{jelinek1976continuous}].
Toutefois, il est compliqué de modéliser directement cette probabilité $P(W|X)$.
Par application du théorème de Bayes cette équation peut s'écrire sous la forme :
Il s'agit ainsi de maximiser :
\begin{equation} W' = \arg\max \frac{P(X|W)P(W)}{P(X)}\end{equation}
$P(X)$ est une constante indépendante de $W$.
Il est donc possible de simplifier l'équation à résoudre :
\begin{equation} W' = \arg\max P(X|W)P(W) \end{equation}
L'avantage de cette deuxième équation est qu'elle rend la reconnaissance de la parole possible par l'utilisation conjointe de deux modèles statistiques.
La reconnaissance de la parole peut ainsi être prise en charge par l'utilisation conjointe de deux modèles plus simples à modéliser.
Le premier est le modèle acoustique.
Il permet de modéliser la probabilité d'observer la séquence acoustique $X$ lorsque les mots $W$ sont prononcés : $P(X|W)$.
Le second, le modèle de langage, modélise la probabilité d'observer le mot $W$ dans la langue reconnue : $P(W)$.
Le second est le modèle de langage, qui modélise la probabilité d'observer le mot $W$ dans la langue reconnue : $P(W)$.
Ces deux modèles définissent des éléments essentiels à la mise en place d'un système de RAP.
Ils sont toutefois complétés par deux autres modules nécessaires que nous n'aborderons pas en détail.
Ils sont toutefois complétés par plusieurs autres modules nécessaires que nous n'aborderons pas en détail.
Il s'agit tout d'abord d'un module de segmentation, dont l'objectif est de découper un signal de parole en fenêtres observables.
L'intérêt étant de sélectionner les zones comportant de la parole et d'écarter celles contenant du bruit dans un signal audio.
......@@ -45,7 +48,11 @@ L'intérêt étant de sélectionner les zones comportant de la parole et d'écar
Il s'agit ensuite d'un module d'extraction des paramètres acoustiques, qui est responsable de la conversion d'un signal audio de parole en vecteurs d'observations acoustiques.
L'intérêt de ce module est, au sein d'un segment de parole, d'extraire les informations pertinentes de la parole.
La méthode d'extraction la plus fréquente consiste à calculer des coefficients cepstraux (\textit{Mel-Frequency Cepstral Coefficient, MFCC})~[\cite{davis1980comparison}].
% TODO : remarque marron, dictionnaire de prononciations
Il s'agit enfin d'un dictionnaire de prononciation réalisant le lien entre la représentation textuelle et la représentation acoustique des mots.
Ce dictionnaire est essentiel à l'estimation de la probabilité $P(X|W)$ et peut comporter des probabilités pour chacune des variantes de prononciations possibles d'un même mot.
% TODO : ask YE : to confirm.
Nous donnons une représentation schématique d'un système complet de reconnaissance de la parole dans la figure~\ref{fig:ASR}.
......@@ -69,8 +76,6 @@ Au sein des sous-sections suivantes, nous proposons de détailler ces technologi
\subsection{Modèles de Markov cachés}
% Ce que c'est un HMM
Un modèle de Markov caché est un modèle statistique composé d'états successifs et de transitions formant une chaîne de Markov.
Les transitions entre états sont unidirectionnelles et permettent de modéliser la probabilité de passer d'un état au suivant.
Il existe une transition bouclant sur chaque état, permettant de conserver un état d'un temps $t$ au temps $t+1$.
......@@ -86,7 +91,7 @@ Nous fournissons l'exemple d'un modèle acoustique HMM dans la figure~\ref{fig:H
\begin{figure}[htbp]
\begin{center}
\includegraphics[width=\linewidth]{Chapitre2/figures/hmm.png}
\includegraphics[width=0.95\linewidth]{Chapitre2/figures/hmm.png}
\end{center}
\caption{Représentation d'un modèle acoustique exploitant des modèles de Markov cachés pour le mot \textit{salut}~[\cite{vythelingum2019construction}].}
......@@ -97,7 +102,7 @@ Entraîner un modèle acoustique de ce type correspond à maximiser les probabil
Il s'agit d'estimer les probabilités de transition d'un état au suivant de manière itérative, selon l'algorithme \textit{Expectation-Maximization} (EM).
Enfin, un automate formé par concaténation d'HMM peut être parcouru selon différents chemins qui représentent un alignement possible entre le signal acoustique et une séquence de mots.
Il s'agit désormais de trouver le chemin le plus probable à l'aide de l'algorithme Viterbi~[\cite{forney1973viterbi}], donnant ainsi l'alignement optimal.
Il s'agit de trouver le chemin le plus probable à l'aide de l'algorithme Viterbi~[\cite{forney1973viterbi}], donnant ainsi l'alignement optimal.
C'est l'algorithme le plus couramment utilisé, bien qu'il en existe d'autres, comme la méthode itérative de Baulm-Welch~[\cite{baum1972inequality}].
Pour la tâche de reconnaissance de la parole, il est nécessaire d'estimer les probabilités d'observations acoustiques sur les états des HMM.
......@@ -131,7 +136,7 @@ Nous fournissons dans la figure~\ref{fig:hmm-dnn}, l'exemple d'une architecture
\begin{figure}[htbp]
\begin{center}
\includegraphics[width=0.7\linewidth]{Chapitre2/figures/hmm-dnn.png}
\includegraphics[width=0.6\linewidth]{Chapitre2/figures/hmm-dnn.png}
\end{center}
\caption{Représentation d'un système HMM-DNN pour la modélisation acoustique de la parole~[\cite{juan2015exploiting}].}
......@@ -151,8 +156,8 @@ La modélisation de ces contraintes est faite selon la probabilité d'observer u
\subsection{Modèle n-grammes}
L'intérêt des modèles de ce type réside dans leurs capacités à estimer cette probabilité avec un historique de $n-1$ mots.
Ils possèdent toutefois une limite, puisque plus la taille de l'historique pris en compte est importante, plus il est couteux de réaliser une modélisation de ce type~[\cite{chen1999empirical}].
% TODO : remarque marron
Ils possèdent toutefois des limites, puisque plus la taille de l'historique pris en compte est importante, plus il est couteux de réaliser une modélisation de ce type~[\cite{chen1999empirical}] et plus ils font face à la problématique du manque de données.
Il est rare d'observer plusieurs fois de longues séquences de mots dans un ensemble de données.
Pour estimer un modèle de langage, il est nécessaire de maximiser la vraisemblance sur un ensemble de données textuelles~[\cite{dempster1977maximum}].
Il s'agit de calculer la probabilité d'apparition d'un mot $i$ selon l'historique $h$ de la façon suivante :
......@@ -264,9 +269,6 @@ Pendant l'exploration de l'arbre, il s'agit de classer les successeurs du noeud
Cet algorithme est couramment exploité comme stratégie de recherche au sein des sorties de systèmes séquences à séquences.
L'intérêt étant de construire un arbre des possibilités à l'aide des séquences de sorties immédiates d'un système et d'un modèle de langage.
Le modèle de langage permet de définir le score des successeurs de chaque noeud.
Par la suite, il suffit de parcourir cet arbre avec une largeur de $n$ pour sélectionner la séquence maximisant le score global calculé à l'aide du modèle de langage.
%TODO : revenir sur relecture ICI
Concrètement, l'emploi de cet algorithme, couplé à un modèle de langage, permet à un système d'émettre une sortie davantage vraisemblable par rapport au langage ciblé.
Un exemple serait que, dans le cas d'un système de reconnaissance de la parole basé sur les caractères, cet algorithme est capable de corriger des erreurs orthographiques comme "banjour", à condition que le mot "bonjour" soit connu dans le modèle de langage utilisé.
......
......@@ -312,15 +312,12 @@
\abx@aux@segm{0}{0}{rabiner1989tutorial}
\abx@aux@cite{jelinek1976continuous}
\abx@aux@segm{0}{0}{jelinek1976continuous}
\abx@aux@segm{0}{0}{jelinek1976continuous}
\newlabel{chap:RAP}{{2}{50}{Reconnaissance de la parole}{chapter.2}{}}
\abx@aux@backref{60}{rabiner1989tutorial}{0}{50}{50}
\abx@aux@page{60}{50}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {2.1}D\IeC {\'e}finition}{50}{section.2.1}}
\abx@aux@backref{61}{jelinek1976continuous}{0}{50}{50}
\abx@aux@page{61}{50}
\abx@aux@backref{62}{jelinek1976continuous}{0}{50}{50}
\abx@aux@page{62}{50}
\abx@aux@cite{davis1980comparison}
\abx@aux@segm{0}{0}{davis1980comparison}
\abx@aux@cite{ghannay2017etude}
......@@ -328,16 +325,14 @@
\abx@aux@segm{0}{0}{rabiner1989tutorial}
\abx@aux@cite{hinton2012deep}
\abx@aux@segm{0}{0}{hinton2012deep}
\abx@aux@backref{63}{davis1980comparison}{0}{51}{51}
\abx@aux@page{63}{51}
\abx@aux@backref{62}{davis1980comparison}{0}{51}{51}
\abx@aux@page{62}{51}
\@writefile{lof}{\defcounter {refsection}{0}\relax }\@writefile{lof}{\contentsline {figure}{\numberline {2.1}{\ignorespaces Repr\IeC {\'e}sentation d'un syst\IeC {\`e}me de reconnaissance de la parole~[\cite {ghannay2017etude}].}}{51}{figure.2.1}}
\abx@aux@backref{64}{ghannay2017etude}{0}{51}{51}
\abx@aux@backref{63}{ghannay2017etude}{0}{51}{51}
\newlabel{fig:ASR}{{2.1}{51}{Représentation d'un système de reconnaissance de la parole~[\cite {ghannay2017etude}]}{figure.2.1}{}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {2.2}Mod\IeC {\'e}lisation acoustique Markovienne}{51}{section.2.2}}
\abx@aux@backref{65}{rabiner1989tutorial}{0}{51}{51}
\abx@aux@page{65}{51}
\abx@aux@backref{66}{hinton2012deep}{0}{51}{51}
\abx@aux@page{66}{51}
\abx@aux@backref{64}{rabiner1989tutorial}{0}{51}{51}
\abx@aux@page{64}{51}
\abx@aux@cite{vythelingum2019construction}
\abx@aux@segm{0}{0}{vythelingum2019construction}
\abx@aux@segm{0}{0}{vythelingum2019construction}
......@@ -345,14 +340,12 @@
\abx@aux@segm{0}{0}{forney1973viterbi}
\abx@aux@cite{baum1972inequality}
\abx@aux@segm{0}{0}{baum1972inequality}
\abx@aux@backref{65}{hinton2012deep}{0}{52}{52}
\abx@aux@page{65}{52}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {2.2.1}Mod\IeC {\`e}les de Markov cach\IeC {\'e}s}{52}{subsection.2.2.1}}
\@writefile{lof}{\defcounter {refsection}{0}\relax }\@writefile{lof}{\contentsline {figure}{\numberline {2.2}{\ignorespaces Repr\IeC {\'e}sentation d'un mod\IeC {\`e}le acoustique exploitant des mod\IeC {\`e}les de Markov cach\IeC {\'e}s pour le mot \textit {salut}~[\cite {vythelingum2019construction}].}}{52}{figure.2.2}}
\abx@aux@backref{68}{vythelingum2019construction}{0}{52}{52}
\abx@aux@backref{67}{vythelingum2019construction}{0}{52}{52}
\newlabel{fig:HMM}{{2.2}{52}{Représentation d'un modèle acoustique exploitant des modèles de Markov cachés pour le mot \textit {salut}~[\cite {vythelingum2019construction}]}{figure.2.2}{}}
\abx@aux@backref{69}{forney1973viterbi}{0}{52}{52}
\abx@aux@page{69}{52}
\abx@aux@backref{70}{baum1972inequality}{0}{52}{52}
\abx@aux@page{70}{52}
\abx@aux@cite{bourlard1987multilayer}
\abx@aux@segm{0}{0}{bourlard1987multilayer}
\abx@aux@cite{ma1990tdnn}
......@@ -361,48 +354,57 @@
\abx@aux@cite{waibel1989phoneme}
\abx@aux@segm{0}{0}{waibel1989phoneme}
\abx@aux@segm{0}{0}{peddinti2015time}
\abx@aux@cite{juan2015exploiting}
\abx@aux@segm{0}{0}{juan2015exploiting}
\abx@aux@segm{0}{0}{juan2015exploiting}
\abx@aux@backref{68}{forney1973viterbi}{0}{53}{53}
\abx@aux@page{68}{53}
\abx@aux@backref{69}{baum1972inequality}{0}{53}{53}
\abx@aux@page{69}{53}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {2.2.2}Mod\IeC {\`e}les \IeC {\`a} m\IeC {\'e}lange de gaussiennes}{53}{subsection.2.2.2}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {2.2.3}Mod\IeC {\`e}les neuronaux profonds}{53}{subsection.2.2.3}}
\newlabel{subsec:hmm-dnn}{{2.2.3}{53}{Modèles neuronaux profonds}{subsection.2.2.3}{}}
\abx@aux@backref{71}{bourlard1987multilayer}{0}{53}{53}
\abx@aux@backref{70}{bourlard1987multilayer}{0}{53}{53}
\abx@aux@page{70}{53}
\abx@aux@backref{71}{ma1990tdnn}{0}{53}{53}
\abx@aux@page{71}{53}
\abx@aux@backref{72}{ma1990tdnn}{0}{53}{53}
\abx@aux@backref{72}{hinton2012deep}{0}{53}{53}
\abx@aux@page{72}{53}
\abx@aux@backref{73}{hinton2012deep}{0}{53}{53}
\abx@aux@backref{73}{waibel1989phoneme}{0}{53}{53}
\abx@aux@page{73}{53}
\abx@aux@backref{74}{waibel1989phoneme}{0}{53}{53}
\abx@aux@backref{74}{peddinti2015time}{0}{53}{53}
\abx@aux@page{74}{53}
\abx@aux@backref{75}{peddinti2015time}{0}{53}{53}
\abx@aux@page{75}{53}
\@writefile{lof}{\defcounter {refsection}{0}\relax }\@writefile{lof}{\contentsline {figure}{\numberline {2.3}{\ignorespaces Repr\IeC {\'e}sentation d'un syst\IeC {\`e}me HMM-DNN pour la mod\IeC {\'e}lisation acoustique de la parole~[\cite {juan2015exploiting}].}}{54}{figure.2.3}}
\abx@aux@backref{77}{juan2015exploiting}{0}{54}{54}
\newlabel{fig:hmm-dnn}{{2.3}{54}{Représentation d'un système HMM-DNN pour la modélisation acoustique de la parole~[\cite {juan2015exploiting}]}{figure.2.3}{}}
\abx@aux@cite{juan2015exploiting}
\abx@aux@segm{0}{0}{juan2015exploiting}
\abx@aux@segm{0}{0}{juan2015exploiting}
\abx@aux@cite{chen1999empirical}
\abx@aux@segm{0}{0}{chen1999empirical}
\@writefile{lof}{\defcounter {refsection}{0}\relax }\@writefile{lof}{\contentsline {figure}{\numberline {2.3}{\ignorespaces Repr\IeC {\'e}sentation d'un syst\IeC {\`e}me HMM-DNN pour la mod\IeC {\'e}lisation acoustique de la parole~[\cite {juan2015exploiting}].}}{54}{figure.2.3}}
\abx@aux@backref{76}{juan2015exploiting}{0}{54}{54}
\newlabel{fig:hmm-dnn}{{2.3}{54}{Représentation d'un système HMM-DNN pour la modélisation acoustique de la parole~[\cite {juan2015exploiting}]}{figure.2.3}{}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {2.3}Mod\IeC {\'e}lisation du langage}{54}{section.2.3}}
\abx@aux@cite{dempster1977maximum}
\abx@aux@segm{0}{0}{dempster1977maximum}
\abx@aux@segm{0}{0}{chen1999empirical}
\abx@aux@cite{katz1987estimation}
\abx@aux@segm{0}{0}{katz1987estimation}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {2.3}Mod\IeC {\'e}lisation du langage}{55}{section.2.3}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {2.3.1}Mod\IeC {\`e}le n-grammes}{55}{subsection.2.3.1}}
\abx@aux@backref{78}{chen1999empirical}{0}{55}{55}
\abx@aux@page{78}{55}
\abx@aux@backref{79}{dempster1977maximum}{0}{55}{55}
\abx@aux@page{79}{55}
\abx@aux@backref{80}{chen1999empirical}{0}{55}{55}
\abx@aux@page{80}{55}
\abx@aux@backref{81}{katz1987estimation}{0}{55}{55}
\abx@aux@page{81}{55}
\abx@aux@cite{bengio2003neural}
\abx@aux@segm{0}{0}{bengio2003neural}
\abx@aux@cite{schwenk2007continuous}
\abx@aux@segm{0}{0}{schwenk2007continuous}
\abx@aux@cite{mikolov2011extensions}
\abx@aux@segm{0}{0}{mikolov2011extensions}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {2.3.1}Mod\IeC {\`e}le n-grammes}{55}{subsection.2.3.1}}
\abx@aux@backref{77}{chen1999empirical}{0}{55}{55}
\abx@aux@page{77}{55}
\abx@aux@backref{78}{dempster1977maximum}{0}{55}{55}
\abx@aux@page{78}{55}
\abx@aux@backref{79}{chen1999empirical}{0}{55}{55}
\abx@aux@page{79}{55}
\abx@aux@backref{80}{katz1987estimation}{0}{55}{55}
\abx@aux@page{80}{55}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {2.3.2}Mod\IeC {\`e}les neuronaux}{55}{subsection.2.3.2}}
\abx@aux@backref{81}{bengio2003neural}{0}{55}{55}
\abx@aux@page{81}{55}
\abx@aux@backref{82}{schwenk2007continuous}{0}{55}{55}
\abx@aux@page{82}{55}
\abx@aux@cite{sundermeyer2012lstm}
\abx@aux@segm{0}{0}{sundermeyer2012lstm}
\abx@aux@cite{graves2013speech}
......@@ -426,77 +428,72 @@
\abx@aux@segm{0}{0}{hori2018end}
\abx@aux@cite{graves2006connectionist}
\abx@aux@segm{0}{0}{graves2006connectionist}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {2.3.2}Mod\IeC {\`e}les neuronaux}{56}{subsection.2.3.2}}
\abx@aux@backref{82}{bengio2003neural}{0}{56}{56}
\abx@aux@page{82}{56}
\abx@aux@backref{83}{schwenk2007continuous}{0}{56}{56}
\abx@aux@segm{0}{0}{graves2014towards}
\abx@aux@segm{0}{0}{amodei2016deep}
\abx@aux@cite{zhang2017towards}
\abx@aux@segm{0}{0}{zhang2017towards}
\abx@aux@cite{chorowski2014end}
\abx@aux@segm{0}{0}{chorowski2014end}
\abx@aux@cite{chan2016listen}
\abx@aux@segm{0}{0}{chan2016listen}
\abx@aux@cite{dong2018speech}
\abx@aux@segm{0}{0}{dong2018speech}
\abx@aux@cite{moritz2020streaming}
\abx@aux@segm{0}{0}{moritz2020streaming}
\abx@aux@backref{83}{mikolov2011extensions}{0}{56}{56}
\abx@aux@page{83}{56}
\abx@aux@backref{84}{mikolov2011extensions}{0}{56}{56}
\abx@aux@backref{84}{sundermeyer2012lstm}{0}{56}{56}
\abx@aux@page{84}{56}
\abx@aux@backref{85}{sundermeyer2012lstm}{0}{56}{56}
\abx@aux@page{85}{56}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {2.4}Approches neuronales de bout en bout}{56}{section.2.4}}
\abx@aux@backref{86}{graves2013speech}{0}{56}{56}
\abx@aux@backref{85}{graves2013speech}{0}{56}{56}
\abx@aux@page{85}{56}
\abx@aux@backref{86}{graves2014towards}{0}{56}{56}
\abx@aux@page{86}{56}
\abx@aux@backref{87}{graves2014towards}{0}{56}{56}
\abx@aux@backref{87}{hannun2014deep}{0}{56}{56}
\abx@aux@page{87}{56}
\abx@aux@backref{88}{hannun2014deep}{0}{56}{56}
\abx@aux@backref{88}{miao2015eesen}{0}{56}{56}
\abx@aux@page{88}{56}
\abx@aux@backref{89}{miao2015eesen}{0}{56}{56}
\abx@aux@backref{89}{amodei2016deep}{0}{56}{56}
\abx@aux@page{89}{56}
\abx@aux@backref{90}{amodei2016deep}{0}{56}{56}
\abx@aux@backref{90}{wang2020transformer}{0}{56}{56}
\abx@aux@page{90}{56}
\abx@aux@backref{91}{wang2020transformer}{0}{56}{56}
\abx@aux@backref{91}{amodei2016deep}{0}{56}{56}
\abx@aux@page{91}{56}
\abx@aux@backref{92}{amodei2016deep}{0}{56}{56}
\abx@aux@backref{92}{watanabe2018espnet}{0}{56}{56}
\abx@aux@page{92}{56}
\abx@aux@backref{93}{watanabe2018espnet}{0}{56}{56}
\abx@aux@backref{93}{wang2019espresso}{0}{56}{56}
\abx@aux@page{93}{56}
\abx@aux@backref{94}{wang2019espresso}{0}{56}{56}
\abx@aux@backref{94}{hori2017advances}{0}{56}{56}
\abx@aux@page{94}{56}
\abx@aux@backref{95}{hori2017advances}{0}{56}{56}
\abx@aux@backref{95}{hori2018end}{0}{56}{56}
\abx@aux@page{95}{56}
\abx@aux@backref{96}{hori2018end}{0}{56}{56}
\abx@aux@backref{96}{graves2006connectionist}{0}{56}{56}
\abx@aux@page{96}{56}
\abx@aux@segm{0}{0}{graves2014towards}
\abx@aux@segm{0}{0}{amodei2016deep}
\abx@aux@cite{zhang2017towards}
\abx@aux@segm{0}{0}{zhang2017towards}
\abx@aux@cite{chorowski2014end}
\abx@aux@segm{0}{0}{chorowski2014end}
\abx@aux@cite{chan2016listen}
\abx@aux@segm{0}{0}{chan2016listen}
\abx@aux@cite{dong2018speech}
\abx@aux@segm{0}{0}{dong2018speech}
\abx@aux@cite{moritz2020streaming}
\abx@aux@segm{0}{0}{moritz2020streaming}
\abx@aux@backref{97}{graves2014towards}{0}{56}{56}
\abx@aux@page{97}{56}
\abx@aux@backref{98}{amodei2016deep}{0}{56}{56}
\abx@aux@page{98}{56}
\abx@aux@backref{99}{zhang2017towards}{0}{56}{56}
\abx@aux@page{99}{56}
\abx@aux@backref{100}{chorowski2014end}{0}{56}{56}
\abx@aux@page{100}{56}
\abx@aux@backref{101}{chan2016listen}{0}{56}{56}
\abx@aux@page{101}{56}
\abx@aux@cite{fernandez2008phoneme}
\abx@aux@segm{0}{0}{fernandez2008phoneme}
\abx@aux@backref{97}{graves2006connectionist}{0}{57}{57}
\abx@aux@page{97}{57}
\abx@aux@backref{98}{graves2014towards}{0}{57}{57}
\abx@aux@page{98}{57}
\abx@aux@backref{99}{amodei2016deep}{0}{57}{57}
\abx@aux@page{99}{57}
\abx@aux@backref{100}{zhang2017towards}{0}{57}{57}
\abx@aux@page{100}{57}
\abx@aux@backref{101}{chorowski2014end}{0}{57}{57}
\abx@aux@page{101}{57}
\abx@aux@backref{102}{chan2016listen}{0}{57}{57}
\abx@aux@backref{102}{dong2018speech}{0}{57}{57}
\abx@aux@page{102}{57}
\abx@aux@backref{103}{dong2018speech}{0}{57}{57}
\abx@aux@backref{103}{moritz2020streaming}{0}{57}{57}
\abx@aux@page{103}{57}
\abx@aux@backref{104}{moritz2020streaming}{0}{57}{57}
\abx@aux@page{104}{57}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {2.4.1}Classification Temporelle Connectionniste}{57}{subsection.2.4.1}}
\newlabel{subsec:CTC}{{2.4.1}{57}{Classification Temporelle Connectionniste}{subsection.2.4.1}{}}
\abx@aux@backref{105}{fernandez2008phoneme}{0}{57}{57}
\abx@aux@page{105}{57}
\abx@aux@backref{104}{fernandez2008phoneme}{0}{57}{57}
\abx@aux@page{104}{57}
\abx@aux@segm{0}{0}{chorowski2014end}
\@writefile{lof}{\defcounter {refsection}{0}\relax }\@writefile{lof}{\contentsline {figure}{\numberline {2.4}{\ignorespaces Repr\IeC {\'e}sentation du fonctionnement de la fonction de co\IeC {\^u}t CTC.}}{58}{figure.2.4}}
\newlabel{fig:CTC}{{2.4}{58}{Représentation du fonctionnement de la fonction de coût CTC}{figure.2.4}{}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {2.4.2}Algorithme de Beam Search}{58}{subsection.2.4.2}}
\newlabel{sec:algo-beam}{{2.4.2}{58}{Algorithme de Beam Search}{subsection.2.4.2}{}}
\abx@aux@segm{0}{0}{chorowski2014end}
\abx@aux@cite{chorowski2015attention}
\abx@aux@segm{0}{0}{chorowski2015attention}
\abx@aux@segm{0}{0}{chan2016listen}
......@@ -508,47 +505,47 @@
\abx@aux@cite{chiu2018state}
\abx@aux@segm{0}{0}{chiu2018state}
\abx@aux@segm{0}{0}{vaswani2017attention}
\abx@aux@segm{0}{0}{dong2018speech}
\abx@aux@cite{pham2019very}
\abx@aux@segm{0}{0}{pham2019very}
\abx@aux@segm{0}{0}{vaswani2017attention}
\abx@aux@segm{0}{0}{moritz2020streaming}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {2.4.3}Architecture encodeur-d\IeC {\'e}codeur avec attention}{59}{subsection.2.4.3}}
\abx@aux@backref{106}{chorowski2014end}{0}{59}{59}
\abx@aux@backref{105}{chorowski2014end}{0}{59}{59}
\abx@aux@page{105}{59}
\abx@aux@backref{106}{chorowski2015attention}{0}{59}{59}
\abx@aux@page{106}{59}
\abx@aux@backref{107}{chorowski2015attention}{0}{59}{59}
\abx@aux@backref{107}{chan2016listen}{0}{59}{59}
\abx@aux@page{107}{59}
\abx@aux@backref{108}{chan2016listen}{0}{59}{59}
\abx@aux@backref{108}{bahdanau2016end}{0}{59}{59}
\abx@aux@page{108}{59}
\abx@aux@backref{109}{bahdanau2016end}{0}{59}{59}
\abx@aux@backref{109}{kim2017joint}{0}{59}{59}
\abx@aux@page{109}{59}
\abx@aux@backref{110}{kim2017joint}{0}{59}{59}
\abx@aux@backref{110}{hori2017advances}{0}{59}{59}
\abx@aux@page{110}{59}
\abx@aux@backref{111}{hori2017advances}{0}{59}{59}
\abx@aux@backref{111}{chiu2018state}{0}{59}{59}
\abx@aux@page{111}{59}
\abx@aux@backref{112}{chiu2018state}{0}{59}{59}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsubsection}{Transformers}{59}{section*.21}}
\abx@aux@backref{112}{vaswani2017attention}{0}{59}{59}
\abx@aux@page{112}{59}
\abx@aux@segm{0}{0}{dong2018speech}
\abx@aux@cite{pham2019very}
\abx@aux@segm{0}{0}{pham2019very}
\abx@aux@segm{0}{0}{vaswani2017attention}
\abx@aux@segm{0}{0}{moritz2020streaming}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsubsection}{Transformers}{60}{section*.21}}
\abx@aux@backref{113}{vaswani2017attention}{0}{60}{60}
\abx@aux@page{113}{60}
\abx@aux@backref{114}{dong2018speech}{0}{60}{60}
\abx@aux@page{114}{60}
\abx@aux@backref{115}{pham2019very}{0}{60}{60}
\abx@aux@page{115}{60}
\abx@aux@backref{116}{vaswani2017attention}{0}{60}{60}
\abx@aux@page{116}{60}
\abx@aux@backref{117}{moritz2020streaming}{0}{60}{60}
\abx@aux@page{117}{60}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {2.5}\IeC {\'E}valuation de la reconnaissance de la parole}{60}{section.2.5}}
\newlabel{sec:eval_rap}{{2.5}{60}{Évaluation de la reconnaissance de la parole}{section.2.5}{}}
\abx@aux@backref{113}{dong2018speech}{0}{59}{59}
\abx@aux@page{113}{59}
\abx@aux@backref{114}{pham2019very}{0}{59}{59}
\abx@aux@page{114}{59}
\abx@aux@backref{115}{vaswani2017attention}{0}{59}{59}
\abx@aux@page{115}{59}
\abx@aux@segm{0}{0}{amodei2016deep}
\abx@aux@cite{zenkel2017comparison}
\abx@aux@segm{0}{0}{zenkel2017comparison}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {2.6}Choix technologiques pour cette th\IeC {\`e}se}{61}{section.2.6}}
\abx@aux@backref{118}{amodei2016deep}{0}{61}{61}
\abx@aux@backref{116}{moritz2020streaming}{0}{60}{60}
\abx@aux@page{116}{60}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {2.5}\IeC {\'E}valuation de la reconnaissance de la parole}{60}{section.2.5}}
\newlabel{sec:eval_rap}{{2.5}{60}{Évaluation de la reconnaissance de la parole}{section.2.5}{}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {2.6}Choix technologiques pour cette th\IeC {\`e}se}{60}{section.2.6}}
\abx@aux@backref{117}{amodei2016deep}{0}{60}{60}
\abx@aux@page{117}{60}
\abx@aux@backref{118}{zenkel2017comparison}{0}{61}{61}
\abx@aux@page{118}{61}
\abx@aux@backref{119}{zenkel2017comparison}{0}{61}{61}
\abx@aux@page{119}{61}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {2.7}Conclusion}{61}{section.2.7}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {chapter}{\numberline {3}Compr\IeC {\'e}hension de la parole}{63}{chapter.3}}
\@writefile{lof}{\defcounter {refsection}{0}\relax }\@writefile{lof}{\addvspace {10\p@ }}
......@@ -558,12 +555,12 @@
\abx@aux@cite{klatt1977review}
\abx@aux@segm{0}{0}{klatt1977review}
\abx@aux@segm{0}{0}{de2007spoken}
\abx@aux@backref{120}{klatt1977review}{0}{64}{64}
\abx@aux@page{120}{64}
\abx@aux@backref{119}{klatt1977review}{0}{64}{64}
\abx@aux@page{119}{64}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {3.1}Compr\IeC {\'e}hension du langage appliqu\IeC {\'e}e \IeC {\`a} la parole}{64}{section.3.1}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {3.1.1}D\IeC {\'e}finition}{64}{subsection.3.1.1}}
\abx@aux@backref{121}{de2007spoken}{0}{64}{64}
\abx@aux@page{121}{64}
\abx@aux@backref{120}{de2007spoken}{0}{64}{64}
\abx@aux@page{120}{64}
\abx@aux@cite{woods1975s}
\abx@aux@segm{0}{0}{woods1975s}
\abx@aux@segm{0}{0}{de2008spoken}
......@@ -577,29 +574,29 @@
\abx@aux@segm{0}{0}{mesnil2013investigation}
\abx@aux@cite{tur2011spoken}
\abx@aux@segm{0}{0}{tur2011spoken}
\abx@aux@backref{122}{woods1975s}{0}{65}{65}
\abx@aux@backref{121}{woods1975s}{0}{65}{65}
\abx@aux@page{121}{65}
\abx@aux@backref{122}{de2008spoken}{0}{65}{65}
\abx@aux@page{122}{65}
\abx@aux@backref{123}{de2008spoken}{0}{65}{65}
\abx@aux@backref{123}{raymond2007generative}{0}{65}{65}
\abx@aux@page{123}{65}
\abx@aux@backref{124}{raymond2007generative}{0}{65}{65}
\abx@aux@backref{124}{mesnil2013investigation}{0}{65}{65}
\abx@aux@page{124}{65}
\abx@aux@backref{125}{mesnil2013investigation}{0}{65}{65}
\abx@aux@page{125}{65}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {3.1.2}Cha\IeC {\^\i }ne de traitements successifs}{65}{subsection.3.1.2}}
\abx@aux@cite{grishman1996message}
\abx@aux@segm{0}{0}{grishman1996message}
\abx@aux@cite{nouvel2015entites}
\abx@aux@segm{0}{0}{nouvel2015entites}
\abx@aux@backref{126}{tur2011spoken}{0}{66}{66}
\abx@aux@page{126}{66}
\abx@aux@backref{125}{tur2011spoken}{0}{66}{66}
\abx@aux@page{125}{66}
\@writefile{lof}{\defcounter {refsection}{0}\relax }\@writefile{lof}{\contentsline {figure}{\numberline {3.1}{\ignorespaces Repr\IeC {\'e}sentation d'une cha\IeC {\^\i }ne de traitements d\IeC {\'e}di\IeC {\'e}s \IeC {\`a} la t\IeC {\^a}che de compr\IeC {\'e}hension de la parole. L'annotation appliqu\IeC {\'e}e sur les transcriptions automatiques correspond \IeC {\`a} une t\IeC {\^a}che de segmentation et de classification s\IeC {\'e}mantique.}}{66}{figure.3.1}}
\newlabel{fig:chaine_comp}{{3.1}{66}{Représentation d'une chaîne de traitements dédiés à la tâche de compréhension de la parole. L'annotation appliquée sur les transcriptions automatiques correspond à une tâche de segmentation et de classification sémantique}{figure.3.1}{}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {3.1.3}Reconnaissance des entit\IeC {\'e}s nomm\IeC {\'e}es}{66}{subsection.3.1.3}}
\newlabel{subsec:task_en}{{3.1.3}{66}{Reconnaissance des entités nommées}{subsection.3.1.3}{}}
\abx@aux@backref{127}{grishman1996message}{0}{66}{66}
\abx@aux@backref{126}{grishman1996message}{0}{66}{66}
\abx@aux@page{126}{66}
\abx@aux@backref{127}{nouvel2015entites}{0}{66}{66}
\abx@aux@page{127}{66}
\abx@aux@backref{128}{nouvel2015entites}{0}{66}{66}
\abx@aux@page{128}{66}
\abx@aux@cite{galliano2009ester}
\abx@aux@segm{0}{0}{galliano2009ester}
\abx@aux@cite{grouin2011proposal}
......@@ -612,21 +609,21 @@
\abx@aux@segm{0}{0}{jabaian2012systemes}
\abx@aux@cite{mesnil2014using}
\abx@aux@segm{0}{0}{mesnil2014using}
\abx@aux@backref{129}{galliano2009ester}{0}{67}{67}
\abx@aux@backref{128}{galliano2009ester}{0}{67}{67}
\abx@aux@page{128}{67}
\abx@aux@backref{129}{grouin2011proposal}{0}{67}{67}
\abx@aux@page{129}{67}
\abx@aux@backref{130}{grouin2011proposal}{0}{67}{67}
\abx@aux@backref{130}{nouvel2015entites}{0}{67}{67}
\abx@aux@page{130}{67}
\abx@aux@backref{131}{nouvel2015entites}{0}{67}{67}
\abx@aux@page{131}{67}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {3.1.4}Extraction de concepts s\IeC {\'e}mantiques}{67}{subsection.3.1.4}}
\abx@aux@backref{132}{tur2011spoken}{0}{67}{67}
\abx@aux@backref{131}{tur2011spoken}{0}{67}{67}
\abx@aux@page{131}{67}
\abx@aux@backref{132}{hahn2010comparing}{0}{67}{67}
\abx@aux@page{132}{67}
\abx@aux@backref{133}{hahn2010comparing}{0}{67}{67}
\abx@aux@backref{133}{jabaian2012systemes}{0}{67}{67}
\abx@aux@page{133}{67}
\abx@aux@backref{134}{jabaian2012systemes}{0}{67}{67}
\abx@aux@backref{134}{mesnil2014using}{0}{67}{67}
\abx@aux@page{134}{67}
\abx@aux@backref{135}{mesnil2014using}{0}{67}{67}
\abx@aux@page{135}{67}
\abx@aux@cite{bonneau2005semantic}
\abx@aux@segm{0}{0}{bonneau2005semantic}
\abx@aux@cite{lefevre2012robustesse}
......@@ -648,26 +645,26 @@
\abx@aux@segm{0}{0}{murray2010interpretation}
\abx@aux@cite{maskey2008automatic}
\abx@aux@segm{0}{0}{maskey2008automatic}
\abx@aux@backref{136}{bonneau2005semantic}{0}{68}{68}
\abx@aux@backref{135}{bonneau2005semantic}{0}{68}{68}
\abx@aux@page{135}{68}
\abx@aux@backref{136}{lefevre2012robustesse}{0}{68}{68}
\abx@aux@page{136}{68}
\abx@aux@backref{137}{lefevre2012robustesse}{0}{68}{68}
\abx@aux@backref{137}{hemphill1990atis}{0}{68}{68}
\abx@aux@page{137}{68}
\abx@aux@backref{138}{hemphill1990atis}{0}{68}{68}
\abx@aux@backref{138}{shah2018building}{0}{68}{68}
\abx@aux@page{138}{68}
\abx@aux@backref{139}{shah2018building}{0}{68}{68}
\abx@aux@page{139}{68}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {3.1.5}Autres t\IeC {\^a}ches de compr\IeC {\'e}hension}{68}{subsection.3.1.5}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsubsection}{D\IeC {\'e}tection d'intention}{68}{section*.22}}
\abx@aux@backref{140}{tur2011spoken}{0}{68}{68}
\abx@aux@backref{139}{tur2011spoken}{0}{68}{68}
\abx@aux@page{139}{68}
\abx@aux@backref{140}{paek2004optimizing}{0}{68}{68}
\abx@aux@page{140}{68}
\abx@aux@backref{141}{paek2004optimizing}{0}{68}{68}
\abx@aux@backref{141}{juang2005automatic}{0}{68}{68}
\abx@aux@page{141}{68}
\abx@aux@backref{142}{juang2005automatic}{0}{68}{68}
\abx@aux@backref{142}{xu2013convolutional}{0}{68}{68}
\abx@aux@page{142}{68}
\abx@aux@backref{143}{xu2013convolutional}{0}{68}{68}
\abx@aux@backref{143}{liu2016attention}{0}{68}{68}
\abx@aux@page{143}{68}
\abx@aux@backref{144}{liu2016attention}{0}{68}{68}
\abx@aux@page{144}{68}
\abx@aux@segm{0}{0}{maskey2008automatic}
\abx@aux@segm{0}{0}{tur2011spoken}
\abx@aux@segm{0}{0}{tur2011spoken}
......@@ -680,25 +677,25 @@
\abx@aux@cite{passonneau1997discourse}
\abx@aux@segm{0}{0}{passonneau1997discourse}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsubsection}{R\IeC {\'e}sum\IeC {\'e} de documents}{69}{section*.23}}
\abx@aux@backref{145}{murray2010interpretation}{0}{69}{69}
\abx@aux@backref{144}{murray2010interpretation}{0}{69}{69}
\abx@aux@page{144}{69}
\abx@aux@backref{145}{maskey2008automatic}{0}{69}{69}
\abx@aux@page{145}{69}
\abx@aux@backref{146}{maskey2008automatic}{0}{69}{69}
\abx@aux@page{146}{69}
\abx@aux@backref{147}{maskey2008automatic}{0}{69}{69}
\abx@aux@backref{147}{tur2011spoken}{0}{69}{69}
\abx@aux@page{147}{69}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsubsection}{Segmentation th\IeC {\'e}matique}{69}{section*.24}}
\abx@aux@backref{148}{tur2011spoken}{0}{69}{69}
\abx@aux@page{148}{69}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsubsection}{Segmentation th\IeC {\'e}matique}{69}{section*.24}}
\abx@aux@backref{149}{tur2011spoken}{0}{69}{69}
\abx@aux@backref{149}{seymore1997using}{0}{69}{69}
\abx@aux@page{149}{69}
\abx@aux@backref{150}{seymore1997using}{0}{69}{69}
\abx@aux@backref{150}{guinaudeau2011structuration}{0}{69}{69}
\abx@aux@page{150}{69}
\abx@aux@backref{151}{guinaudeau2011structuration}{0}{69}{69}
\abx@aux@backref{151}{bouchekif2016structuration}{0}{69}{69}
\abx@aux@page{151}{69}
\abx@aux@backref{152}{bouchekif2016structuration}{0}{69}{69}
\abx@aux@backref{152}{passonneau1997discourse}{0}{69}{69}
\abx@aux@page{152}{69}
\abx@aux@backref{153}{passonneau1997discourse}{0}{69}{69}
\abx@aux@page{153}{69}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {section}{\numberline {3.2}Approches historiques d'\IeC {\'e}tiquetage}{69}{section.3.2}}
\abx@aux@cite{chomsky2002syntactic}
\abx@aux@segm{0}{0}{chomsky2002syntactic}
......@@ -707,13 +704,13 @@
\abx@aux@segm{0}{0}{raymond2005decodage}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsection}{\numberline {3.2.1}Automates \IeC {\`a} \IeC {\'e}tats finis}{70}{subsection.3.2.1}}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsubsection}{Grammaires}{70}{section*.25}}
\abx@aux@backref{153}{chomsky2002syntactic}{0}{70}{70}
\abx@aux@page{153}{70}
\abx@aux@backref{154}{chomsky2002syntactic}{0}{70}{70}
\abx@aux@page{154}{70}
\abx@aux@backref{155}{chomsky2002syntactic}{0}{70}{70}
\abx@aux@page{155}{70}
\@writefile{toc}{\defcounter {refsection}{0}\relax }\@writefile{toc}{\contentsline {subsubsection}{Repr\IeC {\'e}sentation d'une grammaire}{70}{section*.26}}