@@ -202,8 +202,8 @@ Au sein d'un document l'information sémantique peut être partagée à travers
Restreindre le système à l'échelle des phrases peut l'empêcher d'extraire une information efficace lorsque celle-ci est partagée.
Il serait ainsi pertinent de réaliser la tâche de compréhension de la parole directement à l'échelle d'un document entier, afin de fournir au système l'intégralité des informations sémantiques disponibles.
% comment l'envisager
% comment l'envisager ??
% TODO
% gros TODO : ajouter perspectives WP3 de aisper : travailler à l'échelle d'un document plutôt que du segment.
\@writefile{lof}{\defcounter{refsection}{0}\relax}\@writefile{lof}{\contentsline{figure}{\numberline{2.2}{\ignorespaces Repr\IeC{\'e}sentation d'un mod\IeC{\`e}le acoustique exploitant des mod\IeC{\`e}les de Markov cach\IeC{\'e}s pour le mot \textit{salut}~[\cite{vythelingum2019construction}].}}{52}{figure.2.2}}
\newlabel{fig:HMM}{{2.2}{52}{Représentation d'un modèle acoustique exploitant des modèles de Markov cachés pour le mot \textit{salut}~[\cite{vythelingum2019construction}]}{figure.2.2}{}}
\@writefile{toc}{\defcounter{refsection}{0}\relax}\@writefile{toc}{\contentsline{subsection}{\numberline{2.2.2}Mod\IeC{\`e}les \IeC{\`a} m\IeC{\'e}lange de gaussiennes}{53}{subsection.2.2.2}}
\@writefile{lof}{\defcounter{refsection}{0}\relax}\@writefile{lof}{\contentsline{figure}{\numberline{2.3}{\ignorespaces Repr\IeC{\'e}sentation d'un syst\IeC{\`e}me HMM-DNN pour la mod\IeC{\'e}lisation acoustique de la parole~[\cite{juan2015exploiting}].}}{54}{figure.2.3}}
\newlabel{fig:hmm-dnn}{{2.3}{54}{Représentation d'un système HMM-DNN pour la modélisation acoustique de la parole~[\cite{juan2015exploiting}]}{figure.2.3}{}}
\@writefile{toc}{\defcounter{refsection}{0}\relax}\@writefile{toc}{\contentsline{section}{\numberline{2.3}Mod\IeC{\'e}lisation de langue}{54}{section.2.3}}
\abx@aux@cite{chen1999empirical}
\abx@aux@segm{0}{0}{chen1999empirical}
\abx@aux@cite{dempster1977maximum}
\abx@aux@segm{0}{0}{dempster1977maximum}
\abx@aux@segm{0}{0}{chen1999empirical}
\abx@aux@cite{katz1987estimation}
\abx@aux@segm{0}{0}{katz1987estimation}
\abx@aux@cite{bengio2003neural}
\abx@aux@segm{0}{0}{bengio2003neural}
\abx@aux@cite{schwenk2007continuous}
\abx@aux@segm{0}{0}{schwenk2007continuous}
\abx@aux@cite{mikolov2011extensions}
\abx@aux@segm{0}{0}{mikolov2011extensions}
\abx@aux@cite{sundermeyer2012lstm}
\abx@aux@segm{0}{0}{sundermeyer2012lstm}
\@writefile{toc}{\defcounter{refsection}{0}\relax}\@writefile{toc}{\contentsline{section}{\numberline{2.3}Mod\IeC{\'e}lisation du langage}{55}{section.2.3}}
\@writefile{toc}{\defcounter{refsection}{0}\relax}\@writefile{toc}{\contentsline{section}{\numberline{2.4}Approches neuronales de bout en bout}{56}{section.2.4}}
\@writefile{lof}{\defcounter{refsection}{0}\relax}\@writefile{lof}{\contentsline{figure}{\numberline{2.4}{\ignorespaces Repr\IeC{\'e}sentation du fonctionnement de la fonction de co\IeC{\^u}t CTC.}}{58}{figure.2.4}}
\newlabel{fig:CTC}{{2.4}{58}{Représentation du fonctionnement de la fonction de coût CTC}{figure.2.4}{}}
\@writefile{toc}{\defcounter{refsection}{0}\relax}\@writefile{toc}{\contentsline{subsection}{\numberline{2.4.2}Algorithme de Beam Search}{58}{subsection.2.4.2}}
\newlabel{sec:algo-beam}{{2.4.2}{58}{Algorithme de Beam Search}{subsection.2.4.2}{}}
\abx@aux@segm{0}{0}{chorowski2014end}
\abx@aux@cite{chorowski2015attention}
\abx@aux@segm{0}{0}{chorowski2015attention}
\abx@aux@segm{0}{0}{chan2016listen}
...
...
@@ -508,11 +508,6 @@
\abx@aux@cite{chiu2018state}
\abx@aux@segm{0}{0}{chiu2018state}
\abx@aux@segm{0}{0}{vaswani2017attention}
\abx@aux@segm{0}{0}{dong2018speech}
\abx@aux@cite{pham2019very}
\abx@aux@segm{0}{0}{pham2019very}
\abx@aux@segm{0}{0}{vaswani2017attention}
\abx@aux@segm{0}{0}{moritz2020streaming}
\@writefile{toc}{\defcounter{refsection}{0}\relax}\@writefile{toc}{\contentsline{subsection}{\numberline{2.4.3}Architecture encodeur-d\IeC{\'e}codeur avec attention}{59}{subsection.2.4.3}}
\@writefile{toc}{\defcounter{refsection}{0}\relax}\@writefile{toc}{\contentsline{section}{\numberline{2.5}\IeC{\'E}valuation de la reconnaissance de la parole}{60}{section.2.5}}
\newlabel{sec:eval_rap}{{2.5}{60}{Évaluation de la reconnaissance de la parole}{section.2.5}{}}
\@writefile{toc}{\defcounter{refsection}{0}\relax}\@writefile{toc}{\contentsline{section}{\numberline{2.6}Choix technologiques pour cette th\IeC{\`e}se}{60}{section.2.6}}
\abx@aux@segm{0}{0}{amodei2016deep}
\abx@aux@cite{zenkel2017comparison}
\abx@aux@segm{0}{0}{zenkel2017comparison}
\@writefile{toc}{\defcounter{refsection}{0}\relax}\@writefile{toc}{\contentsline{section}{\numberline{2.6}Choix technologiques pour cette th\IeC{\`e}se}{61}{section.2.6}}
{\reset@font\mtcSfont\mtc@string\contentsline{section}{\noexpand \leavevmode \numberline {2.4}Approches neuronales de bout en bout}{\reset@font\mtcSfont 56}{section.2.4}}
{\reset@font\mtcSfont\mtc@string\contentsline{section}{\noexpand \leavevmode \numberline {2.5}\IeC {\'E}valuation de la reconnaissance de la parole}{\reset@font\mtcSfont 60}{section.2.5}}
{\reset@font\mtcSfont\mtc@string\contentsline{section}{\noexpand \leavevmode \numberline {2.6}Choix technologiques pour cette th\IeC {\`e}se}{\reset@font\mtcSfont 60}{section.2.6}}
{\reset@font\mtcSfont\mtc@string\contentsline{section}{\noexpand \leavevmode \numberline {2.6}Choix technologiques pour cette th\IeC {\`e}se}{\reset@font\mtcSfont 61}{section.2.6}}