Commit 0e16dbc2 authored by Loïc Barrault's avatar Loïc Barrault
Browse files

update trad neuronale

parent 050e93e9
\documentclass[t]{beamer}
\documentclass[aspectratio=169,t, xcolor=table]{beamer}
%\documentclass[t]{beamer}
%\documentclass[handout,t]{beamer}
% pdf2ps cm_parole.pdf;
......@@ -47,6 +48,7 @@
}%
%\insertframenumber/\inserttotalframenumber\hfill}%
\setbeamertemplate{navigation symbols}{}
\usepackage{array}
\setlength{\extrarowheight}{3pt}
......@@ -54,7 +56,11 @@
\usepackage{xmpmulti}
\input ../macros.tex
\input ../macros_en.tex
\input ../macros_beamer.tex
\input ../mycolors.tex
\input ../LatexColors.incl
\usepackage[absolute,showboxes,overlay]{textpos}
......@@ -63,21 +69,19 @@
\textblockorigin{10mm}{10mm} % origine des positions
% This is only inserted into the PDF information catalog. Can be left out.
\subject{Traduction Automatique Statistique}
\title[]{Traduction Automatique Neuronale}
\author[]{Loïc Barrault}
\institute[LIUM, Le Mans Université]
\institute[]
{
loic.barrault@univ-lemans.fr \\
Laboratoire d'Informatique de l'Université du Maine \\
}
%\date{09 janvier 2017}
\date{2019}
% If you have a file called "university-logo-filename.xxx", where xxx
% is a graphic format that can be processed by latex or pdflatex,
......@@ -104,8 +108,6 @@
%\beamerdefaultoverlayspecification{<+->}
\newtheorem{conclusion}[theorem]{Conclusions}
\begin{document}
\begin{frame}
......
......@@ -109,7 +109,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\end{block}
\centerline{
\includegraphics[width=0.40\textwidth]{figures/fflm_all}
\includegraphics[width=0.30\textwidth]{figures/fflm_all}
}
\end{frame}
......@@ -119,7 +119,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\frametitle{Modèle paramétrique}
%\vspace{-.5cm}
\begin{block}{RdN Feedforward}
\textbf{RdN Feedforward}
\begin{description}
\item[1.] Représentation des mots en vecteur ''\alert{1-hot}''
\item[\ra] $ w_j = \left[ 0, \cdots, 0, 1, 0, \cdots, 0 \right]^t $ (1 à la position $j$)
......@@ -137,10 +137,10 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[\ra] $\vm{d} = \phi ( \vm{U}^t ~ \vm{c} + \vm{b_U}) $ avec $\vm{b_U}$ le biais
\item[\ra] $\phi$: fonction d'activation non linéaire
\end{description}
\end{block}
\begin{textblock*}{30mm}[0,0](83mm,20mm)
\begin{textblock*}{30mm}[0,0](93mm,20mm)
\includegraphics[height=5cm]{figures/fflm_proj}
\end{textblock*}
......@@ -149,7 +149,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
%----
\begin{frame}
\frametitle{Modèle paramétrique}
\begin{block}{RdN Feedforward}
\textbf{RdN Feedforward}
%\begin{varblock}[7cm]{RdN Feedforward}
\begin{description}
\item[5 .] Calcul du score non normalisé
......@@ -163,7 +163,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\end{itemize}
\item[]
\end{description}
\end{block}
%\end{varblock}
\begin{textblock*}{30mm}[0,0](80mm,12mm)
......@@ -175,7 +175,6 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\begin{frame}
\frametitle{Modèle paramétrique}
%\vspace{-.5cm}
\begin{block}{}
\begin{itemize}
% \item Entraînement par back-propagation du gradient d'erreur
\item Maximum de vraisemblance + backprop
......@@ -190,7 +189,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[]
\item[]
\end{itemize}
\end{block}
\begin{textblock*}{30mm}[0,0](68mm,23mm)
\includegraphics[height=4.5cm]{figures/fflm_all}
......@@ -200,16 +199,13 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
%----
\begin{frame}
\frametitle{Embeddings}
\begin{figure}
\centering
\includegraphics[height=6cm]{figures/Turian-WordTSNE_all}%
\onslide<2->{
\llap{\raisebox{1cm}{% move next graphics to top right corner
\centerline{
\includegraphics[width=0.6\textwidth]{figures/Turian-WordTSNE}
}
}}}
\end{figure}
\centering
\includegraphics[height=\textheight]{figures/Turian-WordTSNE_all}%
\begin{textblock*}{90mm}[0,0](40mm,10mm)
\only<2>{ \includegraphics[width=.9\textwidth]{figures/Turian-WordTSNE}%
}
\end{textblock*}
\end{frame}
......@@ -240,7 +236,6 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
%----
\begin{frame}
\begin{block}{}
\begin{itemize}
\item[] Quelle est la probabilité pour que \edinred{10} soit suivi de \edinorange{dollars} ?
\item[]
......@@ -256,7 +251,6 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[]
\end{itemize}
\end{block}
\end{frame}
%----
......@@ -264,7 +258,6 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\begin{frame}
\frametitle{}
\begin{block}{}
\begin{itemize}
\item Peut-on s'affranchir de la propriété de Markov ?
\item[\ra] Modèle non Markovien
......@@ -278,7 +271,6 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item<2> Solution : \alert{compresser l'historique !}
\item[]
\end{itemize}
\end{block}
\end{frame}
......@@ -288,12 +280,10 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\begin{frame}
\frametitle{Réseaux de neurones récurrent}
\begin{block}{}
\begin{itemize}
\item Problème : \textbf{les phrases sont de taille variable non bornée !}
\item Solution : \alert{compresser l'historique !}
\item \Ra\ Solution : \alert{compresser l'historique !}
\end{itemize}
\end{block}
\begin{block}{Protocole}
\begin{enumerate}
\item Initialiser l'historique $\vm{h}$
......@@ -309,7 +299,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\frametitle{Réseaux de neurones récurrent}
%\vspace{-.5cm}
\begin{block}{}
\begin{description}
\item[1. \& 2.] Vecteurs 1-hot + projection de $w_i$ dans un espace continu
\item[\ra] $ \vm{c}_i = \vm{W} ^t ~ w_i \in \mathbb{R}^d $ \\
......@@ -329,7 +319,6 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[]
\item[]
\end{description}
\end{block}
\begin{textblock*}{30mm}[0,0](75mm,20mm)
\includegraphics<1>[height=4cm]{figures/rnn_proj}
......@@ -346,7 +335,6 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
%----
\begin{frame}
\frametitle{Réseau de neurones récurrent}
\begin{block}{}
%\begin{varblock}[7cm]{RdN Feedforward}
\begin{description}
\item[4 .] Calcul du score non normalisé
......@@ -361,7 +349,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[]
\item[]
\end{description}
\end{block}
%\end{varblock}
\begin{textblock*}{30mm}[0,0](80mm,12mm)
......@@ -373,7 +361,6 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\begin{frame}
\frametitle{Réseau de neurones récurrent}
%\vspace{-.2cm}
\begin{block}{}
\begin{itemize}
% \item Entraînement par back-propagation du gradient d'erreur
\item Maximum vraisemblance + backpropagation \alert{temporelle}
......@@ -386,7 +373,6 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[]
\end{itemize}
\end{block}
\begin{textblock*}{30mm}[0,0](52mm,25mm)
\includegraphics[height=4.5cm]{figures/rnn_all}
......@@ -398,15 +384,14 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\begin{frame}
\frametitle{Réseaux de neurones récurrent}
\begin{block}{}
\centering
\includegraphics<1>[width=0.7\textwidth]{figures/rnn_all}
\includegraphics<1>[width=0.5\textwidth]{figures/rnn_all}
\begin{itemize}
\item[\ra] séquence de symboles d'entrée compressée dans un vecteur de taille fixe à l'aide d'une récursion
\end{itemize}
\end{block}
\end{frame}
......@@ -414,10 +399,9 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\begin{frame}
\frametitle{Réseaux de neurones récurrent}
\begin{block}{}
\centering
\includegraphics<1>[width=0.7\textwidth]{figures/rnn_bptt_1}
\includegraphics<2->[width=0.7\textwidth]{figures/rnn_bptt_all}
\includegraphics<1>[width=0.6\textwidth]{figures/rnn_bptt_1}
\includegraphics<2->[width=0.6\textwidth]{figures/rnn_bptt_all}
\onslide<2->{
$ \ds \frac{\partial \mathbf{E}_{i}}{\partial \mathbf{V}} =
......@@ -469,14 +453,14 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[\ra] \alert{Problème du gradient qui disparaît ou qui explose !}
\end{itemize}
}
\end{block}
\end{frame}
\begin{frame}
\frametitle{Réseau de neurones récurrent}
\begin{block}{}
\begin{itemize}
\item le RNN est-il condamné ?
\item[\ra]<+-> il faudrait un moyen pour maîtriser l'évolution du gradient
......@@ -490,7 +474,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[\ra]<.> le réseau a du mal à \alert{mémoriser} l'information \alert{longtemps}
\item[]
\end{itemize}
\end{block}
\end{frame}
......@@ -507,12 +491,12 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[\ra]<3-> Gated Recurrent Unit (GRU) \cite{chung2014gru}
\end{itemize}
\only<2->{ \begin{textblock*}{20mm}[0,0](0mm,40mm)
\only<2->{ \begin{textblock*}{20mm}[0,0](0mm,35mm)
\includegraphics[height=4cm]{figures/lstm}
\end{textblock*}}
\only<3->{
\begin{textblock*}{30mm}[0,0](62mm,43mm)
\begin{textblock*}{30mm}[0,0](73mm,40mm)
\includegraphics[height=2.5cm]{figures/gru}
\end{textblock*}}
\end{block}
......@@ -522,7 +506,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\begin{frame}
\frametitle{Réseau de neurones récurrent}
\begin{block}{Gated Recurrent Unit - GRU}
\textbf{Gated Recurrent Unit - GRU}
\begin{itemize}
\item[]
\item Nouvel état caché au temps $t$:
......@@ -542,10 +526,10 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[]
\end{itemize}
\begin{textblock*}{30mm}[0,0](63mm,11mm)
\begin{textblock*}{30mm}[0,0](73mm,11mm)
\includegraphics[height=2.5cm]{figures/gru}
\end{textblock*}
\end{block}
\end{frame}
%----
......@@ -615,7 +599,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
%architecture
\begin{frame}
\frametitle{Architecture}
\begin{block}{}
\centering{
\only<1>{ \includegraphics[height=0.7\textheight]{figures/enc_dec_all} }
\only<2>{ \includegraphics[height=0.7\textheight]{figures/enc_dec_all_1} \\
......@@ -636,7 +620,7 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
{\color{orange} [7.]} Détermination du mot suivant (le plus probable) }
}%centering
\end{block}
\end{frame}
%-----------------------------------------------------
......@@ -735,9 +719,9 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\begin{frame}
\frametitle{Mécanisme d'attention}
\frametitle{Mécanisme d'attention \Ra\ alignement }
\begin{block}{Mécanisme d'attention \Ra\ alignement }
\centering{
\includegraphics[height=0.65\textheight]{figures/attention_alignment}
}
......@@ -746,8 +730,6 @@ $ p(w_i | w_0, \cdots, w_{i-1}) \approx p(w_i | w_{i-n}, \cdots, w_{i-1}) $
\item[\ra] \cite{bahdanau2014neural}
\end{itemize}
\end{block}
\end{frame}
......
......@@ -203,13 +203,16 @@ $Attention(\texttt{Q}, \texttt{K}, \texttt{V}) = Softmax \left( \frac{\texttt{Q}
\begin{frame}
\frametitle{Transformer : visualisation de l'attention}
\begin{block}{L'attention est modifiée en fonction de la phrase}
\begin{itemize}
\item L'attention est modifiée en fonction de la phrase
\end{itemize}
\centering{
\includegraphics[width=0.70\textwidth]{transformer_inner_attention_src}
\vspace{.5cm}
\includegraphics[width=0.70\textwidth]{transformer_inner_attention}
}
\end{block}
\end{frame}
......@@ -220,14 +223,13 @@ $Attention(\texttt{Q}, \texttt{K}, \texttt{V}) = Softmax \left( \frac{\texttt{Q}
\begin{itemize}
\item La combinaison des attentions modélise des phénomènes linguistiques
\item[\ra] Anaphores
\end{itemize}
\begin{block}{Anaphores}
\centering{
\includegraphics[width=0.70\textwidth]{att_vis_1}
}
}
\end{block}
\end{frame}
......
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment