Commit b7ae1bdf authored by Loïc Barrault's avatar Loïc Barrault

General description

parent dbede7ba
\documentclass[french]{article}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
%\usepackage{lmodern}
\usepackage[a4paper]{geometry}
\usepackage{babel}
\usepackage{url}
%\usepackage{dblfloatfix}
\usepackage{booktabs}
\usepackage{enumitem}
\begin{document}
\begin{center}
\LARGE
{\bf De la classification de phrases aux modèles séquence-vers-séquence} \\[5mm]
\Large
\bf Projet M2 ATAL {\bf 2018/2019} \\[2mm]
\end{center}
\vspace{1cm}
Ce projet est transversal à l'Apprentissage Automatique en Langue et au Multilingualisme.
Il se compose de deux phases.
L'objectif de la première phase est d'appréhender les méthodes de classification de phrases à travers différentes tâches et corpus mis à votre disposition. Lors de cette phase, un travail en groupe puis individuel vous est demandé.
\textbf{Phase I : Représentation et classification de phrases}
\begin{enumerate}
\item \textbf{Travail collectif}
\begin{itemize}[label=$\bullet$]
\item Prise en main du cluster et du framework de deep learning Pytorch via un tutoriel.
\item Bibliographie sur les méthodes neuronales permettant de représenter et classifier des phrases (cf. liste en bas de sujet).
\item Implémentation d'un modèle standard permettant de classifier les phrases. Ce modèle permettra de résoudre l'une des tâches mises à votre disposition, et dont voici la liste :
\begin{itemize}[label=$\star$]
\item NER : Reconnaissance d'entités nommées.
\item SICK : Natural Language Inference.
\item SentAnalysis : Analyse de sentiments
\item TREC : Classification de questions selon leur type.
\end{itemize}
\item Apprentissage et optimisation de votre modèle. Cette étape vise à bien comprendre les hyper-paramètres influant sur l'entraînement d'un modèle neuronal.
\end{itemize}
\item \textbf{Travail individuel}
\begin{itemize}[label=$\star$]
\item Chaque membre d'un groupe doit proposer une évolution \textbf{différente} du modèle de base.
\begin{itemize}
\item Quelques pistes à explorer : transformation des données afin de les enrichir, ajout de données externes, modification de l'architecture de base, variante d'encodeur, etc...
\end{itemize}
\item Implémentation et optimisation du modèle évolué.
\end{itemize}
\end{enumerate}
\textbf{ Phase II : Modèle de génération de séquences}
\begin{enumerate}
\item À partir de l'encodeur de phrases que vous aurez développé en phase 1, implémenter un modèle dans nmtpytorch permettant de faire de la traduction automatique.
\item Apprentissage et optimisation de votre modèle.
\item Implémenter une ou plusieurs extensions. Quelques idées :
\begin{itemize}[label=$\bullet$]
\item Modification de l'architecture.
\item Mise en place d'un mécanisme d'attention.
\end{itemize}
\end{enumerate}
\section{Rétroplanning}
\begin{enumerate}
\item Présentation intermédiaire le [DATE].
\item Soutenance finale le [DATE].
\end{enumerate}
\section{Références}
\begin{itemize}[label=$\bullet$]
\item nmtpytorch webpage: \textrm{https://github.com/lium-lst/nmtpytorch}
\item Conneau and Kiela, 2018
\begin{itemize}[label=$\star$]
\item \textbf{SentEval: An Evaluation Toolkit for Universal Sentence Representations}
\item \textrm{https://arxiv.org/abs/1803.05449}
\end{itemize}
\item Wang et al. 2018
\begin{itemize}[label=$\star$]
\item \textbf{GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding}
\item \textrm{https://arxiv.org/abs/1804.07461}
\end{itemize}
\item
\begin{itemize}[label=$\star$]
\item \textbf{Deep Learning for Sentence Representation} \textrm{http://people.csail.mit.edu/jrg/meetings/ibm-internship-summary-sls-talk.pdf}
\item \textbf{medium blogpost} \textrm{https://medium.com/huggingface/universal-word-sentence-embeddings-ce48ddc8fc3a}
\end{itemize}
\end{itemize}
\end{document}
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment