Commit c79099c6 authored by Antoine Caubrière's avatar Antoine Caubrière
Browse files

C4 - correction V2

parent f486180e
......@@ -15,14 +15,14 @@
Un ensemble de données, ou corpus, est un regroupement fini de données, de même nature, dans l'optique d'une étude précise.
Dans le cas de l'apprentissage automatique supervisé, ces ensembles, composés de documents (texte, parole, image ...), sont analysés et annotés par l'humain selon un cadre applicatif.
Dans le cas de l'apprentissage automatique supervisé, ces ensembles, composés de documents (texte, parole, image...), sont analysés et annotés par l'humain selon un cadre applicatif.
L'annotation experte des données est une tâche nécessitant du temps, ce qui rend l'obtention de corpus couteux.
Habituellement, un corpus est séparé en trois parties distinctes ayant chacune un rôle précis~:
\begin{itemize}
\item L'ensemble d'apprentissage est couramment composé d'environ 70 à 80~\% du corpus total et permet l'entraînement d'un système. Il s'agit d'exemples permettant à un algorithme de construire un modèle.
\item L'ensemble de développement est généralement composé d'environ 10 à 15~\% du corpus total. Il permet d'optimiser le modèle produit lors de l'entraînement.
\item L'ensemble de test, ou d'évaluation, est composé d'environ 10 à 15~\% du corpus total. Il est exploité après avoir terminé l'apprentissage et l'optimisation d'un modèle. Son objectif est de permettre l'évaluation de ses performances dans les conditions les plus proches de son exploitation finale. Les résultats obtenus reflètent les performances du modèle, notamment concernant sa capacité de généralisation, puisqu'il s'agit de données jamais observées par le système lors de son apprentissage et de son optimisation.
\item L'ensemble de test, ou d'évaluation, est composé d'environ 10 à 15~\% du corpus total. Il est exploité après avoir terminé l'apprentissage et l'optimisation d'un modèle. Son objectif est de permettre l'évaluation des performances du modèle dans les conditions les plus proches de son exploitation finale. Les résultats obtenus reflètent les performances du modèle, notamment concernant sa capacité de généralisation, puisqu'il s'agit de données jamais observées par le système lors de son apprentissage et de son optimisation.
\end{itemize}
Au regard des tâches applicatives de cette thèse, nous exploitons des données audio manuellement transcrites et annotées sémantiquement, que ce soit en entités nommées ou en concepts sémantiques.
......@@ -32,7 +32,7 @@ Nous avons également choisi de mettre l'accent sur la reproductibilité de nos
C'est pourquoi, tous les ensembles que nous exploitons sont distribués par des organismes facilitant leurs diffusions, notamment l'European Language Resources Association (ELRA).
Dans les sections suivantes, nous présenterons les corpus s'intégrant dans le cadre applicatif de cette thèse, ainsi que leur répartition.
Leur répartition est calculée sur la base des segments de parole, en excluant toutes les portions d'audio non exploitables (musiques, publicités ...) et elle est exprimée en heures.
Leur répartition est calculée sur la base des segments de parole, en excluant toutes les portions d'audio non exploitables (musiques, publicités...) et elle est exprimée en heures.
Certains corpus possèdent une annotation sémantique, que nous détaillerons.
Enfin, nous expliquerons les décisions prises sur ces ensembles de données permettant de former notre base de travail.
......@@ -40,8 +40,8 @@ Enfin, nous expliquerons les décisions prises sur ces ensembles de données per
\section{Les corpus ESTER}
Deux campagnes françaises pour l'Évaluation des Systèmes de Transcriptions enrichies d'Émissions Radiophoniques (ESTER) ont permis de collecter des données entre 1998 et 2008.
Les données produites correspondent à des émissions de journaux télévisés manuellement transcrites et annotées dans le but d'évaluer les performances des systèmes de traitement de la parole.
Les évaluations des campagnes ESTER ont porté sur plusieurs tâches, notamment sur la transcription de la parole et l'extraction d'informations.
Les données produites correspondent à des émissions de journaux télévisés transcrites manuellement et annotées dans le but d'évaluer les performances des systèmes de traitement de la parole.
Les évaluations des campagnes ESTER ont porté sur plusieurs tâches, notamment sur la transcription de la parole et l'extraction d'information.
Nous décrivons plus en détail les données produites, ainsi que leurs origines dans les sous-sections suivantes.
\subsection{ESTER~1}
......@@ -52,7 +52,7 @@ Le corpus~[\cite{galliano2006corpus}] produit à l'occasion de cette campagne a
L'objectif de cette campagne était d'initier des travaux sur le traitement d'émissions de journaux d'informations.
Elle visait notamment la transcription orthographique, la détection et le suivi d'événement, ainsi que l'extraction d'informations (détection des entités nommées).
Ce corpus est constitué d'un ensemble de données audio manuellement transcrits comportant 95 heures de paroles. Il est complété avec un ensemble de données audio non transcrits représentant 1700 heures.
Ce corpus est constitué d'un ensemble de données audio transcrites manuellement et comportant 95 heures de paroles. Il est complété avec un ensemble de données audio non transcrites représentant 1700 heures.
L'audio est issu de six sources francophones distinctes toutes enregistrées entre 1998 et 2004~: Radio France International, France Inter, France Info, Radio Télévision Marocaine, France Culture et Radio Classique.
Dans le cadre de cette thèse, nous exploitons uniquement les données manuellement transcrites.
......@@ -322,7 +322,7 @@ La liste des composants ainsi que leurs dépendances aux catégories d'entités
\newpage
Nous avons analysé les données du corpus QU\AE{}RO.
Cette analyse nous a permis de comprendre la répartition des entités nommées qui sont décrites dans la table~\ref{table:QUAERO_en_comp} et la figure~\ref{fig:QUAERO_repartition}.
La table précise la composition générale du corpus en terme de mots, d'entités nommées et de composants tandis que la figure donne la répartition des catégories d'entités nommées.
La table précise la composition générale du corpus en termes de mots, d'entités nommées et de composants tandis que la figure donne la répartition des catégories d'entités nommées.
\begin{table}[htbp]
\centering
......@@ -381,7 +381,7 @@ Nous donnons la répartition des données de ce corpus dans la figure~\ref{fig:r
\end{figure}
ETAPE exploite le formalisme QU\AE{}RO des entités nommées tel que défini dans la section~\ref{sec:formalisme_quaero}.
Des statistiques sur le corpus en terme de nombre de mots, d'entités nommées et de composants, pour chaques parties du corpus, sont présentées dans la table~\ref{table:ETAPE_en_comp}.
Des statistiques sur le corpus en termes de nombre de mots, d'entités nommées et de composants, pour chaques parties du corpus, sont présentées dans la table~\ref{table:ETAPE_en_comp}.
\begin{table}[htbp]
\centering
......@@ -433,9 +433,9 @@ Nous présentons la répartition des catégories des entités nommées pour les
\section{EPAC}
Le projet d'Exploration de masse de documents audio pour l'extraction et le traitement de la PArole Conversationnelle (EPAC) s'est déroulé du 1er janvier 2007 au 31 décembre 2009.
Il concerne le traitement de données audio non structurées et a pour but de proposer des méthodes d'extraction d'informations et de structuration de données audio.
Il concerne le traitement de données audio non structurées et a pour but de proposer des méthodes d'extraction d'information et de structuration de données audio.
Pour ce faire, un corpus~[\cite{esteve2010epac}] a été construit à partir des 1700 heures de données audio non transcrites fournies par la campagne ESTER~1.
Pour ce faire, un corpus~[\cite{esteve2010epac}] a été construit à partir des $1~700$ heures de données audio non transcrites fournies par la campagne ESTER~1.
L'objectif de ce corpus est de mettre l'accent sur la parole conversationnelle.
Il est composé de 90 heures de paroles manuellement transcrits et il est provient de trois sources distinctes~: France Inter, France Culture et RFI.
Il est mis à disposition depuis 2010 par l'ELRA sous la référence ELRA-S0305.
......@@ -487,7 +487,7 @@ Son objectif est de définir et de tester une méthodologie de la compréhension
Pour ce faire, un corpus de dialogue français~[\cite{bonneau2005semantic}] a été créé.
Il est issu d'une simulation de serveur téléphonique pour une tâche de réservation d'hôtel.
Depuis 2008, ce corpus est distribué par l'ELRA sous la référence ELRA-S0272.
Il est composé de 1258 dialogues avec différents scénarios de réservation d'hôtel, allant de la réservation simple, a des réservations plus complexes intégrant des changements d'avis de la part de l'utilisateur pendant le dialogue.
Il est composé de 1~258 dialogues avec différents scénarios de réservation d'hôtel, allant de la réservation simple, a des réservations plus complexes intégrant des changements d'avis de la part de l'utilisateur pendant le dialogue.
Ce corpus est composé de 57,5 heures de parole, dont 23,5 heures pour la partie utilisateur et 34 heures pour la partie système.
Nous détaillons la répartition des heures, en fonction de la partie système et de la partie utilisateur, dans la figure~\ref{fig:repartition_MEDIA}.
......@@ -505,7 +505,7 @@ Cette représentation sémantique sera détaillée dans la sous-section~\ref{gui
\subsection{PORTMEDIA}
Le projet PORTMEDIA a pour objectif de compléter le corpus MEDIA.
Les principaux axes de ce projet concerne la portabilité multilingue, multidomaine, ainsi que la représentation sémantique.
Les principaux axes de ce projet concerne la portabilité multilingue, multidomaines, ainsi que la représentation sémantique.
Ce projet a permis la mise en place d'un corpus~[\cite{lefevre2012robustesse}] qui est un complément au corpus MEDIA.
Ce corpus est séparé en deux parties distinctes~: PM-Lang et PM-Dom.
......@@ -565,7 +565,7 @@ Il s'oriente notamment sur la réduction des besoins en annotation manuelle des
Son objectif est de proposer des outils robustes pour le traitement de la parole, dans le cadre des centres d'appel de la Régie Autonome des Transports Parisiens (RATP).
Pour réaliser ce projet, un corpus a été collecté~[\cite{bechet2012decoda}] en conditions réelles.
Il est composé de 1514 conversations représentant 56,5 heures de parole dont nous fournissons la répartition dans la figure~\ref{fig:repartition_DECODA}.
Il est composé de 1~514 conversations représentant 56,5 heures de parole dont nous fournissons la répartition dans la figure~\ref{fig:repartition_DECODA}.
\begin{figure}[htbp]
\begin{center}
......
[0] Config.pm:302> INFO - This is Biber 2.9
[0] Config.pm:305> INFO - Logfile is 'main.blg'
[21] biber:313> INFO - === lun. oct. 26, 2020, 16:54:54
[48] Biber.pm:371> INFO - Reading 'main.bcf'
[134] Biber.pm:857> INFO - Found 185 citekeys in bib section 0
[149] Biber.pm:3981> INFO - Processing section 0
[178] Biber.pm:4154> INFO - Looking for bibtex format file './biblio/biblio.bib' for section 0
[185] bibtex.pm:1468> INFO - LaTeX decoding ...
[442] bibtex.pm:1294> INFO - Found BibTeX data source './biblio/biblio.bib'
[1834] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio.bib_17890.utf8, line 377, warning: 49 characters of junk seen at toplevel
[1835] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio.bib_17890.utf8, line 528, warning: 14 characters of junk seen at toplevel
[1835] Biber.pm:4154> INFO - Looking for bibtex format file './biblio/biblio_perso.bib' for section 0
[1837] bibtex.pm:1468> INFO - LaTeX decoding ...
[1871] bibtex.pm:1294> INFO - Found BibTeX data source './biblio/biblio_perso.bib'
[2049] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio_perso.bib_17890.utf8, line 7, warning: undefined macro "Dec"
[2049] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio_perso.bib_17890.utf8, line 21, warning: undefined macro "Jul"
[2049] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio_perso.bib_17890.utf8, line 36, warning: undefined macro "Sep"
[2049] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio_perso.bib_17890.utf8, line 53, warning: undefined macro "Sep"
[2049] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio_perso.bib_17890.utf8, line 69, warning: undefined macro "Oct"
[2050] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio_perso.bib_17890.utf8, line 82, warning: undefined macro "Nov"
[2050] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio_perso.bib_17890.utf8, line 126, warning: undefined macro "Apr"
[2050] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio_perso.bib_17890.utf8, line 140, warning: undefined macro "May"
[2050] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio_perso.bib_17890.utf8, line 152, warning: undefined macro "May"
[2050] Utils.pm:169> WARN - BibTeX subsystem: /tmp/P77YYyT6XN/biblio_perso.bib_17890.utf8, line 165, warning: undefined macro "Oct"
[2050] Utils.pm:169> WARN - I didn't find a database entry for 'fillmore1976frame' (section 0)
[2050] Utils.pm:169> WARN - I didn't find a database entry for 'xie2015graph' (section 0)
[2599] UCollate.pm:68> INFO - Overriding locale 'fr-FR' defaults 'normalization = NFD' with 'normalization = prenormalized'
[2599] UCollate.pm:68> INFO - Overriding locale 'fr-FR' defaults 'variable = shifted' with 'variable = non-ignorable'
[2600] Biber.pm:3809> INFO - Sorting list 'apa/global//global/global' of type 'entry' with template 'apa' and locale 'fr-FR'
[2600] Biber.pm:3815> INFO - No sort tailoring available for locale 'fr-FR'
[2834] bbl.pm:617> INFO - Writing 'main.bbl' with encoding 'UTF-8'
[3102] bbl.pm:720> INFO - Output to main.bbl
[3102] Biber.pm:110> INFO - WARNINGS: 14
[36] biber:313> INFO - === lun. oct. 26, 2020, 20:52:49
[55] Biber.pm:371> INFO - Reading 'main.bcf'
[125] Biber.pm:857> INFO - Found 185 citekeys in bib section 0
[140] Biber.pm:3981> INFO - Processing section 0
[152] Biber.pm:4154> INFO - Looking for bibtex format file './biblio/biblio.bib' for section 0
[163] bibtex.pm:1468> INFO - LaTeX decoding ...
[352] bibtex.pm:1294> INFO - Found BibTeX data source './biblio/biblio.bib'
[1328] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio.bib_28837.utf8, line 377, warning: 49 characters of junk seen at toplevel
[1328] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio.bib_28837.utf8, line 528, warning: 14 characters of junk seen at toplevel
[1328] Biber.pm:4154> INFO - Looking for bibtex format file './biblio/biblio_perso.bib' for section 0
[1329] bibtex.pm:1468> INFO - LaTeX decoding ...
[1361] bibtex.pm:1294> INFO - Found BibTeX data source './biblio/biblio_perso.bib'
[1468] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio_perso.bib_28837.utf8, line 7, warning: undefined macro "Dec"
[1468] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio_perso.bib_28837.utf8, line 21, warning: undefined macro "Jul"
[1468] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio_perso.bib_28837.utf8, line 36, warning: undefined macro "Sep"
[1468] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio_perso.bib_28837.utf8, line 53, warning: undefined macro "Sep"
[1468] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio_perso.bib_28837.utf8, line 69, warning: undefined macro "Oct"
[1468] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio_perso.bib_28837.utf8, line 82, warning: undefined macro "Nov"
[1468] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio_perso.bib_28837.utf8, line 126, warning: undefined macro "Apr"
[1468] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio_perso.bib_28837.utf8, line 140, warning: undefined macro "May"
[1468] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio_perso.bib_28837.utf8, line 152, warning: undefined macro "May"
[1468] Utils.pm:169> WARN - BibTeX subsystem: /tmp/glZ_IjH7KW/biblio_perso.bib_28837.utf8, line 165, warning: undefined macro "Oct"
[1468] Utils.pm:169> WARN - I didn't find a database entry for 'fillmore1976frame' (section 0)
[1469] Utils.pm:169> WARN - I didn't find a database entry for 'xie2015graph' (section 0)
[1932] UCollate.pm:68> INFO - Overriding locale 'fr-FR' defaults 'variable = shifted' with 'variable = non-ignorable'
[1932] UCollate.pm:68> INFO - Overriding locale 'fr-FR' defaults 'normalization = NFD' with 'normalization = prenormalized'
[1932] Biber.pm:3809> INFO - Sorting list 'apa/global//global/global' of type 'entry' with template 'apa' and locale 'fr-FR'
[1932] Biber.pm:3815> INFO - No sort tailoring available for locale 'fr-FR'
[2153] bbl.pm:617> INFO - Writing 'main.bbl' with encoding 'UTF-8'
[2344] bbl.pm:720> INFO - Output to main.bbl
[2344] Biber.pm:110> INFO - WARNINGS: 14
This is pdfTeX, Version 3.14159265-2.6-1.40.18 (TeX Live 2017/Debian) (preloaded format=pdflatex 2018.12.4) 26 OCT 2020 16:54
This is pdfTeX, Version 3.14159265-2.6-1.40.18 (TeX Live 2017/Debian) (preloaded format=pdflatex 2018.12.4) 26 OCT 2020 20:52
entering extended mode
restricted \write18 enabled.
%&-line parsing enabled.
......@@ -4147,7 +4147,7 @@ e1/public/kpfonts/jkpmsce.pfb></usr/share/texlive/texmf-dist/fonts/type1/public
psyc.pfb></usr/share/texlive/texmf-dist/fonts/type1/urw/helvetic/uhvb8a.pfb></u
sr/share/texlive/texmf-dist/fonts/type1/urw/helvetic/uhvr8a.pfb></usr/share/tex
live/texmf-dist/fonts/type1/urw/helvetic/uhvro8a.pfb>
Output written on main.pdf (196 pages, 4710897 bytes).
Output written on main.pdf (196 pages, 4710907 bytes).
PDF statistics:
3613 PDF objects out of 4296 (max. 8388607)
3071 compressed objects within 31 object streams
......
No preview for this file type
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment