Commit 7d1fe649 authored by Gaëtan Caillaut's avatar Gaëtan Caillaut
Browse files

lots of fixes

parent 8c27b25a
le groupe des nations_unies a des projets de plans pour la réduction des émissions
la conférence sur le climat , sponsorisée par l' onu -- caractérisée jusqu' à présent par des affectations désorganisées et des récriminations mutuelles -- est revenue sous les feux_de_la_rampe vendredi , en raison de la publication d' un document soulignant les réductions ambitieuses des gaz_à_effet_de_serre au des 40 prochaines années , avec les nations industrialisées épaulant la plupart de la charge , dans les prochains temps .
le texte qui pourrait fournir les bases d' un accord politique final pour réguler les gaz_à_effet_de_serre , a souligné les obstacles restants , autant qu' il a éclairé le chemin à prendre .
mais il a été vu comme étant une avancée importante dans les négociations qui manquent de temps , avec plus de 100 leaders du monde entier arrivant la semaine prochaine à copenhague .
rédigé par un groupe_de_travail spécial de l' onu , le texte ne dit pas combien les pays riches donneraient aux pauvres pour supporter le réchauffement climatique , à court et à long terme .
\ No newline at end of file
This diff is collapsed.
nous ne savons pas qui gagnera la guerre_contre_la_drogue en amérique_latine , mais nous savons qui est en train de la perdre - la presse .
au cours des six derniers mois , six journalistes ont été tués et 10 ont été enlevés par des trafiquants_de_drogue ou des guérilleros de gauche - souvent il s ’ agit des mêmes personnes - en colombie .
au cours des 12 dernières années , au moins 40 journalistes sont morts là-bas .
les attaques se sont intensifiées dès que le gouvernement colombien à commencé une répression musclée des trafiquants en août , pour tenter d' empêcher qu ’ ils prennent le contrôle du pays .
le massacre en colombie a été discuté par 450 rédacteurs et éditeurs de l' amérique_latine , des etats-unis , des caraïbes et du canada qui ont participé à la 45ème assemblée générale de l' association interaméricaine de la presse à monterrey , au mexique , cette semaine .
le mardi , les participants à la conférence ont été informés d' une autre atrocité , l' assassinat à medellin de deux employés d' el_espectador , le deuxième plus grand journal de colombie .
l ’ administrateur local du journal , luz maria lopez , a été abattue et sa mère blessée , tandis que sa voiture était arrêtée à un feu_rouge .
une heure plus tard , le directeur de la diffusion du journal , miguel soler , a été abattu près de son domicile .
les seigneurs_de_la_drogue qui ont revendiqué la responsabilité des assassinats ont affirmé qu' ils allait faire exploser les bureaux du journal de bogota si on continuerait à le distribuer à medellin .
ils ont bombardé les bureaux de bogota le mois dernier , détruisant les ordinateurs et causant 2,5 millions de dollars en dommages .
el_espectador a été une cible particulière en raison de l' extraordinaire courage de son éditeur et de son personnel .
à monterrey , l' éditeur luis gabriel cano , bien que secoué par les meurtres , a publié une déclaration disant : `` nous ne cesserons pas notre lutte contre le narcotrafic .
ils veulent terroriser la presse et notamment el_espectador parce qu' il a toujours été en première ligne dans cette guerre .
cela vient d' un homme dont le frère , guillermo , a été assassiné en 1986 .
les éditeurs de monterrey ne commandent pas de bataillons , mais ils ont convenu d' exprimer leur indignation dans leurs éditoriaux des éditions d' aujourd' hui .
beaucoup utiliseront un éditorial commun .
une déclaration finale de hier disait : « bien que certains progrès aient été réalisés dans les pays de l' hémisphère , l' état de la liberté de la presse dans les amériques doit encore être considéré comme sombre aussi longtemps que les journalistes et leurs familles sont soumis à la plus grossière forme de censure : la mort par l' assassinat . ''
le rapport accuse le panama de manuel_noriega de connivence avec les trafiquant_de_drogue , et aussi d ’ intimider la presse comme jamais auparavant . ''
noriega a fermé tous les journaux et toutes les stations de radio et de télévision indépendantes , et il a fait arrêter ou torturer , ou bien il a contraint à l' exil , une longue liste de journalistes '' affirme la déclaration .
et on ajoute : '' a cuba , le pays ennemi public numéro 1 de la liberté de la presse dans l' hémisphère , la répression des journalistes cubains et étrangers est encore pire qu ’ avant . ''
au nicaragua , les promesses de liberté de la presse faites par les sandinistes '' ne se sont pas matérialisées . ''
il se trouve que les quatre pays cités , notamment la colombie , cuba , panama et le nicaragua , ne sont pas seulement les lieux où la presse est en butte à des attaques , mais ils sont aussi liés par le trafic_de_drogue et par la politique de gauche .
noriega est proche de castro et peut-être il a été son agent .
les sandinistes thomas_borge et les frères ortega sont protégés de castro : il a soutenu leur coup_d'état au nicaragua .
en colombie , la guérilla financée par la drogue qui tente de saisir le pouvoir au pays et de détruire la démocratie comprenne aussi le m-19 , qui a clairement été soutenu par castro .
robert merkel , un ancien procureur américain dans des actes_d'accusations pour rafic_de_drogue en floride , ne pense pas pour un instant que les procès de hauts fonctionnaires engagés dans le trafic_de_drogue , intentés par castro et très médiatisés , signifient qu' il a rompu avec le cartel_de_la_drogue de medellin . ''
si le cartel parvient à forcer par chantage les autorités colombiennes dans des négociations , le cartel aura le contrôle et fidel pourra exploiter ses relations passées avec eux '' , il a récemment dit à david_asman du journal .
le résultat de la lutte contre les seigneurs_de_la_drogue en colombie est incertain .
cette semaine , le gouvernement a arrêté jose_abello_silva , le numéro quatre présumé du cartel .
il va probablement être extradé vers les etats-unis pour le procès , grâce à un traité d' extradition relancé par le président virgilia barco .
plus tard , un autre trafiquant de haut rang , leonidas_vargas , a été arrêté et 1.000 kilos de dynamite ont été saisis .
m. barco a refusé les troupes ou les conseillers américaines , mais il a accepté l' aide militaire américaine .
le président bush a accepté de se rencontrer dans les 90 jours avec m. barco , le président du pérou alan_garcia et le président de la bolivie jaime_paz_zamora , pour discuter du problème des drogues .
il serait bien d ’ en discuter au plus tôt .
après le fiasco de panama , ils auront besoin d' être rassurés .
la presse colombienne surtout en aurait besoin .
\ No newline at end of file
nous savoir qui gagner guerre_contre_la_drogue amérique_latine nous savoir qui être train perdre presse
cours dernier mois journaliste avoir être tuer avoir être enlever trafiquants_de_drogue guérillero gauche il s ’ agir même personne colombie
cours dernier année journaliste être mourir
attaque se être intensifier gouvernement colombien commencer répression muscler trafiquant août tenter d empêcher qu ’ il prendre contrôle pays
massacre colombie avoir être discuter rédacteur éditeur l amérique_latine etats-unis caraïbe canada qui avoir participer 45ème assemblée général l association interaméricaine presse monterrey mexique ce semaine
mardi participant conférence avoir être informer d autre atrocité l assassinat medellin employé d el_espectador grand journal colombie
l ’ administrateur local journal luz marier lopez avoir être abattre mère blessé voiture être arrêter feu_rouge
heure directeur diffusion journal miguel soler avoir être abattre domicile
seigneurs_de_la_drogue qui avoir revendiquer responsabilité assassinat avoir affirmer qu il aller faire exploser bureau journal bogota on continuer le distribuer medellin
il avoir bombarder bureau bogota mois dernier détruire ordinateur causer million dollar dommage
el_espectador avoir être cible particulier raison l extraordinaire courage éditeur personnel
monterrey l éditeur luire gabriel cano secouer meurtre avoir publier déclaration dire ` ` nous cesser lutte narcotrafic
il vouloir terroriser presse el_espectador qu il avoir être ligne ce guerre
cela venir d homme dont frère guillermo avoir être assassiner
éditeur monterrey commander bataillon il avoir convenir d exprimer indignation éditorial édition d aujourd hui
utiliser éditorial commun
déclaration final hier dire certain progrès avoir être réaliser pays l hémisphère l état liberté presse amériques devoir être considérer sombrer journaliste famille être soumettre grossier forme censure mort l assassinat
rapport accuser panama manuel_noriega connivence trafiquant_de_drogue d ’ intimider presse
noriega avoir fermer tout journal tout station radio télévision indépendant il avoir faire arrêter torturer il avoir contraindre l exil longue liste journaliste affirmer déclaration
on ajouter avoir cuber pays ennemi public numéro liberté presse l hémisphère répression journaliste cubain étranger être pire qu ’
nicaragua promesse liberté presse faire sandinistes se être matérialiser
il se trouver pays citer colombie cuber panama nicaragua être lieu où presse être butte attaque il être lier trafic_de_drogue politique gauche
noriega être proche castro il avoir être agent
sandinistes thomas_borge frère ortega être protéger castro il avoir soutenir coup_d'état nicaragua
colombie guérilla financer drogue qui tenter saisir pouvoir pays détruire démocratie comprendre m-19 qui avoir être soutenir castro
robert merkel ancien procureur américain actes_d'accusations rafic_de_drogue floride penser instant procès haut fonctionnaire engager trafic_de_drogue intenter castro médiatiser signifier qu il avoir rompre cartel_de_la_drogue medellin
cartel parvenir forcer chantage autorité colombiennes négociation cartel avoir contrôle fidel pouvoir exploiter relation passer eux il avoir dire david_asman journal
résultat lutte seigneurs_de_la_drogue colombie être incertain
ce semaine gouvernement avoir arrêter jose_abello_silva numéro présumer cartel
il aller être extrader etats-unis procès grâce traité d extradition relancer président virgilia barco
autre trafiquant haut rang leonidas_vargas avoir être arrêter kilo dynamite avoir être saisir
m. barco avoir refuser troupe conseiller américain il avoir accepter l aide militaire américain
président bush avoir accepter se rencontrer jour m. barco président pérou alan_garcia président bolivie jaime_paz_zamora discuter problème drogue
il être d ’ discuter
fiasco panama il avoir besoin d être rassurer
presse colombienne en avoir besoin
\ No newline at end of file
......@@ -4,7 +4,7 @@ import os
import itertools
import argparse
from gensim.models import Word2Vec
from corpus import Corpus, CorpusSimplifier
from corpus import load_corpus
try:
from minibert import *
except:
......@@ -49,12 +49,10 @@ if __name__ == "__main__":
file=sys.stderr)
args.gpu = False
crps = Corpus(args.corpus)
if args.simplify:
crps = CorpusSimplifier(crps)
crps = load_corpus(args.corpus, args.simplify)
mask_token = "<mask>"
voc = sorted(list(crps.compute_vocabulary().union({mask_token})))
voc = sorted(crps.vocabulary().union({mask_token}))
voc2idx = {x: i for i, x in enumerate(voc)}
mask_idx = voc2idx[mask_token]
......
import os
import torch
from xml.etree import ElementTree
from treetagger import TreeTagger
try:
from treetagger import TreeTagger
except:
from .treetagger import TreeTagger
from itertools import islice
__all__ = [
"Corpus",
"CorpusSimplifier"
"TxtCorpus",
"XmlCorpus",
"CorpusSimplifier",
"load_corpus"
]
class Corpus:
class BaseCorpus():
def vocabulary(self, tokenizer=str.split):
res = set()
for s in self:
res.update(set(tokenizer(s)))
return res
def dtm(self, tokenizer=str.split):
voc = sorted(self.vocabulary(tokenizer=tokenizer))
voc2idx = {v: i for i, v in enumerate(voc)}
res = torch.zeros((len(self), len(voc)), dtype=torch.int)
for i, doc in enumerate(self):
tokens = tokenizer(doc)
for tok in tokens:
res[i, voc2idx[tok]] += 1
return res
class TxtCorpus(BaseCorpus):
def __init__(self, path):
self.path = path
with open(path, "rt", encoding="UTF-8") as f:
self.sentences = [l.strip() for l in f.readlines()]
def __iter__(self):
return iter(self.sentences)
def __len__(self):
return len(self.sentences)
def __getitem__(self, i):
return self.sentences[i]
class XmlCorpus(BaseCorpus):
def __init__(self, path):
self.path = path
self._len = None
def __iter__(self):
tree = ElementTree.parse(self.path)
......@@ -20,23 +62,19 @@ class Corpus:
yield sentence.attrib.get("s", "").lower()
def __len__(self):
tree = ElementTree.parse(self.path)
root = tree.getroot()
return len(root.findall("s"))
if self._len is None:
tree = ElementTree.parse(self.path)
root = tree.getroot()
self._len = len(list(root.iter("sentence")))
return self._len
def __getitem__(self, i):
tree = ElementTree.parse(self.path)
root = tree.getroot()
return next(islice(self, i, None))
def compute_vocabulary(self, tokenizer=str.split):
res = set()
for s in self:
res.update(set(tokenizer(s)))
return res
class CorpusSimplifier:
class CorpusSimplifier(BaseCorpus):
def __init__(self, corpus):
self.corpus = corpus
self.tt = TreeTagger(language="french")
......@@ -44,9 +82,7 @@ class CorpusSimplifier:
def __iter__(self):
if self.cache is not None:
for x in self.cache:
yield x
# return iter(self.cache) # Pourquoi ça marche pas ????
return iter(self.cache)
else:
cache = []
for sentence in self.corpus:
......@@ -72,16 +108,25 @@ class CorpusSimplifier:
if self.cache is not None:
return len(self.cache)
else:
return len(self.crps)
return len(self.corpus)
def __getitem__(self, i):
if self.cache is not None:
return self.cache[i]
else:
return self.crps[i]
return self.corpus[i]
def compute_vocabulary(self, tokenizer=str.split):
res = set()
for s in self:
res.update(set(tokenizer(s)))
return res
def load_corpus(path, simplify=False):
filename, ext = os.path.splitext(path)
if ext == ".xml":
crps = XmlCorpus(path)
elif ext == ".txt":
crps = TxtCorpus(path)
else:
raise Exception("Corpus file extension must be ’.xml’ or ’.txt’.")
if simplify:
crps = CorpusSimplifier(crps)
return crps
from train_semeval import *
import argparse
import sys
if __name__ == "__main__":
parser = argparse.ArgumentParser(description="Convert XML corpus to txt")
parser.add_argument("corpus", help="Input corpus")
parser.add_argument("-o", "--output", help="Output file", required=False)
parser.add_argument("-s", "--simplify", action="store_true")
args = parser.parse_args()
crps = Corpus(args.corpus)
if args.simplify:
crps = CorpusSimplifier(crps)
out = "\n".join(crps)
if args.output is not None:
with open(args.output, "wt", encoding="UTF-8") as f:
f.write(out)
else:
print(out)
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment