diff --git a/Lectures/.gitkeep b/Lectures/.gitkeep deleted file mode 100644 index e69de29bb2d1d6434b8b29ae775ad8c2e48c5391..0000000000000000000000000000000000000000 diff --git a/Lectures/Bras.et.al2021.pdf b/Lectures/Bras.et.al2021.pdf deleted file mode 100644 index 0fd331c217ef06910a6548d0c64034ec4c67ed53..0000000000000000000000000000000000000000 Binary files a/Lectures/Bras.et.al2021.pdf and /dev/null differ diff --git a/README.md b/README.md index 9d289fc06ad3ad9c0261113ff62b7b234ef82951..33c51949b4aa21d8695fa9a1aad483e71fb53fc0 100644 --- a/README.md +++ b/README.md @@ -7,25 +7,25 @@ laura.riviere@irit.fr ## Lectures A lire avant le TP: -* Partie du manuel d'annotation de Mathilde -* (manuel d'annotation RST DT ?) +* Partie du manuel d'annotation de Mathilde Lala [] (Pour un peu de contexte, mémoire de Lala, Mathilde(2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants. https://dante.univ-tlse2.fr/s/fr/item/4500) * Bras, M., Vieu, L., Joret, M., Pépin-Boutin, A., Poujade, C. & Roze, C. (2021). Vers un corpus de textes d’élèves annoté en relations de discours. Langue française, 211, 115-129. https://doi-org.gorgone.univ-toulouse.fr/10.3917/lf.211.0115 +* Manuel d'annotation RST DT : Marcu, D., Carlson, L. (1999) Discourse Tagging Reference Manual https://www.isi.edu/~marcu/discourse/tagging-ref-manual.pdf ## Déroulé du TP -- présentation : discourse, segmentation discursive, campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco) -- une présentation de Leïla ? Mémoire de M2 de M Lala sur l'adaptation du manuel ANNODIS aux écrits scolaires : -Lala, Mathilde (2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants.[Mémoire] présentation de son mémoire / retour d’expérience par Leïla Fabre : par ex. son travail d’annotation manuelle (avec manuel d’Annodis adapté aux écrits scolaires), classification des erreurs -- Regarder des données segmentées en différentes langues en leur présentant des gold / pred qu’on a -- Utilisation d’un modèle sur de nouvelles données, en utilisant données ECALM - - soit texte brut soit texte tokenisé → plutôt les données en format conll de ECALM, cf ci-dessous - - → les étudiants doivent passer ces données en format DISRPT ⇒ supprimer les 2 premières colonnes et déplacer lemme peut-être - - → en sortie recoller les infos enlevées +- Présentation : discourse, segmentation discursive, campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco) +- une présentation de Leïla ? Mémoire de M2 de M Lala sur l'adaptation du manuel ANNODIS aux écrits scolaires : Lala, Mathilde (2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants. +[Ref à venir] présentation de son mémoire / retour d’expérience par Leïla Fabre : par ex. son travail d’annotation manuelle (avec manuel d’Annodis adapté aux écrits scolaires), classification des erreurs +- Analyse de données segmentées en différentes langues (chinois, français, anglais..) différences entres gold et prédictions, données issues de DISRPT 2021. +- Utilisation d’un modèle pré-entrainé (ToNy, multilingue ?) sur de nouvelles données, en utilisant données ECALM (français) + - Transformation du format conll-12 de ECALM au format conll de DISRPT pouvant être pris en entrée de DisCut. + - Prédictions automatiques avec Tony via DisCut. + - Recollage des métadata de départ. - (passage par STANZA / TRANKIT) -- évaluation de l’annotation automatique -- ré annotation manuelle -- fine tuning en utilisant les nouvelles données et évaluation sur les nouvelles données +- Évaluation de l’annotation automatique +- Ré annotation manuelle (binomes, accord inter ou categorisations des difficutés) +- Fine-tuning en utilisant les nouvelles données annotées et évaluation des nouvelles prédictions automatiques. ## Evaluation