Skip to content
Snippets Groups Projects

Master LiTL - TP segmentation

laura.riviere@irit.fr

3 séances de 2h

Lectures

A lire avant le TP:

  • Partie du manuel d'annotation de Mathilde
  • (manuel d'annotation RST DT ?)
  • Bras, M., Vieu, L., Joret, M., Pépin-Boutin, A., Poujade, C. & Roze, C. (2021). Vers un corpus de textes d’élèves annoté en relations de discours. Langue française, 211, 115-129. https://doi-org.gorgone.univ-toulouse.fr/10.3917/lf.211.0115

Déroulé du TP

  • présentation : discourse, segmentation discursive, campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco)
  • une présentation de Leïla ? Mémoire de M2 de M Lala sur l'adaptation du manuel ANNODIS aux écrits scolaires : Lala, Mathilde (2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants.[Mémoire] présentation de son mémoire / retour d’expérience par Leïla Fabre : par ex. son travail d’annotation manuelle (avec manuel d’Annodis adapté aux écrits scolaires), classification des erreurs
  • Regarder des données segmentées en différentes langues en leur présentant des gold / pred qu’on a
  • Utilisation d’un modèle sur de nouvelles données, en utilisant données ECALM
    • soit texte brut soit texte tokenisé → plutôt les données en format conll de ECALM, cf ci-dessous
    • → les étudiants doivent passer ces données en format DISRPT ⇒ supprimer les 2 premières colonnes et déplacer lemme peut-être
    • → en sortie recoller les infos enlevées
    • (passage par STANZA / TRANKIT)
  • évaluation de l’annotation automatique
  • ré annotation manuelle
  • fine tuning en utilisant les nouvelles données et évaluation sur les nouvelles données

Evaluation

(chacun ou par 2 ?) Rédaction d’un compte-rendu sur:

  • Prise en main de DisCut
  • Expérience d’annotation
  • Evaluation des erreurs de DisCut