-
Chloé Braud authoredChloé Braud authored
README.md 1.86 KiB
Master LiTL - TP segmentation
3 séances de 2h
Lectures
A lire avant le TP:
- Partie du manuel d'annotation de Mathilde
- (manuel d'annotation RST DT ?)
- Bras, M., Vieu, L., Joret, M., Pépin-Boutin, A., Poujade, C. & Roze, C. (2021). Vers un corpus de textes d’élèves annoté en relations de discours. Langue française, 211, 115-129. https://doi-org.gorgone.univ-toulouse.fr/10.3917/lf.211.0115
Déroulé du TP
- présentation : discourse, segmentation discursive, campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco)
- une présentation de Leïla ? Mémoire de M2 de M Lala sur l'adaptation du manuel ANNODIS aux écrits scolaires : Lala, Mathilde (2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants.[Mémoire] présentation de son mémoire / retour d’expérience par Leïla Fabre : par ex. son travail d’annotation manuelle (avec manuel d’Annodis adapté aux écrits scolaires), classification des erreurs
- Regarder des données segmentées en différentes langues en leur présentant des gold / pred qu’on a
- Utilisation d’un modèle sur de nouvelles données, en utilisant données ECALM
- soit texte brut soit texte tokenisé → plutôt les données en format conll de ECALM, cf ci-dessous
- → les étudiants doivent passer ces données en format DISRPT ⇒ supprimer les 2 premières colonnes et déplacer lemme peut-être
- → en sortie recoller les infos enlevées
- (passage par STANZA / TRANKIT)
- évaluation de l’annotation automatique
- ré annotation manuelle
- fine tuning en utilisant les nouvelles données et évaluation sur les nouvelles données
Evaluation
(chacun ou par 2 ?) Rédaction d’un compte-rendu sur:
- Prise en main de DisCut
- Expérience d’annotation
- Evaluation des erreurs de DisCut