* Partie du manuel d'annotation de Mathilde Lala [] (Pour un peu de contexte, mémoire de Lala, Mathilde(2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants. https://dante.univ-tlse2.fr/s/fr/item/4500)
* Bras, M., Vieu, L., Joret, M., Pépin-Boutin, A., Poujade, C. & Roze, C. (2021). Vers un corpus de textes d’élèves annoté en relations de discours. Langue française, 211, 115-129. https://doi-org.gorgone.univ-toulouse.fr/10.3917/lf.211.0115
* Manuel d'annotation RST DT : Marcu, D., Carlson, L. (1999) Discourse Tagging Reference Manual https://www.isi.edu/~marcu/discourse/tagging-ref-manual.pdf
## Déroulé du TP
-présentation : discourse, segmentation discursive, campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco)
- une présentation de Leïla ? Mémoire de M2 de M Lala sur l'adaptation du manuel ANNODIS aux écrits scolaires :
Lala, Mathilde (2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants.[Mémoire] présentation de son mémoire / retour d’expérience par Leïla Fabre : par ex. son travail d’annotation manuelle (avec manuel d’Annodis adapté aux écrits scolaires), classification des erreurs
-Regarder des données segmentées en différentes langues en leur présentant des gold / pred qu’on a
- Utilisation d’un modèle sur de nouvelles données, en utilisant données ECALM
-soit texte brut soit texte tokenisé → plutôt les données en format conll de ECALM, cf ci-dessous
-→ les étudiants doivent passer ces données en format DISRPT ⇒ supprimer les 2 premières colonnes et déplacer lemme peut-être
-→ en sortie recoller les infos enlevées
-Présentation : discourse, segmentation discursive, campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco)
- une présentation de Leïla ? Mémoire de M2 de M Lala sur l'adaptation du manuel ANNODIS aux écrits scolaires : Lala, Mathilde (2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants.
[Ref à venir] présentation de son mémoire / retour d’expérience par Leïla Fabre : par ex. son travail d’annotation manuelle (avec manuel d’Annodis adapté aux écrits scolaires), classification des erreurs
-Analyse de données segmentées en différentes langues (chinois, français, anglais..) différences entres gold et prédictions, données issues de DISRPT 2021.
- Utilisation d’un modèle pré-entrainé (ToNy, multilingue ?) sur de nouvelles données, en utilisant données ECALM (français)
-Transformation du format conll-12 de ECALM au format conll de DISRPT pouvant être pris en entrée de DisCut.
-Prédictions automatiques avec Tony via DisCut.
-Recollage des métadata de départ.
- (passage par STANZA / TRANKIT)
-évaluation de l’annotation automatique
-ré annotation manuelle
-finetuning en utilisant les nouvelles données et évaluation sur les nouvelles données
-Évaluation de l’annotation automatique
-Ré annotation manuelle (binomes, accord inter ou categorisations des difficutés)
-Fine-tuning en utilisant les nouvelles données annotées et évaluation des nouvelles prédictions automatiques.