Skip to content
Snippets Groups Projects
Commit dd928e21 authored by laura.riviere's avatar laura.riviere
Browse files

petits changements

parent faab4bac
No related branches found
No related tags found
No related merge requests found
File deleted
......@@ -7,25 +7,25 @@ laura.riviere@irit.fr
## Lectures
A lire avant le TP:
* Partie du manuel d'annotation de Mathilde
* (manuel d'annotation RST DT ?)
* Partie du manuel d'annotation de Mathilde Lala [] (Pour un peu de contexte, mémoire de Lala, Mathilde(2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants. https://dante.univ-tlse2.fr/s/fr/item/4500)
* Bras, M., Vieu, L., Joret, M., Pépin-Boutin, A., Poujade, C. & Roze, C. (2021). Vers un corpus de textes d’élèves annoté en relations de discours. Langue française, 211, 115-129. https://doi-org.gorgone.univ-toulouse.fr/10.3917/lf.211.0115
* Manuel d'annotation RST DT : Marcu, D., Carlson, L. (1999) Discourse Tagging Reference Manual https://www.isi.edu/~marcu/discourse/tagging-ref-manual.pdf
## Déroulé du TP
- présentation : discourse, segmentation discursive, campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco)
- une présentation de Leïla ? Mémoire de M2 de M Lala sur l'adaptation du manuel ANNODIS aux écrits scolaires :
Lala, Mathilde (2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants.[Mémoire] présentation de son mémoire / retour d’expérience par Leïla Fabre : par ex. son travail d’annotation manuelle (avec manuel d’Annodis adapté aux écrits scolaires), classification des erreurs
- Regarder des données segmentées en différentes langues en leur présentant des gold / pred qu’on a
- Utilisation d’un modèle sur de nouvelles données, en utilisant données ECALM
- soit texte brut soit texte tokenisé → plutôt les données en format conll de ECALM, cf ci-dessous
- → les étudiants doivent passer ces données en format DISRPT ⇒ supprimer les 2 premières colonnes et déplacer lemme peut-être
- → en sortie recoller les infos enlevées
- Présentation : discourse, segmentation discursive, campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco)
- une présentation de Leïla ? Mémoire de M2 de M Lala sur l'adaptation du manuel ANNODIS aux écrits scolaires : Lala, Mathilde (2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants.
[Ref à venir] présentation de son mémoire / retour d’expérience par Leïla Fabre : par ex. son travail d’annotation manuelle (avec manuel d’Annodis adapté aux écrits scolaires), classification des erreurs
- Analyse de données segmentées en différentes langues (chinois, français, anglais..) différences entres gold et prédictions, données issues de DISRPT 2021.
- Utilisation d’un modèle pré-entrainé (ToNy, multilingue ?) sur de nouvelles données, en utilisant données ECALM (français)
- Transformation du format conll-12 de ECALM au format conll de DISRPT pouvant être pris en entrée de DisCut.
- Prédictions automatiques avec Tony via DisCut.
- Recollage des métadata de départ.
- (passage par STANZA / TRANKIT)
- évaluation de l’annotation automatique
- ré annotation manuelle
- fine tuning en utilisant les nouvelles données et évaluation sur les nouvelles données
- Évaluation de l’annotation automatique
- Ré annotation manuelle (binomes, accord inter ou categorisations des difficutés)
- Fine-tuning en utilisant les nouvelles données annotées et évaluation des nouvelles prédictions automatiques.
## Evaluation
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment