Skip to content
Snippets Groups Projects
Commit cab4552b authored by laura.riviere's avatar laura.riviere
Browse files

update and annexes LALA

parent dd928e21
No related branches found
No related tags found
No related merge requests found
File added
File added
# Master LiTL - TP segmentation # Master LiTL - Tutoriel Segmentation Discursive
laura.riviere@irit.fr laura.riviere@irit.fr
3 séances de 2h 3 séances de 2h
## Lectures ## Lectures :
### À lire avant le TP
A lire avant le TP: - Adaptation du manuel ANNODIS aux écrits scolaires:
* Partie du manuel d'annotation de Mathilde Lala [] (Pour un peu de contexte, mémoire de Lala, Mathilde(2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants. https://dante.univ-tlse2.fr/s/fr/item/4500) Annexes A et B du mémoire de Lala, M.(2017). Consulter les annexes D et E. Pour aller plus loin, vous pouvez lire le manuscrit du mémoire : *Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants.* https://dante.univ-tlse2.fr/s/fr/item/4500)
* Bras, M., Vieu, L., Joret, M., Pépin-Boutin, A., Poujade, C. & Roze, C. (2021). Vers un corpus de textes d’élèves annoté en relations de discours. Langue française, 211, 115-129. https://doi-org.gorgone.univ-toulouse.fr/10.3917/lf.211.0115 - Article lié au projet E-CALM:
* Manuel d'annotation RST DT : Marcu, D., Carlson, L. (1999) Discourse Tagging Reference Manual https://www.isi.edu/~marcu/discourse/tagging-ref-manual.pdf Bras, M., Vieu, L., Joret, M., Pépin-Boutin, A., Poujade, C. & Roze, C. (2021). Vers un corpus de textes d’élèves annoté en relations de discours. *Langue française*, 211, 115-129. https://doi-org.gorgone.univ-toulouse.fr/10.3917/lf.211.0115
- Article lié à ToNy:
Muller, P., Braud, C., & Morey, M. (2019). ToNy: Contextual embeddings for accurate multilingual discourse segmentation of full documents. In *Proceedings of the Workshop on Discourse Relation Parsing and Treebanking* 2019 (pp. 115-124). Association for Computational Linguistics.
### Autre références : Rappel/Approfondissement
- Manuel d'annotation RST DT :
Carlson, L., & Marcu, D. (2001). Discourse tagging reference manual. *ISI Technical Report ISI-TR-545*, 54(2001), 56. https://www.isi.edu/~marcu/discourse/tagging-ref-manual.pdf
- Séminaire Chloé Braud (Thématiques actuelles de la recherche en TAL):
AnDiAMO: Analyzing Discourse Automatically, with Multiple Objectives. http://w3.erss.univ-tlse2.fr/UETAL/2022-2023/SeminaireBraud.pdf
## Déroulé du TP
- Présentation : discourse, segmentation discursive, campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco) ## Déroulé du TP
- une présentation de Leïla ? Mémoire de M2 de M Lala sur l'adaptation du manuel ANNODIS aux écrits scolaires : Lala, Mathilde (2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants.
[Ref à venir] présentation de son mémoire / retour d’expérience par Leïla Fabre : par ex. son travail d’annotation manuelle (avec manuel d’Annodis adapté aux écrits scolaires), classification des erreurs - Rappels théoriques : discours, segmentation discursive, relations discursives...
- Présentation : campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco).
- (?) Présentation de Leïla Fabre en lien avec son mémoire de M1 *La segmentation dans les écrits scolaires.*
- Analyse de données segmentées en différentes langues (chinois, français, anglais..) différences entres gold et prédictions, données issues de DISRPT 2021. - Analyse de données segmentées en différentes langues (chinois, français, anglais..) différences entres gold et prédictions, données issues de DISRPT 2021.
- Utilisation d’un modèle pré-entrainé (ToNy, multilingue ?) sur de nouvelles données, en utilisant données ECALM (français) - Utilisation d’un modèle pré-entrainé (ToNy) sur de nouvelles données, en utilisant données ECALM (français)
- Transformation du format conll-12 de ECALM au format conll de DISRPT pouvant être pris en entrée de DisCut. - Transformation du format conll-12 de ECALM au format conll de DISRPT pouvant être pris en entrée de DisCut.
- Prédictions automatiques avec Tony via DisCut. - Prédictions automatiques avec Tony via DisCut.
- Recollage des métadata de départ. - Recollage des métadata de départ.
- (passage par STANZA / TRANKIT)
- Évaluation de l’annotation automatique - Évaluation de l’annotation automatique
- annotation manuelle (binomes, accord inter ou categorisations des difficutés) --annotation manuelle (binomes, accord inter ou categorisations des difficutés)
- Fine-tuning en utilisant les nouvelles données annotées et évaluation des nouvelles prédictions automatiques. - Fine-tuning en utilisant les nouvelles données annotées et évaluation des nouvelles prédictions automatiques.
## Evaluation ## Evaluation
(chacun ou par 2 ?) (Binômes ?)
Rédaction d’un compte-rendu sur: Rédaction d’un compte-rendu sur:
- Prise en main de DisCut - Prise en main de DisCut
- Expérience d’annotation - Expérience d’annotation
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment