diff --git "a/Documents/Annexes_A_et_B_M\303\251moire_M2_LiCoCo_MATHILDE_LALA.pdf" "b/Documents/Annexes_A_et_B_M\303\251moire_M2_LiCoCo_MATHILDE_LALA.pdf" new file mode 100644 index 0000000000000000000000000000000000000000..8b6c9a3836f6fc96b364ccf600ee785d4d1afab3 Binary files /dev/null and "b/Documents/Annexes_A_et_B_M\303\251moire_M2_LiCoCo_MATHILDE_LALA.pdf" differ diff --git "a/Documents/Annexes_C_D_et_E_M\303\251moire_M2LiCoCo_MATHILDE_LALA.pdf" "b/Documents/Annexes_C_D_et_E_M\303\251moire_M2LiCoCo_MATHILDE_LALA.pdf" new file mode 100644 index 0000000000000000000000000000000000000000..6259b138ec4dfbdbdf6d7801bbd6da815fb16828 Binary files /dev/null and "b/Documents/Annexes_C_D_et_E_M\303\251moire_M2LiCoCo_MATHILDE_LALA.pdf" differ diff --git a/README.md b/README.md index 33c51949b4aa21d8695fa9a1aad483e71fb53fc0..e04d238df57d1273adfbfca786d61184f9ead0a4 100644 --- a/README.md +++ b/README.md @@ -1,35 +1,43 @@ -# Master LiTL - TP segmentation +# Master LiTL - Tutoriel Segmentation Discursive laura.riviere@irit.fr 3 séances de 2h -## Lectures +## Lectures : +### À lire avant le TP -A lire avant le TP: -* Partie du manuel d'annotation de Mathilde Lala [] (Pour un peu de contexte, mémoire de Lala, Mathilde(2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants. https://dante.univ-tlse2.fr/s/fr/item/4500) -* Bras, M., Vieu, L., Joret, M., Pépin-Boutin, A., Poujade, C. & Roze, C. (2021). Vers un corpus de textes d’élèves annoté en relations de discours. Langue française, 211, 115-129. https://doi-org.gorgone.univ-toulouse.fr/10.3917/lf.211.0115 -* Manuel d'annotation RST DT : Marcu, D., Carlson, L. (1999) Discourse Tagging Reference Manual https://www.isi.edu/~marcu/discourse/tagging-ref-manual.pdf +- Adaptation du manuel ANNODIS aux écrits scolaires: +Annexes A et B du mémoire de Lala, M.(2017). Consulter les annexes D et E. Pour aller plus loin, vous pouvez lire le manuscrit du mémoire : *Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants.* https://dante.univ-tlse2.fr/s/fr/item/4500) +- Article lié au projet E-CALM: +Bras, M., Vieu, L., Joret, M., Pépin-Boutin, A., Poujade, C. & Roze, C. (2021). Vers un corpus de textes d’élèves annoté en relations de discours. *Langue française*, 211, 115-129. https://doi-org.gorgone.univ-toulouse.fr/10.3917/lf.211.0115 +- Article lié à ToNy: +Muller, P., Braud, C., & Morey, M. (2019). ToNy: Contextual embeddings for accurate multilingual discourse segmentation of full documents. In *Proceedings of the Workshop on Discourse Relation Parsing and Treebanking* 2019 (pp. 115-124). Association for Computational Linguistics. +### Autre références : Rappel/Approfondissement +- Manuel d'annotation RST DT : +Carlson, L., & Marcu, D. (2001). Discourse tagging reference manual. *ISI Technical Report ISI-TR-545*, 54(2001), 56. https://www.isi.edu/~marcu/discourse/tagging-ref-manual.pdf +- Séminaire Chloé Braud (Thématiques actuelles de la recherche en TAL): +AnDiAMO: Analyzing Discourse Automatically, with Multiple Objectives. http://w3.erss.univ-tlse2.fr/UETAL/2022-2023/SeminaireBraud.pdf -## Déroulé du TP -- Présentation : discourse, segmentation discursive, campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco) -- une présentation de Leïla ? Mémoire de M2 de M Lala sur l'adaptation du manuel ANNODIS aux écrits scolaires : Lala, Mathilde (2017) Outils linguistiques pour l'analyse de la cohérence et de la cohésion dans les textes d'enfants. -[Ref à venir] présentation de son mémoire / retour d’expérience par Leïla Fabre : par ex. son travail d’annotation manuelle (avec manuel d’Annodis adapté aux écrits scolaires), classification des erreurs +## Déroulé du TP + +- Rappels théoriques : discours, segmentation discursive, relations discursives... +- Présentation : campagne DISRPT, modèles de segmentation état de l'art (Discut, DiscoDisco). +- (?) Présentation de Leïla Fabre en lien avec son mémoire de M1 *La segmentation dans les écrits scolaires.* - Analyse de données segmentées en différentes langues (chinois, français, anglais..) différences entres gold et prédictions, données issues de DISRPT 2021. -- Utilisation d’un modèle pré-entrainé (ToNy, multilingue ?) sur de nouvelles données, en utilisant données ECALM (français) +- Utilisation d’un modèle pré-entrainé (ToNy) sur de nouvelles données, en utilisant données ECALM (français) - Transformation du format conll-12 de ECALM au format conll de DISRPT pouvant être pris en entrée de DisCut. - Prédictions automatiques avec Tony via DisCut. - Recollage des métadata de départ. - - (passage par STANZA / TRANKIT) - Évaluation de l’annotation automatique -- Ré annotation manuelle (binomes, accord inter ou categorisations des difficutés) +- Ré-annotation manuelle (binomes, accord inter ou categorisations des difficutés) - Fine-tuning en utilisant les nouvelles données annotées et évaluation des nouvelles prédictions automatiques. ## Evaluation -(chacun ou par 2 ?) +(Binômes ?) Rédaction d’un compte-rendu sur: - Prise en main de DisCut - Expérience d’annotation