Construção do corpus "Produção Oral em Provas de Português L2" (POPL2)

Ferreira, Tânia; Santos, Isabel; Carapinha, Conceição; Martins, Cristina; Pereira, Isabel; Rio‑Torto, Graça; Inverno, Liliana; Pereira, Rui; Ferreira, Carla; Sousa, Sara; Chapouto, Sandra

Title: Construção do corpus "Produção Oral em Provas de Português L2" (POPL2)

Variant title:

Building the corpus "Oral Production in Portuguese L2 assessment-task types" (POPL2)

Author: Ferreira, Tânia; Santos, Isabel; Carapinha, Conceição; Martins, Cristina; Pereira, Isabel; Rio‑Torto, Graça; Inverno, Liliana; Pereira, Rui; Ferreira, Carla; Sousa, Sara; Chapouto, Sandra

Source document: Études romanes de Brno. 2023, vol. 44, iss. 1, pp. 245-261

Extent

245-261

ISSN

1803-7399 (print)

2336-4416 (online)

Persistent identifier (DOI): https://doi.org/10.5817/ERB2023-1-14

Stable URL (handle): https://hdl.handle.net/11222.digilib/digilib.77937

Type: Article

Language

Portuguese

License: CC BY-SA 4.0 International

Fulltext

PDF 817.07 KB

| Feedback

Notice: These citations are automatically created and might not follow citation rules properly.

Abstract(s)

Neste trabalho, apresentam-se os procedimentos adotados para a constituição do corpus Produção Oral em Provas de Português L2 (POPL2). Pretende-se, com este projeto, obter dados de natureza oral produzidos por aprendentes tardios de Português L2 (PL2) em contexto instrucional e em momento de avaliação. Convocam-se, neste artigo, as questões associadas à conceção e disponibilização de corpora de produções orais de aprendentes tardios (Granger 2002; Adolphs & Knight 2010; Adolphs & Carter 2013; Ballier & Martin 2015; Santos et al. 2016; Bell & Payant 2021), com especial relevância para os constrangimentos que, neste âmbito, emergem do contexto e condições de recolha, do uso dos instrumentos técnicos para a captação de som e da posterior transcrição de dados orais. Descrevem-se, ainda, as recolhas experimentais que foram realizadas com vista à validação de opções metodológicas.

This paper presents the procedures adopted in creating the Oral Production in Portuguese L2 assessment-task types (POPL2) corpus. The purpose of this project is to obtain oral data produced by late learners of Portuguese L2 (PL2) in an instructional setting and during assessment tasks. Issues regarding the design and availability of late learners' oral production corpora are discussed (Granger 2002; Adolphs & Knight 2010; Adolphs & Carter 2013; Ballier & Martin 2015; Santos et al. 2016; Bell & Payant 2021), especially the constraints related to setting and data collection conditions, the use of technical instruments for sound recordings and the subsequent transcription of spoken data. The experimental data collections that have been carried out to validate methodological options are also described.

Keywords:

por

Português L2 (PL2)

linguística de corpus

produções orais

corpus de aprendentes

eng

Note

Este trabalho foi financiado pelo CELGA-ILTEC, ao abrigo do respetivo Programa de Financiamento FCT (Fundação para a Ciência e a Tecnologia): UIDB/04887/2020 e UIDP/04887/2020.

References

[1] Abrantes, C. (2019). Investigação em corpora informatizados de produções orais e escritas de aprendentes de PLNM: FAQ e orientações para a exploração de valências. Universidade de Coimbra, Projeto de Mestrado.

[2] Adolphs, S.; & Carter, R. (2013). Spoken Corpus Linguistics. From Monomodal to Multimodal. New York / London: Routledge.

[3] Adolphs, S.; & Knight, D. (2010). Building a spoken corpus. What are the basics? In A. O’Keeffe, & M. McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics (pp. 38–52). New York / London: Routledge.

[4] Ballier, N.; & Martin, P. (2015). Speech annotation of learner corpora. In S. Granger, G. Gilquin, & F. Meunier (Eds.), The Cambridge Handbook of Learner Corpus Research (pp. 107–134). Cambridge: Cambridge University Press.

[5] Bell, P.; & Payant, C. (2021). Designing Learner Corpora: Collection, Transcription, and Annotation. In N. Tracy-Ventura, & M. Paquot (Eds.), The Routledge Handbook of Second Language Acquisition and Corpora (pp. 53–67). New York / London: Routledge.

[6] Boersma, P. (2014). The use of PRAAT in corpus research. In J. Durand, U. Gut, & G. Kristoffersen (Eds.), The Oxford Handbook of Corpus Phonology (pp. 342–360). Oxford: Oxford Academic. https://doi.org/10.1093/oxfordhb/9780199571932.001.0001

[7] Boersma, P.; & Van Heuven, V. (2001). Speak and unSpeak with PRAAT. Glot International, 5, 9/10, 341–347.

[8] Boersma, P.; & Weenink, D. (2022). PRAAT: doing phonetics by computer [Computer program]. Version 6.2.14. http://www.praat.org/

[9] Brinckmann, C. (2014). PRAAT scripting. In J. Durand, U. Gut, & G. Kristoffersen (Eds), The Oxford Handbook of Corpus Phonology (pp. 361-379). Oxford: Oxford Academic. https://doi.org/10.1093/oxfordhb/9780199571932.001.0001

[10] Carapinha, C. (2022). Para a construção de um corpus de interações orais em Português Língua Não Materna (PLNM) – algumas reflexões. Linguística, Revista de Estudos Linguísticos da Universidade do Porto (vol. 17).

[11] Conselho da Europa (2001). Quadro Europeu Comum de Referência para as Línguas. Edições Asa.

[12] ELAN (Version 6.4) [Computer software]. (2022). Nijmegen: Max Planck Institute for Psycholinguistics, The Language Archive. https://archive.mpi.nl/tla/elan

[13] Félix-Brasdefer, J. C. (2007). Natural speech vs. elicited data: A comparison of natural and role play requests in Mexican Spanish. Spanish in Context, 4, 2, 159–185.

[14] Flores, C. M. M. (2013). Português Língua Não Materna. Discutindo conceitos de uma perspetiva linguística. In R. Bizarro, M. Moreira, & C. Flores (Orgs.), Português língua não materna: investigação e ensino (pp. 35–46). Lisboa: Lidel. https://repositorium.sdum.uminho.pt/bitstream/1822/23009/1/C.Flores_PLNM%20Discutindo%20conceitos%20de%20uma%20perseptiva%20lingu%C3%ADstica.pdf

[15] Gilquin, G. (2015). From design to collection of learner corpora. In S. Granger, G. Gilquin, & F. Meunier (Eds.), The Cambridge Handbook of Learner Corpus Research (pp. 9–34). Cambridge: Cambridge University Press.

[16] Granger, S. (2002). A bird’s eye view of learner corpus research. In S. Granger, J. Hung, & S. Petch-Tyson (Eds.), Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching (pp. 3–33). Amsterdam & Philadelphia: Benjamins.

[17] Granger, S. (2009). The contribution of learner corpora to second language acquisition and foreign language teaching: a critical evaluation. In K. Aijmer (Ed.), Corpora and Language Teaching (pp. 13–32). Amsterdam & Philadelphia: Benjamins. https://doi.org/10.1075/scl.33.04gra

[18] Granger, S.; Giquin, G.; & Meunier, F. (2015). Introduction: learner corpus research – past, present and future. In S. Granger, G. Gilquin, & F. Meunier (Eds.), The Cambridge Handbook of Learner Corpus Research (pp. 1–5). Cambridge: Cambridge University Press.

[19] Janssen, M. (2016). TEITOK: Text-Faithful Annotated Corpora. In N. Calzolari et al. (Eds.), LREC 2016. Tenth International Conference on Language Resources and Evaluation. May 23-28, 2016, Portorož, Slovenia. http://www.lrec-conf.org/proceedings/lrec2016/pdf/651_Paper.pdf

[20] Labov, W. (1972). Sociolinguistic Patterns. University of Pennsylvania Press.

[21] Mackey, A.; & Gass, S. M. (2005). Second Language Research. Methodology and Design. London: Lawrence Erlbaum Associates, Publishers.

[22] Madeira, A. (2017). Aquisição de língua não materna. In M. J. Freitas, & A. L. Santos (Eds.), Aquisição de língua materna e não materna: questões gerais e dados do português (pp. 306–330). Berlin: Language Science Press.

[23] Martins, C. (2013). O Corpus de Produções Escritas de Aprendentes de PL2 (PEAPL2/CELGA). Caracterização e desenvolvimento de uma infra-estrutura de investigação. In R. Bizarro, M. A. Moreira, & C. Flores (Eds.), Português Língua Não Materna: Investigação e Ensino (pp. 69–80). Lisboa: Lidel.

[24] Martins, C.; Ferreira, T.; Sitoe, M.; Abrantes, C.; Janssen, M.; Fernandes, A.; Silva, A.; Lopes, I.; Pereira, I.; & Santos, J. (2019a). Corpus de Produções Escritas de Aprendentes de PL2 (PEAPL2): Subcorpus Português Língua Estrangeira. Coimbra: CELGA-ILTEC.

[25] Martins, C.; Pereira, I.; Melo, D.; Shanna, X.; Ximenes, M.; & Janssen, M. (2019b). Corpus de Produções Escritas de Aprendentes de PL2 (PEAPL2): Subcorpus Timor. Coimbra: CELGA-ILTEC.

[26] Martins, C.; Santos, I.; Marques, M.; Abrantes, C.; Neves, A.; & Janssen, M. (2019c). Corpus de Produções Escritas de Aprendentes de PL2 (PEAPL2): Subcorpus Guiné-Bissau. Coimbra: CELGA-ILTEC.

[27] Mauranen, A. (2004). Spoken corpus for an ordinary learner. In J. McH. Sinclair (Ed.), How to Use Corpora in Language Teaching (pp. 89–105). Amsterdam & Philadelphia: John Benjamins Publishing Company.

[28] Mendes, A.; Antunes, S.; Janssen, M.; & Gonçalves, A. (2016). The COPLE2 Corpus: A Learner Corpus for Portuguese. In N. Calzolari et al. (Eds.), LREC 2016. Tenth International Conference on Language Resources and Evaluation. May 23-28, 2016, Portorož, Slovenia. http://www.lrec-conf.org/proceedings/lrec2016/pdf/439_Paper.pdf

[29] Meunier, F. (2021). Introduction to Learner Corpus Research. In N. Tracy-Ventura, & M. Paquot (Eds.), The Routledge Handbook of Second Language Acquisition and Corpora (pp. 23–36). New York: Routledge.

[30] Myles, F. (2015). Second language acquisition theory and learner corpus research. In S. Granger, G. Gilquin, & F. Meunier (Eds.), The Cambridge Handbook of Learner Corpus Research (pp. 309–331). Cambridge: Cambridge University Press.

[31] Rio-Torto, G. (2014). Passado e presente dos Cursos de Férias. Da edição de 1924-1925 à de 2014. In G. Rio-Torto (Coord.), 90 anos de ensino de língua e cultura portuguesas para estrangeiros na Faculdade de Letras da Universidade de Coimbra (pp. 13–38). Coimbra: Imprensa da Universidade de Coimbra.

[32] Santos, G. (2020). Designing and building SCoPE: A spoken corpus of Brazilian Portuguese and L2-English. Research in Corpus Linguistics, 8, 49–64.

[33] Santos, I. A.; Pereira, I.; Martins C.; Lopes, A.C.M.; Carapinha, C.; & Silva, A. (2016). Corp-Oral: PL2 – Um novo recurso para o estudo do português língua não materna. In A. Moreno, F. Silva, & J. Veloso (Eds), Textos Selecionados do XXX Encontro Nacional da Associação Portuguesa de Linguística (pp. 103–112). Lisboa: Associação Portuguesa de Linguística.

[34] Schmidt, T.; & Wörner, K. (2009). EXMARaLDA–Creating, analysing and sharing spoken language corpora for pragmatic research. Pragmatics, 19, 4, 565–582.

[35] Tracy-Ventura, N.; & Myles, F. (2015). The importance of task variability in the design of learner corpora for SLA research. International Journal of Learner Corpus Research, 1, 1, 58–95.