Extraction of target structures in learners' corpora: CQL queries for the exploitation of COPLE2
Associação Portuguesa de Linguística, 2023
academicJournal
Zugriff:
Foreign language (FL) or second language (L2) corpora are sets of productions by non-native speakers, learners of a given language, which contemplate the errors and well-formed structures produced. These serve different research objectives, such as studies on language acquisition (LE and L2), phenomena of linguistic interference or analysis and diagnosis of LE/L2 proficiency levels. In the context of this research, the definition of the learner's proficiency level is often relevant, and this is done, typically, through the analysis of the presence or absence of errors in the learners' productions, based on mappings of typical or expected errors and well-formed structures for a given level of proficiency. However, contrary to the learner's error – which is explicitly marked in the corpus and whose typology and methodology of analysis constitutes a subtopic of investigation on its own –, the well-formed structures, and in particular the target structures (well-formed structures expected in the learners' productions of a given level of proficiency), are not easily identifiable in the corpora. The work presented here aims to fill this gap in COPLE2 – Corpus of Portuguese Foreign/Second Language through the use of expressions in CQL – Corpus Query Language. Based on pre-identified target structures and on the information made available in COPLE2, such as morphosyntactic tagging and different levels of information and annotation (learner production, teacher correction, normalized form, lemma, etc.), we propose query expressions in CQL that easily allow any user to immediately extract examples of target structures by proficiency level. The construction of the query expressions implies the definition and testing of the best strategies for each case and requires the systematization of linguistic rules and patterns of occurrence of the phenomena in question, but also the definition of ways to circumvent the limitations inherent to the corpus annotation, on the one hand, and the query language, on the other.
Os corpora de língua estrangeira (LE) ou língua segunda (L2) são conjuntos de produções de falantes não nativos, aprendentes de uma dada língua, que naturalmente incluem os erros e os acertos produzidos. Estes corpora servem diferentes objetivos de investigação, tais como estudos sobre aquisição de LE e L2, fenómenos de interferência linguística ou análise e diagnóstico de níveis de proficiência de LE/L2. No contexto da investigação destes tópicos, a definição do nível de proficiência do aprendente é muitas vezes relevante e esta é feita, tipicamente, através da análise da presença ou ausência de erros nas produções dos aprendentes, tendo como base mapeamentos entre erros e acertos típicos ou expectáveis para um dado nível de proficiência. No entanto, contrariamente ao erro do aprendente – que é explicitamente marcado no corpus e cuja tipologia e metodologia de análise constitui por si um subtópico de investigação –, os acertos, e em particular as estruturas-alvo (estruturas bem formadas expectáveis em produções de aprendentes de um dado nível de proficiência), não são facilmente identificáveis nos corpora. O trabalho que aqui se apresenta visa, assim, colmatar essa lacuna no COPLE2 – Corpus de Português Língua Estrangeira/Segunda através da utilização de expressões de pesquisa em CQL – Corpus Query Language. Tendo por base estruturas-alvo pré-identificadas e a informação disponibilizada no COPLE2, tal como a etiquetagem morfossintática e os diferentes níveis de informação e anotação (produção do aprendente, correção do professor, forma normalizada, lema, etc.), são propostas expressões de pesquisa em CQL que permitem facilmente a qualquer utilizador a extração imediata de exemplos de estruturas-alvo por nível. A construção das expressões de pesquisa implica a definição e a testagem das melhores estratégicas e exige a sistematização de regras linguísticas e de padrões de ocorrência dos fenómenos em causa, mas também a definição de formas de contornar as limitações inerentes à anotação do corpus, por um lado, e à linguagem de pesquisa, por outro.
Titel: |
Extraction of target structures in learners' corpora: CQL queries for the exploitation of COPLE2
|
---|---|
Autor/in / Beteiligte Person: | Amaro, Raquel ; Carreira, Alexandre ; Vieira, Alice ; Castro, Cláudia ; Leong, Esmeralda |
Link: | |
Veröffentlichung: | Associação Portuguesa de Linguística, 2023 |
Medientyp: | academicJournal |
DOI: | 10.26334/2183-9077/rapln10ano2023a2 |
Schlagwort: |
|
Sonstiges: |
|