Análisis de corpus escritos



Objetivos

El objetivo de este ejercicio es aprender a extraer información de un corpus utilizando el programa AntConc, así como familiarizarse algunos de los conceptos básicos utilizados en lingüística de corpus.

tornar al principi

Recursos

Instala la versión del programa AntConc correspondiente al sistema operativo de tu ordenador.

Anthony, L. (2014). AntConc 3.4.4 Multi-Platform Corpus Analysis Toolkit. Tokyo: Center for English Language Education, School of Science and Engineering, Waseda University. Consultado en http://www.laurenceanthony.net/software/antconc/

Si utilizarás el programa en un ordenador con sistema operativo Mac OS X, debes tener también instalado XQuartz.

Corpus de trabajo

El corpus de trabajo consiste en las transcripciones de las entrevistas realizadas en la ciudad de Bogotá como parte del Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico:

Samper, J. A., Hernández Cabrera, C. E. y Troya, M. (Eds.). (1998). Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (MC-NLCH). Edición en CD-ROM. Las Palmas de Gran Canaria: Servicio de Publicaciones de la Universidad de las Palmas de Gran Canaria.

Descarga los siguientes documentos (en formato .txt) y guárdalos en tu ordenador:

Para su inclusión en el CREA (Corpus de Referencia del Español Actual) de la Real Academia Española, el corpus se codificó siguiendo los estándares de la Text Encoding Initiative.

Estándares de codificación del CREA

tornar al principi

Análisis del corpus

Abre el programa AntConc y selecciona el menú Global Settings. En la nueva ventana que se abre, selecciona Language Encoding. Pulsando sobre el botón Edit, selecciona Standard Encodings y Unicode (utf8) para que se visualicen correctamente los caracteres acentuados. Pulsa sobre Apply y se cerrará la ventana de preferencias.

antconc_preferences.jpg

Abre el documento de texto que has descargado mediante la opción Open File(s) en el menú File.

Selecciona la herramienta File View, selecciona el documento (Norma_Culta_Bogota_Codificado.txt) en la ventana Corpus Files y pulsa sobre el botón Start para visualizar el texto completo.

antconc_fileview.jpg

Selecciona la herramienta Word List y pulsa sobre el botón Start para crear una lista con todas las palabras del texto que se usará en los procesos que realizarás a continuación.

antconc_wordlist.jpg

Familiarízate con la documentación sobre AntConc para aprender a realizar las operaciones básicas:

Anthony, L. (2014). AntConc (Windows, Macintosh OS X, and Linux), Build 3.4.4. Tokyo: Center for English Language Education, School of Science and Engineering, Waseda University. Consultado en http://www.laurenceanthony.net/software/antconc//releases/AntConc344/help.pdf

Lista de palabras

Busca las 10 palabras más frecuentes en el corpus (Norma_Culta_Bogota_Codificado.txt) mediante la herramienta WordList.

Si la opción Treat all data as lowercase no está activada, la misma palabra escrita con mayúscula o con minúscula se trata como dos palabras diferentes. Activando la opción Treat all data as lowercase, la misma palabra escrita con mayúscula o con minúscula se trata como una única palabra.

Mediante la opción Sort by pueden cambiarse los criterios de ordenación. Una vez seleccionada la opción, debe pulsarse sobre el botón Sort.

antconc_wordlist_options

Puesto que el corpus está codificado, las marcas de codificación aparecen también entre las palabras más frecuentes. Si se emplea el documento Norma_Culta_Bogota.txt no aparecen las marcas de codificación.

Lista de palabras lematizada

Descarga la lista de palabras lematizadas en español que se encuentra en el apartado “Lemma lists” de la página de AntConc: http://www.laurenceanthony.net/software/antconc/

Carga la lista en el programa, siguiendo los pasos que se muestran a continuación:

lematización

lematización

lematización

lematización

Una vez cargada la lista de palabras lematizadas, crea una lista de palabras del corpus Norma_Culta_Bogota.txt mediante la herramienta WordList. En la columna Lemma se muestran los lemas encontrados y en la columna Lemma Word Form(s) las palabras correspondientes a cada lema, junto con el número de veces que aparece la palabra en el corpus.

Concordancias

Realiza las concordancias de un marcador discursivo como “bueno” mediante la herramienta Concordance en el corpus Norma_Culta_Bogota_Codificado.txt.

Los criterios de ordenación pueden cambiarse mediante las opciones KWIC Sort. 1R significa que las concordancias se ordenan según la primera palabra a la derecha del término buscado, 2R en función de la segunda a la derecha, 1L según la primera palabra a la izquierda del término buscado, etc. Cada vez que se cambia el criterio de ordenación es necesario pulsar el botón Sort para aplicar el nuevo criterio.

antconc_concordances_options

Situando el cursor sobre la palabra puede verse su contexto completo de aparición en el texto.

Realiza las concordancias de algunas de las marcas de codificación que se encuentran en el texto. Por ejemplo, “<pause>” permite estudiar el contexto de aparición de las pausas y “<distinct” (sin la marca de cierre >) permite analizar los errores de producción del hablante codificados como “titu” y “repe”.

Colocaciones

Analiza las colocaciones de una palabra en el corpus Norma_Culta_Bogota_Codificado.txt mediante la herramienta Collocates.

Activando la opción Case se busca la palabra tanto en mayúscula como en minúscula. La opción From... To permite seleccionar el número de palabras que se encuentran a la izquierda (L) o a la derecha (R) de la palabra buscada. En función de estas opciones, en los resultados se muestra la palabra que sigue (R) o que precede (L) a la palabra buscada.

antconc_collocates_settings

N-gramas

Empleando el corpus sin codificar (Norma_Culta_Bogota.txt), realiza la lista de los N-gramas que aparecen en el texto mediante la herramienta Clusters.

antconc_ngrams_clusters

Para buscar N-gramas, debe seleccionarse la opción N-Grams y pulsar el botón Start. La longitud de los N-gramas (2 para los bigramas, 3 para los trigramas, etc.) se elige mediante la opción N-Gram Size.

antcconc_ngrams_settings

Agrupaciones

Empleando el corpus sin codificar (Norma_Culta_Bogota.txt) y mediante la herramienta Clusters, estudia las agrupaciones que aparecen en el texto para una palabra.

Activando la opción Case se busca la palabra tanto en mayúscula como en minúscula. El número de palabras que forman la agrupación se elige mediante la opción Cluster Size, mientras que la opción Search Term Position permite seleccionar la posición en la agrupación de la palabra buscada.

antconc_clusters_settings

tornar al principi
Análisis de corpus escritos
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: