La lingüística de corpus



La noción de corpus

Conjunto estructurado y documentado de materiales recogidos en función de criterios explícitos.

“A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language.”

Sinclair, J. (1996). Preliminary recommendations on corpus typology. EAGLES Document EAG-TCWG-CTYP/P. May 1996. Consultado en http://www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html
“A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research.”

Sinclair, J. (2005). Corpus and text - basic principles. En M. Wynne (Ed.), Developing linguistic corpora: A guide to good practice. Oxford: Oxbow Books. Consultado en http://ota.ox.ac.uk/documents/creating/dlc/chapter1.htm
John Sinclair
John Sinclair (1933-2007)
(©Primoz Jacopin)
“a corpus typically implies a finite body of text, sampled to be maximally representative of a particular variety of a language, and which can be stored and manipulated using a computer” (p. 59).

McEnery, T. y Wilson, A. (2001). Corpus linguistics (2nd. ed.). Edinburgh: Edinburgh University Press. (Obra original publicada en 1996)
up arrow

La lingüística de corpus

“Corpus linguistics is perhaps best described . . . as the study of language based on examples of ‘real life’ language use” (p. 1).

McEnery, T. y Wilson, A. (2001). Corpus linguistics (2nd. ed.). Edinburgh: Edinburgh University Press. (Obra original publicada en 1996)
McEnery-Wilson
“Corpus linguistics, like all linguistics, is concerned primarily with the description and explanation of the nature, structure and use of language and languages” (p. 8).

Kennedy, G. (1998). An introduction to corpus linguistics. London: Longman.
Kennedy

Manuales de lingüística de corpus

Actas de congresos y compilaciones

Publicaciones periódicas

up arrow

La utilidad de los corpus

Teoría y descripción lingüísticas

Lingüística “empirista” basada en corpus y lingüística “racionalista” basada en la introspección.

McEnery, T. y Wilson, A. (2001). Corpus linguistics (2nd. ed.). Edinburgh: Edinburgh University Press. (Obra original publicada en 1996) Consultado en http://www.lancaster.ac.uk/fss/courses/ling/corpus/Corpus1/1FRA1.HTM

“Armchair linguistics does not have a good name in some linguistic circles. A caricature of the armchair linguist is something like this. He sits in a deep soft comfortable armchair, with his eyes closed and his hands clasped behind his head. Once in a while he opens his eyes, sits up abruptly shouting, ‘Wow, what a neat fact!’, grabs his pencil, and writes something down. Then he paces around for a few hours in the excitement of having come still closer to knowing what language is really like. (There isn’t anybody exactly like this, but there are some approximations.)”

“Corpus linguistics doesn’t have a good name in some linguistic circles. A caricature of the corpus linguist is something like this. He has all the primary facts that he needs, in the form of approximately one zillion running words, and he sees his job as that of deriving secondary facts from his primary facts. At the moment he is busy determining the relative frequencies of the eleven parts of speech as the first word of a sentence. (There isn’t anybody exactly like this, but there are some approximations.)”

Fillmore, C. J. (1992). ‘Corpus linguistics’ or ‘computer-aided armchair linguistics’. En J. Svartvik (Ed.), Directions in corpus linguistics. Proceedings of Nobel Symposium 82. Stockholm, 4-8 August 1991. (pp. 35-66). Berlin - New York: Mouton de Gruyer.
Fillmore
Charles Fillmore (1929-2014)

Investigación en lingüística aplicada

Desarrollo de tecnologías lingüísticas

Productos en el campo de las tecnologías lingüísticas

Aplicaciones de los corpus escritos

Aplicaciones de los corpus orales

up arrow

Tipología de corpus

Corpus escritos o corpus textuales

Written corpora.
Text corpora.

Consistentes en textos originalmente escritos.

El tratamiento y el análisis del corpus se realiza a partir de la forma escrita.

Los corpus escritos

Corpus de lengua oral

Los corpus de lengua oral

Corpus orales

Los corpus orales

up arrow

La constitución de un corpus

Planificación del proyecto
Diseño del corpus
Disponibilidad de los materiales
Derechos de autor y consentimiento de los informantes
Formato de los materiales
Recogida de los datos
Codificación
Transcripción
Alineación
Anotación o etiquetado
Documentación
Validación
Producción
Distribución
Mantenimiento

Planificación del proyecto

Definición de objetivos.

Definición de tareas.

Evaluación de materiales existentes.

Evaluación de estándares existentes.

Recursos humanos.

Recursos técnicos.

Recursos económicos.

Planificación temporal.

Diseño del corpus

El diseño del corpus depende de la finalidad de la investigación.

Definición del material lingüístico contenido en el corpus.

Definición de las características de los textos o de los locutores.

Definición del entorno y del procedimiento de recogida de datos.

Definición de los criterios y niveles de representación de los datos.

Los niveles de representación de los datos dependen de los objetivos del corpus.

Análisis del discurso oral: nivel de representación ortográfica, nivel de representación prosódica.
Estudio de la sintaxis de la lengua oral: representación ortográfica de los datos que contenga información sintáctica.
Corpus para el estudio fonético: representación fonética, caracterización de los datos mediante parámetros acústicos o articulatorios.

La utilidad de los corpus

Disponibilidad de los materiales

Materiales existentes en formato digital

Materiales disponibles en formato analógico

La conversión de los materiales disponibles en papel a textos en formato electrónico requiere, al menos, cuatro etapas:

La conversión de grabaciones analógicas en grabaciones digitales requiere un proceso de digitalización de la señal sonora.

La conversión de analógico a digital

Derechos de autor y consentimiento de los informantes

Si se constituye un corpus para la difusión pública o para la explotación comercial es preciso tener en cuenta que los materiales originales pueden estar sujetos a los derechos de autor, regulados por las leyes relativas a la propiedad intelectual.

La recogida de datos que implique la participación de personas (por ejemplo, en la grabación de un corpus oral) requiere el consentimiento informado de los participantes.

Formato de los materiales

Los documentos de un corpus textual o las transcripciones de un corpus oral pueden almacenarse en diversos formatos:

SGML, Standard Generalized Markup Language - XML, eXtensible Markup Language

Los documentos sonoros de un corpus oral suelen almacenarse en formato .wav (Waveform Audio File Format) o en otros formatos de sonido compatibles.

Cada uno de los documentos o archivos que forman el corpus debe estar asociado a una descripción del mismo, indicando sus datos de procedencia y todas las informaciones relevantes para la utilización posterior del corpus.

En los corpus codificados mediante SGML (Standard Generalized Markup Language) o XML (eXtensible Markup Language) según los estándares de la TEI (Text Encoding Initiative) esta información se incluye en la cabecera (TEI Header).

En los corpus orales, la cabecera (header) de cada uno de los documentos sonoros contiene la información sobre la grabación y sobre el contenido de los archivos.

La información relativa a los textos o a las grabaciones puede almacenarse también en una base de datos convencional.

Recogida de los datos

Herramientas para la recogida de los datos y, si es necesario, su transformación en el formato de los materiales definido para el corpus.

Estándares y procedimientos de grabación.

Procedimiento de búsqueda y de selecciónde locutores.

La codificación

Encoding.

Procedimiento de representación de los caracteres, de la estructura del texto y de la anotación, de modo que la estructura y la anotación se mantienen separadas del contenido del corpus.

Sistema o esquema de codificación.

La codificación de los textos permite:

Ejemplo de texto sin codificar:

La codificación del texto

Los estándares de la TEI

La Text Encoding Initiative ha establecido un conjunto de estándares para la codificación de los textos. Así, es posible separar el contenido de un documento del formato en el que se presenta.

En este caso, la codificación se llevará a cabo usando el lenguaje de marcación conocido como XML (eXtensible Markup Language) y mediante una herramienta disponible en http://www.tei-c.org/oxgarage/

Ejemplo de texto codificado en XML (eXtensible Markup Language) según los estándares de la versión 5 de la Text Encoding Initiative mediante la herramienta OxGarage:

<xmp>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<fileDesc>
<titleStmt>
<title>La codificación del texto</title>
<author/>
</titleStmt>

<editionStmt>
<edition>
<date/>
</edition>
</editionStmt>

<publicationStmt>
<p>no publication statement available</p>
</publicationStmt>

<sourceDesc>
<p>Written by OpenOffice</p>
</sourceDesc>
</fileDesc>

<revisionDesc>
<listChange>
<change>
<name/>
<date/>
</change>
</listChange>
</revisionDesc>
</teiHeader>

<text>
<body>
<head>La codificación del texto</head>
<div type="div1">
<head>Los estándares de la TEI</head>

<p rend="color(#000000)">La <hi rend="italic">Text Encoding Initiative</hi> ha establecido un conjunto de estándares para la <hi rend="bold">codificación</hi> de los textos. Así, es possible separar el contenido de un documento del formato en el que se presenta.</p>

<p rend="color(#000000)">En este caso, la codificación se llevará a cabo usando el lenguaje de marcación conocido como XML (<hi rend="italic">eXtensible Markup Language</hi>) y mediante una herramienta disponible en <ptr target="http://www.tei-c.org/oxgarage/"/>. </p>
</div>
</body>
</text>
</TEI>
</xmp>

La Text Encoding Initiative (TEI) ha establecido un conjunto de normas para la codificación de los textos electrónicos basada en los lenguajes de marcación SGML (Standard Generalized Markup Language) y XML (eXtensible Markup Language).

SGML, Standard Generalized Markup Language - XML, eXtensible Markup Language

TEI, Text Encoding Initiative

La codificación de los corpus de lengua oral

La transcripción

Primer nivel de representación de un corpus oral.

“un procedimiento de traslado o transposición a una forma gráfica (escrita) de una producción (lingüística, discursiva) originariamente oral” (p. 45).

Payrató, L. (1995). Transcripción del discurso coloquial. En L. Cortés (Ed.), El español coloquial. Actas del I simposio sobre análisis del discurso oral. Almería, 23-25 de noviembre de 1994. (pp. 43-70). Almería: Servicio de Publicaciones de la Universidad de Almería

Niveles de transcripción en un corpus oral

La representación fonética de corpus orales

La alineación

Alignment.

La señal sonora se sincroniza temporalmente con la transcripción ortográfica y con la transcripción fonética, fonológica o prosódica.

../spoken_res/etiquetado.jpg

Etiquetado y alineación de fonos, de difonemas (difonos) y de palabras en el fragmento “el año”, realizados mediante el programa Praat.

La anotación o etiquetado

Annotation.
Labelling.

“Corpus annotation is the practice of adding interpretative linguistic information to a corpus. . . . adding annotation to a corpus is giving ‘added value’, which can be used for research by the individual or team that carried out the annotation, but which can also be passed on to others who may find it useful for their own purposes.”

Leech, G. (2005). Adding linguistic annotation. En M. Wynne (Ed.), Developing linguistic corpora: A guide to good practice (pp. 17-29). Oxford: Oxbow Books. Consultado en http://ota.ox.ac.uk/documents/creating/dlc/chapter2.htm
Leech
Geoffrey Leech (1936-2014)

Enriquecimiento del corpus mediante información adicional introducida por el investigador en función de sus objetivos y de su interpretación lingüística de los datos.

Para cada nivel de representación se establece un conjunto de “etiquetas” que se asocian a unidades de análisis del corpus.

Necesidad de establecer un inventario de etiquetas (tag set), en algunos casos adaptado a corpus multilingües.

Etiquetado de corpus orales

Documentación

La documentación es esencial para garantizar la reutilización del corpus.

Puede presentarse en forma de uno o varios manuales o en forma de metadatos.

“In earlier times, it was customary to provide corpus metadata in a free standing reference manual, if at all. It is now more usual to present all metadata in an integrated form, together with the corpus itself, often using the same encoding principles or markup language. This greatly facilitates both automatic validation of the accuracy and consistency with which such documentation is provided, and also facilitates the development of more human-readable and informative software access to the contents of a corpus.”

Burnard, L. (2005). Metadata for corpus work. En M. Wynne (Ed.), Developing linguistic corpora: A guide to good practice. Oxford: Oxbow Books. Consultado en http://ota.ox.ac.uk/documents/creating/dlc/chapter3.htm

Linguistic Data Consortium. (2010). Filename Conventions & Metadata. Providing Data. Philadelphia, PA: Linguistic Data Consortium, University of Pennsylvania. Consultado en https://www.ldc.upenn.edu/data-management/providing/filenames-metadata

Validación

Proceso de verificación de los aspectos formales y de contenido del corpus.

La validación pueden llevarla a cabo los propios investigadores o bien puede realizarse externamente en centros especializados.

Validation. (2015). Paris: ELRA, European Language Resources Association. Consultado en http://www.elda.org/en/services-around-lrs/validation/

Validación de corpus orales

Producción

Publicación del corpus en un soporte físico o en la red.

Distribución

La distribución puede realizarse a través de centros especializados en la distribución de recursos lingüísticos.

Centros de distribución de recursos lingüísticos

Iniciativas para la identificación y la distribución de recursos lingüísticos

Mantenimiento

Los corpus publicados en la red requieren un mantenimiento, especialmente en lo que se refiere a los aspectos técnicos.

up arrow
La lingüística de corpus
Joaquim Llisterri, Departament de Filologia Espanyola, Universitat Autònoma de Barcelona

Last updated: